iris

5个需要掌握的sklearn技能

坚强是说给别人听的谎言 提交于 2020-07-27 15:08:33
虽然scikit-learn在机器学习领域很重要,但是很多人并不知道利用这个库中的一些强大的功能。本文将介绍scikit-learn中5个最有用的5个隐藏的瑰宝,充分利用这些秘密武器将有效提高你的机器学习处理的效率! 1、数据集生成器 Scikit-learn有很多数据集生成器,可以用来生成各种复杂度和维度的人工数据集。 例如, make_blobs 函数可以创建包含很多数据样本、聚类中心、维度的“blobs”或数据聚类。可视化以后可以清晰看出样本的分布: Scikit-learn其实提供了很多数据集创建函数: make_moons(n_samples=100, noise=0.1) make_circles(n_samples=100, noise=0.05) make_regression(n_samples=100, n_features=1, noise=15) make_classification(n_samples=100) 2、流水线/Pipeline 流水线可以将不同的方法组合为单一模型,在自然语言处理(NLP)应用中这一点非常重要。可以通过组合多个模型的方式来创建流水线,数据将依次流过聚合模型中的各环节。流水线有标准的拟合与预测能力,这使得训练过程得到很好的组织。 很多对象都可以整合进流水线: 缺失值处理器/Imputers:如果你的数据中包含缺失的数据

新预装了 Ubuntu 20.04 LTS 的戴尔 XPS 13 开发者版笔记本上市

半腔热情 提交于 2020-07-26 05:55:49
是否一直在等待预装 Ubuntu 20.04 LTS 的新戴尔 XPS 13 开发者版的消息?好吧,你很幸运,因为戴尔已经宣布了! 对于戴尔 XPS 13 开发者版,你可能不需要太多的介绍。这个笔记本电脑系列在许多方面都受到 Linux 开发人员的欢迎,就像 IBM 著名的 ThinkPad 系列(最近也 受到 Ubuntu 的青睐 )一样。 戴尔开发者笔记本的最新迭代产品预装了 Ubuntu 20.04 LTS。该设备标榜了一个与 Ubuntu “兼容”的内置指纹识别器(开发人员正在向后移植新的 指纹登录改进功能 )以及其他一些功能。 规格方面,这款笔记本提供了一块 13.4 寸非触控的 InfinityEdge 显示屏(1920×1200,16:10)的标准配置。可以将其换成同一面板的触控版,也可以换成配备触控功能的像素组合版的 13.4″ UHD+(3840×2400)InfinityEdge 显示屏,不过这种替换会让价格上涨不少。 基本款宣传的是第十代英特尔酷睿 i5-1035G1 处理器,1.00 GHz(3.6 GHz 睿频加速)。再多花点钱,可以让你换成更气派的第十代英特尔酷睿 i7-1065G7 处理器,1.3GHz(3.9GHz 睿频加速)。这两款 CPU 都是四核。 图形性能取决于你选择的处理器。i5 配置配备了集成的英特尔 UHD 图形芯片,而第十代英特尔

13机器学习实战之PCA(2)

老子叫甜甜 提交于 2020-05-08 03:56:59
PCA——主成分分析 简介 PCA全称Principal Component Analysis,即主成分分析,是一种常用的数据降维方法。它可以通过 线性变换 将原始数据变换为一组各维度 线性无关 的表示,以此来提取数据的 主要线性分量 。 z = w T x   其中,z为低维矩阵,x为高维矩阵,w为两者之间的映射关系。假如我们有二维数据(原始数据有两个特征轴——特征1和特征2)如下图所示,样本点分布为斜45°的蓝色椭圆区域。 PCA算法认为斜45°为主要线性分量,与之正交的虚线是次要线性分量(应当舍去以达到降维的目的)。 划重点: 线性变换=>新特征轴可由原始特征轴线性变换表征 线性无关=>构建的特征轴是正交的 主要线性分量(或者说是主成分)=>方差加大的方向 PCA算法的求解就是找到主要线性分量及其表征方式的过程 相应的,PCA解释方差并对离群点很敏感:少量原远离中心的点对方差有很大的影响,从而也对特征向量有很大的影响。 线性变换 一个矩阵与一个列向量A相乘,等到一个新的列向量B,则称该矩阵为列向量A到列向量B的线性变换。 我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。 即寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。 解释:方差越大,说明数据越分散。通常认为,数据的某个特征维度上数据越分散,该特征越重要。 对于更高维度

1. Why choose openGL

五迷三道 提交于 2020-05-06 23:02:45
博客原文地址: http://blog.wolfire.com/2010/01/Why-you-should-use-OpenGL-and-not-DirectX && https://www.cnblogs.com/y114113/p/10676352.html 当我们遇到其他游戏程序员并谈论我们使用 OpenGL 开发 Overgrowth 时总是会遇到怀疑的眼神。为什么要用OpenGL? DirectX 才是未来。当我们使用OpenGL去告诉显卡如何工作时,房间的温度下降了10度。 OpenGL 是什么? 在1982年,Silicon公司开发售卖使用称为 Iris GL 的API的高性能图形显示终端。随后的几年,Iris GL变得臃肿和难以维护,直到silicon决定彻底走向新的一步:完全的重构Iris GL并开源。他们的竞争者可以使用这种新的开放图形库(OpenGL)但是作为回报,他们必须帮助维护更新该库。 如今,OpenGL 由 Khronos Group 管理。一个由很多公司参与组成的非营利组织,重点是维护高质量多媒体API。在底层,由 OpenGL Architecture Review Board (ARB) 来管理。各种游戏平台都支持OpenGL,包括:Mac,Windows,Linux,PS3,Wii,IPhone,PSP和DS,除了XBox,下面我们就要介绍它

机器学习 | 特征工程(一)- 数据预处理

南笙酒味 提交于 2020-05-06 03:22:25
本文将以iris数据集为例,梳理数据挖掘和机器学习过程中数据预处理的流程。在前期阶段,已完成了数据采集、数据格式化、数据清洗和采样等阶段。通过特征提取,能得到未经处理的特征,但特征可能会有如下问题:   - 不属于同一量纲 通常采用无量纲化进行处理;   - 信息冗余   - 定性特征不能直接使用 通常使用哑编码的方式将定性特征转换为定量特征;   - 存在缺失值   - 信息利用率低 不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码可以达到非线性的效果。类似地,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。 首先导入iris数据集, from sklearn.datasets import load_iris # 导入IRIS数据集 iris = load_iris() # 特征矩阵 iris.data # 目标向量 iris.target 1 无量纲化 无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0, 1]等。 1.1 标准化 标准化需要计算特征的均值和标准差,公式表达为:

sklearn & ml tutorial

家住魔仙堡 提交于 2020-05-05 23:01:40
第一章 引言 pd.scatter_matrix(pd.DataFrame(X_train),c=y_train_name,figsize=(15,15),marker='o',hist_kwds={'bins':20},s=60,alpha=.8,cmap=mglearn.cm3)#绘制散点图矩阵(pair plot),两两查看所有的特征 第二章 监督学习 2.1分类与回归 2.2泛化、过拟合与欠拟合 2.3监督学习算法 2.3.1一些样本数据集 from sklearn.datasets import load_breast_cancer #威斯康辛州乳腺癌数据集 cancer = load_breast_cancer () from sklearn.datasets import load_boston #波士顿房价数据集 boston= load_boston() X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,random_state=0,test_size=.5) 2.3.2 k近邻 X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,stratify=cancer

Windows 好用的护眼软件

时光毁灭记忆、已成空白 提交于 2020-05-02 16:17:16
[TOC] 1. 按 win10自带的有一个夜灯模式,无需下载,随时可用。另外还有一款更加专业的软件 Iris ,护眼效果更好,功能更强大。 2. Windows10自带夜间模式 <kbd>设置</kbd>-》<kbd>系统</kbd>-》<kbd>显示</kbd>-》<kbd>夜间模式设置</kbd> 3. Iris Pro 3.1. 介绍 Iris Pro v1.1.9 破解激活授权绿色便携PC版 —— 目前最好的 PC 屏幕专业防蓝光护眼神器 在我们的日常工作生活中长时间的使用电脑会出现眼酸、眼涩、发红发胀……等症状,更有甚者会导致视网膜损伤,造成无法修复的严重后果,所以使用 PC 是一定要注意保护眼睛呢!嗯嗯~~那就试试这款专业的防蓝光护眼神器 —— Iris Pro 吧! Iris Pro 是一款专业的防蓝光护眼软件,通过调整屏幕蓝光辐射量来减少蓝光对您眼睛的伤害,例如:白天您可以把蓝光减到70,晚上减到50。当然,这些数值是可以自行调节的,每个人能接收的范围也不一样。而且软件无广告,无流氓行为,简单、小巧、清爽,即便您使用的是护眼显示器也同样需要它。 Iris 项目始于2015年,现在,Iris已被用于180多个国家,超过100万用户正在使用Iris,并且这一数字正在增加,因为Iris图形界面简单易用,并且有很多预设模式如:健康、睡眠、阅读、编程、生物黑客、墨镜、黄昏

python利用决策树进行特征选择

走远了吗. 提交于 2020-05-02 11:01:23
python利用决策树进行特征选择(注释部分为绘图功能),最后输出特征排序: import numpy as np import tflearn from tflearn.layers.core import dropout from tflearn.layers.normalization import batch_normalization from tflearn.data_utils import to_categorical from sklearn.model_selection import train_test_split import sys import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt data_train = pd.read_csv( " feature_with_dnn_todo2.dat " ) print(data_train. info ()) import matplotlib.pyplot as plt print(data_train.columns) """ for col in data_train.columns[ 1 :]: fig = plt.figure(figsize=( 20 , 16 ), dpi=

机器学习 | 特征工程(二)- 特征选择

柔情痞子 提交于 2020-05-02 10:58:33
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:  · 特征是否发散 :如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。  · 特征与目标的相关性 :这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 特征选择主要包括:Filter Method 过滤法, Wrapper Method 包装法和Embedded Method 嵌入法。本文结合sklearn中的feature_selection库来进行特征选择的详细介绍。 1 Filter Method 过滤法 通过统计学的方法对每个feature给出一个score, 通过score对特征进行排序,然后从中选取score最高的子集. 这种方法仅仅是对每个feature进行独立考虑,没有考虑到feature之间的依赖性或相关性. 常用的方法有: 卡方检验,信息增益等。 1.1 方差选择法 使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。 使用feature_selection库的VarianceThreshold类来选择特征的代码如下: from sklearn.feature_selection import

特征选择(Feature Selection)

北战南征 提交于 2020-05-02 10:58:17
如何找出模型需要的特征?首先要找到该领域的业务专家,让他们给一些建议。比如我们需要解决一个药品疗效的分类问题,那么先找到领域专家,向他们咨询哪些因素(特征)会对该药品的疗效产生影响,较大影响和较小影响的因素都要。这些因素就是我们特征的第一候选集。(摘自: https://www.cnblogs.com/pinard/p/9032759.html ) 以上是从业务角度对特征进行的选择,这也是最重要的方法。 除此之外,从技术角度考虑,特征选择的方法主要分为3大类: 过滤法(Filter) :针对单个特征的统计学特性进行筛选。按照发散性或者相关性对各个特征进行评分,通过设定阈值选择特征。 包裹法(Wrapper) :本质是用迭代法。根据模型的预测效果进行评分,每次向模型添加一个特征,或者删除一个特征,直到达到特定的停止条件。 嵌入法(Embedded) :是一种基于模型的方法。使用模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。特征选择本身融合在模型训练的过程中。 过滤法( Filter) (以下内容部分摘自: https://www.zhihu.com/question/28641663/answer/110165221 ) 1,方差法 基本原理是:移除方差较低的特征。如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异