iris

R | 探索性数据分析 EDA

可紊 提交于 2020-03-15 18:01:57
一、集中趋势和离中趋势 表示集中趋势的指标们:  均值、中位数、众数、百分位数 异常值判定:  3σ原则原则(还有很多别的原则):超出(μ-3σ,μ+3σ)的值,即超出箱线图上下边界的点 离散程度指标:  极差(range)  标准差(sta.dev)  方差(variance)  变异系数(CV):对标准差做去量纲化,消除两组数据间测量尺度和量纲的影响 通过箱线图来查看集中趋势 (通过R自带的鸢尾花数据集 iris) iris boxplot(iris[,2]) 二、相关系数( cor ) Pearson相关系数 衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系 Spearman相关系数 衡量排序(秩)一致性 Kendall相关系数 计算多个等级变量相关程度的一种相关量 # 工作时间和薪水 jobtime = c(14,12,11,12,11) salary = c(20000,17000,1650,1670,540) # cor 默认的 method 为 pearson cor(jobtime,salary) # 指定使用 spearman cor(jobtime,salary, method="spearman") 相比于线性关系,案例中的时间与薪水的排序效果更明显,所以此处求得的 Spearman 比 Pearson 更大 通过两两变量的组合图来查看相关关系

3.数据可视化入门介绍

本秂侑毒 提交于 2020-03-08 21:48:29
数据可视化库:1.matplotlib; 2.seabron(辅助的库,更强大更丰富更好看); 3.Axes3D ... 1.导包 1 import numpy as np 2 import pandas as pd 3 4 import matplotlib.pyplot as plt 5 6 import seaborn as sns 7 ​ 8 #去除执行当中报警告提示的库 9 import warnings 10 warnings.filterwarnings("ignore") 11 ​ 2.图形初始化设置 1 # 全局样式,style样式,use使用figure身材,figsize(x,y)大小,单位是英寸 2 plt.style.use({'figure.figsize':(20,10)}) 3 4 # 显示问题冲突 5 plt.show() # 强制显示 6 7 #在pycharm中使用,图片打印不出来的时候,使用魔法方法,在行里显示,只能在jupyter中使用 8 %matplotlib inline 9 10 #国外的库都不支持中文 11 from pylab import mpl # 使得默认支持中文 需要引入pylab库中的mpl 12 mpl.rcParams['font.sans-serif'] = ['SimHei'] # 设置字体 13 mpl

06_Decision Trees_01_graphviz_Gini_Entropy_Decision Tree_CART

徘徊边缘 提交于 2020-03-08 00:02:00
Like SVMs, Decision Trees are versatile Machine Learning algorithms that can perform both classification and regression tasks, and even multioutput tasks. They are very powerful algorithms, capable of fitting complex datasets. For example, in ( https://blog.csdn.net/Linli522362242/article/details/103587172 ) you trained a DecisionTreeRegressor model on the California housing dataset, fitting it perfectly (actually overfitting it). Decision Trees are also the fundamental components of Random Forests , which are among the most powerful Machine Learning algorithms available today. we will start

k-近邻算法案例分析

本秂侑毒 提交于 2020-03-05 21:30:17
文章目录 读入Iris数据集细节资料 对Iris数据集进行分割 对特征数据进行标准化 读入Iris数据集细节资料 from sklearn . datasets import load_iris # 使用加载器读取数据并且存入变量iris iris = load_iris ( ) # 查验数据规模 iris . data . shape # 查看数据说明 print ( iris . DESCR ) Iris Plants Database ==================== Notes ----- Data Set Characteristics: :Number of Instances: 150 (50 in each of three classes) :Number of Attributes: 4 numeric, predictive attributes and the class :Attribute Information: - sepal length in cm - sepal width in cm - petal length in cm - petal width in cm - class: - Iris-Setosa - Iris-Versicolour - Iris-Virginica :Summary Statistics: ======

决策树模型——鸢尾花分类

空扰寡人 提交于 2020-02-27 10:41:33
构建一个决策树分类模型,实现对鸢尾花的分类 1.lris数据集介绍: 鸢尾花数据集是机器学习领域中非常经典的一个分类数据集。数据集全名为:Iris Data Set,总共包含150行数据。 每一行由4个特征值及一个目标值(类别变量)组成。 其中4个特征值分别是:萼片长度、萼片宽度、花瓣长度、花瓣宽度 目标值为3种不同类别的鸢尾花:山鸢尾、变色鸢尾、维吉尼亚鸢尾 2.读取数据 Iris数据集里是一个矩阵,每一列代表了萼片或花瓣的长宽,一共4列,每一列代表某个被测量的鸢尾植物,一共采样了150条记录。 from sklearn.datasets import load_iris # 导入方法类 iris = load_iris() #导入数据集iris iris_feature = iris.data #特征数据 iris_target = iris.target #分类数据 print (iris.data) #输出数据集 print (iris.target) #输出真实标签 print (len(iris.target) ) print (iris.data.shape ) #150个样本 每个样本4个特征 #输出结果如下: [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3

基于sklearn的logistic回归对于鸢尾花的机器学习分类实践

感情迁移 提交于 2020-02-24 07:56:43
sklearn( scikit-learn )是python机器学习常用的第三方模块,是一个开源的机器学习库,它支持监督学习和非监督学习。它还为模型拟合、数据预处理、模型选择和评估以及许多其他实用工具提供了各种工具。sklearn对机器学习的常用算法进行了封装,包括回归、降维、分类、聚类等。对于以下的机器学习分类实践所用到的函数及方法进行说明。 1.np.c_[ ]和np.r_[ ]的用法解析 >> > import numpy as np >> > a = np . array ( [ [ 1 , 2 , 3 ] , [ 4 , 5 , 6 ] ] ) >> > a array ( [ [ 1 , 2 , 3 ] , [ 4 , 5 , 6 ] ] ) >> > b = np . array ( [ [ 7 , 8 , 9 ] , [ 10 , 11 , 12 ] ] ) >> > b array ( [ [ 7 , 8 , 9 ] , [ 10 , 11 , 12 ] ] ) >> > c = np . c_ [ a , b ] >> > c array ( [ [ 1 , 2 , 3 , 7 , 8 , 9 ] , [ 4 , 5 , 6 , 10 , 11 , 12 ] ] ) >> > d = np . r_ [ a , b ] >> > d array ( [ [ 1

R学习笔记

泄露秘密 提交于 2020-02-15 03:47:15
R学习笔记 学习书籍:《机器学习与R语言实战》 Yu-Wei Chiu 1.getwd():获得当前工作路径。 2.setwd(dir="path"):设置工作路径。setwd(dir="/Users/xxx/Documents/R/Learn/") 3.data():返回dataset包中的数据集。 4.data("iris"):将dataset中的iris数据集加载。 5.save(iris,file="路径"):将工作区的数据写入磁盘。 6.load("文件名"):将文件数据集加入工作区。 7.write.table(iris,file="iris.txt",sep=" "):将数据导出到文本文件,分隔符为空格。 8.write.csv(数据集,file="file.csv"):以csv格式存储文件。 9.read.csv,read.table等。 10.安装包 install.packages("WriteXLS") 11.导入包 library("WriteXLS") 12.WriteXLS("iris",ExcelFileName="iris.xls") 13.选择多列数据 iris[,c("Sepal.Length","Sepal.Width")] iris[1:5,1:2] 14.str(iris):显示数据的内部结构。 15.条件筛选 iris[iris$[属性]

【数据挖掘重要笔记day17】pandas中的绘图函数+线形图+柱状图+直方图+随机百分比密度图+散布图

ⅰ亾dé卋堺 提交于 2020-02-13 19:51:36
文章目录 pandas中的绘图函数 内容概要 线形图 柱状图 直方图 随机百分比密度图 散布图 机器学习使用的比较多的一种图形 散布图可以描述数据的分布状态和数据的增长趋势以及x和y轴的关系 汽车排放量越小,行驶的距离就越远 pandas中的绘图函数 内容概要 Series和DataFrame都有一个都有一个生成各类图标的plot方法,默认情况下锁生成的都是线形图 import numpy as np import pandas as pd import matplotlib . pyplot as plt 线形图 简单示例Series图例表示.plot() 线性图可以用来表示增长的趋势或者是y和x轴的关系体现 x = np . linspace ( 0 , 10 , 11 ) # x = y pd . Series ( x ) . plot ( ) x = np . linspace ( -np . pi , np . pi ) pd . Series ( np . sin ( x ) ) . plot ( ) pd . Series ( np . cos ( x ) ) . plot ( ) x = np . linspace ( -np . pi , np . pi ) pd . Series ( np . exp ( -x * * 2 ) ) . plot ( color

Python科学计算——Numpy.genfromtxt

感情迁移 提交于 2020-02-12 00:22:29
今天在kaggle上看到一个很好的数据集,想亲自进行处理,但是在将.csv格式文件转化为数据矩阵时就出现了问题,我在谷歌上查了下,发现了个很好用的东西和大家分享。那就是Numpy包里的genfromtxt。它可以很轻松的实现上述功能。 此函数的完整形式为: numpy.genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None)[source]¶ 今天先介绍几个一定会用到的属性: 1.fname,顾名思义,就是文件名,不详述 2.delimiter:str,int,or sequence,optional

Iris_MVC

ε祈祈猫儿з 提交于 2020-02-05 10:05:39
2. MVC包使用 在Iris框架中,封装了mvc包作为对mvc架构的支持,方便开发者遵循mvc的开发原则进行开发。 iris框架支持请求数据、模型、持久数据分层处理,并支持各层级模块代码绑定执行。 MVC即:model、view、controller三个部分,分别代表数据层、视图层、控制层。控制器层负责完成页面逻辑、实体层负责完成数据准备与数据操作、视图层负责展现UI效果。 在iris框架中,用一张图表示前端请求、服务端处理请求、服务端返回数据到前端的请求过程图,描述如下: 2.1 mvc.Application iris框架中的mvc包中提供了Application结构体定义。开发者可以通过注册自定义的controller来使用对应提供的API,其中包含路由组router.Party,以此用来注册layout、middleware以及相应的handlers等。 2.2 iris.mvc特性 iris框架封装的mvc包,支持所有的http方法。比如,如果想要提供GET,那么控制器应该有一个名为Get()的函数,开发者可以定义多个方法函数在同一个Controller中提供。这里的Get、Post方法是指的直接和八种请求类型同名的方法,mvc模块会自动执行到Get()、Post()等八种对应的方法。如下所示: //自定义的控制器 type CustomController