分类数据

2.机器学习之KNN

☆樱花仙子☆ 提交于 2020-03-13 15:02:33
K-最近邻(k-Nearest Neighbor,KNN)分类算法,kNN算法的核心思想是: 如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 。打个比方:你们想了解我是个怎样的人,然后你们发现我的身边关系最密切的朋友是一群逗逼,所以你们可以默认我也是一个逗逼。 例如:如下图所示,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,因此绿色圆被赋予红色三角形那个类;如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 数据分析当中KNN通过测量不同特征值之间的距离来进行分类的。存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,所选择的邻居都是已经正确分类的对象,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的数据后,将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较,然后提取样本中特征最相近的数据(最近邻)的分类标签;即利用训练数据对特征向量空间进行划分,并将划分结果作为最终算法模型。对于任意n维输入向量,分别对应于特征空间中的一个点,输出为该特征向量所对应的类别标签或预测值。 一般而言,我们只选择样本数据集中前k个最相似的数据,这就是KNN算法中K的由来,通常k是不大于20的整数。最后

简单粗暴理解与实现机器学习之神经网络NN(一):神经网络基础详谈、感知器PLA、playground使用、神经网络发展史

白昼怎懂夜的黑 提交于 2020-03-07 19:18:45
文章目录 7.1 神经网络基础 学习目标 7.1.1 神经网络 7.1.1.1 感知机(PLA: Perceptron Learning Algorithm)) 7.1.2 playground使用 7.1.2.1 playground简单两类分类结果 但是这种结构的线性的二分类器,但不能对非线性的数据并不能进行有效的分类。如下面异或问题例子: 相当于给出这样的数据 7.1.2.2 单神经元复杂的两类-playground演示 那么怎么解决这种问题呢?其实我们多增加层或者多几个感知机即可解决?也就是下图这样的结构,组成一层的结构? 7.1.2.3多个神经元效果演示 7.1.3 神经网络发展史 7.1 神经网络基础 学习目标 目标 了解感知机结构、作用以及优缺点 了解tensorflow playground的使用 说明感知机与神经网络的联系 说明神经网络的组成 应用 无 7.1.1 神经网络 人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN) 。是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的 计算模型 。经典的神经网络结构包含三个层次的神经网络。 分别输入层,输出层以及隐藏层。 其中每层的圆圈代表一个神经元,隐藏层和输出层的神经元有输入的数据计算后输出,输入层的神经元只是输入。 神经网络的特点 1

机器学习算法理论及实战(一)——KNN算法

百般思念 提交于 2020-03-05 21:06:04
目录: 一、介绍 二、工作流程 三、示例 四、用Python实现 1.模拟数据及绘图 2.KNN过程 3.使用scikit-learn中的KNN 五、KNN的优缺点 1.优点 2.缺点 六、KNN的应用 1.银行系统 2.计算信用等级 3.政治 4.其他领域 一、介绍 K最近邻(KNN)算法是一种监督的ML算法,可用于分类以及回归预测问题。但是,它主要用于行业中的分类预测问题。以下两个属性将很好地定义KNN: 惰性学习算法 :因为它没有专门的训练阶段,并且在分类时将所有数据用于训练。 非参数学习算法 :因为它不假设有关基础数据的任何信息 。 二、工作流程 K最近邻(KNN)算法使用“特征相似性”来预测新数据点的值,这意味着,将根据新数据点与训练集中的点的匹配程度为该新数据点分配一个值。我们可以通过以下步骤了解其工作方式: 步骤1: 加载训练以及测试数据。 步骤2: 选择K的值,即最近的数据点(K可以是任何整数)。 步骤3: 对于测试数据中的每个点,请执行以下操作: 借助以下任意一种方法来计算测试数据与训练数据的每一行之间的距离: 欧几里得距离,曼哈顿距离或汉明距离 。 最常用 的距离计算方法是欧几里得。 基于距离值,将它们按升序排序。 然后它将从排序后的数组中选择前K行。 现在,它将基于这些行中最多出现的类别为测试点分配这一个类。 步骤4: 结束。 三、示例

Farseer.net轻量级开源框架 入门篇:分类逻辑层

守給你的承諾、 提交于 2020-03-03 00:22:04
导航 目 录: Farseer.net轻量级开源框架 目录 上一篇: Farseer.net轻量级开源框架 入门篇: 缓存逻辑层 下一篇: Farseer.net轻量级开源框架 入门篇: 添加数据详解 分类逻辑层 分类逻辑层,主要用在一些需要支持无限递归的树数据。树数据是:必须有一个根节点,根节点有无限个子节点,没有节点限制。比如我们常用的有:(频道、xxx分类) 这里与BaseCacheModel的操作是完全一致。唯一不同的是,BaseCateModel是继承自ModelCateInfo。这个类提供了默认的几个字段: 1 /// <summary> 2 /// 分类基类 3 /// </summary> 4 public class ModelCateInfo : ModelInfo 5 { 6 /// <summary> 7 /// 所属ID 8 /// </summary> 9 [Display(Name = "所属分类")] 10 public virtual int? ParentID { get; set; } 11 12 /// <summary> 13 /// 标题 14 /// </summary> 15 [Display(Name = "标题"), StringLength(50), Required] 16 public virtual string

【华为云技术分享】【Python算法】分类与预测——决策树

瘦欲@ 提交于 2020-03-02 04:06:45
1.决策树定义 决策树方法在分类、预测、规则提取等领域有着广泛的应用。20 世纪 70 年代后期和 80 年代初期,机器学习研究者 J.Ross Quinlan 提出了 ID3 算法以后,决策树就在机器学习与数据挖掘领域取得了巨大的发展。Quinlan 后来又提出了 C4.5,这成为了新的监督学习算法。1984年,几位统计学专家提出了 CART 分类算法。ID3 和 CART 算法几乎同时被提出,但都是采用的类似的方法从训练样本中学习决策树。决策树是一种树状结构,它的每个叶节点对应一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同值将其划分成若干个子集,而对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心的问题是在每一步中如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树其实是一个自上而下,分而治之的过程。 2.常用决策树算法 常用的决策树算法有三种,分别是 ID3 算法、C4.5 算法、CART 算法三种。   (1) ID3 算法:此算法的核心在于决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采取的合适属性;   (2) C4.5 算法:此决策树生成算法相对于 ID3 算法的重要改进是使用信息增益率来选择节点属性,此算法可以克服ID3算法的不足

论文学习--数据挖掘必读论文01:The WEKA data mining software: an update

北慕城南 提交于 2020-03-01 10:42:10
论文原文 论文下载 论文被引:20211 论文年份:2009 WEKA:Weka是经过实践检验的开源机器学习软件,可以通过图形用户界面,标准终端应用程序或Java API进行访问。它被广泛用于教学,研究和工业应用,包含用于标准机器学习任务的大量内置工具,并且可以透明地访问scikit-learn,R和Deeplearning4j等知名工具箱。 WEKA官网 WEKA下载 The WEKA data mining software: an update ABSTRACT More than twelve years have elapsed since the first public release of WEKA. In that time, the software has been rewritten entirely from scratch, evolved substantially and now accompanies a text on data mining [35]. These days, WEKA enjoys widespread acceptance in both academia and business, has an active community, and has been downloaded more than 1.4 million

机器学习基础梳理—(K-近邻算法浅谈)

戏子无情 提交于 2020-02-29 09:49:15
K-近邻算法可用在二类分类,多类分类和回归问题上 基本要素: K值的选择,距离度量和分类决策规则 减小K值:近似误差减小,估计误差增大,增大K值则相反K值通常不大于20;距离 度量:Lp距离;分类决策规则:多数表决 工作原理: 1、有监督学习:标签化数据集 2、测试阶段:输入无标签新数据后,将新数据的特征与样本集的特征进行比较( 最近邻:赋予最相近数据的标签;K-近邻:选择K个最相近数据中出现频次最多的 标签) 工作流: 1、制作标签化数据集 2、准备数据:修改为可用于距离计算的数值型数据 3、应用 K-近邻:首先计算测试数据与标签化数据集K个点的距离,然后升序排序,并选择 距离最小的K个点,最后返回出现频次最高的标签(分类)或K个点某个(些)属 性的平均值(回归) 注意:K-近邻算法无需训练 来源: https://www.cnblogs.com/cookbook/p/12381351.html

O2OA教程-业务开发与设计-数据视图与数据统计

僤鯓⒐⒋嵵緔 提交于 2020-02-28 17:04:30
一、视图 View 在O2OA中,视图是展现、查询流程和内容管理数据的重要途径,也是各应用进行数据关联的工具。 入口 点系统的左上角导航->设计中心->数据中心->具体应用->视图打开。 视图的后台服务 http://applicationServer:20020/x_query_assemble_surface/jest/index.html 视图属性 基本 属性名 说明 标识 视图ID 名称 视图名称 别名 视图别名 隐藏视图 隐藏后不会在点左上角导航->应用中显示 最大行数 视图展现的时候返回数据的最多数目 每页行数 视图展现的时候每页的数据数目 可执行人 允许执行视图的人。和可执行组织同时为空的时候,所有人可执行 可执行组织 允许执行视图的组织 范围 属性名 说明 可以选择流程平台数据或者是内容管理平台的数据 权限 带权限:当前人员只能看到流转过的工作 忽略:当前人员可以看到符合过滤条件所有工作,但是没有流转过的不能打开 流转状态 只有选择流程平台数据的时候起作用 选择应用 只对应流程平台应用的数据 选择流程 只对应流程的数据,如果应用和流程同时选择的情,取并集 数据类型 信息类:只显示内容管理栏目或分类里文档类型设置为“信息”的数据 数据类:只显示内容管理栏目或分类里文档类型设置为“数据”的数据 全部:对文档类型无限制 选择栏目 只显示对应内容管理栏目的数据 选择分类

【组成原理】概述

梦想与她 提交于 2020-02-28 04:05:37
目录 计算机概述 数据 总线 CPU 存储器 输入/输出设备 计算机的时标系统 计算机概述 计算机的基本组成: 存储器 :     实现 记忆功能 的部件用来存放计算程序及参与运算的各种数据 运算器 :     负责数据的 算术运算和逻辑运算 即数据的加工处理 控制器 :     负责对程序规定的 控制信息 进行分析,控制并协调输入,输出操作或内存访问 输入设备 :    实现 计算程序和原始数据 的输入 输出设备 :    实现 计算结果 输出 组成的联系: 图一 图二 计算机的工作过程: 用户 打开程序 系统把程序 代码段和数据段 送入计算机的内存 控制器从存储器中 取指令 控制器分析, 执行指令 ,为取下一条指令做准备 取下一条指令 ,分析执行,如此重复操作,直至执行完程序中全部指令,便可获得全部指令 冯·诺依曼机制: 程序存储 采用 2进制 计算机系统的体系结构: 图一: 图二 数据概述 数据信息的两种基本方法: 按值 表示 :  要求在选定的进位制中正确表示出数值,包括数字符号,小数点正负号 按形 表示 :  按一定的 编码方法 表示数据 信息的存储单位: 1KB=2^10B=1024 Byte 1MB=2^20B=1024 KB 1GB=2^30B=1024 MB 1TB=2^40B=1024 GB 浮点表示法: 公式 :  N=2^(+-e)*(+-s) 说明 :

决策树模型——鸢尾花分类

空扰寡人 提交于 2020-02-27 10:41:33
构建一个决策树分类模型,实现对鸢尾花的分类 1.lris数据集介绍: 鸢尾花数据集是机器学习领域中非常经典的一个分类数据集。数据集全名为:Iris Data Set,总共包含150行数据。 每一行由4个特征值及一个目标值(类别变量)组成。 其中4个特征值分别是:萼片长度、萼片宽度、花瓣长度、花瓣宽度 目标值为3种不同类别的鸢尾花:山鸢尾、变色鸢尾、维吉尼亚鸢尾 2.读取数据 Iris数据集里是一个矩阵,每一列代表了萼片或花瓣的长宽,一共4列,每一列代表某个被测量的鸢尾植物,一共采样了150条记录。 from sklearn.datasets import load_iris # 导入方法类 iris = load_iris() #导入数据集iris iris_feature = iris.data #特征数据 iris_target = iris.target #分类数据 print (iris.data) #输出数据集 print (iris.target) #输出真实标签 print (len(iris.target) ) print (iris.data.shape ) #150个样本 每个样本4个特征 #输出结果如下: [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3