分类数据

decision tree 决策树(一)

◇◆丶佛笑我妖孽 提交于 2019-11-27 18:13:08
一 决策树   原理:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。而最上面的结点就是决策树的根结点(root node)。 决策树(decision tree)是一种基本的分类与回归方法,上图就是一个决策树。 长方形:decision block 判断模块 椭圆:terminating block 终止模块(表示已经得出结论,可以终止运行) 左右箭头:branch 分支   我们可以把决策树看成一个if-then规则的集合,由(root node)到(leaf node)的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。决策树的路径:互斥并且完备。每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。 决策树过程: 收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从媒婆那里,或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。 准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。 分析数据

神经网络理论知识

China☆狼群 提交于 2019-11-27 15:25:33
感知器: 一个感知器有如下组成部分: 输入权值 ——一个感知器可以接收多个输入(x1,x2,…xn),每个输入上有一个权值wi,此外还有一个偏置项b,就是上图中的w0。 激活函数 ——感知器的激活函数可以有很多选择 输出 ——感知器的输出由某个公式来计算 事实上,感知器不仅仅能实现简单的布尔运算。它可以拟合任何的线性函数,任何线性分类或线性回归问题都可以用感知器来解决。前面的布尔运算可以看作是二分类问题,即给定一个输入,输出0(属于分类0)或1(属于分类1)。然而,感知器却不能实现异或运算。 感知器的训练 训练感知器对于多层感知器的监督式训练最常见的深度学习算法是反向传播。基本的过程是 :   1、将训练样本通过神经网络进行前向传播计算。   2、计算输出误差,通常用均方差:   其中 t 是目标值,y是实际的神经网络输出。其它的误差计算方法也可以,但MSE(均方差)通常是一种比较好的选择。   3.网络误差通过随机梯度下降法来最小化。 前面的权重项和偏置项的值是如何获得的呢? 这就要用到感知器训练算法:将权重项和偏置项初始化为0,然后,利用下面的感知器规则迭代的修改wi和b,直到训练完成。 其中: wi是与输入xi对应的权重项,b是偏置项。事实上,可以把b看作是值永远为1的输入xb所对应的权重。t是训练样本的实际值,一般称之为label。而y是感知器的输出值,它是根据公式(1

机器学习算法

旧城冷巷雨未停 提交于 2019-11-27 10:19:00
文章目录 一 监督学习 1 classification分类 (1) Binary Decision Tree(BDT)二分决策树 (2) Naive Bayesian Classifier朴素贝叶斯分类器 (3) Neural Network(NN)神经网络 (4)Convolution NN(CNN)卷积神经网络 (5)Deep Belief Networks(DBN)深度信念网络 (6)Recurrent NN(RNN)深度循环神经网络 2 regression回归 (1)LinearRegression线性回归: (2)树回归: 二 强化学习 1 Q-learning 2 Deep Q Networks 3 Double Q-learning 4 Prioritized experience replay 三 无监督学习 1 Dimensionality Reduction降维 (1)Stacked Auto-Encoders(SAE)栈式自编码 (2)Local Linear Embedding局部线性嵌入 2 Clustering聚类 (1)聚类算法简介 (2)聚类算法分类 (3)KMeans算法 (4)层次聚类(hierarchical clustering) (5) DBSCAN(基于密度的聚类算法) 3 Density Estimation密度估计 一 监督学习

以预测股票涨跌案例入门基于SVM的机器学习

空扰寡人 提交于 2019-11-27 09:28:13
SVM是Support Vector Machine的缩写,中文叫支持向量机,通过它可以对样本数据进行分类。以股票为例,SVM能根据若干特征样本数据,把待预测的目标结果划分成“涨”和”跌”两种,从而实现预测股票涨跌的效果。 1 通过简单案例了解SVM的分类作用 在Sklearn库里,封装了SVM分类的相关方法,也就是说,我们无需了解其中复杂的算法,即可用它实现基于SVM的分类。通过如下SimpleSVMDemo.py案例,我们来看下通过SVM库实现分类的做法,以及相关方法的调用方式。 1 #!/usr/bin/env python 2 #coding=utf-8 3 import numpy as np 4 import matplotlib.pyplot as plt 5 from sklearn import svm 6 #给出平面上的若干点 7 points = np.r_[[[-1,1],[1.5,1.5],[1.8,0.2],[0.8,0.7],[2.2,2.8],[2.5,3.5],[4,2]]] 8 #按0和1标记成两类 9 typeName = [0,0,0,0,1,1,1] 在第5行里,我们引入了基于SVM的库。在第7行,我们定义了若干个点,并在第9行把这些点分成了两类,比如[-1,1]点是第一类,而[4,2]是第二类。 这里请注意,在第7行定义点的时候

2.自动文本分类

旧城冷巷雨未停 提交于 2019-11-27 08:15:53
2.自动文本分类 现在对于文本分类的定义和范围有所了解。当提到 “文本分类系统” 可以将文本文件划分到它们代表的类或类别时,也从该概念和数学上对文本分类进行了正式的定义。假设几个人通过浏览每个文本并进行分类完成文本分类任务,那么他们就是我们所讨论的文档分类系统的一部分。然而,一旦文档数量超过百万并且需要快速进行分类处理时,该方法则不能很好地扩展。为了使文档分类的过程更加高效和快速,需要思考文本分类任务的自动化,这给我们带来了自动文本分类。 为实现自动文本分类,可以充分利用一些机器学习的技术和概念。这里主要有两类与解决该问题相关的技术: 有监督机器学习。 无监督机器学习。 此外,还有一些其他的机器学习算法家族,例如强化学习和半监督学习。接下来,更加升入地了解有监督机器学习和无监督机器学习算法,从机器学习方面了解如何利用这些算法进行文本文件分类。 无监督学习指的是不需要提前标注训练数据样本来建立模型的具体的机器学习技术或算法。通常,有一个数据点集合,它可以是文本或数字类型的,这取决于要解决的具体问题。我们通过名为 “特征提取” 的过程从每个数据中提取特征,然后将来自于每个数据的特征集合输入算法。尽力从这些数据中提取有意义的模式,例如使用聚类或基于主题模型的文本摘要技术对相似的数据进行分组。这项技术在文本分类中非常有用,也称为文档聚类,即我们仅仅依靠文本的特征、相似度和属性

简单的实现KNN算法

人盡茶涼 提交于 2019-11-27 08:13:08
0:导引 K-近邻算法(KNN) ### 如何进行电影分类 众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似, 而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们 不能单纯依靠是否存在打斗或者亲吻来判断影片的类型。但是爱情片中的亲吻镜头更多,动作片中 的打斗场景也更频繁,基于此类场景在某部电影中出现的次数可以用来进行电影分类。 本章介绍第一个机器学习算法:K-近邻算法,它非常有效而且易于掌握 1:k-近邻算法原理 简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高(计算距离)、对异常值不敏感(单纯根据距离进行分类,会忽略特殊情况)、无数据输入假定(不会对数据预先进行判定)。 - 缺点:时间复杂度高、空间复杂度高。 - 适用数据范围:数值型和标称型。 工作原理 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。输人没有标签的新数据后

支持向量机_原理

做~自己de王妃 提交于 2019-11-27 03:22:51
运用自带的SVM分类器 1)svmtrain函数,其是一个训练分类模型的函数:SVMStruct = svmtrain(Training,Group,Name,Value),其输入参数为(训练数据,训练数据相应组属性,可选参数名,可选参数的值),输出为一个结构体。 可选参数有很多,包括boxconstraint,kernel_function,kernelcachelimit,kktviolationlevel,method,kktviolationlevel,mlp_params,options,polyorder,rbf_sigma,showplot,tolkkt, 1、kernel_function(核函数类型):可选的核函数有linear,quadratic,polynomial,rbf,mlp,@kfun ,如果不设置核函数类型,那么默认的选用线性核函数linear。 2、showplot(绘图):是一个布尔值,用来指示是否绘制分类数据(这里是训练数据)和分类线。但是这个绘图功能只支持绘制有两个特征值的数据,也就是二维的点数据。(默认为false),在svmtrain函数中,如果将showplot设置为true,程序会自动在figure中用不同的颜色绘制出训练数据中两个类的点以及通过训练数据获得的分类线,并标注出哪些点是支持向量。 3、boxconstraint

Learning from class-imbalanced data: Review of methods and applications 论文阅读

南楼画角 提交于 2019-11-27 02:40:51
目录 Learning from class-imbalanced data: Review of methods and applications 摘要 Introdution 介绍 Research methodology and initial statistics 调研方法和初始统计 Research methodology 调研方法 Initial statistics 初步统计 Imbalanced data classification approaches 不平衡数据分类方法 Basic strategies for dealing with imbalanced learning 处理不平衡学习的基本方法 Preprocessing techniques 预处理技术 resampling 重采样 Feature selection and extraction 特征选择和抽取 Cost-sensitive learning 代价敏感学习 Classification algorithms for imbalanced learning 针对不平衡学习的分类算法 Ensemble methods 集成方法 Iterative based ensemble 基于迭代的集成 Parallel based ensembles 基于并行的集成 Base classifier

机器学习实战——3.决策树

情到浓时终转凉″ 提交于 2019-11-27 00:35:01
决策树常用来处理分类问题,也是最经常使用的数据挖掘算法。它之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的。下图所示的流程图就是一个决策树,正方形代表判断模块(decision block),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),它可以到达另一个判断模块或者终止模块。下图构造了一个假想的邮件分类系统,它首先检测发送邮件域名地址,如果地址为myEmployer,则将其放在分类“无聊时需要阅读的邮件”中。如果邮件不是来自这个域名,则检查邮件内容是否包含单词曲棒球,如果包含则将邮件归类到“需要及时处理的朋友邮件”,如果不包含则将邮件归类为“无需阅读的垃圾邮件”。 k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内在含义,决策树的主要优势就在于数据形式容易理解。 决策树算法能够读取数据集合,它的很多任务都是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则。专家系统中经常使用决策树,而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。 3.1决策树的构建 决策树: 优点:计算复杂度不高,输出结果易于理解

数据挖掘分类算法的优缺点总结

旧城冷巷雨未停 提交于 2019-11-26 21:49:34
最近在学习数据挖掘中的分类算法,顺便整理了各种分类算法的优缺点。 决策树 一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。 优点: 1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义; 2. 数据预处理阶段比较简单,且可以处理缺失数据; 3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树,其他技术往往需要数据属性的单一; 4. 是一个白盒模型,若给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式; 5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。 缺点: 1. 对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性; 2. 对噪声数据较为敏感; 3. 容易出现过拟合问题; 4. 忽略了数据集中属性之间的相关性。 可以处理的样例数据集:Soybean数据集 diaporthe-stem-canker,6,0,2,1,0,1,1,1,0,0,1,1,0,2,2,0,0,0,1,1,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0 diaporthe-stem-canker,4,0,2,1,0,2,0,2,1,1,1,1,0,2,2,0,0,0,1,0,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0 diaporthe-stem