决策树

机器学习概述

喜你入骨 提交于 2020-04-01 12:30:56
python基础的准备及pip list截图 (1)测试anaconda (2)Python环境及pip list截图 视频学习笔记 bilibili: https://www.bilibili.com/video/BV1Tb411H7uC?p=1 P1 机器学习概论 机器学习中建模过程 数据处理 特征工程 模型选择 寻找最佳超参数 模型分析与模型融合 数据预处理方法 数据清洗:数据清洗的目的是清除错误点,冗余点和数据的噪声。 数据集成:将多个数据源中的数据进行合并,形成一个统一的表格。 数据变化:找到数据的特征表示,用维度变换来减少有效的数据 P4 Python基础 使用pip安装numpy、pandas、scipy、matplotlib pip install numpy -i https://pypi.douban.com/simple 使用豆瓣仓库可以加速下载 负二项分布 称随机变量 服从参数为 的负二项分布,如果 其中 是正整数, , . 负二项分布的概率恰好是 的泰勒级数的项,分布因此得名.负二项分布亦称为帕斯卡分布,是几何分布的推广.伯努利试验恰好出现r次成功所需要的次数,服从参数为 的负二项分布. 我们的程序的随机变量进行了一个变化 . 什么是机器学习,有哪些分类? (1)什么是机器学习 让机器从数据中学习,进而得到一个更加符合现实规律的模型

数据缺失值处理办法

梦想与她 提交于 2020-04-01 09:59:45
1.随机森林模型怎么处理异常值? 隨机森:林是已故统计学家Leo Breiman提出的,和gradient boosted tree—样,它的基模型是决策树。在介绍RF时,Breiman就提出两种解决缺失值的方去 (Random forests - classification description): 方法1(快速简草但效果差): 把数值型变畺(numerical variables)中的缺失值用其所对应的类别中 (class)的中位数(median)替换。描述型变畺(categorical variables)缺失的部分用所对应类别中出现最多的数值替代(most frequent non-missing value)。以数值型变悬为例: 方法2(耗时费力但效果好):虽然依然是便用中位数出现次敎最多的数来进行替换,方法2引入 了权重。即对需要替换的数据先和其他数据做相似度测量(proximity measurement)也就是下面 公式中的Weight,在补全缺失点是相似的点的数据会有更高的权重W。以数值型变畺为例: Breiman说明了第二种方法的效果更好,但雲要的时间更长,这也是为什么工具包中不提供数据补全的功能,因为会影响到工具包的效率。 在训练、验证、测试含有缺失值时怎么办? 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本

西瓜书第四章--决策树

痞子三分冷 提交于 2020-03-28 13:06:48
4.1基本流程 决策树的结构 一个决策树包含一个根结点、若干个内部结点和若干个叶结点; 叶结点对应于决策结果,其他每个结点则对应于一个属性测试; 每个结点包含的样本集合根据属性测试的结果被划分到子结点中; 根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。 仅有一层划分的决策树,也称“决策树桩”(decision stump);决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树 决策树学习基本算法 显然,决策树的生成是一个递归过程。在决策树的基本算法中,有三种情形会导致递归返回: (1)当前结点包含的样本全部属于同一类, 无需划分 (2)当前属性集为空,或所有样本在所有属性上取值相同, 无法划分 (3)当前结点包含的样本为空, 不能划分 对各种情形的处理方式: 情形(2):属性集为空或所有样本属性上取值相同 把当前结点标记为叶结点,其类别设定为该结点样本集合中最多的类别; 此为利用当前结点的后验分布 情形(3):样本为空 把当前结点标记为叶结点,其类别设定为父结点样本集合中最多的类别 把父结点的样本分布作为当前结点的先验分布 4.2划分选择 决策树学习的关键在于如何选择最优划分属性也就是第8步。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。(也即信息熵越低)

机器学习算法

谁说我不能喝 提交于 2020-03-28 07:40:58
转载自: http://www.cnblogs.com/tornadomeet   朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。   2. 计算公式如下:      其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。   3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。    朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。    缺点 :   对输入数据的表达形式很敏感。   决策树:   决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它

机器学习工程师面试题集锦附指南:互联网篇

痞子三分冷 提交于 2020-03-24 08:16:40
3 月,跳不动了?>>> 机器学习工程师是现在的热门职位,因为其极高的薪资成为很多技术人的晋升目标。本文总结了部分一线互联网公司机器学习工程师的面试题及面试指南,希望对各位技术人员的进阶之路有所帮助。 阿里巴巴 根据参加过阿里巴巴机器学习算法工程师面试的技术人员反馈,总共需要经过四轮面试,前两轮为技术考察,第三轮是交叉面试,最后一轮是人力面试。每轮面试大概持续时间为40到50分钟,面试内容由项目经验询问和基础机器学习算法询问两部分组成。 基础机器学习算法主要包括LR和SVM有什么区别 ,libsvm和liblinear有什么区别,常用的统计量的含义, 稀疏特征如独热编码 ,维度很大,输入神经网络怎么降维,FFM算法的原理,谈谈你对特征工程的认识,LR优化方法之间的区别, 逻辑回归的概念 , EM,K-means等问题 。面试官会给出一些场景,询问求职者如何处理数据,如何建模。 可能会碰到算法题和智力题,但数量不会很多。根据反馈,算法题可能会与数组相关,比如存在一个数组,大小为98,里面的元素均为[1,100]区间内,且无重复, 不申请额外空间的情况下,在时间复杂度为O(N)情况下,找出确定的两个元素值。 华为 基础知识部分可能会让技术人员介绍几个简单的机器学习模型的主要思想,比如 贝叶斯、SVM 等。除此之外,都是一些概念问题:决策树和adaboost的区别;介绍你曾经做过的项目

一文帮你搞懂何为信息增益——决策树必备

↘锁芯ラ 提交于 2020-03-23 12:01:33
一、何为决策树 决策树是监督学习算法之一,并且是一种基本的分类与回归方法;决策树也分为回归树和分类树,本文讨论的是分类树。如果了解或者学过数据结构,肯定对"树"这个概念是不陌生的,在此基础上学习掌握决策树也会更加容易,下面通过一个小例子帮助理解何为决策树。 下图所示流程图即为一个决策树,矩形代表判断模块、椭圆形则代表终止模块,表示已经得出结论可以终止程序的运行;左右箭头表示分支,可以通过它到达另一判断模块或终止模块。 这个流程图主要是假想一个择偶系统,之前网上不流行这样一句话嘛," 阿姨我不想努力了 ",该树就以是否想继续努力为判断依据,如果你不想继续努力了,你可以选择找一个" 富婆 ";反之,你想找一个女朋友一起奋斗,这里又以女孩的性格为判断依据,如果喜欢性格温柔的,即选择" 温柔女孩 ",若喜欢性格高冷的,则选择" 酷女孩 "。 整个决策树可以看成一个 if—then 规则,即"如果判断条件,则……",并且需要注意以下三点: 根节点到每一个子节点的路径可构成一条规则。 每条路径上中间节点的特征对应该条规则的判断条件,叶子节点的标签对应该规则的结论。 每一个实例都被有且仅有一条实例覆盖,即实例的特征与路径上的特征一致。 二、决策树的流程 收集数据:公开数据源或爬虫等方式。 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。 分析数据:可以使用任何方法

决策树的构建及可视化——帮自己配副隐形眼镜

女生的网名这么多〃 提交于 2020-03-23 12:00:16
前文简介 上一篇文章中主要介绍了以下几方面: 决策树的简介 决策树的流程 熵的定义及如何计算熵 信息增益的定义及如何计算信息增益 依据信息增益划分数据集 本文以一个新的数据集(隐形眼镜数据集)为基础实现构建决策树、决策树的保存与加载、利用决策树分类、决策树的可视化,前文的知识不在过多概述,着重介绍这四个方面。 先大致了解一下数据集: 这份数据源至UCI数据库,其共有4个特征分别为 age (年龄)、 prescript (症状)、 astigmatic (闪光)、 tearRate (泪液产生率)以及一个分类标签 class ,该分类包含硬材质、软材质和不应配带三种。 为了方便处理,对样本做以下处理: age:young—>0、pre—>1、presbyopic—>2 prescript:myope—>0、hyper—>1 astigmatic:no—>0、yes—>1 tearRate:reduced—>0、normal—>1 四、决策树的构建 在构造决策树之前,先回顾一下前几个子模块的工作原理:先获取原始数据集,然后基于最优特征划分数据集,当数据集特征大于两个时,第一次划分之后,数据将被向下传递至树的下一个节点,在这个节点上,在此划分数据,此过程是利用递归原理处理数据集。 什么时候划分结束呢?当程序遍历完所有划分数据集的属性,或者每个分支下所有实例分类一致时代表划分数据集结束。

3.机器学习之决策树详解

半腔热情 提交于 2020-03-16 13:47:41
本篇博客主要介绍机器学习中的决策树模型。决策树算法在机器学习中算是很经典的一个算法系列。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。决策树模型是一类算法的集合,在数据挖掘十大算法中,具体的决策树算法占有两席位置,即C4.5和CART算法。 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑:  决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。 决策树是在已知各种情况发生概率((各个样本数据出现中

6分钟了解所有机器学习模型

强颜欢笑 提交于 2020-03-15 01:46:23
所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。 监督学习模型 监督学习涉及基于示例输入-输出对学习将输入映射到输出的功能。 例如,如果我有一个包含两个变量的数据集,即年龄(输入)和身高(输出),那么我可以实现一个监督学习模型,以根据一个人的年龄预测其身高。 监督学习示例 重申一下,在监督学习中,有两个子类别:回归和分类。 回归模型 在回归模型中,输出是连续的。以下是一些最常见的回归模型类型。 -线性回归 线性回归示例 线性回归的概念就是简单地找到一条最适合数据的直线。线性回归的扩展包括多元线性回归(例如,找到最佳拟合的平面)和多项式回归(例如,找到最佳拟合的曲线)。 -决策树 图片来自Kaggle 决策树是一种普遍应用的模型,常用于运筹学、战略计划和机器学习。上方的每个正方形称为一个节点,你拥有的节点越多,决策树(通常)将越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面稍有不足。 -随机森林 随机森林是一种基于决策树的整体学习技术。随机森林涉及使用原始数据通过“自举法”(Bootstrapping)得到的数据集创建多个决策树,并在决策树的每个步骤中随机选择变量的子集。然后,模型选择每个决策树的所有预测的模式。这有什么意义呢?通过依靠

3.1决策树算法

拟墨画扇 提交于 2020-03-14 17:04:17
0.机器学习中分类和预测算法的评估:准确性,速度,强壮性,可规模性,课解释性。 1.什么是决策树/判定树(decision tree)? 判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。 2.机器学习中分类方法中的一个重要算法 3. 构造决策树的基本算法 3.1熵(entropy)的概念: 信息和抽象,如何度量? 1948年,香农提出了 ”信息熵(entropy)“的概念 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息==>信息量的度量就等于不确定性的多少 例子:猜世界杯冠军,假如一无所知,猜多少次? 每个队夺冠的几率不是相等的 比特(bit)来衡量信息的多少 变量的不确定性越大,熵也就越大 3.1 决策树归纳算法 (ID3) 1970-1980, J.Ross. Quinlan, ID3算法 选择属性判断结点 信息获取量(Information Gain):Gain(A) = Info(D) - Infor_A(D) 通过A来作为节点分类获取了多少信息 以age分-------- youth+middle_aged+senior 类似,Gain(income) = 0.029, Gain