特征选择

集成学习之随机森林

蓝咒 提交于 2020-02-10 12:40:35
/*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ 随机森林的主要作用是降低模型的复杂度,解决模型的过拟合问题。 1、随机森林概述 ¶ 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 2、随机森林算法流程 ¶ 随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。其主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。 随机森林的分类算法流程如下图: 1.样本选择 自助采样:假设训练数据集包含m个样本,随机从样本集中可放回的抽取m次,得到与训练集数量相同的训练集。经过K轮自助采样,可以得到K个包含m个训练样本的采样集。随机选择样本是有放回!!! 2.特征选择 在随机森林中,我们不计算所有特征的增益。如果每个特征的样本维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征。然后计算m个特征的增益,选择最优特征(属性)。若M=m,则与传统决策树相同,一般而言,推荐$m=\log_2{M}$或$m=\sqrt{M}$。随机选择特征是无放回!!! 3.决策树构建 基于随机采样后采样后的数据集进行多个决策树的构建

机器学习之支持向量机

删除回忆录丶 提交于 2020-02-08 20:31:39
SVM与神经网络 支持向量机并不是神经网络,这两个完全是两条不一样的路吧。不过详细来说,线性SVM的计算部分就像一个单层的神经网络一样,而非线性SVM就完全和神经网络不一样了(是的没错,现实生活中大多问题是非线性的),详情可以参考知乎答案。 这两个冤家一直不争上下,最近基于神经网络的深度学习因为AlphaGo等热门时事,促使神经网络的热度达到了空前最高。毕竟,深度学习那样的多层隐含层的结构,犹如一个黑盒子,一个学习能力极强的潘多拉盒子。有人或许就觉得这就是我们真正的神经网络,我们不知道它那数以百千计的神经元干了什么,也不理解为何如此的结构能诞生如此美好的数据 —— 犹如复杂性科学般,处于高层的我们并不能知道底层的”愚群“为何能涌现。两者一比起来,SVM似乎也没有深度学习等那么令人狂热,连Hinton都开玩笑说SVM不过是浅度学习(来自深度学习的调侃)。 不然,个人觉得相对于热衷于隐含层的神经网络,具有深厚的数学理论的SVM更值得让我们研究。SVM背后伟大的数学理论基础可以说是现今人类的伟大数学成就,因此SVM的解释性也非神经网络可比,可以说,它的数学理论让它充满了理性,这样的理性是一个理工科生向往的。就如,你渴望知道食物的来源以确定食物是否有毒,如果有毒是什么毒,这样的毒会在人体内发生了什么反应以致于让你不适 —— 我的理性驱使我这么想,一个来路不明的食物是不能让我轻易接受的。

(十三)FSAF----2019CVPR论文解读

南楼画角 提交于 2020-02-07 05:09:11
Feature Selective Anchor-Free Module for Single-Shot Object Detection 用于单发物体检测的功能选择免锚模块 图1:在相同的训练和测试规模下,使用强大的ResNeXt-101的基于锚的RetinaNet [22](左)和使用ResNet-50的带有FSAF模块的检测器的定性结果(仅右图)。我们的FSAF模块可通过功能较弱的骨干网络帮助检测硬物,例如小人和平板滑雪板。有关更多示例,请参见图7。 Abstract 我们激励并提出 功能选择性免锚(FSAF)模块 ,这是用于 单发物体检测器 的简单有效的构建块。可以将其插入具有特征金字塔结构的单发检测器。 FSAF模块解决了传统基于锚的检测带来的两个限制:1)启发式引导特征选择; 2)基于重叠的锚点采样。 FSAF模块的一般概念是在线特征选择,用于选择多级无锚分支。具体地,无锚分支附接到特征金字塔的每个级别,从而允许以任意锚的无锚方式进行盒编码和解码。在训练过程中,我们会为每个实例动态分配最合适的功能级别。在推论时,FSAF模块可以通过并行输出预测与基于锚的分支共同工作。我们通过无锚分支的简单实现和在线特征选择策略来实例化此概念。在COCO检测轨道上的实验结果表明,我们的FSAF模块比基于锚的模块性能更好,但速度更快。当与基于锚的分支联合使用时

记忆网络(译)

冷暖自知 提交于 2020-02-07 02:01:57
笔者:本文为英文论文的翻译文章,供机器学习、深度学习相关学者参考,如有错误理解之处请指出,不胜感激!(如需转载,请联系本人: jtianwen2014 ,并注明 出处 )。 记忆网络(译) Jason Weston, Sumit Chopra & Antoine Bordes . Facebook AI Research, 770 Broadway, New York, USA. {jase,spchopra,abordes}@fb.com 摘要 本文将介绍一种新的学习模型,称为 记忆网络 。记忆网络利用结合了长期记忆模块的推断组件进行推理;并学习如何联合地使用它们。长期记忆模块被用作预测,可以读出也可以写入。我们将记忆网络用于问答任务,长期记忆模块扮演着知识库的角色,记忆网络的输出是文本回复。我们在一个大规模的问答任务上,以及一个从仿真的世界里生成的小规模但是足够复杂的玩具任务(toy task)上进行评测。在本文的末尾,我们通过链乘支持语句到需要理解动词意图的问答来展示这写模型的推理能力。 1 概述 大多数机器学习模型缺乏一种简单的方式从长期记忆模块中读取或写入,并无缝地结合到推理中。所以,这些方法并没有利用现代计算机的卓越的优势之一。举个例子,考虑一个任务,给定一些事实或者故事的集合,然后需要回答相关的问题。理论上这个任务可以通过语言模型来完成,比如循环神经网络(RNN)

决策树分类回归,ID3,c4.5,CART,及其Python代码

爷,独闯天下 提交于 2020-02-07 00:04:00
决策树分类回归,ID3,c4.5,CART,及其Python代码 决策树模型 内部节点表示一个特征或者属性,叶子结点表示一个类。决策树工作时,从根节点开始,对实例的每个特征进行测试,根据测试结果,将实例分配到其子节点中,这时的每一个子节点对应着特征的一个取值,如此递归的对实例进行测试并分配,直到达到叶节点,最后将实例分配到叶节点所对应的类中。 决策树具有一个重要的性质:互斥并且完备。每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖,这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。 决策树与条件概率分布 决策树将特种空间划分为互不相交的单元或区域,在每个单元上定义了一个类的概率分布,则构成了条件概率分布。分类时,将该节点的实例强行分到条件概率大的那一类中。 决策树学习就是由训练数据集估计条件概率模型的过程。一个数据集可能对应不想矛盾的多个决策树,通常选择使损失函数最小的决策树。通常现实中决策树学习算法采用启发式方法,近似求解这一优化问题,这样得到的决策树是次优的。 学习算法通常是递归的选择最优特征。首先开始构建根节点,然后将所有训练数据放到根节点中,选择一个最优特征,按照这一特征对数据集分割成子集,使得各个子集有一个在当前条件下最好的分类,如果这个子集已经能够被基本正确分类,则构建叶节点,如果还有子集不能正确分类,则对这些子集选择新的最优特征

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

如何理解随机森林RF_随机性的理解

雨燕双飞 提交于 2020-02-05 04:29:59
如何理解随机森林RF 1、RF 1.1 原理   提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:   放回抽样,   多数表决(分类)或简单平均(回归), 基学习器之间属于并列生成,不存在强依赖关系。 引入了随机特征选择: 1、随机选择样本(放回抽样); 随机选择特征是指在树的构建中,会从样本集的特征集合中随机选择部分特征,然后再从这个子集中选择最优的属 性用于划分 2、随机选择特征; 3、构建决策树; 4、随机森林投票(平均)。 RF通常对分类问题使用简单投票法,回归任务使用简单平均法。 1.2 优缺点   随机森林的优点较多,简单总结:   1、在数据集上表现良好,相对于其他算法有较大的优势(训练速度、预测准确度);   2、能够处理很高维的数据,并且不用特征选择,而且在训练完后, 给出特征的重要性 ;   3、容易做成并行化方法。       RF的缺点 :在噪声较大的分类或者回归问题上回过拟合。   参考:   https://blog.csdn.net/qq_28031525/article/details/70207918 来源: CSDN 作者: 御剑归一 链接: https://blog.csdn.net/wj1298250240/article/details/103793003

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征

特征选择方法之信息增益

房东的猫 提交于 2020-01-30 02:34:37
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C

特征选择方法之信息增益

老子叫甜甜 提交于 2020-01-30 02:30:32
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C