决策树

工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

天大地大妈咪最大 提交于 2020-08-16 02:56:03
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。 视频链接 过去我们经常提非结构化数据,其实结构化数据也是现在数据分析的一大方向。比如时序结构,工业上大量的传感器、物联网数据。再就是移动互联网的时空数据,一些观测数据。还有一些序列数据,它跟时序数据不一样,可能并不是连续的,比如一些交易数据,今天取钱,明天去哪儿消费,这些在一些欺诈识别里面非常重要,特别是网络入侵,你做一系列的事件,通常可能导致某个事件的发生,通过一些事件序列,通常可以发现行为异常等。另外一些是Networks网络数据,比如社交网络数据,还有一些合作数据,比如谁和谁通常一起发论文等等。结构化数据也是一个需要深入研究的领域。 以工业为例。工业有什么特点呢,首先是先验知识。工业里面,先验知识比较多,不像我们在互联网里面做推荐,做用户画像,我对用户的一些了解,包括人的认知都是非常宏观。工业里面的都非常微观,比如一些动态方程,一些运行机理,这些知识如果用统计学的联合概率分布等来刻画还是不够充分。而且工业系统通常是一个工控系统

梯度提升树(GBDT)原理小结

大憨熊 提交于 2020-08-15 03:54:11
    在 集成学习之Adaboost算法原理小结 中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习算法的话,个人认为GBDT应该占一席之地。 1. GBDT概述     GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。     在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是$f_{t-1}(x)$, 损失函数是$L(y, f_{t-1

XGBoost算法原理小结

你离开我真会死。 提交于 2020-08-15 03:24:28
    在两年半之前作过 梯度提升树(GBDT)原理小结 ,但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现,但是里面也加入了很多独有的思路和方法,值得单独讲一讲。因此讨论的时候,我会重点分析和GBDT不同的地方。     本文主要参考了XGBoost的 论文 和陈天奇的 PPT 。 1. 从GBDT到XGBoost     作为GBDT的高效实现,XGBoost是一个上限特别高的算法,因此在算法竞赛中比较受欢迎。简单来说,对比原算法GBDT,XGBoost主要从下面三个方面做了优化:     一是算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,还可以直接很多其他的弱学习器。在算法的损失函数上,除了本身的损失,还加上了正则化部分。在算法的优化方式上,GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开,而XGBoost损失函数对误差部分做二阶泰勒展开,更加准确。算法本身的优化是我们后面讨论的重点。     二是算法运行效率的优化:对每个弱学习器,比如决策树建立的过程做并行选择,找到合适的子树分裂特征和特征值。在并行选择之前,先对所有的特征的值进行排序分组,方便前面说的并行选择。对分组的特征,选择合适的分组大小,使用CPU缓存进行读取加速。将各个分组保存到多个硬盘以提高IO速度。     三是算法健壮性的优化

强化学习如何使用内在动机?

别等时光非礼了梦想. 提交于 2020-08-14 12:45:53
本文在回顾内在动机的生理学知识的基础上,探讨了内在动机在强化学习中的应用。 机器之心分析师网络,作者:仵冀颖,编辑:Joni Zhong。 「 内在动机 」 (Intrinsic Motivation) 这一概念最初是在心理学中提出并发展起来的。由于其在制造开放式学习机器和机器人方面的潜力,这一概念正日益受到认知科学的关注。 所谓动机(Motivation)是指生物体的行为受到三个因素影响:(1)不可抗拒的外部影响;(2)内在的需求、动力、计划等;(3)充当目标或动机的外部对象或情况。 第一个因素很大程度上独立于生物体的内部状态,例如,从痛苦刺激中反射性退出,这叫做 外在动机 (Extrinsic Motivation)。后两个因素涉及假设的内部状态,这些内部状态被认为是解释行为的必要条件,称之为 内在动机 。 从心理学的角度分析,研究内在动机的主要目的是解释克服行为主义学习和驱动理论的困难,例如:解释为什么动物会对一些中性刺激(突然的光照、喂食等)产生特定的条件反射等反应。另一方面,研究内在动机的目的是探讨行动在内在动机中的重要性,例如解释一个人设法通过其行为来影响环境或可以自主地设定自己的事实有关的重要性。 Baldassarre 在文献 [1] 中从生物学的角度探讨内在动机。特别地,他对于内在动机和外在动机的区别进行了详细的分析。外在动机是指因某些外部提供的奖励而做某事

get这款工具,不会机器学习也能轻松搞定深度分析

北城以北 提交于 2020-08-14 08:20:24
机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。通过计算机对数据的处理和对算法的运用,实现对业务场景的深度分析,帮助人们更好的做决策。永洪深度分析模块是将机器学习算法封装成节点,用户通过拖拽的方式从而便捷的应用机器学习算法。 如何使用深度分析模块?首先需要安装永洪Desktop,里面会带有深度分析功能,目前可以免费试用3个月。其次根据需要安装R服务环境或Python服务环境,也可以两个都安装。如果不会安装可以查看在线帮助或到官网社区中的产品问答中看相关说明。再次,安装好后,打开Desktop,选择【管理系统】-【系统设置】-【R计算配置/Python计算配置】,如下图1所示。填写服务器地址和端口号,点击测试连接,如果连接正确,右上角会弹出测试成功。最后点击保存连接,至此,深度分析功能就可以使用了。 图1 想要对业务进行深度分析,就需要对机器学习的流程有一定的了解,通常的流程共有8步,如下图2。在永洪的产品中提供了几个常用的深度分析的场景,大家可以打开看看,也可以复用使用。 图2 第一步,问题分析,就是要确定对哪个问题进行分析。例如,对于银行业企业,通常会进行信用卡反欺诈分析、营销策略分析等。对于零售行业,通常会进行销售预测、用户画像分析等。对于政府,可以进行交通预测

机器学习10种经典算法的Python实现

一个人想着一个人 提交于 2020-08-14 03:07:09
广义来说,有三种机器学习算法 1、 监督式学习 工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。 2、非监督式学习 工作机制:在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。非监督式学习的例子有:关联算法和 K – 均值算法。 3、强化学习 工作机制:这个算法训练机器进行决策。它是这样工作的:机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的商业判断。 强化学习的例子有马尔可夫决策过程。 常见机器学习算法名单 这里是一个常用的机器学习算法名单。这些算法几乎可以用在所有的数据问题上: 线性回归 逻辑回归 决策树 SVM 朴素贝叶斯 K最近邻算法 K均值算法 随机森林算法 降维算法 Gradient Boost 和 Adaboost 算法 1、线性回归 线性回归通常用于根据连续变量估计实际数值(房价、呼叫次数、总销售额等)

最大熵模型原理小结

末鹿安然 提交于 2020-08-14 02:44:12
   最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。 1. 熵和条件熵的回顾     在 决策树算法原理(上) 一文中,我们已经讲到了熵和条件熵的概念,这里我们对它们做一个简单的回顾。     熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下: $$H(X) = -\sum\limits_{i=1}^{n}p_i logp_i$$     其中n代表X的n种不同的离散取值。而$p_i$代表了X取值为i的概率,log为以2或者e为底的对数。     熟悉了一个变量X的熵,很容易推广到多个个变量的联合熵,这里给出两个变量X和Y的联合熵表达式: $$H(X,Y) = -\sum\limits_{x_i \in X}\sum\limits_{y_i \in Y}p(x_i,y_i)logp(x_i,y_i)$$     有了联合熵,又可以得到条件熵的表达式H(Y|X),条件熵类似于条件概率,它度量了我们的Y在知道X以后剩下的不确定性

08_提升方法_AdaBoost算法

▼魔方 西西 提交于 2020-08-13 06:41:27
  今天是2020年2月24日星期一。一个又一个意外因素串连起2020这不平凡的一年,多么希望时间能够倒退。曾经觉得电视上科比的画面多么熟悉,现在全成了陌生和追忆。 GitHub: https://github.com/wangzycloud/statistical-learning-method 提升方法 引入   提升方法是一种常用的统计学习方法,还是比较容易理解的。在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,从而提高分类的性能。 其实说白了,就是一个人干不好的活,我让两个人干;两个人干不好,那就三个人四个人都来干。 但是人多了不能像三个和尚那样没水喝,都不干活。包工头要采取一些措施,措施一:一个人干活的时候,哪里干的不好?就让第二个人补充在这个地方;两个人干活的时候,哪里干的不好?就让第三个人补充在这个地方。措施二:这三四个人在同一个地方干活,怎样确定这个活的结果干的好不好呢?有的人干活细致认真,自然对结果增益大;干活粗糙的,对结果增益不多,因此需要有一种组合策略进行判断。通过几个人共同努力,就解决了一个人干不好的事情。   接下来的内容,将按照书中顺序,先介绍提升方法的思路和代表性的提升算法AdaBoost;再从前向分步加法模型角度解释AdaBoost;最后看一个具体实例—提升树。 提升方法AdaBoost算法  

零起点PYTHON机器学习快速入门 PDF |网盘链接下载|

这一生的挚爱 提交于 2020-08-12 15:48:31
点击此处进入下载地址 提取码:2wg3 资料简介: 本书采用独创的黑箱模式,MBA案例教学机制,结合一线实战案例,介绍Sklearn人工智能模块库和常用的机器学习算法。书中配备大量图表说明,没有枯燥的数学公式,普通读者,只要懂Word、Excel,就能够轻松阅读全书,并学习使用书中的知识,分析大数据。本书具有以下特色:独创的黑箱教学模式,全书无任何抽象理论和深奥的数学公式。首次系统化融合Sklearn人工智能软件和Pandas数据分析软件,不用再直接使用复杂的Numpy数学矩阵模块。系统化的Sklearn函数和API中文文档,可作为案头工具书随时查阅。基于Sklearn Pandas模式,无须任何理论基础,全程采用MBA案例模式,懂Excel就可看懂。 资料目录: 第 1 章 从阿尔法狗开始说起1 1.1 阿尔法狗的前世今生.......1 1.2 机器学习是什么.....2 1.3 机器学习大史记.....3 1.4 机器学习经典案例......... 11 第 2 章 开发环境......13 2.1 数据分析首选 Python.....13 2.2 用户运行平台.......18 2.3 程序目录结构.......19 2.4 Spyder 编辑器界面设置.20 2.5 Python 命令行模式.........26 2.6 Notebook 模式......27 2.7

无脑带你遍历用户生命价值与流失挽救(下):流失分析与产品化

假如想象 提交于 2020-08-12 05:14:50
前言: 第一篇是从用户生命周期出发,用一个短视频的案例来做分析,阐述了用户价值体系。 本文下篇,将从价值与流失的分析角度来做一些分享。本文涉及到的知识点有:用户生命周期、流量方向的分析方法论、用户分群、用户挖掘、算法、渠道归因、拉新、端承接、运营、产品等。除了遍历这些知识外,文章的核心部分是关于两个数据产品的(关于数据产品方向文章没有做更多阐述)。 用户水池与流失 关于流失与召回,这个是长久不衰的一个话题。在业务活动中,涉及到的角色还是蛮多的,比如产品角色、运营角色、数据分析角色、甚至渠道市场角色都有。 本文将从数据分析的角度来探索一个关于流失的业务场景,以及通过驱动运营、投放等一系列的动作来应对流失挽救,这些落地就成为一个系统化的工作。 曾经繁荣的第三方应用市场,这几年前来逐渐走向没落。从百度巨资吞了 91 助手,到应用手机厂商崛起达到顶峰,整个应用市场已经经历过多轮洗牌。 “荚,再见!豌豆荚、PP 助手宣布下架,从此再无免费软件?” 你是否还记得豌豆荚这些应用?它们也曾在繁华的第三方应用市场里激起过一点浪花。 到现在,不管是应用宝、360 手机助手、华为、小米等应用商店,都在构建自己的城池。 记得在 2016 年左右一个拓新的成本从之前的几块钱升到 10 块钱、最高时能到几十元,留住老用户或许一条短信、一点积分、活动就可以,相对的成本是很低廉的。从用户生命周期与成本来讲