决策树

机器学习常见算法

强颜欢笑 提交于 2021-02-14 12:56:11
一 线性回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10690191.html 二 逻辑回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10697596.html 三 k-近邻算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10698121.html 四 决策树 链接:https://www.cnblogs.com/LUOyaXIONG/p/10705304.html 五 随机森林 链接:https://www.cnblogs.com/LUOyaXIONG/p/11528575.html 六 支持向量机 链接:https://www.cnblogs.com/LUOyaXIONG/p/10686824.html 七 朴素贝叶斯 链接:https://www.cnblogs.com/LUOyaXIONG/p/10702288.html 八 EM算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10703120.html 九 Adaboost 链接:https://www.cnblogs.com/LUOyaXIONG/p/10951438.html 十 GBDT 链接:https://www.cnblogs.com/LUOyaXIONG

常见机器学习算法背后的数学

三世轮回 提交于 2021-02-14 12:13:45
不同的机器学习算法是如何从数据中学习并预测未见数据的呢? 机器学习算法是这样设计的,它们从经验中学习,当它们获取越来越多的数据时,性能就会提高。每种算法都有自己学习和预测数据的方法。在本文中,我们将介绍一些机器学习算法的功能,以及在这些算法中实现的有助于学习过程的一些数学方程。 机器学习算法的类型 机器学习算法大致可以分为以下四类: 监督学习:预测的目标或输出变量是已知的。这些算法生成一个函数,该函数将输入映射到输出变量。回归和分类算法属于这一类。在回归中,输出变量是连续的,而在分类中,输出变量包含两个或更多的离散值。一些监督学习算法包括线性回归,逻辑回归,随机森林,支持向量机,决策树,朴素贝叶斯,神经网络。 无监督学习:目标或输出变量是未知的。这些算法通常对数据进行分析并生成数据簇。关联、聚类和维数约简算法属于这一类。K-means聚类、PCA(主成分分析)、Apriori算法等是非监督学习算法。 半监督学习:它是监督和非监督学习方法的结合。它使用已知数据来训练自己,然后标记未知数据。 强化学习:机器或代理被训练从“试错”过程中学习。机器从过去的决策经验中学习,并利用它的学习来预测未来决策的结果。强化学习算法的例子有Q-Learning, Temporal Difference等。 线性回归 线性回归是通过拟合数据点上的最佳直线来预测连续变量的结果

清华大学王奕森:Adversarial Machine Learning: Attack and D

倖福魔咒の 提交于 2021-02-12 21:28:29
本文作者:HelloDeveloper 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第六期“机器学习”专场已于2019年6月23日下午在中科院举行。清华大学王奕森为大家带来报告《Adversarial MachineLearning: Attack and Defence》。 Yisen Wang obtained his Ph.D. degree from the Department of Computer Science and Technology at Tsinghua University. He is also a visiting scholar at Georgia Tech

数据挖掘相关知识介绍

人盡茶涼 提交于 2021-02-07 06:19:16
1、数据挖掘定义 把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。 2、数据挖掘的分类 按照数据库种类:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘。 按知识类别来分:关联、特征描述、分类分析、聚类分析、趋势、偏差分析。 按知识抽象层次:一般文化知识、初级知识、多层次知识。 3、数据挖掘常用技术 人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习模式识别。 决策树:代表决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 紧邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据进行规则寻找和推导。 4、数据挖掘和数据仓库的关系 数据挖掘的关键在于通过访问正确、完整、集成的数据,才能进行深层次的分析,寻求有益的信息。数据仓库是提供数据的源头,并且数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果两者结合起来可以实现数据的有效联结,可以给数据挖掘带来便利和功能。 5、数据挖掘技术的应用过程 确定挖掘对象:要清晰定义挖掘对象、认清数据挖掘的目标。 准备数据:根据确定的挖掘对象,然后搜索所有与业务对象有关的内部和外部数据

给女朋友买了只口红,结果她跟我说分手?掌握了机器学习再买买买吧!

↘锁芯ラ 提交于 2021-02-04 02:39:40
过完年,压岁钱到位,迟来的年终奖到账,钱包鼓起来但新的节日也不断跟上,情人节、元宵节、妇女节…… 说到底,还不是要买买买? 淘宝上的店铺又多又杂乱,一旦买错了, 面临的就是“女 ” 朋友的“果真直男审美 ” 的diss,或者人财两空的局面 接下去,来看看用机器学习技术如何甄别优质店铺,让你买到就是赚到! 分三步走: 第一步:找到阿里给出的店铺评价历史信息,分为训练集数据和测试集数据; 第二步:利用训练集数据构建机器学习模型; 第三步:使用测试集数据进行准确率判断并优化。 如此便可以建立一个相对科学的靠谱店铺预测模型。 首先,从阿里云天池开一份包含2000家店铺的评分,等级,评论等信息和数年交易记录的数据: 通过这份数据, 我们可以构建一套模型,根据店铺的访问、购买信息等数据,来评测该店铺是否为优质店铺。 一部分数据将用来作为训练集,另一部分数据会用来测试已经训练好模型的精确度。但训练的时候并不是精确度越高越好,过拟合和欠拟合都不是好事情。 欠拟合指模型没有很好地捕捉到数据特征,不能够很好地拟合数据: 过拟合通俗一点地说就是模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差: 随后,完成了清理整合等预处理工作,得到了一份适合建模使用的样本数据: *完整代码可以在文末获取。考虑这份数据比较粗糙

区块链2021狂想曲:迎接以技术为名的春天

拜拜、爱过 提交于 2021-02-03 21:22:46
  刚刚过去的2020年,很多科技名词都真正走到了老百姓的日常生活之中。我们习惯了刷脸支付,通过时空大数据了解疫情动态,感受着智能体温检测、无接触式机器人服务、智慧政务等带来的便捷,不吝于为这些新技术送上溢美之词。   但一提到区块链,社交群里最活跃的话题依然是——“你知道吗,某数字币暴涨了六倍!”   必须承认的是,代币由乱到治的过程中,区块链技术与大众生活和产业应用之间依然有着厚厚的“次元壁”。   另一方面,区块链也作为“核心技术自主创新的重要突破口”,进入了探寻自有价值、进入产业化赋能的全新阶段。   站在2021年初始,我们不仅想知道在过去一整年里,区块链实际落地应用的情况究竟怎么样。更想尝试回答,走过了代币、合约的区块链在新基建风口上,会以何种姿势扬帆远航。   洗尽铅华呈素姿:   时代风向中的价值回归   2020年,区块链领域最明显的特征,就是主流市场没有再延续“币圈”的老套路,开始回归技术本位的价值主张。   具体来说,有两个明显的变化,一是政策方面,区块链得到了国家层面的重视和力挺,被加入了新基建技术版图,拿下了关键的“基础分”;   另一个趋势则是产业方面。BAT等互联网科技公司不再单纯地“占坑”和观望,纷纷有了更加清晰明快的布局与动作。蚂蚁集团正式发布了蚂蚁链,百度亮出了超级链,腾讯至信链的产业落地也在加速……其他有实力的科技企业也都开始拥抱区块链。  

机器学习的基础图表

余生长醉 提交于 2021-02-03 12:05:00
四大会计师事务所之一的普华永道(PwC)发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。为便于读者阅读,机器之心对这些图表进行了编译和拆分,分三大部分对这些内容进行了呈现,希望能帮助你进一步扩展阅读。 一、机器学习概览 1. 什么是机器学习? 机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习和人工智能的关系 机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。 3. 机器学习的工作方式 ①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据 ②模型数据:使用训练数据来构建使用相关特征的模型 ③验证模型:使用你的验证数据接入你的模型 ④测试模型:使用你的测试数据检查被验证的模型的表现 ⑤使用模型:使用完全训练好的模型在新数据上做预测 ⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现 4. 机器学习所处的位置 ①传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果 ②统计学:分析师比较变量之间的关系 ③机器学习

决策树

人盡茶涼 提交于 2021-02-01 11:36:46
概要 决策树也是我们经常使用的样本归类算法。简单来说,它就是 if-else 的判断集合,本文就详细介绍其原理,还有例子实现。依然参考《机器学习实战》。 基本理论 决策树是通过一系列规则对数据进行分类的过程。 决策树利用了概率论的原理,不断地将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止。并且利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。 决策树是一种贪心算法 ,要在给定时间内做出最佳选择,但并不关心能否达到最优。 ###决策树的实现 决策树的实现主要分为三个步骤: 特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。 决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止。 剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。 划分数据集的最大原则是: 使无序的数据变的有序 。如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化划分方法有多重,其中一项就是“信息论度量信息分类”

50经典面试题 | 附参考答案

亡梦爱人 提交于 2021-01-31 01:46:03
点击上方 “ AI算法与图像处理 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源:计算机视觉研究院专栏 作者:Edison_G 有兴趣的同学请学会面试答题!祝大家都可以拿到心仪的Offer! 1、请详细说说支持向量机(support vector machine,SVM)的原理 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 2、哪些机器学习算法不需要做归一化处理? 在实际应用中,需要归一化的模型: 1.基于距离计算的模型:KNN。 2.通过梯度下降法求解的模型:线性回归、逻辑回归、支持向量机、神经网络。 但树形模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、随机森林(Random Forest)。 3、树形结构为什么不需要归一化? 因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。 按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。 4、在k

通俗得说线性回归算法(二)线性回归实战

萝らか妹 提交于 2021-01-24 02:47:27
前情提要: 通俗得说线性回归算法(一)线性回归初步介绍 一.sklearn线性回归详解 1.1 线性回归参数 介绍完线性回归,那么我们来看看如何运用sklearn来调用线性回归模型,进行训练和预测。 def LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None ) - fit_intercept:默认为true,参数意思是说要不要计算此模型的截距。 如果设置为False,则不会在计算中使用截距。 - normalize:正则化,默认是false。 - copy_X:默认是true,会复制一份x,否则会覆盖掉原有的x。 - n_jobs:指定多少个CPU进行运算,默认是None,表示1。如果设置为-1则表示使用全部cpu。 1.2 线性回归例子 import numpy as np from sklearn.linear_model import LinearRegression X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]) # y = 1 * x_0 + 2 * x_1 + 3 y = np.dot(X, np.array([1, 2])) + 3 reg = LinearRegression().fit(X, y) reg