监督学习

人工智能、机器学习及深度学习的起源和发展

阅读更多关于人工智能、机器学习及深度学习的起源和发展

人工智能、机器学习及深度学习的起源和发展发展时间线第一阶段：人工智能起步期 1956—1980s 1956达特茅斯会议标志AI诞生 1957神经网络Perceptron被罗森布拉特发明 1970受限于计算能力，进入第一个寒冬第二阶段：专家系统推广 1980s—1990s 1980 XCON专家系统出现，每年节约4000万美元 1986 BP ，Geoffrey Hinton提出了前馈算法，一个通过对输入数据按照重要进行排序的精准神经网络。 1989 卷积，Yann LeCun写了另外一篇旷世之作，描述了卷积神经网络。这些发现突破了计算机难以解决的问题，譬如从一张照片中找到一只猫。 1990——1991 人工智能计算机DARPA没能实现，政府投入缩减，进入第二次低谷 1997 IBM的DeepBlue战胜国际象棋冠军 1997 Schmidhuber发明了长短期记忆网络（LSTM）第三阶段：深度学习 2000s—至今 2006 Hinton提出“深度学习”的神经网络 2011 苹果的Siri问世，技术上不断创新 2012 Google无人驾驶汽车上路（2009年宣布） 2012年，计算机视觉界顶级比赛ILSVRC中，多伦多大学Hinton团队所提出的深度卷积神经网络结构AlexNet一鸣惊人，同时也拉开了深度卷积神经网络在计算机视觉领域广泛应用的序幕。成功原因大量数据，

监督学习与非监督学习的区别

阅读更多关于监督学习与非监督学习的区别

以下是摘抄自知乎上对监督学习与非监督学习的总结，觉得写得很形象，于是记下：这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习首先看什么是学习（learning）？一个成语就可概括：举一反三。此处以高考为例，高考的题目在上考场前我们未必做过，但在高中三年我们做过很多很多题目，懂解题方法，因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似：我们能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（高考的题目）？最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning）了，也即聚类（clustering）。（但有监督学习并非全是分类，还有回归（regression），此处不细说。（哇擦，贵圈太乱，逼着我用了这么多括号））

机器学习笔记二：监督学习应用——梯度下降法

阅读更多关于机器学习笔记二：监督学习应用——梯度下降法

注：以下所有内容均来自网易公开课Andrew Ng的机器学习课程第二课主要讲以下三个方面的内容 1、linear regression（线性回归） 2、Gradient descent（梯度下降） 3、Normal equations（正规方程组） Linear regression notation: 　　m = 训练样本数目　　x = 输入变量（特征）　　y = 输出变量（目标变量）　　(x, y) = 样本　　h(x) = 预测函数线性回归的一般步骤：根据训练集合生成学习算法，构造假设函数，最后根据输入的x得出输出y 对于梯度下降算法，构造函数J(theta)，线性回归的目的就是找到一组参数theta使得J(theta)取得最小值有许多算法可以实现 J(theta) 取最小值核心思想是先设置theta的一个初始值，我们需要样本来一步步修正theta的初始值, 下面介绍两种算法 Gradient Desecent（梯度下降算法）其中 α 是梯度下降的步长以上推导是对一个样本进行迭代，通常我们通过多样本反复迭代修正theta的值，所以最终一次迭代公式如下：以上称为batch gradient desecent算法，适用于样本数量比较少的情况。样本数量庞大的时候，改进的梯度算法称为 stochastic gradient descent (also

朴素贝叶斯分类算法

阅读更多关于朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。（1）分类：给数据贴标签，通过分析已有的数据特征，对数据分成几类，已知分类结果。然后引入新数据对其归类。分类可以提高认知效率，较低认知成本。（2）聚类：不知分类结果，通过数据一定的相似性，把那些相似的数据聚集在一起。简述什么是监督学习与无监督学习。监督学习：（1）每个实例都是由一组特征和一个类别结果。（2）用有标注的数据训练模型，并产生一个推断的功能。（3）对于新的实例，可以用于映射出该实例的类别. 无监督学习：（1）我们只知道一些特征，并不知道答案（2）但不同实例具有一定的相似性（3）把那些相似的聚集在一起 2.朴素贝叶斯分类算法实例利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数目标分类变量疾病：–心梗–不稳定性心绞痛新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7) 最可能是哪个疾病？上传演算过程。来源： https://www.cnblogs.com/nuan-z/p/9979463.html

1. 2 监督学习

阅读更多关于 1. 2 监督学习

个人随感，不可轻信，如有意见，欢迎指点。统计学习包括监督学习、非监督学习、半监督学习及强化学习。 1.2.1 监督学习监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测，计算机的基本操作就是给定一个输入，产生一个输出。 1.2.1 基本概念： 1、输出空间、特征空间与输出空间在监督学习中，将输入与输出所有可能取值的集合分别称为输入空间与输出空间，输入与输出空间可以是有限元素的集合，也可以是整个欧式空间，输入空间与输出空间可以是同一个空间，也可以是不同的空间，但通常输出空间远远小于输入空间。每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示，这时，所有的特征向量存在的空间称为特征空间（feature space）。特征空间的每一维对应于一个特征。在监督学习过程中，将输入与输出看做是定义在输入（特征）空间与输出空间上的随机变量的取值，输入、输出变量用大写字母表示，习惯上输入变量写作 X,输出变量写作 Y，变量可以是标量或向量，都用相同类型字母表示，输入实例 x 的特征向量记作： x = (x^(1),^, x ^(2)^, …… x^(n)^ ) ^T^ 输入空间可以看做由 n 维特征构成的空间，如输入有两个特征组成，那么输入空间就可以看成由 x 和 y 轴构成的二维平面

阅读更多关于监督学习

1 监督学习　　利用一组带标签的数据, 学习从输入到输出的映射 , 然后将这种映射关系应用到未知数据, 达到分类或者回归的目的　　(1) 分类: 当输出是离散的, 学习任务为分类任务　　　　　　　　输入: 一组有标签的训练数据(也叫观察和评估), 标签表明了这些数据(观察)的所属类别, 图中"猫"和"狗"就是标签　　　　输出: 分类模型根据这些训练数据, 训练自己的模型参数, 学习出一个适合这组数据的分类器, 当有新数据(非训练数据)需要进行类别判断, 就可以将这组数据作为输入送给学习好的分类器进行判断(得到标签) 　　　　训练集: 训练模型已经标注的数据, 用来建立模型发现规律　　　　测试集: 已标注的数据, 只不过把标注隐藏了, 再送给训练好的模型, 比对结果与原来的标注, 评判该模型的学习能力　　　　　　一般来说, 获得了一组标注好的数据, 70%当做训练集, 30%当做测试集 , 另外还有交叉验证法, 自助法来评估学习模型　　　　评价标准　　　　　　1) 准确率　　　　　　　　所有预测对的　　　　　　　　把正类预测成正类(TP) 　　　　　　　　把负类预测成负类(TN) 　　　　　　　　准确率 = (TP+TN)/总数量　　　　　　2) 精确率　　　　　　　　以二分类为例　　　　　　　　预测为正的样本是真的正样本　　　　　　　

【分类算法】K-NN

阅读更多关于【分类算法】K-NN

目录 K-NN的定义 K-NN的注意事项 K-NN 与K-Means 代码实现总结 K-NN的定义今天，我们来分享一个“街知巷闻”入门级别的分类算法 —— K-NN 。相信提到这个词的时候小伙伴们都有：噢~是它。这里题外话一下，为什么说K-NN是“街知巷闻”入门级别呢？其实他有如下特点：算法思想非常简单对数学以来少，非常适合初学者虽然它的体量小，却可以走完监督学习的整个流程可以通过它来入门监督学习，然后扩展其他算法首先说一下，K-NN属于分类算法，那么分类算法是属于监督学习。所以K-NN是监督学习算法，它需要带label的数据。关于分类和聚类，我在过去的文章有讲过，大家可以回看一下。什么是分类算法？ / 什么是聚类算法？那么到底什么是K-NN呢？看过过去文章的都知道，我比较喜欢通过拆解算法名字来初步理解算法是做什么的。K-NN，全称叫做：K-Nearest Neighboors，中文翻译：K-最近的邻居们。假设我们的数据如下图，有很多个点。首先解释 Nearest 的，看到远近就应该想到距离。那么常用的距离计算方式我们有欧式距离、马氏距离、名氏距离甚至绝对值距离也是OK的。而 Neighboors 就是邻居们的意思。但在数据里面，我们一般用点来表示。所以也可以理解为是附近的点。那么K是一个正数，它代表多少个点。所以整个K-NN的理解就是： K个最近的邻居点

从机器学习谈起

阅读更多关于从机器学习谈起

本文原地址 https://www.cnblogs.com/subconscious/p/4107357.html 拜读原文之后，无比喜欢，怕以后找不到，所以转载，大家喜欢可以去看原文，真的很精彩。从机器学习谈起　　在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。　　在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢？　　我并不直接回答这个问题前。相反，我想请大家看两张图，下图是图一：图1 机器学习界的执牛耳者与互联网界的大鳄的联姻　　　　这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授，如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授，如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉，Andrew Ng，中文名吴恩达，斯坦福大学副教授，如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛，被互联网界大鳄求贤若渴的聘请，足见他们的重要性。而他们的研究方向

机器学习（4）之决策树

阅读更多关于机器学习（4）之决策树

文章目录 1 比特化(Bits) 2 信息熵 2.1 信息量 2.2 信息熵的意义 2.3 条件熵 3 决策树的概念 3.1 决策树的构建 3.2 决策树的特征属性 3.3 决策树分割属性 3.4 决策树量化纯度 3.5 决策树的停止条件 3.6 决策树算法效果的评估 4 ID3算法 5 C4.5算法 6 CART算法 7 分类树和回归树 8 决策树的优化策略 8.1 剪枝优化 9 总结 1 比特化(Bits) 假设现在随机变量X具有m个值，分别为: V 1 ,V 2 ,…,V m ；并且各个值出现的概率: P(X=V 1 )=p 1 ,P(X=V 2 )=p 2 , P(X=V 3 )=p 3 …P(X=V m )=p m 可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息: 2 信息熵 H(X)就叫做随机变量X的信息熵。 2.1 信息量指的是一个样本/事件所蕴含的信息，如果一个事件的概率越大，那么就可以认为该事件所蕴含的信息越少。极端情况下，比如：“太阳从东方升起”，因为是确定事件，所以不携带任何信息量。 2.2 信息熵的意义信息熵就是用来描述系统信息量的不确定度。一个系统越是有序，信息熵就越低，一个系统越是混乱，信息熵就越高，所以信息熵被认为是一个系统有序程度的度量。 High Entropy(高信息熵) ：表示随机变量X是均匀分布的

什么是机器学习

阅读更多关于什么是机器学习

原文链接： https://www.cnblogs.com/lsgsanxiao/p/6955502.html 机器学习入门好文，强烈推荐（转）转自飞鸟各投林史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读：在本篇文章中，将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。当然，本文也面对一般读者，不会对阅读有相关的前提要求。在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢？我并不直接回答这个问题前。相反，我想请大家看两张图，下图是图一：图1 机器学习界的执牛耳者与互联网界的大鳄的联姻这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授，如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授，如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉，Andrew Ng，中文名吴恩达，斯坦福大学副教授，如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛，被互联网界大鳄求贤若渴的聘请，足见他们的重要性。而他们的研究方向，则全部都是机器学习的子类-- 深度学习。下图是图二：图2

订阅监督学习