监督学习

2 监督学习与非监督学习

不想你离开。 提交于 2019-12-06 16:55:24
2 机器学习算法 2.1 监督学习 首先给出一个例子来解释什么是监督学习,后面将给出更加正式的定义。假设你想预测房价(无比需要啊。。。。),某个学生从某地收集了数据集,其中一个数据集是这样的。横坐标是房子的面积(平方英尺为单位),纵坐标是房子的价格(单位千美元)。 假设你的朋友有个750平方米的房子,想要知道能够卖多少钱。学习算法怎么可以帮助你呢?一种方法是学习算法可以绘制一条直线,使这条直线尽可能的匹配到所有数据,从下图可以看出,可能能够买到15万刀(一平米两千刀,看来人家的房价也不低啊。。。。)。 直线可能并不是最好的方法,可能会有更好的,在房价预测的例子中,可能一个二元函数能够更好的匹配所有数据,即二次多项式更加符合数据集,如果你这样做,预测结果就应该是20万刀(我去,还让人活吗???)。后面会介绍怎么决定是选择线性函数还是二次函数来拟合数据。 监督学习意指给一个算法一个数据集,在这个数据集中正确的答案已经存在了(supervised learning refers to the fact that we gave the algorithm a data set in which the "right answers" were given.)。比如给定房价数据集,对于里面的每一个例子,算法都知道正确的房价,即这个房子实际卖出的价格,算法的结果就是计算出更多的正确的价格

监督学习简介

落花浮王杯 提交于 2019-12-06 16:54:51
监督学习简介 基本定义 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。 基本概念 1. 输入空间、特征空间和输出空间 输入空间与输出空间可以是同一个空间,可以是不同的空间,但通常输出空间要远小于输入空间。每个具体的输入是一个实例(instance),由特征向量(feature vector)表示,这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。模型实际上都是定义在特征空间上的。 输入变量与输出变量均为连续的变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输入变量与输出变量均为变量序列的预测问题称为标注问题。 2. 联合概率分布 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)(可以表示为分布函数,也可以表示为分布密度函数)。在学习过程中,假定这一联合概率分布存在,但对于学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布的产生的(每一个训练实例或者测试实例都是独立同分布的)。这是监督学习关于数据的基本假设。 3. 假设空间 模型属于由输入空间到输出空间的映射集合(也不同于特征空间,有的时候,特征空间也可以看作是输入空间)

监督学习和无,监督学习区别

大憨熊 提交于 2019-12-06 16:50:28
开始学习ML,真是难为自己的低智商了~ 一翻书就遇到一个概念问题:何为监督学习?与无监督学习的区别? 因为自己刚刚开始学ML,所以可能解释的会有些不当。(集齐了各种网上答案) 首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)? 所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 然后,我们来看看监督学习,我们的目标是学习从输入到输出的映射关系,其中 输出的正确值 已经由指导者提供。这里应该突出 输出(和无监督学习的区别之处) ,我们给定的数据除了输入,我们同时也提供了一组对应的输出值。我们学习输入和输出之间的某种关系,然后我们根据这种关系来对其他的输入进行判断,得到一组输出。举个简单的例子:在二维坐标轴内,我给你许多个点(xi,yi),让你根据所给的点拟合出一个函数,最后,我问你x=a时候,对应的y值应该为多少?在这里x是输入,而y是输出。 无监督学习,我们只有输入数据,我们的目标是发现输入数据中的规律

监督学习

不打扰是莪最后的温柔 提交于 2019-12-06 16:48:06
Q:监督学习的流程是什么样的? 监督学习过程图示: 首先我们需要带有标签的数据,接着,通过特征工程来提取特征形成特征向量。然后,我们会选择模型,相当于选择某一个目标函数,那有了一个目标之后,就可以使用优化算法来优化目标函数。这些算法一般都可以调用工具来使用。这样我们便得到了一个预测结果。如果预测结果不好怎么办呢?我们会从头开始,在每一个部分都作一些调节,一般我们算法工程师做的事情就是循环过程。其中最重要的而且最花费时间其实是特征工程。 Q:什么是端到端的学习呢? 我们知道最花费时间其实是特征工程,那能不能去掉这个步骤呢?很多深度学习的过程就是端到端的过程,比如图像识别,比如语音识别,我们直接输入数据,通过深度学习来建模,让神经网络来直接学习有用的特征。但是不是所有领域都适合用这种方法。 Q:常用的监督学习模型有哪些? 线性回归:给定一匹数据,找到一条线来拟合。 逻辑回归:经常用于二分类问题,找到一条线来很好地区分开两个类别。 朴素贝叶斯:应用了朴素贝叶斯原理,用于文本分类比较多,比如垃圾邮件过滤。 SVM:找到一个决策边界,使其到支持向量点的距离最大,这里面涉及到的数学知识很多,分类效果在深度学习应用火起来之前算是最好的。 随机森林:很多决策树的集合。 cnn,rnn: 最常用的深度学习模型。 Q:如何应用这些常见的模型? 在机器学习库sklearn里一般都可以直接调用

2、什么是监督学习

只愿长相守 提交于 2019-12-06 16:45:17
本文属于学习笔记,依据(微信公众号:jack床长)的文章整理 博客链接:http://blog.csdn.net/jiangjunshow 开始记笔记 要详细解释什么是监督学习,那么先要明白“什么是学习?”。一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,由此学会了解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们利用一些训练数据(高中的大量题库),使机器能够总结出一些规律(总结出解题方法),然后用这些规律来分析未知数据(用解题方法来解答高考题目)。 分类( classification )这种机器学习算法就是一种监督学习。对于分类,输入的训练数据有特征( feature ),有标签( label )。也就是我们前面文章中的输入 x 和输出 y 。每一个 x 样本都对应着一个 y (输出)标签。 所谓的学习,其本质就是找到特征和标签间的关系( mapping ),也就是找规律。 这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签,即根据新数据进行预测。在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习( supervised learning )。如果数据没有标签,显然就是无监督学习( unsupervised learning ),即聚类(

机器学习入门:监督学习与无监督学习

杀马特。学长 韩版系。学妹 提交于 2019-12-06 16:45:05
机器学习: 学习的过程就是举一反三的过程。 例如,中学阶段通过做大量的练习题,为的就是在高考解决问题。高考的题目一般来说是之前肯定没有遇到过的,但是这并不意味着这些题目我们无法解决。通过对之前所做过的练习题的分析,找到解题方法,同样可以解决陌生的题目。 机器学习其实就是将这一套方式运用到机器上,利用一些已知的数据来训练机器(做练习题),让机器自己分析这些数据,并找到内在联系(学习解题方法),从而对未知的数据进行预测判定等(做高考题)。 百度百科定义如下: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 监督学习: 监督学习(Supervised Learning),用上述例子来解释,就是高考前所做的练习题是有标准答案的。在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 对于机器学习来说,监督学习就是训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系

什么是监督学习?如何理解分类和回归?

杀马特。学长 韩版系。学妹 提交于 2019-12-06 16:44:12
本文首发在 easyAI —— 人工智能知识库 什么是监督学习? 监督学习是机器学习中的一种 训练方式/学习方式 : 监督学习需要有明确的目标,很清楚自己想要什么结果 。比如:按照“既定规则”来分类、预测某个具体的值… 监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程: 选择一个适合目标任务的数学模型 先把一部分已知的“问题和答案”(训练集)给机器去学习 机器总结出了自己的“方法论” 人类把"新的问题"(测试集)给机器,让他去解答 上面提到的问题和答案只是一个比喻,假如我们想要完成文章分类的任务,则是下面的方式: 选择一个合适的数学模型 把一堆已经分好类的文章和他们的分类给机器 机器学会了分类的“方法论” 机器学会后,再丢给他一些新的文章(不带分类),让机器预测这些文章的分类 监督学习的2个任务:回归、分类 监督学习有2个主要的任务: 回归 分类 **回归:预测连续的、具体的数值。**比如:支付宝里的芝麻信用分数(下面有详细讲解) **分类:对各种事物分门别类,用于离散型( 什么是离散? )预测。**比如: 「回归」案例:芝麻信用分是怎么来的? 下面要说的是个人信用评估方法—— FICO 。 他跟芝麻信用类似,用来评估个人的信用状况。FICO 评分系统得出的信用分数范围在300~850分之间,分数越高,说明信用风险越小。 下面我们来模拟一下 FICO 的发明过程

1.2-什么是监督学习

别等时光非礼了梦想. 提交于 2019-12-06 16:39:39
这篇文章将会介绍一下什么是 监督学习(Supervised Learning) ? 在正式给监督学习下定义之前,我先用一个例子来理解一下。 假设我们闲着没事,想要卖掉房子?,但是不相信黑心中介的报价,这个时候我们就要学会自己来预测房价。 首先我们需要收集一堆房价的数据,把这些数据画出来,就像下图⤵️ 横坐标表示房子面积,纵坐标表示房价 ❌表示真实的数据,可以在这组数据中,画出一条直线,根据这条直线,我们可以预测出 750 平方英尺的房子,大概可以卖 $150,000。 当然,这不是唯一的算法,如果你嫌价格太低,也可以拟合出一条曲线(只要你开心),那个拟合效果可能会更好。 以上就是一个监督学习的例子。 可以看出来,监督学习就是我们给学习算法一个已知的数据集,例子中每个房子的价格是明确的;算法根据这些数据算出更多结果,即房子的价格。 ?房子的价格是一个连续值,术语管这叫做 回归(Regression)问题 。 理解 回归 这个词很有必要,它针对的是连续值。 我再举一个**分类(Classification)**的问题,它也属于监督学习一种。 假设你得了乳腺肿瘤,那么肯定很在意恶性的还是良性的。 在下面的数据中,横坐标表示肿瘤大小,纵坐标 0 表示良性,1 表示恶性。 红色表示恶性,蓝色表示良性 假设你们的肿瘤大概这么大,那么在这个例子中,机器需要估算出肿瘤是恶性的或是良性的概率

机器学习入门科普:监督学习和无监督学习都是什么?都能干什么?

自古美人都是妖i 提交于 2019-12-06 16:38:46
导读: 学习究竟是什么? 简单来说,学习是在外部刺激下记住大部分以往的经验,从而能够实现改变的能力。 因此,机器学习是一种工程方法,对于增加或提高自适应变化的各项技术都十分重要。例如,机械手表是一种非凡的工件,但其结构符合静止定律,当外部变化发生变化时会变得没有任何用处。 学习能力是动物特别是人特有的,根据达尔文的理论,它也是所有物种生存和进化的关键要素。 机器虽然不能自主进化,但似乎也遵循同样的规律。 ▲自适应系统的示意图 Adaptive System: 适应系统 Parameter tuner/ trainer: 参数调整/训练器 Input elements: 输入元素 Feedback: 反馈 Output elements: 输出元素 Enviornment: 环境 机器学习的主要目标是学习、策划和改进数学模型,该数学模型可以使用由环境提供的相关数据进行一次或连续多次的训练得到,利用该数学模型推断未来并做出决定而不需要所有影响因素 (外部因素) 的全部知识。 换句话说,agent (从环境中接收信息的软件实体,选择达到特定目标的最佳行动并观察其结果) 采用统计学习方法,通过确定正确的概率分布,来预测最有可能成功 (具有最小错误) 的动作 (值或决策) 。 我更喜欢使用术语 推断 而不是 预测 ,只是为了避免把机器学习看成是一种现代魔法 (这种看法但并不罕见) 。此外

监督学习最常见的四种算法

北战南征 提交于 2019-12-06 16:37:53
在 机器学习 中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(Supervised learning)就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。 所有的回归 算法 和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 以下是一些常用的监督型学习方法。 一. K-近邻算法(k-Nearest Neighbors,KNN) K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 如上图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 算法的步骤为: (1)计算 测试 数据与各个训练数据之间的距离; (2