监督学习

机器学习PartII:监督学习和无监督学习

笑着哭i 提交于 2020-01-04 09:16:11
上次我们讨论了基于结果的两类学习。这篇文章我们将关注一些其他方面的学习:监督还是无监督。当训练用例被标记了正确结果的时候,监督学习方式为怎样改进学习给出一个反馈。这类似于教官教导某个Agent,它的行为是否正确。对无监督学习来说这个目标很难实现,因为缺乏事先确定的分类。 · 监督学习(事先准备好分类) 监督学习是最常见的分类问题,因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。更一般地说,对于那些有用的分类系统,和容易判断的分类系统,分类学习都适用。在某些情况下,如果Agent能自行计算分类的话,它(Agent)可能不需要事先给出分类。这将在后面成为无监督学习上下文分类的一个例子。 监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络适应它;对于决策树,分类系统用来判断哪些属性提供了最多的信息,如此一来可以用它解决分类系统的问题。我们将会看到这两者(神经网络和决策树)更多的细节,但在目前,它们用预先确定分类方法的形式来“监督”就足够了。 使用隐马尔科夫模型和贝斯网络的语音识别系统也依赖于某些监督的要素,那通常是为了调节系统的参数以便于最小化给定输入中的错误。 请注意这里提到的一个问题:在分类问题中

机器学习PartII:监督学习和无监督学习

心不动则不痛 提交于 2020-01-04 09:15:38
原文作者:aihorizon.com 原文链接: Machine Learning, Part I: Supervised and Unsupervised Learning 译者: commondata 上次我们讨论了基于结果的两类学习。这篇文章我们将关注一些其他方面的学习:监督还是无监督。当训练用例被标记了正确结果的时候,监督学习方式为怎样改进学习给出一个反馈。这类似于教官教导某个Agent,它的行为是否正确。对无监督学习来说这个目标很难实现,因为缺乏事先确定的分类。 ·监督学习 监督学习是最常见的分类问题,因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。更一般地说,对于那些有用的分类系统,和容易判断的分类系统,分类学习都适用。在某些情况下,如果Agent能自行计算分类的话,它(Agent)可能不需要事先给出分类。这将在后面成为无监督学习上下文分类的一个例子。 监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络适应它;对于决策树,分类系统用来判断哪些属性提供了最多的信息,如此一来可以用它解决分类系统的问题。我们将会看到这两者(神经网络和决策树)更多的细节,但在目前,它们用预先确定分类方法的形式来“监督”就足够了。

机器学习算法汇总

三世轮回 提交于 2020-01-04 09:15:07
原文来自http://www.csdn.net/article/2014-06-27/2820429 1.监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network) 2.非监督式学习: 在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。 3.半监督式学习: 在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference

学习笔记之机器学习实战 (Machine Learning in Action)

空扰寡人 提交于 2020-01-04 09:08:00
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。 全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。 Machine Learning in Action https://www.safaribooksonline.com/library/view/machine-learning-in

微信扫物上线,全面揭秘扫一扫背后的识物技术!

孤街浪徒 提交于 2019-12-30 16:21:17
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 导语| 12月23 日,微信扫物 iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行展示, 会催生哪些新的落地场景?本文将细细道来。 作者| breezecheng,腾讯 WXG 应用研究员 编辑| sukeli、尾尾 微信长期招收计算机视觉和OCR方向的人才, 欢迎简历breezecheng@tencent.com ​一. 扫一扫识物概述 1.1 扫一扫识物是做什么的? 扫一扫识物是指以图片或者视频(商品图:鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他商品)作为输入媒介来挖掘微信内容生态中有价值的信息(电商+百科+资讯,如图 1 所示),并展示给用户。这里我们基本覆盖了微信全量优质小程序电商涵盖上亿商品 SKU,可以支持用户货比 N 家并直接下单购买,百科和资讯则是聚合了微信内的搜一搜、搜狗、百度等头部媒体,向用户展示和分享与该拍摄商品相关的资讯内容。 图1 扫一扫识物功能示意图 百闻不如一试,欢迎大家更新 iOS 新版本微信 → 扫一扫 → 识物自行体验,也欢迎大家通过识物界面中的反馈按键向我们提交体验反馈。图 2 即为扫物实拍展示。 扫一扫识物实拍展示 1.2

Stanford机器学习笔记-8. 支持向量机(SVMs)概述

老子叫甜甜 提交于 2019-12-26 18:22:40
8. Support Vector Machines(SVMs) Content      8. Support Vector Machines(SVMs)       8.1 Optimization Objection       8.2 Large margin intuition       8.3 Mathematics Behind Large Margin Classification       8.4 Kernels       8.5 Using a SVM         8.5.1 Multi-class Classification         8.5.2 Logistic Regression vs. SVMs 8.1 Optimization Objection 支持向量机 (Support Vector Machine: SVM)是一种非常有用的监督式机器学习算法。首先回顾一下Logistic回归,根据log()函数以及Sigmoid函数的性质,有: 同时,Logistic回归的代价函数(未正则化)如下: 为得到SVM的代价函数,我们作如下修改: 因此,对比Logistic的优化目标 SVM的优化目标如下: 注1:事实上,上述公式中的Cost0与Cost1函数是一种称为 hinge损失 的 替代损失(surrogate loss)函数

机器学习:集成学习:随机森林.GBDT

一曲冷凌霜 提交于 2019-12-25 00:45:05
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5); 集成算法的成功在于保证弱分类器的多样性(Diversity).而且集成不稳定的算法也能够得到一个比较明显的性能提升 常见的集成学习思想有: Bagging Boosting Stacking Why need Ensemble Learning? 1. 弱分类器间存在一定的差异性,这会导致分类的边界不同,也就是说可能存在错误。那么将多个弱分类器合并后,就可以得到更加合理的边界,减少整体的错误率,实现更好的效果; 2. 对于数据集过大或者过小,可以分别进行划分和有放回的操作产生不同的数据子集,然后使用数据子集训练不同的分类器,最终再合并成为一个大的分类器; 3. 如果数据的划分边界过于复杂,使用线性模型很难描述情况,那么可以训练多个模型,然后再进行模型的融合; 4. 对于多个异构的特征集的时候,很难进行融合,那么可以考虑每个数据集构建一个分类模型,然后将多个模型融合。 Bagging方法 Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数据集上通过有放回的抽样的方式

机器学习:监督学习和无监督学习

荒凉一梦 提交于 2019-12-24 11:58:18
************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结非常easy遗忘。依据课程加上自己对不明确问题的补充遂有此系列博客。 本系列博客包含线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检測、推荐系统及大规模机器学习等内容。 ************************************** 机器学习定义 机器学习是人工智能的一个分支,目标是赋予机器一种新的能力。 (专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,又一次组织已有的知识结构使之不断改善自身的性能。) 机器学习的应用非常广泛。比如大规模的数据挖掘(网页PV数据。医疗记录等),无人驾驶飞机、汽车,手写手别,大多数的自然语言处理任务。计算机视觉,推荐系统等。 机器学习有非常多定义。广为人知的有例如以下两条: ArthurSamuel (1959): Machine Learning: Field of study that gives computers theability to learn without being explicitly programmed. TomMitchell (1998) :

【分类算法】逻辑回归

只谈情不闲聊 提交于 2019-12-23 03:54:44
目录 什么是逻辑回归 逻辑回归模型推导 为何不能用线性模型 线性模型转二分类模型(Sigmoid) 代价函数 使用最小二乘法估计 最大似然法 代码样例 总结 什么是逻辑回归 之前我们讲过 线性回归 的原理以及推导过程。今天,我们回家另外一个算法,叫逻辑回归。简单归类一下,这个算法不是归类预测算法,大家千万不要被名字不会了。它其实属于分类算法。说到 分类算法 ,大家有没有联想到?没错,逻辑回归属于监督学习。所以它需要带标签的数据。 这里简单的列举一下逻辑回归的使用场景: 垃圾邮件分类 网络诈骗分类 恶行肿瘤鉴定 逻辑回归模型推导 为何不能用线性模型 下面以恶行肿瘤来举例子。假如我们有个数据集,他们他描述的是肿瘤大小,以及是否为和兴肿瘤。大致如下: 肿瘤大小 是否恶性 1 否 5 否 10 是 10.5 否 15 是 假设x是肿瘤的大小,y代表否恶性。最终我们可以得到下图左边的8个红色交叉点。假如我们线性回归预测这8个点时,我们可以得到蓝色的一条线。若我们假设蓝色线上面的是恶行肿瘤,下面的是良性肿瘤。这里看上去预测的结果好像还可以。 但假如这时候出现一个右边蓝色肩头上点,我们重新用线性模型预测出回归线,然后得到粉色的线。这时候问题就出现了,新增的点的x其实非常的大,但是却被模型判定成良性肿瘤。这样是不是就不对了。所以,我们需要修改我们的模型。我们要把我们的线性模型改成二分类模型

文本分类 | (1) 任务定义

不打扰是莪最后的温柔 提交于 2019-12-21 06:21:11
近年来,文本的数量呈指数增长,为了能在许多应用中准确地对文本进行分类,需要对机器学习方法有更深入的了解。许多机器学习方法在自然语言处理方面都取得了突破性的结果。这些学习算法的成功取决于其拟合数据中存在的非线性关系的能力。然而,寻找一种普适、通用的文本分类技术对研究人员来说仍然是一个巨大的挑战。 在文本分类专栏系列博客中,我将系统的介绍如何搭建一个完整的文本分类系统,包括数据预处理、主要方法的原理介绍和实现细节、实验结果与分析、网页Demo的构建以及项目文件的组织方式。 目录 1. 问题定义 2. 文本分类系统的类型 3. 文本分类流程 4. 总结 1. 问题定义 在过去的几十年中,文本分类问题在许多实际应用中得到了广泛的研究和解决。 文本分类技术在信息检索、信息过滤、推荐系统、情感分析以及推荐系统等多个领域都有广泛的应用。文本分类任务是指根据已经定义好的类别标签对现有的一段文本进行标注的任务。一般来说,文本数据集包含一系列长短不一的文本片段,如 ,其中 代表一个数据点或文本片段,每个 包含s个句子,每个句子又包含 个单词,每个单词又可以包含 个字符。每个数据点 都用一组 k 个不同离散值索引中的类别标签进行标记。 2. 文本分类系统的类型 按照分类文本规模来划分 1)文档级别:算法输出整个文档对应的类别。 2)段落级别:算法输出一个单独的段落 (文档的一部分)对应的类别。 3