监督学习

监督学习、非监督学习、强化学习都是什么?终于有人讲明白了 本文带你了解机器学习的分类——监督学习、非

↘锁芯ラ 提交于 2020-08-16 10:05:10
01 术语整理 本节概述机器学习及其三个分类(监督学习、非监督学习和强化学习)。首先,与机器学习相关的术语有人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)、强化学习、深度学习等,这里对这些术语进行简单的整理。 AI意味着人工智能,其定义因研究人员而异。从广义上讲,它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之一是机器学习。 机器学习可以简单地描述为“向系统提供数据(称为训练数据或学习数据)并通过数据自动确定系统的参数(变量值)”。相反,基于规则的系统是非机器学习系统的一个例子。在基于规则的系统中,由人类来清楚地定义分支条件的参数,例如实现代码中所存在的if语句等。 另一方面,机器学习自动根据训练数据确定代码中的参数,以使系统运行良好。之所以称为机器学习,正是因为系统能根据训练数据计算和确定系统运行所需的参数。 强化学习是机器学习中的一种。机器学习可分为三大类:监督学习、非监督学习和强化学习。我们稍后会讨论这三个分类,这里只需要认识到强化学习是机器学习的一部分即可。 接下来是深度学习。深度学习是实现机器学习的算法之一。机器学习的算法包括逻辑回归、支持向量机(Support Vector Machine,SVM)、决策树、随机森林和神经网络等。深度学习是神经网络中的一种。 最后是深度强化学习

编程模型(MapReduce和Graph)

半腔热情 提交于 2020-08-16 08:22:08
MapReduce编程模型 MR基础 最大优点是充分利用了闲置资源,多任务并行,快速得到答案。 拆分-处理-合并 MR框架介绍 MR处理流程 MapReduce(最早由Google提出)是一种分布式数据处理模型;核心过程主要分成2个阶段:Map阶段和Reduce阶段;首先执行Map阶段,再执行Reduce阶段。Map和Reduce阶段的处理逻辑由用户自定义实现,即实现分布式计算。 MR模型的适用场景 搜索:网页爬取、倒排索引,PageRank Web访问日志分析:分析和挖掘用户在web上的访问、购物行为特征,实现个性化推荐;分析用户访问行为。 文本统计分析:例如小说的WordCount,词频TFIDF分析;学术论文、专利文献的饮用分析和统计;维基百科数据分析等。 海量数据挖掘:非结构数据、时空数据、图像数据的挖掘。 机器学习:监督学习、无监督学习、分类算法如决策树、SVM等。 自然语言处理:基于大数据的训练和预测;基于语料库构建单词同现矩阵,频繁项数据挖掘、重复文档检测等。 广告推荐:用户点击(CTR)和购买行为(CVR)预测 MR框架 用户视角看原理 用户视角谈实现 扩展MR MR开发使用流程 1、阿里云官网下载插件、配置开发环境 2、新建java项目,完成MR开发 增加mapper 增加Reducer 增加MR Driver 添加处理逻辑 3、本地测试 准备本地测试数据

工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

天大地大妈咪最大 提交于 2020-08-16 02:56:03
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。 视频链接 过去我们经常提非结构化数据,其实结构化数据也是现在数据分析的一大方向。比如时序结构,工业上大量的传感器、物联网数据。再就是移动互联网的时空数据,一些观测数据。还有一些序列数据,它跟时序数据不一样,可能并不是连续的,比如一些交易数据,今天取钱,明天去哪儿消费,这些在一些欺诈识别里面非常重要,特别是网络入侵,你做一系列的事件,通常可能导致某个事件的发生,通过一些事件序列,通常可以发现行为异常等。另外一些是Networks网络数据,比如社交网络数据,还有一些合作数据,比如谁和谁通常一起发论文等等。结构化数据也是一个需要深入研究的领域。 以工业为例。工业有什么特点呢,首先是先验知识。工业里面,先验知识比较多,不像我们在互联网里面做推荐,做用户画像,我对用户的一些了解,包括人的认知都是非常宏观。工业里面的都非常微观,比如一些动态方程,一些运行机理,这些知识如果用统计学的联合概率分布等来刻画还是不够充分。而且工业系统通常是一个工控系统

刷新五项SOTA,百度ActBERT:基于动作和局部物体的视频文本特征学习模型

孤街醉人 提交于 2020-08-14 15:42:14
全球计算机视觉顶会 CVPR 2020 上,百度共计有 22 篇论文被接收。这篇 Oral 论文中,百度提出了 ActBERT,该模型可以学习叙述性视频进行无监督视频文本关系,并提出纠缠编码器对局部区域、全局动作与语言文字进行编码。最终在 5 项相关测评任务上取得了 SOTA 结果。 机器之心发布,机器之心编辑部。 ActBERT 在下游视频和语言任务上,即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术,展示了其在视频文本表示方面的学习能力。 论文:《ActBERT: Learning Global-Local Video-Text Representations》 论文链接: http:// openaccess.thecvf.com/c ontent_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf 现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式,通过聚类离散化将视觉特征转化为视觉单词。但是,详细的局部信息,例如,互动对象,在聚类过程中可能会丢失,防止模型进一步发现细粒度的视频和文字对应关系。本文提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述

清华开源迁移学习算法库:基于PyTorch实现,支持轻松调用已有算法

混江龙づ霸主 提交于 2020-08-14 12:05:11
  机器之心报道    编辑:魔王    作者:清华大学大数据研究中心       近日,清华大学大数据研究中心机器学习研究部开源了一个高效、简洁的迁移学习算法库 Transfer-Learn,并发布了第一个子库——深度领域自适应算法库(DALIB)。   清华大学大数据研究中心机器学习研究部长期致力于迁移学习研究。近日,该课题部开源了一个基于 PyTorch 实现的高效简洁迁移学习算法库:Transfer-Learn。使用该库,可以轻松开发新算法,或使用现有算法。   项目地址:https://github.com/thuml/Transfer-Learning-Library   目前,该项目发布了第一个子库——领域自适应算法库(DALIB),其支持的算法包括:   Domain Adversarial Neural Network (DANN)   Deep Adaptation Network (DAN)   Joint Adaptation Network (JAN)   Conditional Domain Adversarial Network (CDAN)   Maximum Classifier Discrepancy (MCD)   Margin Disparity Discrepancy (MDD)    领域自适应背景介绍   目前

AAAI 2020: 时序转化为图用于可解释可推理的异常检测

☆樱花仙子☆ 提交于 2020-08-14 10:26:09
Time2Graph: Revisting Time Series Modeling with Dynamic Shapelets 原文地址 整体导读 文章提出了带有时间意识的Shapelet,除了可以挖掘时序中的异常状态之外,可以自动感知异常状态所在时间位置上的敏感度; 文章尝试捕捉不同Shapelet之间的关系,提出了通过图结构(Graph)对这种关系进行表达的方法,在挖掘异常变化轨迹的同时也具备良好的可解释性。文章发表在人工智能领域顶级会议 AAAI 2020 上 时序建模中的挑战 时间序列建模旨在发现数据中的时空依赖关系,学术界对此有广泛研究,例如异常检测[2],语音识别[3]等。 这里的关键问题是如何提取时间序列中代表性的特征 。以前的工作很大一部分从经典的特征工程和表示学习入手,这些方法具有很好的可解释性,但主要依靠人的经验,在复杂的场景下很难做到通用化。近年来随着深度学习的发展,许多工作开始尝试一些复杂的模型方法来自动的挖掘特征。然而,尽管这些方法取得了良好的效果[4,5],但由于模型的复杂度高以及难以对结果很好的解释,许多方法不能很好地满足实际工业落地的需求。 基于以上背景为出发,该文尝试通过Shapelet[6], 一种可自动挖掘具有代表特征的时序子序列的方法出发,通过分析不同Shapelet之间的关系,构建Graph进行表示

机器学习基础---机器学习系统设计

纵然是瞬间 提交于 2020-08-14 10:20:56
将谈及在设计复杂的机器学习系统时,你将遇到的主要问题。同时会试着给出一些关于如何巧妙构建一个复杂的机器学习系统的建议。下面的课程的的数学性可能不是那么强,但是将要讲到的这些东西是非常有用的,可能在构建大型的机器学习系统时,节省大量的时间。 一:改进学习算法 实际工作中,我们应该优先处理哪些事情?以一个垃圾邮件分类器算法为例进行讨论: 如何通过监督学习的方法,来构造一个分类器来区分垃圾邮件和非垃圾邮件? 为了应用监督学习 解决这样一个问题,我们首先要做的决定是如何选择并表达特征向量X,通过特征向量X和分类标签y,我们就能训练一个分类器 。我 们可以选择一个由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得我们的特征向量(出现为 1 ,不出现为 0 ),尺寸为 100×1 。 我们可以使用上面的特征向量来表示这封邮件,进行垃圾分类。在实际中,选取的单词一般在10000-50000之间(出现频率最高的),这些单词组成了特征变量 对于处理垃圾邮件分类, 一个常见问题就是:如何在有限的时间下,让垃圾邮件分类器,具有高精准度和低错误率 解决方案: 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本。通过 Honey Pot 项目可以收集大量垃圾邮件的数据 基于邮件的路由信息开发一系列复杂的特征 基于邮件的标题、正文信息开发一系列复杂的特征

get这款工具,不会机器学习也能轻松搞定深度分析

北城以北 提交于 2020-08-14 08:20:24
机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。通过计算机对数据的处理和对算法的运用,实现对业务场景的深度分析,帮助人们更好的做决策。永洪深度分析模块是将机器学习算法封装成节点,用户通过拖拽的方式从而便捷的应用机器学习算法。 如何使用深度分析模块?首先需要安装永洪Desktop,里面会带有深度分析功能,目前可以免费试用3个月。其次根据需要安装R服务环境或Python服务环境,也可以两个都安装。如果不会安装可以查看在线帮助或到官网社区中的产品问答中看相关说明。再次,安装好后,打开Desktop,选择【管理系统】-【系统设置】-【R计算配置/Python计算配置】,如下图1所示。填写服务器地址和端口号,点击测试连接,如果连接正确,右上角会弹出测试成功。最后点击保存连接,至此,深度分析功能就可以使用了。 图1 想要对业务进行深度分析,就需要对机器学习的流程有一定的了解,通常的流程共有8步,如下图2。在永洪的产品中提供了几个常用的深度分析的场景,大家可以打开看看,也可以复用使用。 图2 第一步,问题分析,就是要确定对哪个问题进行分析。例如,对于银行业企业,通常会进行信用卡反欺诈分析、营销策略分析等。对于零售行业,通常会进行销售预测、用户画像分析等。对于政府,可以进行交通预测

28篇论文、6大主题带你一览CVPR2020研究趋势

那年仲夏 提交于 2020-08-14 01:08:16
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

标注样本少怎么办?「文本增强+半监督」方法总结

喜你入骨 提交于 2020-08-14 00:03:58
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无增强监督学习模型,性能有较大幅度的提升; 在少样本场景下,能够达到或者逼近充分样本下的监督学习模型性能; 在充分样本场景下,性能仍然有一定提升; 基于此,本文首先总结了nlp中的文本增强技术,然后串讲了近年来9个主流的半监督学习模型,最后重点介绍了来自Google提出的UDA(一种文本增强+半监督学习的结合体)。本文的组织结构为: 1、NLP中的文本增强技术总结 谈起文本增强技术,相信NLPer一定不会陌生,相关方法也是数不胜数。我们通常对标注数据集提供附加的感应偏置进行扩充,如何设计增强变换就变得至关重要。本文尝试从一个新角度——是否条件增强,借鉴文献[1]进行了总结归纳: 1.1 无条件增强 定义:既可以对标注数据进行增强(增强后标签不发生变化),又可以针对无标注数据进行增强,不需要强制引入标签信息。 词汇&短语替换 基于词典 :主要从文本中选择词汇或短语进行同义词替换,词典可以采取 WordNet 或哈工大词林等。著名的 EDA