监督学习

大三生获最佳短论文奖,清华狂揽信息检索顶会SIGIR2020多个奖项

天涯浪子 提交于 2020-08-04 11:24:13
  机器之心报道    编辑:魔王、杜伟、小舟    第 43 届国际计算机协会信息检索大会(ACM SIGIR)于本月 25 日举行。昨日,大会公布了最佳论文等奖项。来自清华大学的研究人员获得最佳论文荣誉提名奖、最佳短论文奖奖项。   ACM SIGIR 是信息检索领域的顶级学术会议,今年是第 43 届。据统计,SIGIR 2020 会议共收到投稿 1180 篇,接收 340 篇,接收率为 28.8%。其中长论文投稿 555 篇,接收 147 篇,接收率约为 26%;短文投稿 507 篇,接收 152 篇,接收率约为 30%。      SIGIR 2020 论文词云统计。   昨日,大会公布了最佳论文奖、最佳短论文奖、时间检验奖等奖项。   其中,来自柏林工业大学和康奈尔大学的研究者获得最佳论文奖,来自清华大学的研究者获得最佳论文提名奖。此外,最佳短论文奖和最佳短论文荣誉提名奖也分别出自清华团队。   接下来,我们来看获奖论文的具体内容。    最佳论文奖   SIGIR 2020 最佳论文奖由来自柏林工业大学和康奈尔大学的研究者摘得。      论文作者:Marco Morik(柏林工业大学)、Ashudeep Singh(康奈尔大学)、Jessica Hong(康奈尔大学)、Thorsten Joachims(康奈尔大学)   论文链接:https://dl.acm.org

学术分享丨机器人操作学习系列分享:模仿学习

拟墨画扇 提交于 2020-08-04 09:42:44
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《机器人操作学习系列分享:模仿学习》。   人类从婴幼儿时期就学会模仿别人来获得许多新技能,这种行为被称为 模仿学习 。我们古代中国就有很多形容人们模仿学习中成语,有如“ 邯郸学步 ”、“ 画虎成狗 ”、“ 鹦鹉学语 ”等都是形容模仿不到位的情况,又如“ 惟妙惟肖 ”、“ 栩栩如生 ”、“ 有模有样 ”等模仿极佳的状态。因此,智能体如何通过模仿学习避免出现那些尴尬的状态,而达到完美的状态,也是亟待研究的课题。      目前模仿学习也成为许多研究领域的重要课题,包括心理学、神经科学、人工智能和机器人学。模仿学习是机器学习诸多领域的交叉点。它对应于一个复杂的优化问题,可以用不同的方式形式化,例如结构化输出预测问题或半监督学习问题。模仿学习还与强化学习、在线主动学习、多智能体学习、特征建构等有着密切的关系。      从机器学习的角度来看,模仿学习是一种解决控制和顺序决策问题的学习方法。在模仿学习社区内,机器人获得专家的示例数据主要包括运动示教、遥操作、动作捕捉,视觉实例等等。最近,相关研究领域可分为以下子领域:行为克隆

深度学习笔记

牧云@^-^@ 提交于 2020-07-29 11:31:37
第一讲 深度学习概述 1.1 深度学习的引出 特点: 通过 组合低层特征 ,形成了更加抽象的 高层特征 。 表达式中的 u,w参数需要在训练中通过 反向传播多次迭代调整 ,使得整体的 分类误差最小 。 深度学习网络往往 包含多个中间层(隐藏层) ,且网络结构要更复杂一些。 1.2 数据集及其拆分 Iris(鸢尾花)数据集 分类特征:花萼和花瓣的宽度和长度 数据集在数学上通常表示为 $\{(x_1,y_1),(x_2,y_2),...,(x_i,y_i),...,(x_m,y_m)\}​$ 其中 $x_i$ 为样本特征。由于样本(即一行)一般有多个特征,因而 $x_i = \{x_i^1, x_i^2,..., x_i^n\} ​$ 而 $y_i$ 表示 样本i 的 类别标签 。 类别标签的ground truth 与 gold standard ground truth :翻译为地面实况。机器学习领域一般用于表示 真实值、标准答案 等,表示 通过 直接观察收集到 的真实结果。 gold standard :金标准,医学上一般指诊断疾病 公认的最可靠的方法 。 机器学习领域更倾向于使用ground truth,如果用gold standard则表示可以很好地代表ground truth。 1.21 数据集与有监督学习 有监督学习中数据通常分成 训练集 、 测试集 两部分。 训练集(

NLP中的自监督表示学习,全是动图,很过瘾的

江枫思渺然 提交于 2020-07-29 10:09:49
作者:amitness 编译:ronghuaiyang 其实在自监督学习的概念提出之前,NLP中就已经运用到了这一思想。 虽然计算机视觉在自监督学习方面取得了惊人的进展,但在很长一段时间内,自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在,甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式,在许多问题上应用这些自监督的方法,这个领域得到了迅速的发展。 这些自监督的方法的核心是一个叫做 “ pretext task ” 的框架,它允许我们使用数据本身来生成标签,并使用监督的方法来解决非监督的问题。这些也被称为“ auxiliary task ”或“ pre-training task “。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。 在这篇文章中,我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定,而不是实现它们的架构。 自监督的方案 1. 预测中心词 在这个公式中,我们取一定窗口大小的一小块文本,我们的目标是根据周围的单词预测中心单词。 例如,在下面的图中,我们有一个大小为1的窗口,因此我们在中间单词的两边各有一个单词。使用这些相邻的词,我们需要预测中心词。 这个方案已经在著名的Word2Vec论文的“ Continuous Bag of

监督式学习和非监督式学习

限于喜欢 提交于 2020-07-29 09:53:48
最近接手一个nlp项目,其中一个部分是通过训练非监督式学习,来提供给模型进行训练 所以学习了下监督式学习和非监督式学习 1.什么是监督式学习: 定义: 根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。 也就是说,在监督学习中训练数据 既有特征(feature)又有标签(label) ,通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。 实际应用中的机器学习在大部分情况下我们都会使用监督式学习。 监督式学习指的是你拥有一个输入变量和一个输出变量,使用某种算法去学习从输入到输出的映射函数 这种学习方式就称之为监督式学习,因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案,而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。 监督式学习问题可以进一步被分为回归和分类问题 分类 :分类问题指的是当输出变量属于一个范畴,比如“红色”和“蓝色”或者“生病”和“未生病”。 回归 :回归问题指的是输出变量是一个实值,比如“价格”和“重量” 2.非监督式机器学习 定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。 可以这么说,比起监督学习,无监督学习更像是自学

ML.NET机器学习、API容器化与Azure DevOps实践(一):简介

為{幸葍}努か 提交于 2020-07-29 06:08:20
打算使用几篇文章介绍一下.NET下的机器学习框架ML.NET的具体应用,包括一些常用的业务场景、算法的选择、模型的训练以及RESTful API的创建、机器学习服务容器化,以及基于Azure DevOps的容器化部署等等相关的内容。如果你从来没有玩过机器学习,也从来没有了解过ML.NET,那么,本文将会是一个很好的开始。 机器学习 机器学习是一种对算法和统计数据模型进行科学学习的方式,通过使用这种方式,计算机系统能够有效地基于模式与推断,而非遵循特定的指令序列来完成一项特定的任务。机器学习是人工智能科学的一个分支,属于人工智能范畴。 (参考: https://en.wikipedia.org/wiki/Machine_learning )。 分类 机器学习可以分为如下几类: 监督学习(Supervised Learning) 无监督学习(Unsupervised Learning) 半监督学习(Semi-supervised Learning) 增强学习(Reinforcement Learning) 监督学习 从给定的训练数据集中学习出一种算法,当的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见算法分为: 统计分类 (Classification,根据训练模型,通过给定的特征属性

使用PyCaret构建机器学习模型

本小妞迷上赌 提交于 2020-07-28 18:26:46
作者|LAKSHAY ARORA 编译|VK 来源|Analytics Vidhya 概述 PyCaret是一个超级有用的Python库,用于在短时间内执行多个机器学习任务 学习如何依赖PyCaret在几行代码中构建复杂的机器学习模型 介绍 我建立的第一个机器学习模型是一个相当麻烦的代码块。我仍然记得构建一个集成模型,它需要许多行代码,它十分需要一个向导来解开这些混乱的代码! 当涉及到构建可解释的机器学习模型时,尤其是在行业中,编写高效的代码是成功的关键。所以我强烈建议使用PyCaret库。 我希望PyCaret在我的刚学习机器学习的日子里出现!这是一个非常灵活和有用的库,我在最近几个月已经相当依赖。我坚信任何有志成为数据科学或分析专业人士的人都会从使用PyCaret中受益匪浅。 我们将看到PyCaret到底是什么,包括如何在你的机器上安装它,然后我们将深入研究如何使用PyCaret来构建可解释的机器学习模型,包括集成模型。 目录 什么是PyCaret?为什么要使用它? 安装PyCaret 熟悉PyCaret 使用PyCaret训练我们的机器学习模型 使用PyCaret构建集成模型 分析模型 做出预测 保存并加载模型 什么是PyCaret?为什么要使用它? PyCaret是Python中一个开源的机器学习库,它可以帮助你从数据准备到模型部署。它很容易使用

AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:50-15:30《一种具身自监督学习框架:面向任何语种语音的音系构建任务》

橙三吉。 提交于 2020-07-28 10:32:22
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:50-15:30《一种具身自监督学习框架:面向任何语种语音的音系构建任务》 目录 14:50-15:30 一种具身自监督学习框架:面向任何语种语音的音系构建任务 14:50-15:30 一种具身自监督学习框架:面向任何语种语音的音系构建任务 吴玺宏 北京大学 来源: oschina 链接: https://my.oschina.net/u/4392911/blog/4320415

无需contrastive学习,微软亚研提出基于实例分类的无监督预训练方法

你说的曾经没有我的故事 提交于 2020-07-28 08:14:26
在本文中,微软亚洲研究院的研究员和实习生们提出了一个简单且高效的无监督预训练方法——参数化实例分类(PIC)。和目前最常用的非参数化对比学习方法不同,PIC 采用了类似于有监督图片分类的框架,将每个实例或图片看作一个独立的类别进行实例分类从而进行无监督学习。与 SimCLR 或 MoCo 这类方法相比,PIC 不需要处理潜在的信息泄漏问题,因此结构简单直观。研究者在实验中证明了 PIC 可以在 ImageNet 数据集中取得与这些非参数化对比学习方法相匹配的性能。 机器之心发布,机器之心编辑部。 论文地址: https:// arxiv.org/abs/2006.1461 8 面对着自然世界中越来越多的无标注数据,研究者们都希望找到一种正确的方式,从中学习对于视觉任务有帮助的特征,从而使得各类视觉任务能有进一步的突破,也使各类算法和模型能在实际生产环境中有更加充分的应用。最近的研究已经证明,在一些下游任务上,无监督的视觉特征学习可以取得与有监督学习同等甚至更高的迁移学习性能。 在本文中,微软亚洲研究院的研究员和实习生们提出了一个简单且高效的无监督预训练方法——参数化实例分类(Parametric Instance Classification,简称 PIC)。和目前最常用的非参数化对比学习方法不同,PIC 采用了类似于有监督图片分类的框架

机器学习基础---无监督学习之异常检测

帅比萌擦擦* 提交于 2020-07-27 09:29:41
一:问题动机 将介绍异常检测问题,这是机器学习算法的常见应用,那么什么是异常检测问题? (一)举例介绍异常检测 举例:比如生产汽车引擎,需要进行质量测试,而作为测试的一部分,需要测量汽车引擎的一些特征变量: 比如:x_1引擎运转时产生的热量;x_2引擎的振动; 我们根据数据集: ,把数据绘制成图,如下图: 这样,异常检测问题可以定义如下: 假设,之后生产了一个新的汽车引擎,而新的汽车引擎有一个特征变量集 ,所谓的异常检测问题就是希望知道新的汽车引擎是否有某种异常,或者说希望判断这个引擎是否需要进一步测试。 如果 落在原来的特征集之中,认为它是没有异常的;如果 出现在离原来的特征集很远的地方,则认为它是有异常的,需要做进一步检测,如上图所示。 更正式地定义:给定一个数据集,对它进行数据建模 ,当有新的特征变量 时: (二)异常检测的应用案例 (1)欺诈检测 例如有些网站会记录用户的一些信息,打字速度 、单位时间浏览网页次数 等等,然后用这些建立模型 ,看哪些用户的 。 接下来看筛选出 的用户,让他们做身份验证,从而可以让网站防御异常行为或欺诈行为。 (2)工业生产领域 就像之前提到的汽车引擎的问题,可以找到异常的汽车引擎,然后进一步的检测这些引擎的质量。 (3)数据中心的计算机监控 如果管理一个计算机集群,可以为每台计算机计算特征向量,内存损耗 、硬盘访问量 、CPU负载 等等。