机器学习

【论文介绍】MEAL V2

拜拜、爱过 提交于 2021-02-08 08:25:38
作者:Stan Kriventsov 编译:ronghuaiyang 转载自:AI公园 原文链接: https://mp.weixin.qq.com/s/001DpmGeapE3HECzFPVvEw ​ mp.weixin.qq.com 导读 一篇知识蒸馏+对抗训练的文章。 作者使用最近提出的MEAL技术(包括从多个大型老师网络使用蒸馏通过对抗学习得到更小的学生网络学习),使用224×224输入,在ImageNet上提升了ResNet-50的精度到80.67%, 没有外部训练数据和网络体系结构的修改。 从文章中我们能学到什么? 即使是一个相对较小的网络也可以通过训练用正确的方法达到大得多的网络的准确性。 在某种程度上,这并不奇怪,因为现代深层神经网络被设计成过参数化的,利用“彩票假说”描述的大量的随机初始化配置,一个更小的网络足以达到同样的性能,但是,在实践中可以实现还是非常了不起的。 先决条件(为了更好地理解论文,我们应该熟悉什么?) 知识蒸馏 对抗训练 讨论 集成技术,或集成学习,由多个ML模型的组合预测组成,是一种已知的提高预测精度的方法。它被广泛应用于Kaggle竞赛中,在这些竞赛中,即使以巨大的计算负载为代价,也要获得最佳的精度。然而,在大多数实际应用中,由于在预测期间运行每个模型所需的费用和时间,集成并不被广泛使用。 MEAL技术的想法,是从多个大型神经网络(教师

如何从小白成长为数据科学家

为君一笑 提交于 2021-02-08 06:38:37
本文是作者在赤兔 APP“数据挖掘”小组内在线分享的记录的第【 2 】部分。 本次分享第【1】部分: 什么是数据科学 。 分享 主题 :Data Science学习分享会 分享 时间 : 2016 年 4 月 18 日 晚 8 : 00-10 : 00 分享 地点 :赤兔“数据挖掘”小组,线上 分享 嘉宾 :黄逸洲, 来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。 为什么我们要成为一名数据科学家? 哈佛商业评论曾今说过,数据科学家是 21 世纪最性感的职业。 习大大也说过,现在国家要进入大数据 + 。 数据分析有更多地机会和领导层接触,为他们提供决策支持,所以也有很好地晋升机会。 这么多好处摆在那里,这个问题就不用问了吧。 数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同 : 数据分析师擅长处理和进行统计分析; 数据工程师偏向大数据系统的维护和开发; 数据科学家更多地要进行大数据的机器学习和理论分析。 麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作 。 所以什么是数据科学家? 数据科学家的目标是将数据转化为价值。 Airbnb 的首席数据科学家 Riley Newman 在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音

蚂蚁金服:超大规模分布式计算系统 + 超大规模分布式优化算法

五迷三道 提交于 2021-02-08 05:51:44
人工智能大数据与深度学习 公众号: weic2c 近年来,随着“大”数据及“大”模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注。针对这一刚需,阿里集团和蚂蚁金服设计了自己的分布式平台——鲲鹏。鲲鹏结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题,不仅囊括了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了封闭好的、宜于调用的 API 供普通的机器学习者开发分布式算法,降低使用成本并提升效率。相关论文在本届 KDD 以口头报告的形式发表 (应用数据科学 Track)。 论文《鲲鹏:基于参数服务器的分布式学习系统及其在阿里巴巴和蚂蚁金服的应用》 (KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial),由蚂蚁金服人工智能部和阿里云团队的周俊,李小龙,赵沛霖,陈超超,李龙飞,杨新星,崔卿,余晋,陈绪,丁轶,漆远合作完成。 文中描述的实验在十亿级别的样本和特征数据上进行。结果表示,鲲鹏的设计使得一系列算法的性能都得到了极大的提升,包括 FTRL,Sparse-LR,以及 MART。此外,鲲鹏在阿里巴巴“双11”狂欢购物节及蚂蚁金服的交易风险检测中

可高效训练超大规模图模型,PyTorch BigGraph是如何做到的?

不问归期 提交于 2021-02-08 05:46:18
选自medium 作者: Jesus Rodriguez 机器之心编译 编辑:Panda Facebook 提出了一种可高效训练包含数十亿节点和数万亿边的图模型的框架 BigGraph 并开源了其 PyTorch 实现。 本文将解读它的创新之处,解析它能从大规模图网络高效提取知识的原因。 图(graph)是机器学习应用中最基本的数据结构之一。具体来说,图嵌入方法是一种无监督学习方法,可使用本地图结构来学习节点的表征。社交媒体预测、物联网模式检测或药物序列建模等主流场景中的训练数据可以很自然地表征为图结构。其中每一种场景都可以轻松得到具有数十亿相连节点的图。图结构非常丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。尽管如此,图结构却非常复杂,难以进行大规模扩展应用。也因此,现代深度学习框架对大规模图数据结构的支持仍非常有限。 Facebook 推出过一个框架 PyTorch BigGraph:https://github.com/facebookresearch/PyTorch-BigGraph,它能更快更轻松地为 PyTorch 模型中的超大图结构生成图嵌入。 某种程度上讲,图结构可视为有标注训练数据集的一种替代,因为节点之间的连接可用于推理特定的关系。这种方法遵照无监督图嵌入方法的模式,它可以学习图中每个节点的向量表征,其具体做法是优化节点对的嵌入

训练超大规模图模型,PyTorchBigGraph如何做到?

跟風遠走 提交于 2021-02-08 05:26:32
   编辑:Panda    Facebook 提出了一种可高效训练包含数十亿节点和数万亿边的图模型的框架 BigGraph 并开源了其 PyTorch 实现。本文将解读它的创新之处,解析它能从大规模图网络高效提取知识的原因。      图(graph)是机器学习应用中最基本的数据结构之一。具体来说,图嵌入方法是一种无监督学习方法,可使用本地图结构来学习节点的表征。社交媒体预测、物联网模式检测或药物序列建模等主流场景中的训练数据可以很自然地表征为图结构。其中每一种场景都可以轻松得到具有数十亿相连节点的图。图结构非常丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。尽管如此,图结构却非常复杂,难以进行大规模扩展应用。也因此,现代深度学习框架对大规模图数据结构的支持仍非常有限。   Facebook 推出过一个框架 PyTorch BigGraph:https://github.com/facebookresearch/PyTorch-BigGraph,它能更快更轻松地为 PyTorch 模型中的超大图结构生成图嵌入。   某种程度上讲,图结构可视为有标注训练数据集的一种替代,因为节点之间的连接可用于推理特定的关系。这种方法遵照无监督图嵌入方法的模式,它可以学习图中每个节点的向量表征,其具体做法是优化节点对的嵌入,使得之间有边相连的节点对的嵌入比无边相连的节点对的嵌入更近

脑信号处理必备技能:由浅入深掌握傅里叶变换、短时傅里叶变换和小波变换(修改)

只愿长相守 提交于 2021-02-07 17:05:46
点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 作者丨咚懂咚懂咚@知乎(已授权),未经允许,禁止二次转载 来源丨https://zhuanlan.zhihu.com/p/22450818 编辑丨脑机接口社区 对脑电信号处理时,大家不可避免的会用到一些信号处理方法,其中小波变换在脑电信号处理中比较常用的方法。本文作者按照傅里叶-短时傅里叶变换-小波变换顺序,由浅入深,通俗易懂的解释了小波变换的相关知识。 从傅里叶变换到小波变换,并不是一个完全抽象的东西,可以讲得很形象。小波变换有着明确的物理意义,如果我们从它的提出时所面对的问题看起,可以整理出非常清晰的思路。 下面我就按照傅里叶-->短时傅里叶变换-->小波变换的顺序,讲一下为什么会出现小波这个东西、小波究竟是怎样的思路。(反正题主要求的是通俗形象,没说简短,希望不会太长不看。。) 01 傅里叶变换 关于傅里叶变换的基本概念在此我就不再赘述了,默认大家现在正处在理解了傅里叶但还没理解小波的道路上。(在第三节小波变换的地方我会再形象地讲一下傅里叶变换) 下面我们主要讲傅里叶变换的 不足。即我们知道傅里叶变化可以分析信号的频谱,那么为什么还要提出小波变换? 答案就是@方沁园所说的,“ 对非平稳过程,傅里叶变换有局限性 ”。看如下一个简单的信号: 做完FFT(快速傅里叶变换)后,可以在频谱上看到清晰的四条线

来了来了!一份NLP&ML领域中文综述总结~

本小妞迷上赌 提交于 2021-02-07 12:22:35
转载自 | helloworldlh 原文链接: 来了来了!一份NLP&ML领域中文综述总结~ ​ mp.weixin.qq.com 综述类论文是指就某一时间内,针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。 对初学者而言,综述类文章可以便于读者在研究初期尽快掌握该方向的发展趋势。对综述类文章的搜索与阅读也因此成为了初学者进入相关研究领域前面临的第一个问题。 针对这一需要,东北大学自然语言处理实验室对自然语言处理领域与机器学习领域的中文综述类文章进行了收集和分类整理。将其按照不同研究领域进行分类,并提供了论文的获取网址,方便初学者获取相应领域的综述文章。 项目地址: https:// github.com/NiuTrans/CNS urvey 论文来源 在该项目中,所有文章均来源于《中文信息学报》、《计算机学报》、《软件学报》、《自动化学报》、《电子学报》、《计算机研究与发展》、《中国科学:信息科学》七个期刊。 共包含 251 篇综述文章,其中自然语言处理领域 145 篇,机器学习领域 106 篇,覆盖了各个期刊 电子化至今 的所有文章。 按照不同分类,项目中给出了各个文章的来源、年份、下载地址以及作者信息,如下图示例: 论文分类 为了方便使用者快速定位到自己想要了解的综述文章,项目根据各个研究领域对自然语言处理和机器学习分别进行了分类

我是如何在3个月内写出博士论文的?

做~自己de王妃 提交于 2021-02-07 11:33:35
来源 | 极市平台 转载自:机器学习算法与自然语言处理 原文链接: 我是如何在3个月内写出博士论文的? ​ mp.weixin.qq.com 在看这篇文章之前请注意:我的博士论文花了我三年半的全职研究时间来收集数据,本文所指的三个月只是用于写作的时间,在该时间段的最后我写得很快。我并不是说每个人都能写得那么快,如果你没有做过研究,那就不可能写出来。你可能不会像我一样写得那么快,但你可能会从我的方法中得到一些有益的启示。 2006年夏天,在开始攻读博士学位近3年后,我想到放弃。原来,当时我的成果远远不够,我所使用的设备大部分时间都不起作用,我几乎无法在早晨唤起起床的动力。一年多以后有了折转,我成功做到了:扭转局面,获得了一些可发表少数几篇论文的结果;在3个月内从零开始完成我的博士论文;无争议地通过我的口头答辩。而且,最重要的是,我居然开始享受这个过程。我是怎么做到这一切的? 1.应对压力—— Dealing with stress 在经历了一次近乎崩溃的经历后,当我在研究中遇到问题或者发现自己压力大的时候,我就会开始在校园里散步。我花时间思考自己需要做什么,让自己有一个正确的心态回过头来处理问题。以前我发现我自己会处于一种为了熬过一天而在网上浪费时间的境地。这一个习惯的改变可能挽救了我的博士生涯。 2.放慢速度——Slowing down 这似乎有悖于直觉,但放慢速度有助于我走得更快

过去50年最重要的统计学思想!

£可爱£侵袭症+ 提交于 2021-02-07 10:44:58
来源:量化投资与机器学习 本文约11500字,建议阅读25分钟本文介绍了在过去50年内最重要的8个统计思想。 近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”(过去50年中最重要的统计思想是什么?) 这篇论文由哥伦比亚大学统计学教授Andrew Gelman和阿尔托大学计算机科学系副教授Aki Vehtari所著,他们根据自己的研究和文献阅读经验总结出了 过去半个世纪以来最重要的8个统计思想, 并表示: “它们是独立的概念,涵盖了统计方面不同的发展。这些思想都在1970年前的理论统计文献和各个应用领域的实践中就已经出现。但是在过去的五十年中,它们各自已经发展到足以成为新事物的程度。” 他们认为,过去半个世纪中最重要的统计思想是: 反事实因果推理,基于bootstrapping(自助抽样法)和基于模拟的推理,超参数化模型和正则化,多层模型,泛型计算算法(generic computation algorithms),自适应决策分析,鲁棒推理和探索性数据分析 (未按时间顺序,排序不分先后)。 在这篇论文中, 他们将讨论这些思想的共同特征、它们与现代计算和大数据的关系以及在未来几十年中如何发展。

综述:关系抽取,挑战与机遇并存!

北城余情 提交于 2021-02-07 09:27:39
原创:Elesdspline 转载自:AI自然语言处理与知识图谱 原文链接: 综述:关系抽取,挑战与机遇并存! ​ mp.weixin.qq.com 关系抽取是信息抽取的基本任务之一,目的是识别文本中实体的目标关系,关系抽取对于知识库的构建以及文本的理解十分重要,特别有利于自然语言处理的一些任务,如问答,文本理解等,而且,关系抽取作为知识图谱构建的核心关键,是必不可少的步骤。 大家熟知的传统关系抽取(二元关于抽取,两个实体之间的关系)已经得到了广泛的研究,并且有很多的研究方法已经落地实践,近些年来,对于复杂场景的变化,传统的简单关系抽取已经无法满足实际场景中的复杂应用,慢慢衍生出需要复杂场景的关系抽取任务。 本文是一篇综述文章,总结了目前简单关系抽取的研究进展以及实践方法,对目前已出现的复杂关系抽取任务进行了总结,并介绍了每个任务的定义、最新进展、挑战和机遇。 一、简单关系抽取 简单的关系抽取目的是从文本中识别两个实体之间的关系,例如下图,根据文本,识别出北京和中国的关系为 the capital of,一般这样的关系抽取称之为二元关系抽取( Binary Relation Extraction,BiRE)。 简单关系抽取 目前的方法一般分为 基于监督学习的 BiRE(Supervised BiRE) 、 基于半监督学习的 BiRE(Semi-supervised BiRE) 以及