无监督学习

AI研习丨陈松灿:自监督学习的最新进展与展望

不羁的心 提交于 2020-10-29 08:52:56
http://dy.163.com/v2/article/detail/F6QSA34N0511PEBT.html   转自 CAAI会员中心   摘 要   当前我们虽已身处大数据时代,但代价高昂、不易获取的标记数据依旧是机器学习发展的瓶颈。相比而言,无标记数据廉价且易获取,因此,如何高效利用它们一直是学者们关注的焦点。最近,一种无监督学习的新范式——自监督学习已开始受到广泛关注,其旨在减少对大量标记/ 注释数据的需求。为此本文围绕该学习范式作出简要回顾及展望,并力图从一个新的视角来考察该范式,以期为后续研究提供一些洞察。   关 键 字   机器学习;自监督学习;多视图学习;数据增广      陈松灿   自监督学习的最新进展与展望   0 引言   目前机器学习技术已获得了令人印象深刻的进展,尤其是深度学习已在计算机视觉和自然语言处理等多个领域取得了突破。然而,它仍存在许多不足。例如,当前许多机器学习技术(如分类)的成功大都处在一个封闭、静态的环境下,即训练数据和测试数据来自相同的标记和特征空间。但更实际的场景通常是动态、开放和非平稳的,如无人驾驶、医疗诊断等。在此类场景下,一些意外情形常会出现,致使这些现有模型往往难以奏效,甚至变得无用。为迎接这些挑战,学界开始探索诸如安全的AI(Safe AI-Open World/Dynamic Learning)、终身/连续/预测

利用威胁建模防范金融和互联网风险

一曲冷凌霜 提交于 2020-10-15 19:51:05
从B站数据遭竞品批量爬取,到华住集团信息泄露;从东海航空遭遇大规模恶意占座,到马蜂窝旅游网站事件;从接码平台日赚百万到双十一电商风险爆发.....顶象2018年第三季度业务风险监测数据显示,恶意爬取是Q3所有业务风险中占比最高,排在第二位的是虚假注册,其次是账号盗用、推广作弊及其他、薅羊毛等。 薅羊毛、盗号冒用、虚假注册、恶意爬取、推广作弊等等各种业务不仅给业务平台带来巨大经济损失,损害了用户合法权益,更破坏了商业秩序。 其实,这些风险可以通过模型来防控。例如,在日常生活中,我们会关注每天的天气和气温变化,如果气温骤降,就会做出添衣的决策,如果第二天下雨的概率很大,就会做出带把伞出门的决策,从而达到降低患上感冒的可能性。让我们拥有这种潜意识的就是威胁模型。 所谓威胁建模,就是使用抽象的概念来分析可能存在或出现的风险,并减轻或降低风险的对策过程。通过威胁建模,可以防范上面提到的互联网业务风险;通过威胁建模更可以防范信用欺诈、虚假注册、钓鱼诈骗、信用恶化、贷款逾期等金融欺诈。 威胁建模的必要性与核心价值 完善设计 绝大部分的开发团队都使用系统需求分析文档、软件系统设计文档以及功能模块详细设计文档来规范系统的开发和测试过程;整个开发周期中,只在测试阶段引入渗透测试或者安全代码审计来提高交付的系统的安全性。但是,因为设计阶段就缺少安全部分的分析设计工作

GraphSAGE图神经网络算法详解

主宰稳场 提交于 2020-10-15 08:25:28
GraphSAGE 是 17 年的文章了,但是一直在工业界受到重视,最主要的就是它论文名字中的两个关键词:inductive 和 large graph。今天我们就梳理一下这篇文章的核心思路,和一些容易被忽视的细节。 为什么要用 GraphSAGE 大家先想想图为什么这么火,主要有这么几点原因,图的数据来源丰富,图包含的信息多。所以现在都在考虑如何更好的使用图的信息。 那么我们用图需要做到什么呢?最核心的就是利用图的结构信息,为每个 node 学到一个合适的 embedding vector。只要有了合适的 embedding 的结果,接下来无论做什么工作,我们就可以直接拿去套模型了。 在 GraphSAGE 之前,主要的方法有 DeepWalk,GCN 这些,但是不足在于需要对全图进行学习。而且是以 transductive learning 为主,也就是说需要在训练的时候,图就已经包含了要预测的节点。 考虑到实际应用中,图的结构会频繁变化,在最终的预测阶段,可能会往图中新添加一些节点。那么该怎么办呢?GraphSAGE 就是为此而提出的,它的核心思路其实就是它的名字 GraphSAGE = Graph Sample Aggregate。也就是说对图进行 sample 和 aggregate。 GraphSAGE 的思路 我们提到了 sample 和 aggregate

ACL2020|使用强化学习为机器翻译生成对抗样本

笑着哭i 提交于 2020-10-14 03:00:36
     本文介绍的是 ACL 2020 论文《 A Reinforced Generation of Adversarial Examples for Neural Machine Translation》,论文作者来自南京大学、腾讯。   作者 | 邹 威   编辑 | 丛 末      论文地址:https://arxiv.org/pdf/1911.03677.pdf    1    背景介绍   对抗样本(adversarial example)是近年来用于探索深度学习系统鲁棒性的重要工具。对抗样本通过对普通测试输入进行微小扰动(以不改变人期望输出为准),并以劣化系统输出为目标得到。   当前神经机器翻译(neural machine translation, NMT)系统在实用场合常常会出现用户难以预计的错误,这些错误甚至存在消极的社会影响。而基于用户反馈进行的维护通常也是在这些错误产生后才能进行,开发者更希望在上线前就能进行大量的测试进行预防性维护。直接的鲁棒性测试通常需要专家编制大量对应的测试数据并进行标注,但对于机器翻译这类任务而言成本过高。因此我们可以通过利用已有平行句对的输入产生对抗样本的方式,沿用原本的输出,从而快速得到大量可用于鲁棒分析的平行数据。      图1: 对人名的变动影响了翻译的预期结果(此样例当前已被修复)    2    文本对抗样本及难点

从自监督学习主流方法、最新工作进展,看未来前景研究方向

时间秒杀一切 提交于 2020-10-10 00:28:37
来源: 机器学习算法与自然语言处理 本文约 6000字 ,建议阅读 10分钟。 找到合适的辅助任务,对于自监督学习是最需要解决的问题。 本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。 与此同时,文中也穿插着几大主流方法的最新工作进展,现在正在探索自监督学习未来前景研究方向的同学,也不妨借鉴一二,说不定能找到灵感哦~ 学习的范式 我们首先来回顾下机器学习中两种基本的学习范式,如图所示,一种是监督学习,一种是无监督学习。 监督学习与无监督学习[1] 监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,通过不断的学习,最终可以获得识别新样本的能力。而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 无监督学习中被广泛采用的方式是自动编码器(autoencoder): 深度自编码器[6] 编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况,无损重构),同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。 对于如何学习隐层向量的研究

兼容PyTorch、TF,史上最灵活Python机器学习框架|一周AI最火论文

瘦欲@ 提交于 2020-10-08 02:22:19
      大数据文摘出品    作者:Christopher Dossman    编译:Olivia、Joey、云舟   呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!   AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。   每周更新,做AI科研,每周从这一篇开始就够啦!    本周关键词 : 无监督学习、RL、张量网络    本周最佳学术研究    编写与PyTorch,TensorFlow,JAX和NumPy均兼容的代码   深度学习(DL)的进步正日益促进着越来越多DL框架的发展。这类框架提供了用于自动区分和GPU加速的高级且高效的API,并使得使用相对较少而直接的代码来实现异常复杂且功能强大的深度学习模型成为可能。   EagerPy是一个Python框架,可用于编写自动与PyTorch、TensorFlow、JAX和NumPy兼容的代码,而无需牺牲性能。   库开发人员不必选择仅支持这些框架之一而为每个框架重新实现库,或是选择处理代码重复问题。因此这类库的用户可以更轻松地切换框架,而不会被一个第三方库锁定。除了支持多框架之外,EagerPy还对链接到所有框架的方法都提供了详尽的类型注释和一致的支持。   Github传送门:   https

生成对抗网络(GAN)的数学原理全解

久未见 提交于 2020-10-07 00:22:06
©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成、情绪对抗样本生成 论文标题: A Mathematical Introduction to Generative Adversarial Nets 论文链接: https://arxiv.org/abs/2009.00169 引言 Goodfellow 大神的开创性工作 GAN 自 2014 年诞生以来,GAN 就受到了极大的关注,并且这种关注导致了 GANs 的新思想、新技术和新应用的爆炸式增长。 GAN 的原论文中的证明会有一些不严谨的地方,并且在算法中为了训练效率更高,也有很多简化,其实这也是这个领域的一个常见现象,在北大的深度学习的数学原理的暑期课上,老师就提到过 深度学习中数学严谨证明占 6 成 。 言外之意就是该领域的证明过程并没有纯数学的那么严谨,当从计算机科学工程师角度去推导证明的时候,往往会有跟实际相悖的前提假设,但是从该假设推导出来的结论却是与实验结果相符或者该结论会对解决实际问题中有一定的指导意义。 该作者是一个数学底蕴很强的 AI 研究者,该论文的目的是试图从数学的角度对 GANs 进行概述,是一篇不可多得好有关 GAN 数学原理的理论性文章,论文中涉及到大量的数学原理和很多让人眼花缭乱的数学符号,可以把它当成一个 GAN 的理论手册

新手一看就秒懂的数据挖掘的10大算法

狂风中的少年 提交于 2020-10-05 06:23:29
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

学了这么久,你知道Python机器学习全流程是怎样的么?

こ雲淡風輕ζ 提交于 2020-10-02 11:23:27
万事开头难,首先Python机器学习整个流程的第一步就是学习Python这门编程语言的相关基础知识。 第一步:基本 Python 技能 如果要使用 Python 进行机器学习,拥有对 Python 有基础的理解非常关键。幸运的是,Python 是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的 Python 经验和编程经验。 这里推荐几本python入门必读书籍: 别再说你不知道怎么学习Python了,13本书给你安排的明明白白! 对于想要速成课程的人,这里有 全网最全Python学习路线图+14张思维导图,让你不走弯路! 第二步:机器学习基础技能 KDnuggets 的 Zachary Lipton 指出,人们对数据的认识千差万别,这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知核函数方法是否是必需的?答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围, 而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。 好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。 关于机器学习基础技能

TensorFlow 2.0 快速入门指南 | iBooker·ApacheCN

↘锁芯ラ 提交于 2020-09-30 16:24:18
原文: TensorFlow 2.0 Quick Start Guide 协议: CC BY-NC-SA 4.0 自豪地采用 谷歌翻译 不要担心自己的形象,只关心如何实现目标。——《原则》,生活原则 2.3.c 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 TensorFlow 2.0 快速入门指南 零、前言 第 1 部分:TensorFlow 2.00 Alpha 简介 一、TensorFlow 2 简介 二、Keras:TensorFlow 2 的高级 API 三、TensorFlow 2 和 ANN 技术 第 2 部分:TensorFlow 2.00 Alpha 中的监督和无监督学习 四、TensorFlow 2 和监督机器学习 五、TensorFlow 2 和无监督学习 第 3 部分:TensorFlow 2.00 Alpha 的神经网络应用 六、使用 TensorFlow 2 识别图像 七、TensorFlow 2 和神经风格迁移 八、TensorFlow 2 和循环神经网络 九、TensorFlow 估计器和 TensorFlow HUB 十、从 tf1.12 转换为 tf2 介绍 TensorFlow 是 Python 中最受欢迎的机器学习框架之一。 通过这本书,您将提高对 TensorFlow 最新功能的了解