BERT

产业实践推动科技创新,京东科技集团3篇论文入选ICASSP 2021

|▌冷眼眸甩不掉的悲伤 提交于 2021-02-18 10:54:06
ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的_3篇_论文已经被 ICASSP 2021接收。 ICASSP全称International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。京东科技集团此次的入选论文,在国际舞台全方位展示了 自身在语音增强、语音合成、多轮对话方面的实力。 01.Neural Kalman Filtering for Speech Enhancement 基于神经卡尔曼滤波的语音增强算法研究 * 论文链接: https://arxiv.org/abs/2007.13962 由于复杂环境噪声的存在,语音增强在人机语音交互系统中扮演重要的角色。基于统计机器学习的语音增强算法通常采用机器学习领域现有的常用模块(如全连接网络、递归神经网络、卷积神经网络等)构建增强系统。然而,如何将传统语音信号处理中基于专家知识的最优化滤波器设计理论,有效地应用到基于机器学习的语音增强系统中仍是一个仍未解决的问题。 京东科技集团入选论文《Neural Kalman Filtering for Speech

IJCAI2020 图相关论文集

◇◆丶佛笑我妖孽 提交于 2021-02-17 07:57:31
↑公众号关注 “Graph-AI” 专注于 图机器学习 IJCAI2020 图相关论文集 “ IJCAI(International Joint Conference on Artificial Intelligence,国际人工智能联合会议),是人工智能领域中最主要的学术会议之一,是CCF A类会议。 “ 本文将该会议与图相关的文章进行了整理,IJCAI接受的论文分为主赛道和特别赛道,都进行了大致的分类:计算机视觉、数据挖掘等。但因为本文是关注图方面的,所以按照图的种类来进行筛选。 “ 全部收录论文地址:http://static.ijcai.org/2020-accepted_papers.html Main track 图卷积网络 MR-GCN: Multi-Relational Graph Convolutional Networks based on Generalized Tensor Product LSGCN: Long Short-Term Traffic Prediction with Graph Convolutional Networks Multi-Class Imbalanced Graph Convolutional Network Learning Multi-View Attribute Graph Convolution Networks for

TensorFlow与PyTorch对比

六月ゝ 毕业季﹏ 提交于 2021-02-11 03:15:52
用TensorFlow还是PyTorch?从TensorFlow开始学起还是PyTorch?在一年前,这个问题毫无争议,当然是TensorFlow. 但时过境迁,现在的情况大不一样了,下面就来分析对比一下这两个主流框架。 首先看一下最近的统计数据,下图的数据是从arxiv论文中统计得到的。上面的黄线是TensorFlow的使用比例,下面的红线是PyTorch的使用比例,可以看出,最近的数据两者已经不差上下,甚至红线PyTorch在2019.6要略胜一筹。 右边的条形图是从1月到6月的累计数据,TensorFlow占比还是要略高一点,但是23%的增长率明显要低于PyTorch的194%.也就是说,现在TensorFlow和PyTorch在学术界的 使用率上来说已经不差上下了 。 来源:https://www.oreilly.com/ideas/one-simple-graphic-researchers-love-pytorch-and-tensorflow 决定一个框架的使用率有哪些因素呢?我总结有以下四个方面: 易用性 速度 算子数量 开源模型 第一是 易用性 。PyTorch自从2018年12月PyTorch 1.0 stable版本正式发布以来,只有半年多的时间,能迅速增长易用性功不可没。PyTorch的易用性一方面是debug简单,可以直接设置断点查看各个tensor的值

对话京东科技算法科学家吴友政:回望2020,NLP技术发展速度强劲

戏子无情 提交于 2021-02-07 12:29:34
作为人工智能领域中热度最高、挑战最大的子领域之一,自然语言处理(NLP)在最近几年得到了飞速的发展。2020 年我们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的激烈讨论。短短一年时间,知识图谱的成熟度由萌芽期一跃达到预期膨胀高峰且非常接近最高点… 近日,京东科技算法科学家、高级技术总监吴友政博士受邀做客InfoQ《大咖说》直播间,与我们分享了NLP领域的2020年大事记,以及未来一年最值得期待的变化。 京东科技算法科学家、高级技术总监——吴友政 1.InfoQ:吴老师,您好,非常高兴有机会和您对话。先请您简单总结下NLP领域在2020年的进展。 吴友政: NLP技术2020年仍然在快速发展的车道上。内容生成方向,以GPT-3为代表的预训练技术不仅在NLP、甚至在整个AI领域都受到了广泛关注。GPT-3生成的文章连人类也难辨真假。生成式AI也首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。人机对话方向,谷歌去年初发布了Meena、Facebook后续发布了Blenderbot、以及Blenderbot和Pandora Kuki两个聊天机器人的“约会”遭全网围观,都极大地推动了人机对话技术的发展。此外,多模态智能、数字内容生成、图神经网络等技术都有非常大的进展。影响力上,NLP领域中的Transformer、预训练等技术在计算机视觉

Attention机制的实现及其在社区资讯推荐中的应用(tensorflow2)

可紊 提交于 2021-02-02 19:57:23
作者 | xulu1352 目前在一家互联网公司从事推荐算法工作 ( 知乎:xulu1352 ) 编辑 | lily 0.前序 Att ention 机制 近年来在NLP领域大放异彩,尤其Bert等模型的走红,使Attention机制获得的关注量大增,那Attention机制应用到推荐领域又是以怎样形式的存在? 说到这就不得不提阿里的深度兴趣网络(Deep Interest Network, DIN),这个模型算得上是个经典的推荐系统Attention机制模型了;本文会重点围绕着DIN中Attention机制实现而展开,关于原理部分的解读本文下面只说说概要了,更深层次的解读可以参看文章末附录的文献。 1.Attention机制的思想 Attention机制缘起于人类视觉注意力机制,比如人们在看东西的时候一般会快速扫描全局,根据需求将观察焦点锁定在特定的位置上,是模仿人类注意力而提出的一种解决问题的办法;抽象点说它是一种权重参数的分配机制,目标是协助模型捕捉重要信息。具体一点就是,给定一组<key,value>,以及一个目标(查询)向量query,Attention机制就是通过计算query与各个key的相似性,得到每个key的权重系数,再通过对value加权求和,得到最终attention数值。所以本质上Attention机制是对给定元素的value值进行加权求和

什么是XLNet,它为什么比BERT效果好?

試著忘記壹切 提交于 2021-01-30 03:09:41
https://zhuanlan.zhihu.com/p/107350079 作者:Xu LIANG 编译:ronghuaiyang (AI公园) 介绍最基本的XLNet的原理,理解XLNet和BERT的直觉上的不同点。 在发布后不到一周,我周围的NLP领域的每个人似乎都在谈论XLNet。 是的,“ 在20个任务上比BERT做得更好 ”确实吸引了我们的眼球。但更重要的是理解它是如何工作的,以及为什么它比BERT表现得更好。所以我写了这个博客来分享我读了这篇文章后的想法。 内容结构如下。 什么是XLNet? XLNet和BERT有什么不同? XLNet是如何工作的? 什么是XLNet? 首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之, XLNet是一种广义的自回归预训练方法 。 那么,什么是 自回归(AR)语言模型 ? AR语言模型 是利用上下文单词预测下一个单词的一种模型。但是在这里,上下文单词被限制在两个方向,要么向前,要么向后。 GPT和GPT-2都是 AR语言模型 。 AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时,通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。 但是AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它 不能同时使用前向上下文和后向上下文 。 XLNet

从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史

隐身守侯 提交于 2021-01-29 15:49:26
20世纪以来,自然语言处理(NLP)领域的发展涌现了许多创新和突破。NLP中许多之前机器不可能完成的任务,如阅读理解、人机对话、自动写新闻稿等,正逐渐成为现实,甚至超越了人类的表现。 如果总结过去20年里,无数先辈辛劳付出带来的璀璨成果,以下3个代表性工作列入NLP名人堂,应该实至名归: 1)2003年Bengio提出神经网络语言模型NNLM, 从此统一了NLP的特征形式——Embedding; 2)2013年Mikolov提出词向量Word2vec ,延续NNLM又引入了大规模预训练(Pretrain)的思路; 3)2017年Vaswani提出Transformer模型, 实现用一个模型处理多种NLP任务。 基于Transformer架构,2018年底开始出现一大批预训练语言模型,刷新众多NLP任务,形成新的里程碑事件。本文将跨越2018-2020,着眼于3个预训练代表性模型BERT、XLNet和MPNet,从以下4个章节介绍NLP预训练语言模型的发展变迁史: 1.BERT 原理及 MLM 简述 2.XLNet 原理及 PLM 简述 3.MPNet 原理及创新点简述 4.NLP预训练模型趋势跟踪 附录:快速上手BERT的4大工具包 1.BERT 原理及 MLM 简述 自谷歌2018年底开源BERT,NLP界的游戏规则某种程度上被“颠覆”了;一时间,这个芝麻街的可爱小黄人形象

【论文笔记】Adversarial Training for Weakly Supervised Event Detection

血红的双手。 提交于 2021-01-22 04:03:19
简介 事件检测 事件检测(ED)的目的是检测事件触发器(通常是在实例中引发事件的单词或短语),然后识别它们的特定事件类型。 特征工程,如token级特征和结构化特征。 神经网络模型,将文本语义信息直接嵌入到低维空间中,基于这些特征向量检测事件触发器,采用有监督学习的方法对人类标注数据进行模型训练。 神经网络模型对人工标注数据的需求是实践中的瓶颈。 弱监督学习 参考资料 https://baijiahao.baidu.com/s?id=1594091883249224246&wfr=spider&for=pc 目前广泛采用的弱监督方法充分利用了大量的原始数据,特别是一些具体的信息提取工作,探索了弱监督自动标注ED训练数据的方法,这种弱监督方法可以有效地推广到实际的ED应用中,而不需要大量的劳动。 弱监督方法虽然取得了很好的结果,但仍然存在一些严重的问题: 会受到数据中不可避免的噪声的影响 现有的弱监督ED模型采用复杂的预定义规则和不完全的知识库来自动获取数据,导致数据的自动标注覆盖率低、主题偏差大 本文提出的模型 为了构建一个覆盖范围更广的大规模数据集,减少主题偏差 避免采用复杂的预定义规则和繁重的语义组件分析工具包,提出了一个简单的 基于触发器的潜在实例发现策略 一个假设:如果一个给定的单词作为已知事件实例中的触发器,那么提到这个单词的所有实例也可以表示一个事件 与复杂的规则相比

很遗憾,自然语言理解是AI尚未攻克的领域

[亡魂溺海] 提交于 2021-01-21 11:13:05
来源: Venture Beat 作者: Pieter Buteneers 编译: 科技行者 短短几年之内,深度学习算法得到了长足发展,不仅在棋类游戏中击败了全球最顶尖的选手,也能够以等同于、甚至超越人类的准确率识别人脸。但事实证明,人类语言仍是一项独特且深邃的难题,亦是AI技术所面对的最为艰巨的挑战之一。 但是,突破能否如期而至? 一旦计算机可以有效理解人类语言内容,则必将彻底颠覆全球各品牌、企业与组织之间的交互方式。如今,大多数企业拿不出充裕的资源为每位客户提供一对一解答服务。但在语言AI真正成熟之后,企业将能够在任意时间通过任意渠道听取、理解并回应每一个问题。这是一项激动人心的发展愿景,但距离达成目标仍有漫长的道路要走。 直到2015年,人们才构建出一种足以在准确率方面与他类相匹敌的人脸识别算法。Facebook的DeepFace准确率为97.4%,仅略低于人类的97.5%。作为参考,FBI以往的人脸识别算法准确率仅为85%,意味着其做出的判断有超过七分之一概率是错的。 FBI算法是由一组工程师手工开发而成。其中每项特征(例如鼻子大小以及眼睛的相对位置)皆由手动编程而来。Facebook算法则真正实现了特征学习,其利用一种被称为卷积神经网络的特殊深度学习架构,模拟出人类视觉皮层通过复杂的多层结构处理图像内容。事实上,我们并不清楚这些皮层之间是如何联系的,因此一切“奥秘

现代NLP中的零样本学习

亡梦爱人 提交于 2021-01-18 05:54:34
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Joe Davison 编译:ronghuaiyang 导读 使用最新的NLP技术来进行零样本学习的一些进展和工作。 自然语言处理现在是一个非常令人兴奋的领域。近年来,社区已经开始找到一些非常有效的方法,从互联网上大量的未标记数据中学习。从无监督模型进行迁移学习的成功使得我们在下游监督学习任务上超越了几乎所有现有的基准。随着我们继续开发新的模型架构和无监督的学习目标,“state of the art”持续的成为许多任务中的目标,在这些任务中有大量的标签数据可用。 随着模型的持续增长,一个主要的优势是我们看到下游任务对大量标注数据的依赖在缓慢减少。Open AI团队发布了一份预印本,描述了他们迄今为止最大的模型GPT-3,包含1750亿个参数。这篇论文的题目是 "Language Models are Few-Shot Learners" ,它表明了超大的语言模型可以在下游任务中以比小型模型少得多的特定任务的数据进行竞争。 随着参数数量的增加,GPT-3少样本学习的性能也在增加 然而,这种尺寸的模型在实际应用中仍然是不实际的。例如,GPT-3的最大版本必须跨几十个GPU,才能放到内存中。在许多真实世界的情况中,标注数据要么缺少要么完全不可用。比GPT-3小得多的模型,如BERT,仍被证明在其权重中编码了大量信息