BERT

归纳+记忆:让机器像人一样从小样本中学习

烂漫一生 提交于 2021-01-15 13:13:43
作者|耿瑞莹,黎槟华,武玉川,李永彬 单位|阿里巴巴达摩院Conversational AI 团队 近年来,对话式 AI(Conversational AI)无论在学术界还是在工业界都在迅猛发展,背后的核心驱动力在于,人机对话在各行各业的实际场景中存在着广泛的需求,并且当前的技术进展已经能够大规模落地应用。 以笔者所在的达摩院 Conversational AI 团队为例,过去几年,通过阿里云智能客服(即云小蜜)产品矩阵,将人机对话在政务、银行、保险、医疗、教育、交通、水利、电力等众多行业进行大规模应用,更在 2020 年初疫情爆发初期,打造了全国最大的疫情外呼机器人平台,帮助 27 个省拨打了 1800 多万通电话,协助政府工作人员进行疫情的摸排防控。 在对话式 AI 大规模落地应用的过程中,面临众多技术难题,其中一个是低资源小样本的问题。在有大量标注数据的场景,今天的深度学习模型已经能够将问题的解决的比较好了,但在是标注数据很小的场景中,怎么让机器进行学习呢?面对这个难题,过去两年,我们团队从人类的小样本学习机制入手进行思考和研究: 人类之所以能够从很小的样本中就能进行很好的学习,主要在于两个能力,一个是归纳(induction)能力,即能够从个例中抽象出通用规则,基于此我们提出了归纳网络(Induction Network),已发表在 EMNLP2019; 另一个是记忆

完全图解GPT-2:看完这篇就够了(一)

坚强是说给别人听的谎言 提交于 2021-01-14 10:00:02
选自 http:// github.io 作者:Jay Alammar 机器之心编译 原文链接: https://mp.weixin.qq.com/s/tXMA4y1nryAlVO3cBS1LXQ ​ mp.weixin.qq.com 今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT-2 并没有特别新颖的架构,它和只带有解码器的 transformer 模型很像。 然而,GPT-2 有着超大的规模,它是一个在海量数据集上训练的基于 transformer 的巨大模型。GPT-2 成功的背后究竟隐藏着什么秘密?本文将带你一起探索取得优异性能的 GPT-2 模型架构,重点阐释其中关键的自注意力(self-attention)层,并且看一看 GPT-2 采用的只有解码器的 transformer 架构在语言建模之外的应用。 作者之前写过一篇相关的介绍性文章「The Illustrated Transformer」,本文将在其基础上加入更多关于 transformer 模型内部工作原理的可视化解释,以及这段时间以来关于 transformer 模型的新进展。基于 transformer 的模型在持续演进

浅谈细粒度实体分类的前世今生 | AI Time PhD知识图谱专题

此生再无相见时 提交于 2021-01-10 08:58:36
AI TIME欢迎每一位AI爱好者的加入! 实体分类是知识图谱构建和补全的重要子任务,其中细粒度实体分类为实体提供了更加丰富的语义信息,有助于关系抽取、实体链接、问答系统等下游任务。 细粒度实体分类是什么?和传统的命名实体识别有什么区别?任务的难点在哪里?采用什么方法解决?目前有哪些数据集可用?未来的发展方向如何? 为解除这些困惑,第四期AI Time PhD知识图谱专题分享的直播间,我们请到清华大学计算机系、知识工程实验室的博士五年级研究生金海龙,为大家梳理了细粒度实体分类任务发展的脉络,并对未来作出了展望。 一、FGET定义及问题 传统的 命名实体识别(NER )面向 粗粒度 的类别,比如人物、地点和组织机构等,对实体的刻画不够精确。 图:命名实体识别(来自medium.com) 实际生活中,我们需要更加细粒的类别来刻画实体,提供更加具体的语义信息,增强指示性,比如篮球员动员和香港歌手等。以关系抽取为例,实体的细粒度类别能很大程度暗示实体间候选的关系。实体类别信息越粗,实体间的候选关系就越倾于复杂,相应的关系抽取任务也变得更困难。于是,下游应用催生了细粒度实体分类这个任务。 细粒度实体分类 (FGET) : Fine-grained Entity Typing, 给定候选 实体 (Mention) 及其 上下文 (Context) ,预测可能的 类别集合 (Type) 。

知识图谱的综述、构建、存储与应用

我的未来我决定 提交于 2021-01-09 18:04:59
本文介绍知识图谱,首先会讲一段知识图谱的综述作为开场,然后就知识图谱的构建,存储,还有应用进行具体说明。 知识图谱和我们的资源页比较类似,都是需要先构建,然后存储,之后应用。 知识图谱应用广泛,我会以推荐系统为例子,说明知识图谱在推荐系统中的应用。 知识图谱综述 我们首先对知识图谱做一个简短的综述。 计算机为什么需要知识? 比如数字110,对机器来说,110就是一个字符串,与其他数字没有太大的差别。 当然可以借助关联分析,分析出110跟警察,抢劫等相关。但是关联分析比较复杂,需要借助数据挖掘等相关技术。 如果采用知识库,只需要构建一条知识,即110是报警电话。 人工智能分为三个层次,分别是运算智能,感知智能和认知智能。 运算智能是让机器能存会算;感知智能是让机器能听会说、能看会认;认知智能是解决机器能理解会思考的问题。 认知智能需要知识图谱。 知识图谱是一个大规模语义网,包含实体和关系,比如章子怡的丈夫是汪峰; 也包含实体和属性,比如章子怡的出生日期是1979年2月9日。 还包含实体和概念,比如章子怡是一个女演员; 还包含概念之间的关系,比如女演员是演员的子类。演员是人物的子类。 百科图谱一般由 标题,摘要,信息框,标签,图片 等部分组成。 可抽取信息框的内容构建知识图谱,并进行可视化展示。 其中,对于题目理解来讲,函数的提出者,提出时间这些属性不是我们所关心的。 表达式,表示法

万字综述:行业知识图谱构建最新进展

限于喜欢 提交于 2021-01-09 17:15:46
作者|李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1] 单位|阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2] 摘要 行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的 schema 构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。 本文对与上述 schema 构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动 schema 构建方面的实践,同时给出了 Document AI 和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。 引言 从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。 知识图谱的应用现在非常广泛:在通用领域,Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston 问答机器人

2021年的第一盆冷水:有人说别太把图神经网络当回事儿

余生长醉 提交于 2021-01-06 09:11:02
图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质、性能基准测试、实践应用等方面陈述了自己的观点。 选自 http:// singlelunch.com ,作者:Matt Ranger,机器之心编译,机器之心编辑部。 图神经网络(GNN)是机器学习中最热门的领域之一,在过去短短数月内就有多篇优秀的综述论文。但数据科学家 Matt Ranger 对 GNN 却并不感冒。他认为这方面的研究会取得进展,但其他研究方向或许更重要。 博客链接: https://www. singlelunch.com/2020/12 /28/why-im-lukewarm-on-graph-neural-networks/ 机器之心对这篇博客进行了编译整理,以下是博客内容。 模型的关键是压缩 图经常被认为是一种「非欧几里得」数据类型,但实际上并不是。正则图(regular graph)只是研究邻接矩阵的另一种方式: 如上图所示,充满实数的矩阵却被称为「非欧几里得」,这很奇怪。 其实这是出于实际原因。大多数图都相当稀疏,因此矩阵中会包含很多 0。从这个角度看,非零数值非常重要,这让问题接近于(计算上很难的)离散数学,而不是(容易的)连续、梯度友好的数学。 有了全矩阵,情况会变得容易 如果不考虑物理领域的内容,并假设存在全邻接矩阵

如何再次提问?基于连续空间改写的生成式问句数据增广

血红的双手。 提交于 2021-01-05 16:36:41
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 问句数据增广旨在自动生成上下文相关的问句增广数据,在机器阅读理解、问答、问句生成和问答式自然语言推理等任务上进一步提升模型性能。基于可控式文本改写的思想,讲者提出了一种新的问句数据增广方法称为CRQDA。该方法将问句数据增广任务看作是一个带限制的文本改写任务以生成上下文相关的可回答和不可回答问句。 刘大一恒: 四川大学3+2+3本硕博连读生,师从吕建成教授。主要研究方向为自然语言生成、预训练语言模型和机器阅读理解。目前在ACL、EMNLP、AAAI、TASLP、IJCNN、TALLIP等期刊会议上以第一作者和共一作者发表论文13篇。担任ACL、AAAI、IJCAI、EMNLP、NAACL、EACL、TNNLS等期刊会议审稿人。 一、 背景知识 1、数据增广是什么? 数据增广是一种常用的提升模型泛化能力的方法。相比旋转、剪裁等图像数据常用的数据增广方法,合成新的高质量且多样化的离散文本相对来说更加困难。 2、文本数据增广方法分类 第一类是通过直接对文本数据进行局部修改,如采用一些随机替换、删除、插入等操作修改原始数据以得到新的数据样本。 第二类则是利用生成的方式,通过回译、复述、使用预训练语言模型和各类生成模型如VAE,GAN等生成新的训练数据。 3、什么是问句数据增广? 文本数据增广技术被应用到文本分类和机器翻译等任务

文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)

为君一笑 提交于 2020-12-29 09:31:35
文章目录 0. 引言 1. SCIREX: A Challenge Dataset for Document-Level Information Extraction(ACL2020) 1.1 摘要 1.2 动机 1.3 贡献 1.4 数据集 1.4.1 问题定式 1.4.2 数据集描述 1.5 模型 1.6 实验 2. Reasoning with Latent Structure Refinement for Document-Level Relation Extraction(ACL 2020) 2.1 摘要 2.2 动机 2.3 贡献 2.4 方法论 2.4.1 Node Constructor 2.4.2 Dynamic Reasoner 2.4.3 Classifier 2.5 实验结果 3. Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network(ACL2019) 3.1 摘要 3.2 动机 3.3 贡献 3.4 模型 3.4.1 Input Layer 3.4.2 Graph Construction 3.4.3 GCNN Layer 3.4.4 MIL-based Relation Classification 3.5 实验结果 4.

无情!「自然语言处理(NLP)」统一预训练UniLM模型(NLU+NLG)

五迷三道 提交于 2020-12-25 18:12:50
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 本文主要参考: https://zhuanlan.zhihu.com/p/96020318 引言 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解(NLU),还可以用于生成任务( (NLG ) )。 该模型使用三种类型的语言建模(单向模型、双向模型、序列到序列预测模型)进行预训练。 通过使用一个共享的Transform网络,利用特定的自注意掩模来控制预测条件的上下文,从而实现了统一的建模。 本文概要 1 First Blood 2 Aced 3 Attention 正文开始 1 First Blood TILE: ( NeurIPS-19 )Unified Language Model Pre-training for Natural Language Understanding and Generation. Contributor : 微软研究院 Paper: https://arxiv.org/pdf/1905.03197.pdf Code: https://github.com/microsoft/unilm 文章摘要 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解,还可以用于生成任务。该模型使用三种类型的语言建模(单向模型、双向模型

PTMs| 2020最新NLP预训练模型综述

点点圈 提交于 2020-12-25 17:17:41
本篇文章主要介绍邱锡鹏老师在2020年发表的一篇预训练模型的综述: 「Pre-trained Models for Natural Language Processing: A survey」 [1] 。 该综述系统地介绍了nlp中的预训练模型。主要的贡献包括: 1.深入盘点了目前主流的预训练模型 ,如word2vec,ELMo,BERT等。 2. 提出了一种预训练模型的分类体系 ,通过四种分类维度来划分目前已有的预训练模型。包括: 表征的类型,即:是否上下文感知 编码器结构,如:LSTM、CNN、Transformer 预训练任务类型,如:语言模型LM,带掩码的语言模型MLM,排列语言模型PLM,对比学习等 针对特定场景的拓展和延伸。如:知识增强预训练,多语言预训练,多模态预训练和模型压缩等 3. 如何将PTMs学到的知识迁移到下游的任务中。 4. 收集了目前关于PTMs的学习资料。 5. 指明PTMs未来的研究方向 ,如:局限、挑战、建议。 由于篇幅原因,本文主要针对前面两点进行梳理,即 「目前主流的预训练模型」 和 「预训练模型的分类体系」 。 我们建立了 自然语言处理、机器学习等 讨论组,欢迎大家加入讨论。人数达到上限,添加下方好友手动邀请,注意一定要 备注 ,不然无法通过。 1. 背景 「nlp、cv领域的传统方法极度依赖于手动特征工程」 。例如nlp中的log