自然语言处理

知识图谱文献综述(第二章 知识表示学习)

こ雲淡風輕ζ 提交于 2020-04-27 20:15:23
第二章 知识表示学习 1. 任务定义、目标和研究意义   知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识库 的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识, 网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表 实体间的关系。然而, 基于网络形式的知识表示面临诸多挑战性难题 ,主要包括 如下两个方面:   (1)计算效率问题。基于网络的知识表示形式中,每个实体均用不同的节 点表示。当利用知识库计算实体间的语义或推理关系时,往往需要人们设计专门 的图算法来实现,存在可移植性差的问题。更重要的,基于图的算法计算复杂度 高,可扩展性差,当知识库规模达到一定规模时,就很难较好地满足实时计算的 需求。   (2)数据稀疏问题。与其他类型的大规模数据类似,大规模知识库也遵守 长尾分布,在长尾部分的实体和关系上,面临严重的数据稀疏问题。例如,对于 长尾部分的罕见实体,由于只有极少的知识或路径涉及它们,对这些实体的语义 或推理关系的计算往往准确率极低。   近年来, 以深度学习[Bengio, et al., 2009]为代表的表示学习[ Bengio, et al., 2013]技术异军突起,在语音识别、图像分析和自然语言处理领域获得广泛关注。 表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空 间中,两个对象距离越近

AAAI2018中的自注意力机制(Self-attention Mechanism)

时光总嘲笑我的痴心妄想 提交于 2020-04-27 18:23:57
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究,各式各样的attention被研究者们提出,如单个、多个、交互式等等。去年6月,google机器翻译团队在arXiv上的《Attention is all you need》论文受到了大家广泛关注,其中,他们提出的自注意力(self-attention)机制和多头(multi-head)机制也开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。在AAAI2018的接收论文中,有30余篇都使用了attention机制,其中有3篇使用到了self-attention。本人就这篇论文中的self-attention以及一些相关工作进行了学习总结(其中也参考借鉴了张俊林博士的博客“深度学习中的注意力机制(2017版)”和苏剑林的“《Attention is All You Need》浅读(简介+代码)”),和大家一起分享。 一、引言 Attention机制由视觉图像领域提出来,在2014年,Bahdanau在《Neural Machine Translation by Jointly Learning to Align and Translate》上将其应用到机器翻译任务上,这是第一个应用到NLP领域的论文。之后,15、16、17乃至今年

注意力机制(Attention Mechanism)应用——自然语言处理(NLP)

不问归期 提交于 2020-04-27 18:23:35
近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展。基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,下面是一些基于attention机制的神经网络在自然语言处理(NLP)领域的论文,现在来对attention在NLP中的应用进行一个总结,和大家一起分享。 1 Attention研究进展 Attention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。 2 Recurrent Models of

十余行代码完成迁移学习,百度PaddleHub实战解读

旧城冷巷雨未停 提交于 2020-04-27 18:04:36
来源:百度 PaddlePaddle 迁移学习 (Transfer Learning) 是属于深度学习的一个子研究领域,该研究领域的目标在于利用数据、任务、或模型之间的相似性,将在旧领域学习过的知识,迁移应用于新领域中。迁移学习吸引了很多研究者投身其中,因为它能够很好的解决深度学习中的以下几个问题: 一些研究领域只有少量标注数据,且数据标注成本较高,不足以训练一个足够鲁棒的神经网络 大规模神经网络的训练依赖于大量的计算资源,这对于一般用户而言难以实现 应对于普适化需求的模型,在特定应用上表现不尽如人意 为了让开发者更便捷地应用迁移学习,百度 PaddlePaddle 开源了预训练模型管理工具 PaddleHub。开发者用使用仅仅十余行的代码,就能完成迁移学习。本文将为读者全面介绍 PaddleHub 并其应用方法。 项目地址:https://github.com/PaddlePaddle/PaddleHub PaddleHub 介绍 PaddleHub 是基于 PaddlePaddle 开发的预训练模型管理工具,可以借助预训练模型更便捷地开展迁移学习工作,旨在让 PaddlePaddle 生态下的开发者更便捷体验到大规模预训练模型的价值。 PaddleHub 目前的预训练模型覆盖了图像分类、目标检测、词法分析、Transformer、情感分析五大类别

自注意力机制(Self-attention Mechanism)——自然语言处理(NLP)

a 夏天 提交于 2020-04-27 18:01:50
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究,各式各样的attention被研究者们提出。在2017年6月google机器翻译团队在arXiv上放出的《Attention is all you need》论文受到了大家广泛关注,自注意力(self-attention)机制开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。对这篇论文中的self-attention以及一些相关工作进行了学习总结(其中也参考借鉴了张俊林博士的博客"深度学习中的注意力机制(2017版)"和苏剑林的"《Attention is All You Need》浅读(简介+代码)"),和大家一起分享。 1 背景知识 Attention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是2014年google mind团队的这篇论文《Recurrent Models of Visual Attention》,他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中

[CS224n笔记] L17 Multitask Learning

|▌冷眼眸甩不掉的悲伤 提交于 2020-04-27 17:23:57
最近会逐步将博客上的 CS224n-2019 笔记搬到知乎上来,后续也会新增 CS224n-2020 里的更新部分:CS224n-2020 并未更新 Note 部分,但课程的部分课件进行了教学顺序上的调整与修改(Suggested Readings 也相应变动),需要注意的是三个 Guest Lecture 都是全新的。 本文为 Lecture 17 Multitask Learning 的笔记。 Useful links 课程官网: Stanford CS224n || Stanford CS224n-2019 课程材料: LooperXX/CS224n-Resource || LooperXX/CS224n-Reading-Notes 课程视频: YouTube 国内视频资源: 2019版|英文字幕(仍在更新) || 2019版|英文字幕(全) || 2017版|中英字幕 如有疏漏之处,还望不吝赐教~ Lecture 17 Multitask Learning The Natural Language Decathlon: Multitask Learning as Question Answering The Limits of Single-task Learning 鉴于{dataset,task,model,metric},近年来性能得到了很大改善 只要

本周AI热点回顾:文章自动变视频、无人出租今起免费坐、YOLO v4复活

筅森魡賤 提交于 2020-04-27 17:16:43
YOLO项目复活,大神接过衣钵! 两个月前,YOLO 之父 Joseph Redmon 表示,由于无法忍受自己工作所带来的的负面影响,决定退出计算机视觉领域。此事引发了极大的热议, 当我们都以为再也没有希望的时候,YOLO v4 却悄无声息地来了。这一目标检测神器出现了新的接棒者! 本月24日,YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接,迅速引起了 CV 社区的关注。 YOLO v4 的作者共有三位:Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao。其中一作 Alexey Bochkovskiy 是位俄罗斯开发者,此前曾做出 YOLO 的 windows 版本。 在相关论文中,研究者对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍!此外,与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%。 许多特征可以提高 CNN 的准确率,然而真正实行起来,还需要在大型数据集上对这些特征组合进行实际测试,并且对测试结果进行理论验证。某些特征仅在某些模型上运行,并且仅限于特定的问题,或是只能在小型数据集上运行;而另外有些特征(如批归一化和残差连接

PyTorch 1.0 中文官方教程:序列模型和LSTM网络

≯℡__Kan透↙ 提交于 2020-04-27 07:05:52
译者: ETCartman 之前我们已经学过了许多的前馈网络. 所谓前馈网络, 就是网络中不会保存状态. 然而有时 这并不是我们想要的效果. 在自然语言处理 (NLP, Natural Language Processing) 中, 序列模型是一个核心的概念. 所谓序列模型, 即输入依赖于时间信息的模型. 一个典型的序列模型是隐马尔科夫模型 (HMM, Hidden Markov Model). 另一个序列模型的例子是条件随机场 (CRF, Conditional Random Field). 循环神经网络是指可以保存某种状态的神经网络. 比如说, 网络上个时刻的输出可以作为下个 时刻的输入, 这样信息就可以通过序列在网络中一直往后传递. 对于LSTM (Long-Short Term Memory) 来说, 序列中的每个元素都有一个相应的隐状态 $h_t$, 该隐状态 原则上可以包含序列当前结点之前的任一节点的信息. 我们可以使用隐藏状态来预测语言模型 中的单词, 词性标签以及其他各种各样的东西. Pytorch中的LSTM 在正式学习之前,有几个点要说明一下,Pytorch中LSTM的输入形式是一个3D的Tensor,每一个维度都有固定的意义,第一个维度就是序列本身,第二个维度是mini-batch中实例的索引,第三个维度是输入元素的索引,我们之前没有接触过mini

腾讯第100个开源项目:微信开源推理加速工具TurboTransformers

老子叫甜甜 提交于 2020-04-26 18:50:10
出品 | AI科技大本营(ID:rgznai100) 4月24日,腾讯正式宣布开源Transformer推理加速工具TurboTransformers。该工具面向自然语言处理领域中Transformers相关模型丰富的线上预测场景,在微信、腾讯云、QQ看点等产品的线上服务中已经广泛应用,这也是腾讯通过Github对外开源的第100个项目。 据了解,TurboTransformers的诞生源于腾讯内部对开源协同的推动。2019年初,腾讯技术委员会成立,下设开源协同、自研上云两个项目组和对外开源管理办公室,以此来促进内部代码的开放共享和协同共建。 TurboTransformers来自于深度学习自然语言处理基础平台TencentNLP Oteam,作为基础性技术版块,率先进行了开源协同的实践,旨在搭建统一的深度学习 NLP (Natural Language Processing,自然语言处理)基础平台、提升研发效能。在内部对技术反复打磨的基础上,该项目进一步对外开源。 在自然语言处理领域中,以BERT为代表的Transformers相关神经网络模型是近年来最重要的模型创新。可以为阅读理解、文章摘要、语义分类、同义改写等NLP任务提供显著的效果提升。但提高模型精度的同时,Transformes相关模型也带来了更多的计算量。由于深度学习的训练和推理任务存在差异

我的公开成果

跟風遠走 提交于 2020-04-26 16:59:56
目录 1. 专利 2. 论文 3. 获奖 1. 专利 专利名称:一种对话系统的训练数据选择方法 发明人:张贺;雷欣;李志飞 申请人:出门问问(武汉)信息科技有限公司 申请号:CN201910840420.3 申请日期:20190906 公开号:CN110543636A 公开日期:20191206 链接: http://www2.soopat.com/Patent/201910840420 摘要:本发明提供一种对话系统的训练数据选择方法,包括:确定新增垂直领域和所述新增垂直领域对应的第一正样本数据;选取多个候选垂直领域,确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据;根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据,确定所述每个候选垂直领域与新增垂直领域之间的相似度;根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度,确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。本发明还提供一种对话系统的训练数据选择装置,确定作为用于训练新增垂直领域的候选垂直领域,提高了准确率和效率,同时降低了人力成本。 专利名称:自然语言理解训练数据生成方法、装置、设备及存储介质 发明人:张贺;齐乔松 申请人:出门问问信息科技有限公司 申请号:CN201811600740.3 申请日期:20181226 公开号