自然语言处理

DeFormer:分解预先训练的Transformers,以更快地回答问题

我的梦境 提交于 2020-05-09 14:22:08
这篇paper在去年盲审的时候就读过,这次终于读完了。 FASTER AND JUST AS ACCURATE: A SIMPLE DECOMPOSITION FOR TRANSFORMER MODELS( 更快且同样准确:Transformer模型的简单分解 ) https://openreview.net/pdf?id=B1gKVeBtDH ​ openreview.net Introduction 文本的研究基于先前的研究: @张俊林 AI科技大本营:张俊林:BERT和Transformer到底学到了什么 | AI ProCon 2019 ​ zhuanlan.zhihu.com 较低的层次倾向于对局部现象建模(如词性、句法范畴),而较高的层次倾向于对依赖于任务的语义现象建模(如词性、句法范畴),可以以很小的效率成本提供加速。 DeFormer引入一个简单的分解预训练的基于转换的模型,在分解的模型中,较低的层独立地处理问题和上下文文本,而较高的层联合地处理它们。假设我们允许n层模型中的k个更低的层独立地处理问题和上下文文本。DeFormer通过k个较低的层离线处理上下文文本,并缓存第k层的输出。在运行时,首先通过模型的k层处理问题,然后从缓存加载第k层的文本表示。这两个第k层表示被作为输入输入到第(k + 1)层,并通过与原始模型相同的更高的层继续进行进一步的处理。

仅需少量视频观看数据,即可精准推断用户习惯:腾讯、谷歌、中科大团队提出迁移学习架构PeterRec

柔情痞子 提交于 2020-05-09 13:20:00
仅从一个人的抖音、快手、腾讯视频的观看记录里,我们能发现什么?近日,腾讯看点研发团队、Google London 和中科大的研究工作首次证实,仅依靠用户视频新闻观看记录,就可以精确地推测出用户的各种个人信息信息,包括但不限于用户年龄段、性别、喜好、人生状况(例如单身/已婚/怀孕等)、职业、学历等信息,甚至是否有心理抑郁暴力倾向。目前,这篇论文已经被信息检索领域顶级国际会议 SIGIR 接受为长文章。 机器之心发布,机器之心编辑部。 推导迁移学习对计算机视觉和 NLP 领域产生了重大影响,但尚未在推荐系统广泛使用。虽然大量的研究根据建模的用户-物品交互序列生成推荐,但很少有研究尝试表征和迁移这些模型从而用于下游任务(数据样本通常非常有限)。 在本文中,研究者深入研究了通过学习单一用户表征各种不同的下游任务,包括跨域推荐和用户画像预测。优化一个大型预训练网络并将其适配到下游任务是解决此类问题的有效方法。但是,微调通常要重新训练整个网络,并优化大量的模型参数,因此从参数量角度微调是非常低效的。为了克服这个问题,研究者开发了一种参数高效的迁移学习架构「PeterRec」。 论文链接: https:// arxiv.org/pdf/2001.0425 3.pdf PeterRec 可以快速动态地配置成各种下游任务。具体来说,PeterRec 通过注入一些小型但是极具表达力的神经网络

这个神秘的炼丹所如何拿下JDDC多轮对话比赛冠军......

爱⌒轻易说出口 提交于 2020-05-08 15:29:15
作者:家牛 筱豪 莫残 简枫 关于老和山炼丹所 大家好,我是炼丹师 家牛 ,来自 老和山炼丹所 ,我们所坐落于 西子湖畔美丽的老和山脚 下,平日 专职炼制各种NLP灵丹妙药,包括对话系统、问答系统、图学习、强化学习、对抗学习等。 这是我们炼丹所第一篇文章,讲述我们去年在智源 BAAI-JDDC 多轮对话比赛的夺冠历程。 前言 去年国庆节前夕,我们在网上看到智源主办京东承办的 多轮对话比赛 ,想到我们所主要的业务就是在炼制多轮对话的丹药,和这方向挺接近的,并且也想将之前做的技术创新在这份数据上验证下,就联合所里几个炼丹师报了名。基本都是晚上及周末业余时间在做,可能是这次多轮比赛题目和我们平时做的业务场景比较匹配,最后在参赛的254支队伍中以较大优势夺得了冠军。 比赛介绍 京东提供了100万条已脱敏的用户与在线客服对话数据,比赛分为初赛复赛和决赛三个阶段。 初赛是只提供了 用户与客服对话的前三轮为要预测的对话前文 ,从第四轮对话开始只提供用户问题,需要程序输出针对每个问题的回复,由系统自动计算程序输出与真实人工回复之间的 BLEU 值。如下图所示,在给定的前三轮对话前文里面,针对每一个客户的问题,给出 一个或者多个 候选的客服回答。赛题详细说明可以参考 http:// jddc.jd.com/description 。 比赛数据格式介绍 复赛则是采用人工评测的方式

常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper

浪尽此生 提交于 2020-05-08 14:30:47
任务 描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks Common sense reasoning 常识推理 Event2Mind cross-entropy 4.22 Event2Mind: Commonsense Inference on Events, Intents, and Reactions Parsing 句法分析 Penn Treebank F1 95.13 Constituency Parsing with a Self-Attentive Encoder Coreference resolution 指代消解 CoNLL 2012 average F1 73 Higher-order Coreference Resolution with Coarse-to-fine Inference Dependency parsing 依存句法分析 Penn Treebank POS UAS LAS 97.3 95.44 93.76 Deep Biaffine Attention for Neural Dependency

【CV中的Attention机制】易于集成的Convolutional Block Attention Module(CBAM模块)

こ雲淡風輕ζ 提交于 2020-05-08 10:21:03
前言: 这是CV中的Attention机制专栏的第一篇博客,并没有挑选实现起来最简单的SENet作为例子,而是使用了CBAM作为第一个讲解的模块,这是由于其使用的广泛性以及易于集成。目前cv领域借鉴了nlp领域的attention机制以后生产出了很多有用的基于attention机制的论文,attention机制也是在2019年论文中非常火。这篇cbam虽然是在2018年提出的,但是其影响力比较深远,在很多领域都用到了该模块,所以一起来看一下这个模块有什么独到之处,并学着实现它。 1. 什么是注意力机制? 注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。 通俗来讲:注意力机制就是希望网络能够自动学出来图片或者文字序列中的需要注意的地方。比如人眼在看一幅画的时候,不会将注意力平等地分配给画中的所有像素,而是将更多注意力分配给人们关注的地方。 从实现的角度来讲:注意力机制通过神经网络的操作生成一个掩码mask, mask上的值一个打分,评价当前需要关注的点的评分。 注意力机制可以分为: 通道注意力机制:对通道生成掩码mask,进行打分,代表是senet, Channel Attention Module 空间注意力机制:对空间进行掩码的生成,进行打分,代表是Spatial

Serverless 实战:如何结合 NLP 实现文本摘要和关键词提取?

。_饼干妹妹 提交于 2020-05-08 10:08:36
对文本进行自动摘要的提取和关键词的提取,属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;而提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。 文本摘要和关键词提取都可以和传统的 CMS 进行结合,通过对文章 / 新闻等发布功能进行改造,同步提取关键词和摘要,放到 HTML 页面中作为 Description 和 Keyworks。这样做在一定程度上有利于搜索引擎收录,属于 SEO 优化的范畴。 关键词提取 关键词提取的方法很多,但是最常见的应该就是 tf-idf 了。 通过 jieba 实现基于 tf-idf 关键词提取的方法: jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v')) 文本摘要 文本摘要的方法也有很多,如果从广义上来划分,包括提取式和生成式。其中提取式就是在文章中通过 TextRank 等算法,找出关键句然后进行拼装,形成摘要,这种方法相对来说比较简单,但是很难提取出真实的语义等;另一种方法是生成式,通过深度学习等方法,对文本语义进行提取再生成摘要。 如果简单理解,提取式方式生成的摘要,所有句子来自原文

项目需求分析(那周余嘉熊掌将得队)

☆樱花仙子☆ 提交于 2020-05-08 10:00:49
作业格式 课程名称: 软件工程1916|W(福州大学) 作业要求: 团队作业第4次-项目需求分析 团队名称: 那周余嘉熊掌将得队 作业目标: 确定和分析选题,绘制评审表 团队信息: 队员学号 队员姓名 博客地址 备注 221600131 Jamin https://www.cnblogs.com/JaminWu/ 队长 221600308 我超可爱的 http://www.cnblogs.com/XNC-SoCute/ 221600305 haziza http://www.cnblogs.com/haziza/ 221600340 你看见我的小熊了吗 https://www.cnblogs.com/stereohearts/ 221600426 Hunterj Lin https://www.cnblogs.com/HunterJ/ 021600823 玫葵 https://www.cnblogs.com/offeroques/ 计划安排 原型设计 时间 :3.23-3.30 具体任务 : 完成电脑、手机客户端的首页、登陆注册、个人中心、赛事资讯、赛事报名、交流中心、风采展示、实验室介绍、纳新报名页面的原型设计 完成管理员端可视化数据分析、报名情况、赛事资讯管理、交流中心管理、风采展示管理页面的原型设计。 状态 :已完成 需求分析报告 时间 :3.25-4.7 具体任务

cs224u Overview of the Stanford Sentiment Treebank

♀尐吖头ヾ 提交于 2020-05-08 09:56:01
cs224u Overview of the Stanford Sentiment Treebank 本文有几个相互关联的目标: •针对长期以来一直是学术研究和行业应用核心的问题:情感分析,提供监督学习的基本介绍。 •探索和评估一系列不同的情感建模方法: ◾线性分类器手工构建特征函数 ◾从VSMs中导出的特征表示 ◾递归神经网络 ◾树结构神经网络 •讨论和实施超参数优化和分类器评估与比较的方法。 本文围绕美国斯坦福大学情绪树库(SST)构建,SST是一个广泛用于评估有监督NLU模型的资源,它提供了丰富的语言表示。 情感分析的深度学习( https://nlp.stanford.edu/sentiment/ ):这个网站提供了一个预测电影评论情感的演示。大多数情感预测系统的工作原理是孤立地看单词,给积极的单词加上积极的点,给消极的单词加上消极的点,然后总结这些点。这样就忽略了词序,丢失了重要信息。相反,我们新的深度学习模型实际上建立了一个基于句子结构的完整句子表示。它根据单词如何构成较长短语的意思来计算情感。这样,模型就不像以前的模型那么容易被愚弄了。例如,我们的模型了解到幽默和诙谐是积极的,但以下句子总体上仍然是消极的:这部电影实际上既没有那么有趣,也没有超级诙谐。这个演示的底层技术是基于一种新型的递归神经网络,它建立在语法结构之上。你也可以浏览斯坦福情感树库

Serverless 实战:如何结合 NLP 实现文本摘要和关键词提取?

微笑、不失礼 提交于 2020-05-08 09:54:43
对文本进行自动摘要的提取和关键词的提取,属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;而提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。 文本摘要和关键词提取都可以和传统的 CMS 进行结合,通过对文章 / 新闻等发布功能进行改造,同步提取关键词和摘要,放到 HTML 页面中作为 Description 和 Keyworks。这样做在一定程度上有利于搜索引擎收录,属于 SEO 优化的范畴。 关键词提取 关键词提取的方法很多,但是最常见的应该就是 tf-idf 了。 通过 jieba 实现基于 tf-idf 关键词提取的方法: jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v')) 文本摘要 文本摘要的方法也有很多,如果从广义上来划分,包括提取式和生成式。其中提取式就是在文章中通过 TextRank 等算法,找出关键句然后进行拼装,形成摘要,这种方法相对来说比较简单,但是很难提取出真实的语义等;另一种方法是生成式,通过深度学习等方法,对文本语义进行提取再生成摘要。 如果简单理解,提取式方式生成的摘要,所有句子来自原文

中奖彩票,子网络的觉悟

吃可爱长大的小学妹 提交于 2020-05-07 08:49:21
本篇对彩票假说的发展及其扩展应用做了分析研究。 机器之心分析师网络,作者:张雨嘉,编辑:H4O。 如今,深度学习在机器学习中占有非常重要的地位。但随着对深度学习的要求越来越多,需要的网络层数越来越深,参数越来越多,消耗的计算资源也随之扩张,而这很大程度上阻碍了其产业化应用和推广。 从上世纪 90 年代开始,Yan Lecun 等人【1】首先提出了 神经网络剪枝 的思想,即将网络中某些对输出结果贡献不大的参数进行剪除。这种方法可以大大提高模型运行速度,但同时会对模型准确度有一定影响。经过近 30 年的研究,现在的神经网络剪枝技术可以减少训练网络时 90% 以上的参数,以减少存储需求,提高模型的推理计算性能。通常的网络剪枝步骤如下图 1 所示,首先训练一个大的、过参数化的模型,然后根据一定的准则对训练过的模型参数进行修剪,最后将修剪过的模型微调以获得失去的精度。 图 1 经典网络剪枝步骤 然而,既然一个网络可以缩小规模,为什么我们不直接训练这个较小的体系结构,使训练更有效率呢?但是人们通过长期实验发现,网络越稀疏,训练越难、学习速度越慢,所以剪枝产生的稀疏体系结构网络很难从一开始就进行训练。 1. 提出「彩票假说」 随着网络剪枝研究的深入,Jonathan Frankle 等人【2】发表了一篇名为《The Lottery Ticket Hypothesis :Finding