自然语言处理

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

蹲街弑〆低调 提交于 2020-08-14 05:09:33
前天晚上ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中,这篇的标题并不起眼,属于看到就想直接跳过的类型。今天细读了一下,发现确实是很有意义的工作。在此与大家分享。 背景介绍 这篇paper解决的是NLP领域的模型评测问题。目前最主流的评测方法是从已有数据中划分出一部分作为测试集,然后测试模型准确率。但这并不能全面地评估一个模型的好坏,还有很多意想不到的情况: 测试集有部分数据和训练集相似度很高,模型如果overfit了也无法发现 测试集存在bias,与真实场景分布不一致 模型采用了某种shortcut才在数据集上表现良好 所以,模型的评估环节存在着不少风险,很难做出一个完美的benchmark。 近年来也涌现了大量关注NLP评测的工作。但之前的这些工作往往还是只能检测模型某种单方面的能力(例如,对噪音的鲁棒性),或者只是提出了针对某种特定任务的评测指标(例如针对NLG任务,测试生成文本前后逻辑一致性)。而且,这些新提出的测试方法往往实际操作起来并不容易。所以尽管传统方法诟病已久,却仍然大行其道。 本文提出的CHECKLIST是一种全新的、颠覆性的评测方式。作者认为:应当 全方位对模型多项

标注样本少怎么办?「文本增强+半监督」方法总结

喜你入骨 提交于 2020-08-14 00:03:58
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无增强监督学习模型,性能有较大幅度的提升; 在少样本场景下,能够达到或者逼近充分样本下的监督学习模型性能; 在充分样本场景下,性能仍然有一定提升; 基于此,本文首先总结了nlp中的文本增强技术,然后串讲了近年来9个主流的半监督学习模型,最后重点介绍了来自Google提出的UDA(一种文本增强+半监督学习的结合体)。本文的组织结构为: 1、NLP中的文本增强技术总结 谈起文本增强技术,相信NLPer一定不会陌生,相关方法也是数不胜数。我们通常对标注数据集提供附加的感应偏置进行扩充,如何设计增强变换就变得至关重要。本文尝试从一个新角度——是否条件增强,借鉴文献[1]进行了总结归纳: 1.1 无条件增强 定义:既可以对标注数据进行增强(增强后标签不发生变化),又可以针对无标注数据进行增强,不需要强制引入标签信息。 词汇&短语替换 基于词典 :主要从文本中选择词汇或短语进行同义词替换,词典可以采取 WordNet 或哈工大词林等。著名的 EDA

图计算黑科技:打开中文词嵌入训练实践新模式

巧了我就是萌 提交于 2020-08-13 19:53:25
在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文将尝试从图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。文章作者:翟彬旭,腾讯云大数据高级研发工程师。 一、技术背景 在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似匹配是一个常见且棘手的问题。NLP(自然语言处理)社区对文本的匹配和召回已经经历从早期的基于分词和倒排索引的全文检索过渡到如今流行的文本向量检索。 向量检索通过训练和学习文本的分布式表征得到文本向量,可以解决倒排索引无法解决的语义相似度匹配问题,而且针对高维向量的大规模快速检索在业界已经有相当成熟的解决方案,如Faiss、Nmslib等。 但目前业内常用的表示学习方法很少考虑中文场景下由于输入法输入错误、发音问题等导致的文本相似匹配问题。 例如,在笔者所在的腾讯云企业画像产品研发过程中,就经常遇到类似的需求。当用户在我们的产品中搜索“腾迅科技集团股份有限责任公司”时,此时用户希望搜索的企业工商注册名称应该是“腾讯科技(深圳)有限公司”,但由于输入法错误(将“腾讯”错输为“腾迅”)、认知错误(将“有限责任公司”误认为“集团股份有限责任公司”)等原因

资源论文非系统论文,NLP圈同行评审存在的六大固化误区!

Deadly 提交于 2020-08-13 19:18:58
      编译 | 王雪佩    编辑 | 丛 末   NLP中的大多数成功案例都是关于监督学习或半监督学习的。从根本上说,这意味着我们的解析器、情感分类器、QA系统和其他一切都和训练数据一样好。基于这一事实,数据和模型工程,对于 NLP 进一步的发展来说同样重要。这就是为什么顶级会议 ACL 通常还专设了一个“资源和评估”通道,并颁发最佳资源论文奖。   然而,创建模型和资源这两项任务所需要的技能集并不相同,往往也来自不同的领域,这两个领域的研究者往往也对“论文应该是怎样的”抱有不同的期望。这就使得审稿人的工作进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的原因可能并非论文实际存在任何缺陷,而是它的基本方法论“不合适”。   对于这一点比较失望的作者们在线上或线下展开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就“论文应该是怎么样的”达成一致,那么提交论文就是浪费彼此的时间。作者希望,本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。    1    同行评审对资源论文的六大误区   让我们从消除一些关于资源论文的误区开始。 注:下面所有引用都来自ACL审稿人对论文的真实评论!    误区1:资源论文不是科学  

一文了解NLP中的数据增强方法

别等时光非礼了梦想. 提交于 2020-08-13 18:46:06
最近研究了一阵文本数据增强的方法,看到国外有一个小哥写了一篇很不错的博客来总结 NLP 领域数据增强的方法,读完感觉收益颇多,所以周末花了一上午时间翻译了一下全文。 原文地址: A Visual Survey of Data Augmentation in NLP 翻译:简枫(转载请私信或邮件) 数据增强技术在计算机视觉中应用的比较广泛,但是在 NLP 中却很少能得到有效的应用。本质原因在于图像中的一些数据增强方法,比如将图像旋转几度或将其色度转换为灰度,在增强数据的同时并不会改变图像本身的含义。这种特性使得数据增强成为计算机视觉研究中的一种重要工具。 不同于 CV,NLP 中想要做数据增强,明显困难很多 我对是否有人尝试去开发 NLP 相关的数据增强技术很感兴趣,所以找时间研究了一下现有的文献。在这篇文章中,我会努力去概述当前用于文本数据增强的方法,同时也提供对应的参考文献,供大家学习。 NLP 里面数据增强的常用方法 1. 词汇替换 这一类的工作,简单来说,就是去替换原始文本中的某一部分,而不改变句子本身的意思。 1.1 基于同义词典的替换 在这种方法中,我们从句子中随机取出一个单词,将其替换为对应的同义词。例如,我们可以使用英语的 WordNet 数据库来查找同义词,然后进行替换。 WordNet 是一个人工维护的数据库,其中包含单词之间的关系。 使用 WordNet

GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!

徘徊边缘 提交于 2020-08-13 16:04:24
一只小狐狸带你解锁 炼丹术& NLP 秘籍 2018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。 最初的GPT只是一个12层单向的Transformer,通过预训练+精调的方式进行训练,BERT一出来就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任务的输入输出进行了整合,全部用文字来表示,比如对于翻译任务的输入是“英翻法:This is life”,输出是“C'est la vie”。直接把任务要做什么以自然语言的形式放到了输入中。通过这种方式进行了大规模的训练,并用了15亿参数的大模型,一举成为当时最强的生成模型。 遗憾的是,GPT-2在NLU领域仍并不如BERT,且随着19年其他大模型的推出占据了下风,年初微软推出的Turing-NLG已经到达了170亿参数,而GPT-2只有15亿。这些模型的尺寸已经远远超出了大部分公司的预算和调参侠们的想象。。。已经到极限了吗? 不,“极限挑战”才刚刚开始,OpenAI在十几个小时前悄然放出了GPT第三季——《 Language Models are Few-Shot Learners 》。 paper链接:https://arxiv.org

情感语音合成技术难点突破与未来展望

ε祈祈猫儿з 提交于 2020-08-13 14:40:58
Photo by Lukas from Pexels 语音技术的进步,让机器合成的声音不再顿挫、冰冷,在自然度和可懂度等方面取得了不错的成绩,但当前合成效果在合成音的表现力上,特别是语气和情感方面,还存在不足。声音如果缺少情感,何谈表现力 ,又如何能提高用户交互的意愿?本文由标贝科技联合创始人兼CTO李秀林LiveVideoStack线上分享内容整理而成。 文 / 李秀林 整理 / LiveVideoStack 回放链接:https://www.livevideostack.cn/video/sillon/ 大家好,我是标贝科技的李秀林,非常高兴能与大家分享情感语音合成的事情。 在语音交互中语音识别、语音合成、语音理解是必不可少的环节。语音识别,也就是识别用户说的话。识别完成后,系统需要理解用户语言背后的含义,我们称之为语义理解。理解到用户的诉求后,需要寻找答案并给出响应。通常情况下,我们会首先得到一份文本形式的答案,然后再将文本通过语音合成,模仿人说话的形式反馈给用户,这也就形成一轮完整的语音交互。 语音交互过程涉及语音合成,即把文字变成声音,声音是文字内容的一个信息载体。语音交互是日常生活中最常见、最被人熟悉并乐于接受的展现形式,例如:人与人说话、看电视、听收音机、与音响交互等等。体验效果的好坏,会对用户的感知造成很大影响。如果语音合成质量较好,说话效果更接近真人

写给程序员的机器学习入门 (六)

半腔热情 提交于 2020-08-13 13:37:28
这一篇将会举两个例子说明怎么应用递归模型,包括文本情感分类和预测股价走势。与前几篇不同,这一篇使用的数据是现实存在的数据,我们将可以看到更高级的模型和手法🤠。 例子① - 文本感情分类 文本感情分类是一个典型的例子,简单的来说就是给出一段话,判断这段话是正面还是负面的,例如淘宝或者京东上对商品的评价,豆瓣上对电影的评价,更高级的情感分类还能对文本中的感情进行细分。因为涉及到自然语言,文本感情分类也属于自然语言处理 (NLP, Nature Langure Processing),我们接下来将会使用 ami66 在 github 上 公开的数据 ,来实现根据商品评论内容识别是正面评论还是负面评论。 在处理文本之前我们需要对文本进行切分,切分方法可以分为按字切分和按单词切分,按单词切分的精度更高但要求使用分词类库。处理中文时我们可以使用开源的 jieba 类库来按单词切分,执行 pip3 install jieba --user 即可安装,使用例子如下: # 按字切分 >>> words = [c for c in "我来到北京清华大学"] >>> words ['我', '来', '到', '北', '京', '清', '华', '大', '学'] # 按单词切分 >>> import jieba >>> words = list(jieba.cut("我来到北京清华大学")) >>

干货!3 个重要因素,带你看透 AI 技术架构方案的可行性

一笑奈何 提交于 2020-08-13 13:30:13
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 人工智能这几年发展的如火如荼,不仅在计算机视觉和自然语言处理领域发生了翻天覆地的变革,在其他领域也掀起了技术革新的浪潮。无论是在新业务上的尝试,还是对旧有业务对改造升级,AI这个奔涌了60多年的“后浪”,正潜移默化的影响着我们传统的技术架构观念。 AI架构(尤其是以机器学习和深度学习为代表的架构方案)已经成为我们技术架构选型中的一个新的选项。 你是否需要AI架构的解决方案?AI架构选型的主要依据是什么?这是我们今天主要讨论的问题。 我们先来看一个典型的AI架构: 1、首先需要采集训练模型所需要的数据,这些数据有可能来自业务系统本身,如CTR预估任务中的用户点击数据、用户下单数据等;也有可能来系统外部,公开购买或自主爬取,如图片分类任务中的图片、NLP任务中的语料等。 2、这些数据被收集起来后,经过清洗、加工,被存储起来,因为毕竟不是只用一次。一般是存储在分布式存储设备(如HDFS)或云端,多数公司还会建立自己的数据平台,保存在数据仓库中,长期积累下来。 3、需要使用的时候,先进行数据筛选,选择合适的特征数据,然后经过数据预处理,送入到算法模型中。模型的搭建可选的技术框架很多,可以是基于spark mllib,也可以是sklearn、tensorflow、pytorch等

知识提取技术在监管科技中的应用

谁都会走 提交于 2020-08-13 08:47:39
摘要: 作为自然语言处理技术和知识图谱技术的交集,知识提取技术可以从文档(如招股书)中提取关键数据,为科技监管中面临的问题提供了有效的解决途径。本文分析了知识提取技术在现有监管业务中的应用,并列示了在监管大数据平台、大数据分析、舆情监测等方面的可能应用。然而,监管知识提取也面临着格式复杂、冷启动等挑战。针对此,本文设计了一套基于柳叶刀方法的知识提取流水线。柳叶刀方法针对单一的标注学习方法的弱点,提出了迭代式的模型构造方法。可以做到构造知识生产流水线,将版面分析、篇章分析等分工序逐步实现;数百个小模型混合工作,实现细粒度的模型分解;模型高速(小时级)迭代并充分利用先验知识。此外,用深度学习进行模型泛化,有利于扩大现有规则系统的兼容能力。 关键词: 监管科技 知识提取技术 柳叶刀方法 一、背景 监管科技(RegTech)这个词虽然在近几年才为公众所知,其发展已经历约二十年的时间,发展的过程可分为三个阶段:监管1.0,解决数字化和电子化的问题;监管2.0,解决网络化和协同化的问题、OA(办公自动化)的问题;监管3.0,解决自动化和智能化的问题。 中国金融监管机构在近期发布了多个监管科技建设工作的顶层设计文件。证监会发布《中国证监会监管科技总体建设方案》,提出了7大场景、32种落地场景,还有6大基础能力;银保监会发布了《银行业金融机构数据治理指引》;人民银行发布了《金融科技(FinTech