seq2seq

TeaForN:让Teacher Forcing更有“远见”一些

淺唱寂寞╮ 提交于 2020-11-08 11:35:55
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 Teacher Forcing 是 Seq2Seq 模型的经典训练方式,而 Exposure Bias则是 Teacher Forcing 的经典缺陷,这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过文章 Seq2Seq中Exposure Bias现象的浅析与对策 ,初步地分析过 Exposure Bias 问题。 本文则介绍 Google 新提出的一种名为“ TeaForN ”的缓解 Exposure Bias 现象的方案,来自论文 TeaForN: Teacher-Forcing with N-grams ,它通过嵌套迭代的方式,让模型能提前预估到后 N 个 token(而不仅仅是当前要预测的 token),其处理思路上颇有可圈可点之处,值得我们学习。 论文标题: TeaForN: Teacher-Forcing with N-grams 论文链接: https://arxiv.org/abs/2010.03494 (注:为了尽量跟旧文章保持一致,本文的记号与原论文的记号有所不同,请大家以理解符号含义为主,不要强记符号形式。) Teacher Forcing 文章 Seq2Seq中Exposure Bias现象的浅析与对策 已经相对详细地介绍了 Teacher

端到端的OCR版面分析算法

独自空忆成欢 提交于 2020-11-06 23:59:09
端到端的OCR版面分析算法 OCR版面分析痛点 算法设计初衷 数据增广策略 两种端到端的方案 1、基于xgboost的版面分析算法 2、基于seq2seq的版面分析算法 结语 OCR版面分析痛点 当前OCR之后的版面分析工作大家都是规则写的,自己也深受规则之苦,看到ocr输出的一大堆文字和坐标就头皮发麻。最近受了chineseocr作者模板引擎的启发,做了两个端到端的版面分析算法,希望能够帮到各位ocrer。 github 算法设计初衷 最开始的想法是在检测网络上增加类别判断,预测位置的同时加上box类别的判断,但是这样通用性就大大降低了,违背不干预原始的OCR算法的初衷,版面分析的算法应该和OCR算法无缝衔接,所以模型输入应该是OCR输出的box坐标和相应文本。 基于此,延伸出两个思路,一个是忽略box间的位置关系,直接将box坐标和文本编码,送入分类器,即基于xgboost的分类方案。另一个考虑box间的相互关系,将版面分析当成一种翻译任务,即基于seq2seq的翻译方案 数据增广策略 其次标注数据不能太多,如果标注投入过大就有些得不偿失了,算法设计初衷就是希望只标注一些具有代表性的版面,因此增广策略就显得特别重要。增广策略有以下几条: 随机扰动检测框坐标点1~3个像素 随机切分检测框,并随机拆分文本 随机替换 数字、日期等文本内容 随机丢弃3~5检测框 两种端到端的方案 1

NLP基础

淺唱寂寞╮ 提交于 2020-10-31 06:04:26
1 自然语言处理三大特征抽取器(CNN/RNN/TF)比较 白衣骑士Transformer:盖世英雄站上舞台 华山论剑:三大特征抽取器比较    综合排名情况 以上介绍内容是从几个不同角度来对RNN/CNN/Transformer进行对比,综合这几个方面的实验数据,我自己得出的结论是这样的: 单从任务综合效果方面来说,Transformer明显优于CNN,CNN略微优于RNN。速度方面Transformer和CNN明显占优,RNN在这方面劣势非常明显。这两者再综合起来,如果我给的排序结果是Transformer>CNN>RNN ,估计没有什么问题吧?那位吃亏…..爱挑刺的同学,你说呢? 从速度和效果折衷的角度看,对于工业界实用化应用,我的感觉在特征抽取器选择方面配置Transformer base是个较好的选择。 三者的合流:向Transformer靠拢    2 从Word Embedding 到bert模型(上下文预训练)-自然语言处理中的预训练技术发展史 A: NNLM B: Word2Vec CBOW (完形填空) C : ELMO ELMO本身是个根据当前上下文对Word Embedding动态调整的思路。 从W2V 到ELMO:基于上下文的embedding D: GPT 从W2V 到 GPT: Pretain + Finetune两阶段过程              

谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」

徘徊边缘 提交于 2020-10-30 07:17:12
视学算法报道 编辑:陈萍、魔王 转载自公众号:机器之心 深度学习模型的训练就像是「黑箱操作」,知道输入是什么、输出是什么,但中间过程就像个黑匣子,这使得研究人员可能花费大量时间找出模型运行不正常的原因。 假如有一款可视化的工具,能够帮助研究人员更好地理解模型行为,这应该是件非常棒的事。 近日,Google 研究人员发布了一款语言可解释性工具 (Language Interpretability Tool, LIT),这是一个开源平台,用于可视化和理解自然语言处理模型。 论文地址:https://arxiv.org/pdf/2008.05122.pdf 项目地址:https://github.com/PAIR-code/lit LIT 重点关注模型行为的核心问题,包括:为什么模型做出这样的预测?什么时候性能不佳?在输入变化可控的情况下会发生什么?LIT 将局部解释、聚合分析和反事实生成集成到一个流线型的、基于浏览器的界面中,以实现快速探索和错误分析。 该研究支持多种自然语言处理任务,包括探索情感分析的反事实、度量共指系统中的性别偏见,以及探索文本生成中的局部行为。 此外 LIT 还支持多种模型,包括分类、seq2seq 和结构化预测模型。并且它具备高度可扩展性,可通过声明式、框架无关的 API 进行扩展。 相关 demo,参见视频: 可以针对新颖的工作流程进行重新配置

语音合成最新进展

Deadly 提交于 2020-10-28 06:05:08
Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波$Asin(wt+\theta)$中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析,仅有频谱是不够的,还需要一个相位谱。 时域谱:时间-振幅 频域谱:频率-振幅 相位谱:相位-振幅 参见: 傅里叶分析之掐死教程(完整版)更新于2014.06.06 传统语音合成: 单元挑选和拼接:将事先录制好的语音波形小片段缝合在一起。边界人工痕迹明显 统计参数:直接合成语音特征的平滑轨迹,交由声码器合成语音。发音模糊不清且不自然 Tacotron2分为两部分: 一个seq2seq结构的特征预测网络,将字符向量映射到梅尔声谱图 一个WaveNet修订版,将梅尔声谱图合成为时域波形 梅尔频谱是对短时傅里叶变换获得的声谱(即线性声谱)频率轴施加一个非线性变换,其依据人耳特性:低频细节对语音的理解十分关键,而高频细节可以淡化,对频率压缩变换而得。Tacotron2使用低层的声学特征梅尔声谱图来衔接两个部分的原因: 梅尔频谱容易通过时域波形计算得到 梅尔频谱对于每一帧都是相位不变的,容易使用均方差(MSE)训练 梅尔声谱抛弃了相位信息,而像Griffin-Lim算法对抛弃的相位信息进行估计

AI也能精彩表达,如何高效掌握文本生成?

删除回忆录丶 提交于 2020-10-24 13:01:05
最近GPT-3掀起了一波“炒作”浪潮,并在AI文本生成领域内掀起了一波的创新浪潮。 GPT-3的与众不同之处在于它的运行规模和完成一系列令人难以置信的任务,这种不可置信的深度和复杂性使输出也具有复杂性,从而让GPT-3成为一种非常灵活的工具,例如: 基于问题的搜索引擎 与历史人物交谈的聊天机器人 解决语言和语法难题 基于文本描述的代码生成 文本的风格迁移 编写吉他曲谱 设计密室逃生游戏方案 …… GPT-3是如此庞大,以至于所有这些不同功能都可以在其中实现。用户只需要输入正确的提示就可以调教好它。 那么, 如何才能掌握GPT?挑战最前沿的GTP实践应用? 本号强烈推荐你参加 《文本生成任务——GPT系列模型训练营》 ,前百度算法工程师从理论解读到代码实操,让你轻松掌握文本生成任务。内容不错,推荐给你们。 3天时间,带你挑战最前沿的GTP实践应用 ▼ 仅需 3天 时间,每天 120分钟 左右 课程配备有专职 班主任督促学习、群内互动交流干货分享不断、更有资深助教 为大家在线答疑解惑。深度掌握GPT系列模型,帮助你找到快速入门自然语言处理——文本生成方向! 限时福利 9月22日 19点前 早鸟价 仅需 49 元 原价399元 按照要求 3天全勤全部返还 = 0元学 扫描下方二维码 报名 每递增200人价格将上涨50元 ????立即扫码加入我们???? 无论你是经验丰富的算法工程师

自然语言处理动手学Bert文本分类

坚强是说给别人听的谎言 提交于 2020-10-20 16:51:01
自然语言处理动手学Bert文本分类 Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 章节1:课程简介 章节2:Seq2Seq相关理论 章节3:Attention机制 章节4:Bert理论系列基础 章节5:基于Bert的文本分类实战 章节6:基于Bert+CNN的文本分类实战 章节7:基于Bert+RNN的文本分类实战 章节8:基于Bert+RCNN的文本分类实战 章节9:基于Bert+DPCNN的文本分类实战 章节10:基于ERNIE的文本分类实战 来源: oschina 链接: https://my.oschina.net/u/4323266/blog/4681101

Soft-Masked BERT:文本纠错与BERT的最新结合

孤街浪徒 提交于 2020-10-14 19:54:00
文本纠错 ,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下语音识别(ASR)不准确的问题。 本文将通过以下几个章节简要介绍文本纠错相关知识。 1. 文本纠错示例与难点 2. 文本纠错常用技术 3. 如何将 BERT 应用于文本纠错 4. 文本纠错最优模型 : Soft - Masked BERT ( 2020 - ACL ) 5. 立马上手的纠错工具推荐 一.文本纠错示例与难点 生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。错别字往往来自于如下的“相似字典”。 相似发音中文字典 相似字形中文字典 其他错误还包括方言、口语化、重复输入导致的错误,在ASR中较为常见。 现有的NLP技术已经能解决多数文本拼写错误。剩余的 纠错难点 主要在于,部分文本拼写错误需要 常识背景(world-knowledge) 才能识别。例如: Wrong : "我想去埃及金子塔旅游。" Right : "我想去埃及金字塔旅游。" 将其中的“金子塔”纠正为“金字塔”需要一定的背景知识。 同时,一些错误需要模型像人一样具备 一定的推理和分析能力 才能识破。例如: Wrong : "他的求胜欲很强,为了越狱在挖洞。" Right :

谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」

好久不见. 提交于 2020-10-11 03:59:15
深度学习模型的训练就像是「黑箱操作」,知道输入是什么、输出是什么,但中间过程就像个黑匣子,这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具,能够帮助研究人员更好地理解模型行为,这应该是件非常棒的事。 近日,Google 研究人员发布了一款语言可解释性工具 (Language Interpretability Tool, LIT),这是一个开源平台,用于可视化和理解自然语言处理模型。 论文地址:https://arxiv.org/pdf/2008.05122.pdf 项目地址:https://github.com/PAIR-code/lit LIT 重点关注模型行为的核心问题,包括:为什么模型做出这样的预测?什么时候性能不佳?在输入变化可控的情况下会发生什么?LIT 将局部解释、聚合分析和反事实生成集成到一个流线型的、基于浏览器的界面中,以实现快速探索和错误分析。 该研究支持多种自然语言处理任务,包括探索情感分析的反事实、度量共指系统中的性别偏见,以及探索文本生成中的局部行为。 此外 LIT 还支持多种模型,包括分类、seq2seq 和结构化预测模型。并且它具备高度可扩展性,可通过声明式、框架无关的 API 进行扩展。 相关 demo,参见视频: 00:00/00:00倍速 可以针对新颖的工作流程进行重新配置,并且这些组件是独立的,可移植的,且易于实现。

NLP中的Transformer 简介

此生再无相见时 提交于 2020-10-09 04:19:56
作者|Renu Khandelwal 编译|VK 来源|Towards Data Science 在这篇文章中,我们将讨论以下有关Transformer的问题 为什么我们需要Transformer,Sequence2Sequence模型的挑战是什么? 详细介绍了Transformer及其架构 深入研究Transformer中使用的术语,如位置编码、自注意力、多头注意力、掩码多头注意力 可以使用Transformer的NLP任务 Sequence2Sequence (Seq2Seq)的缺点 顺序计算 :在Seq2Seq中,我们以顺序的方式在每个步骤中向编码器输入一个单词,以便在解码器中每次生成一个单词的输出。在Seq2Seq架构中我们做不到通过并行化操作来提高计算效率。 长期依赖关系 :长期依赖关系是Seq2Seq的一个问题,这是由于需要为长句执行大量操作造成的,如下所示。 这里的“it”指的是“Coronavirus”还是“countries”?。 让我们深入了解Transformer的体系结构和Transformer的关键概念,以了解Transformer如何应对这些挑战 Transformer架构 Transformer有6个编码器和6个解码器,不像Seq2Seq,该编码器包含两个子层:多头自注意层和一个全连接层。 该解码器包含三个子层,一个多头自注意层