TeaForN:让Teacher Forcing更有“远见”一些
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 Teacher Forcing 是 Seq2Seq 模型的经典训练方式,而 Exposure Bias则是 Teacher Forcing 的经典缺陷,这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过文章 Seq2Seq中Exposure Bias现象的浅析与对策 ,初步地分析过 Exposure Bias 问题。 本文则介绍 Google 新提出的一种名为“ TeaForN ”的缓解 Exposure Bias 现象的方案,来自论文 TeaForN: Teacher-Forcing with N-grams ,它通过嵌套迭代的方式,让模型能提前预估到后 N 个 token(而不仅仅是当前要预测的 token),其处理思路上颇有可圈可点之处,值得我们学习。 论文标题: TeaForN: Teacher-Forcing with N-grams 论文链接: https://arxiv.org/abs/2010.03494 (注:为了尽量跟旧文章保持一致,本文的记号与原论文的记号有所不同,请大家以理解符号含义为主,不要强记符号形式。) Teacher Forcing 文章 Seq2Seq中Exposure Bias现象的浅析与对策 已经相对详细地介绍了 Teacher