https://zhuanlan.zhihu.com/p/109125127
《Syntax-Infused Transformer and BERT models for Machine Translation and Natural Language Understanding》简析
Dhanasekar Sundararaman, Vivek Subramanian, Guoyin Wang, Shijing Si, Dinghan Shen, Dong Wang, Lawrence Carin
Department of Electrical & Computer Engineering, Duke University
Arxiv PDF
简介
有许多的研究认为,在注意力机制的作用下,网络会学习到有用的句法信息,然而显式的句法信息是否真的已经没有价值呢?尽管含注意力机制的模型可以仅通过观察完整的句子对来学到语法特征,但是显示的句法信息(POS等)还是会提高深度学习模型的性能,尤其是在数据量有限的的情况下。本文介绍了Transformer,BERT这两个模型,分别在机器翻译(NMT)和自然语言理解(NLI)任务上利用显式的句法信息的一种方法,并相对于baseline有一定的效果提升。
本文做法对输入到Transformer体系结构中的Embedding进行修改,在注意力机制下,使输入到Encoder中的token不仅可以注意到(attend to)其他token,还可以注意到token的语法特征,包括POS,大小写和subword等。
机器翻译
在传统的机器翻译系统中,可能需要显式得用到原句子,目标句子中的句法信息(syntax),比如POS,Parsing Tree等。而在现在主流的神经机器翻译(NMT)系统,例如Transformer,就没有用到显式的句法信息(explicit syntax)。为了赋予Transformer使用syntax信息的能力,作者把
- POS
- 每个单词首字母大小写
- subword处于单词中的位置
这三类信息用可训练的Embedding来表示,然后接到token的Embedding后面(在Embedding Dim维concat),再输入Transformer的Encoder

- word:单词(subword)
- P:Pos信息
- C:首字母大小写信息
- S:subword的位置信息,包括开始(B),中间(M),结尾(E),单独一个词(O)
对应的,KQV矩阵需要进行扩充。
作者在WMT14英-德数据集进行了实验:

结果显示,注入句法信息的模型明显优于baseline的Transformer,另外,在使用部分数据的时候,注入语法信息提升的效果更大,说明对于数据量少的数据集,显式的句法信息会更有效。
自然语言理解
与Transformer相比,许多用于评估BERT模型的数据集数据量较少(少至2.5k句子)。因此,作者选择仅将POS作为BERT的句法信息。 作者考虑了两种将POS与BERT中预训练的Embedding结合的方法:
(1)将维数d = D(Token Embedding的维度)的可训练POS Embedding添加到Token Embedding后(Sequence Dim)
(2)把POS Embedding与Token Embedding连接起来(Embedding Dim)。
由于Encoder的输入尺寸D必须与BERTBASE的输入尺寸匹配(D = 768),当使用第二种方法时需要用到维度映射矩阵(D + d)× D。

实验使用了GLUE:

在GLUE基准测试集上,BERT(BASE + POS)在8个任务中的4个任务上胜过BERT(BASE)。与CoLA上的BASE相比,POS模型最大改进了0.8点,可以看到,CoLA是一项评估句子的语言结构的任务。此外,在与评估语义相关性有关的任务上,BERT(BASE + POS)优于BERT(BASE)。
来源:oschina
链接:https://my.oschina.net/u/4363067/blog/3204249