Sequence to Sequence Learning with Neural Networks(翻译)
Sequence to Sequence Learning with Neural Networks 摘要 本文中提出了一种通用的端到端的学习方式,对序列结构做出了做小的假设。我们的方法是使用多层LSTM将输入序列映射到固定维度的向量,然后使用另一个深层的LSTM 将这个向量解码到目标序列。LSTM还学习到合理的短语和句子的表达,即:对语序敏感而对主动语态和被动语态并不敏感。最后,我们发现翻转源句子中的单词的顺序可以明显的提高LSTM的性能,因为这样做会在源语句和目标语句之间引入许多短期相关性,从而使优化问题变得更容易。 1 简介 DNN功能强大,并且实现了卓越的性能。虽然DNN灵活且强大,但是只能应用在输入和目标可以用固定维度的向量合理的编码的问题上。这是一个严重的限制,因为许多重要的表达最好是用长度不定的序列表达。 序列对DNN构成了一个挑战,因为序列要求输入和输出的维度已知并且固定。本文中, 我们提出LSTM结构直接应用可以解决一般的序列到序列的问题。这个想法是用一个LSTM读取输入序列,一次一个时间步,去获得大的固定向量的表示,然后使用另一个输出序列在从该项量中提取出输出序列。第二个LSTM除了它取决于输入序列,其本质上就是一个RNN语言模型。LSTM可以成功在数据上学习长依赖的能力使其成为了该应用的自然选择,因为输入和相应的输出之间存在着相当的时间延迟。 注 : 图 1