详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention模型
欢迎点击参观我的 ——> 个人学习网站 注:本文的所有模型只涉及自然语言处理领域,同时本文不涉及太多复杂公式推导。 一、 Seq2Seq 模型 1. 简介 Sequence-to-sequence (seq2seq) 模型,顾名思义,其输入是一个序列,输出也是一个序列,例如输入是英文句子,输出则是翻译的中文。 seq2seq 可以用在很多方面:机器翻译、 QA 系统、文档摘要生成、 Image Captioning (图片描述生成器)。 2. 基本框架 第一种结构 [参考1]论文中提出的 seq2seq 模型可简单理解为由三部分组成: Encoder、Decoder 和连接两者的 State Vector (中间状态向量) C 。 上图中 Encoder 和 Decoder 可以是一个 RNN ,但通常是其变种 LSTM 或者 GRU 。 Encoder 和 Decoder 具体介绍请见第三部分。 第二种结构 该结构是最简单的结构,和第一种结构相似,只是 Decoder 的第一个时刻只用到了 Encoder 最后输出的中间状态变量 : 应用: 在英文翻译中,将英文输入到 Encoder 中, Decoder 输出中文。 参考1:-原创翻译- 基于RNNEncoder–Decoder的机器翻译L(earning Phrase Representations using RNN