具有注意力机制的seq2seq模型
作者|Renu Khandelwal 编译|VK 来源|Towards Data Science 在本文中,你将了解: 为什么我们需要seq2seq模型的注意力机制? Bahdanua的注意力机制是如何运作的? Luong的注意力机制是如何运作的? 什么是局部和全局注意力? Bahdanua和Luong注意力机制的关键区别 什么是注意力,为什么我们需要seq2seq模型的注意力机制 让我们考虑两个场景,场景一,你正在阅读与当前新闻相关的文章。第二个场景是你正在阅读准备考试。两种情况下的注意力水平是相同还是不同? 与新闻文章相比,你在准备考试时会相当注意阅读。在准备测试的时候,你会更加关注关键词来帮助你记住一个简单或复杂的概念。这也意味着我们要专注于某一特定领域的任何深度学习任务。 序列到序列(Seq2Seq)模型使用编码器-解码器架构 。 seq2seq的几个场景 神经机器翻译(NMT) 图像字幕 聊天机器人 文本摘要等 Seq2Seq模型将源序列映射到目标序列。在神经机器翻译的情况下,源序列可以是英语,目标序列可以是印地语。 我们将英语源语句传递给编码器;编码器将源序列的完整信息编码为单个实值向量,也称为上下文向量。然后,这个上下文向量被传递到解码器上,以生成目标语言(如印地语)中的输出序列。上下文向量负责将整个输入序列汇总为单个向量。 如果输入的句子很长