Attention机制粗读
参考链接: 浅谈Attention机制的理解 模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理、分类及应用 Attention机制详解(一)——Seq2Seq中的Attention Intuition 类似于人的注意力机制。 在观察某幅图像时,人不会将注意力平均的分散到图像的每一处,而是 根据需求重点关注特定的某一部分 。当我们发现图像的 某一部分经常出现我们需要注意的东西的时候 ,我们就会在将来出现类似场景时 把注意力放在图像的这部分上 。 从数学角度来理解,相当于从序列中学习到每一个 元素的重要程度 ,然后为其赋予一系列 注意力分配系数 ,按照权重参数将元素合并。 Application 在机器翻译、语音识别应用中,为句子中的每个词赋予不同的权重,使神经网络模型的学习变得更加灵活。 做为一种对齐关系,解释翻译输入/输出句子之间的对齐关系,解释模型到底学到了什么知识,为我们打开深度学习的黑箱,提供了一个窗口。 Model 图一:传统的Seq2Seq模型 参数解释: [ x 1 . . . x T x_1...x_T x 1 . . . x T ]表示输入序列,每个元素代表输入序列中的一个单词向量; c是固定长度隐向量(称之为背景向量或者上下文向量); [ y 1 . . . y T ′ y_1...y_{T'} y 1 . . . y