attention

伟大的学习资源们

阅读更多关于伟大的学习资源们

1. Attention系列《Attention is All You Need》简介+代码 Attention Is All You Need（Transformer）算法原理解析以Attention为例谈谈两种研究创新模式 Attention的套路自然语言处理中的Attention机制总结 Attention在自然语言处理中的应用图解Transformer 2. 语音识别系列语音识别中深度学习训练准则最牛逼的CTC讲解之一最牛逼的CTC讲解之二 HMM状态绑定算法讲解之一 HMM状态绑定算法讲解之二 GMM-HMM kaldi语音识别的资料 3. 深度学习中伟大的blogs Distill MLMastery Ruder Colah 动手学深度学习教程——理论全面，代码详实 4. 其他 SRU的CUDA工程优化加速计算来源： https://www.cnblogs.com/machine-lyc/p/11328787.html

《attention is all you need》解读

阅读更多关于《attention is all you need》解读

Motivation: 靠attention机制，不使用rnn和cnn，并行度高通过attention，抓长距离依赖关系比rnn强创新点：通过self-attention，自己和自己做attention，使得每个词都有全局的语义信息（长依赖由于 Self-Attention 是每个词和所有词都要计算 Attention，所以不管他们中间有多长距离，最大的路径长度也都只是 1。可以捕获长距离依赖关系提出multi-head attention，可以看成attention的ensemble版本，不同head学习不同的子空间语义。 attention表示成k、q、v的方式: 传统的attention(sequence2sequence问题)：上下文context表示成如下的方式（h的加权平均）：那么权重alpha（attention weight）可表示成Q和K的乘积，小h即V（下图中很清楚的看出，Q是大H，K和V是小h）：上述可以做个变种，就是K和V不相等，但需要一一对应，例如： V=h+x_embedding Q = H k=h 乘法VS加法attention 加法注意力：还是以传统的RNN的seq2seq问题为例子，加性注意力是最经典的注意力机制，它使用了有一个隐藏层的前馈网络（全连接）来计算注意力分配：乘法注意力：就是常见的用乘法来计算attention

订阅 attention