attention

伟大的学习资源们

做~自己de王妃 提交于 2019-11-26 17:15:47
1. Attention系列 《Attention is All You Need》 简介+代码 Attention Is All You Need(Transformer)算法原理解析 以Attention为例谈谈两种研究创新模式 Attention的套路 自然语言处理中的Attention机制总结 Attention在自然语言处理中的应用 图解Transformer 2. 语音识别系列 语音识别中深度学习训练准则 最牛逼的CTC讲解之一 最牛逼的CTC讲解之二 HMM状态绑定算法讲解之一 HMM状态绑定算法讲解之二 GMM-HMM kaldi语音识别的资料 3. 深度学习中伟大的blogs Distill MLMastery Ruder Colah 动手学深度学习教程——理论全面,代码详实 4. 其他 SRU的CUDA工程优化加速计算 来源: https://www.cnblogs.com/machine-lyc/p/11328787.html

《attention is all you need》解读

不想你离开。 提交于 2019-11-26 04:32:30
Motivation: 靠attention机制,不使用rnn和cnn,并行度高 通过attention,抓长距离依赖关系比rnn强 创新点: 通过self-attention,自己和自己做attention,使得每个词都有全局的语义信息(长依赖 由于 Self-Attention 是每个词和所有词都要计算 Attention,所以不管他们中间有多长距离,最大的路径长度也都只是 1。可以捕获长距离依赖关系 提出multi-head attention,可以看成attention的ensemble版本,不同head学习不同的子空间语义。 attention表示成k、q、v的方式: 传统的attention(sequence2sequence问题): 上下文context表示成如下的方式(h的加权平均): 那么权重alpha(attention weight)可表示成Q和K的乘积,小h即V(下图中很清楚的看出,Q是大H,K和V是小h): 上述可以做个变种,就是K和V不相等,但需要一一对应,例如: V=h+x_embedding Q = H k=h 乘法VS加法attention 加法注意力: 还是以传统的RNN的seq2seq问题为例子,加性注意力是最经典的注意力机制,它使用了有一个隐藏层的前馈网络(全连接)来计算注意力分配: 乘法注意力: 就是常见的用乘法来计算attention