Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读

0. 个人浅谈

2. 引言

3. 相关工作

4. 模型

输入层：将句子输入模型。
嵌入层：把每个词映射到低维的向量。
LSTM层：使用双向LSTM逐步获取高级特征。
注意力层，产生一个权重向量，然后通过把权重向量和每个时间步长的词特征相乘，合并为句子级别的特征向量。
输出层，句子级别的特征向量最终用来特征分类。

4.1 Word Embeddings

$W^{wrd}$ 。该矩阵W是学习的参数，每个词词嵌入的维度是一个超参数，需要用户提前指定。我们把每个单词 $x_i$ 转换为词嵌入 $e_i$ ，是通过矩阵向量运算得到的。
$e_i = W^{wrd}v_i$
$v_i$ 是一个独热向量，只在 $e_i$ 的位置为1，其它位置均为0。所以句子可以表示为向量 $emb_s=\{e_1,e_2,\dots,e_T\}$ 。

4.2 双向LSTM网络

4.3 Attention

$H = [h_1,h_2,\dots,h_T]$ ，其中T是句子的长度（Pytorch文档中RNN的输出维度为output of shape (seq_len, batch, num_directions * hidden_size，其中seq_len指代的就是句子的长度）。句子的表示是由这些输出向量的加权和。
$M = tan(H)$ $\alpha =softmax(W^TM)$ $r=H\alpha^T$

$h^{} = t a n h (r)$

4.4 分类

5. 实验结果

文章来源: https://blog.csdn.net/herosunly/article/details/90262575

标签

lstm

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!