Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读

匿名 (未验证) 提交于 2019-12-02 23:32:01

0. 个人浅谈

2. 引言

3. 相关工作

4. 模型


  1. 输入层:将句子输入模型。
  2. 嵌入层:把每个词映射到低维的向量。
  3. LSTM层:使用双向LSTM逐步获取高级特征。
  4. 注意力层,产生一个权重向量,然后通过把权重向量和每个时间步长的词特征相乘,合并为句子级别的特征向量。
  5. 输出层,句子级别的特征向量最终用来特征分类。

4.1 Word Embeddings

WwrdW^{wrd}。该矩阵W是学习的参数,每个词词嵌入的维度是一个超参数,需要用户提前指定。我们把每个单词xix_i 转换为词嵌入eie_i,是通过矩阵向量运算得到的。
ei=Wwrdvie_i = W^{wrd}v_i
viv_i是一个独热向量,只在eie_i的位置为1,其它位置均为0。所以句子可以表示为向量embs={e1,e2,,eT}emb_s=\{e_1,e_2,\dots,e_T\}

4.2 双向LSTM网络



4.3 Attention

H=[h1,h2,,hT]H = [h_1,h_2,\dots,h_T],其中T是句子的长度(Pytorch文档中RNN的输出维度为output of shape (seq_len, batch, num_directions * hidden_size,其中seq_len指代的就是句子的长度)。句子的表示是由这些输出向量的加权和。
M=tan(H)M = tan(H) α=softmax(WTM)\alpha =softmax(W^TM) r=HαTr=H\alpha^T

h=tanh(r)

4.4 分类

5. 实验结果

文章来源: https://blog.csdn.net/herosunly/article/details/90262575
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!