0. 个人浅谈
2. 引言
3. 相关工作
4. 模型

- 输入层:将句子输入模型。
- 嵌入层:把每个词映射到低维的向量。
- LSTM层:使用双向LSTM逐步获取高级特征。
- 注意力层,产生一个权重向量,然后通过把权重向量和每个时间步长的词特征相乘,合并为句子级别的特征向量。
- 输出层,句子级别的特征向量最终用来特征分类。
4.1 Word Embeddings
。该矩阵W是学习的参数,每个词词嵌入的维度是一个超参数,需要用户提前指定。我们把每个单词 转换为词嵌入,是通过矩阵向量运算得到的。
是一个独热向量,只在的位置为1,其它位置均为0。所以句子可以表示为向量。
4.2 双向LSTM网络

4.3 Attention
,其中T是句子的长度(Pytorch文档中RNN的输出维度为output of shape (seq_len, batch, num_directions * hidden_size,其中seq_len指代的就是句子的长度)。句子的表示是由这些输出向量的加权和。
4.4 分类
5. 实验结果
文章来源: https://blog.csdn.net/herosunly/article/details/90262575