仔鞠偬卸厮遗捉恼删桨滩晃钢氛坎下额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。论文中的做法是为每个词拼接两个固定维度的位置向量,分别表示词距离两个关键实体的相对位置信息。如“中国 的 首都 是 北京”,“的”与“中国”的距离大小为 1,与“北京”的距离大小为 -3,再将 1 和 -3 在 Position Embedding 层中查表得到,Position Embedding 层是随机初始化的,并且参与到模型训练当中 将上述的 Word Features 与 Position Features 拼接,输入到卷积网络中,再用Max Pooling 层把每个卷积核的输出进行池化操作。再将池化结果通过一个全连接层,激活函数为 tanh,将其看作一个更高层次的特征映射,得到最终的句子级别的特征向量 g将词汇级别特征与句子级别特征直接拼接,即f=[l;g],最终将其送入分类器进行分类。
来源:oschina
链接:https://my.oschina.net/pWdPcLmM/blog/4507853