【深度学习】 基于Keras的Attention机制代码实现及剖析——LSTM+Attention
说明 这是接前面 【深度学习】基于Keras的Attention机制代码实现及剖析——Dense+Attention 的后续。 参考的 代码来源1 : Attention mechanism Implementation for Keras. 网上大部分代码都源于此,直接使用时注意Keras版本,若版本不对应,在merge处会报错,解决办法为:导入Multiply层并将merge改为Multiply()。 参考的 代码来源2 : Attention Model(注意力模型)思想初探 ,这篇也是运行了一下来源1,做对照。 在实验之前需要一些预备知识,如RNN、LSTM的基本结构,和Attention的大致原理,快速获得这方面知识可看 RNN&Attention机制&LSTM 入门了解 。 实验目的 现实生活中有很多序列问题,对一个序列而言,其每个元素的“重要性”显然是不同的,即权重不同,这样一来就有使用Attention机制的空间,本次实验将在LSTM基础上实现Attention机制的运用。 检验Attention是否真的捕捉到了关键特征,即被Attention分配的关键特征的权重是否更高。 实验设计 问题设计:同Dense+Attention一样,我们也设计成二分类问题,给定特征和标签进行训练。 Attention聚焦测试:将特征的某一列与标签值设置成相同