Embedding和Word2Vec实战
在之前的文章中谈到了文本向量化的一些基本原理和概念,本文将介绍Word2Vec的代码实现 https://www.cnblogs.com/dogecheng/p/11470196.html#Word2Vec Word2Vec论文地址 https://arxiv.org/abs/1301.3781 1.Embedding 与one-hot编码相比, 词嵌入可以将更多的信息塞入更低的维度中 下面我们用 Keras 完成一个词嵌入的学习,Keras 的 Embedding 层的输入是一个二维整数张量 , 形状为(samples,sequence_length),即(样本数,序列长度) 较短的序列应该用 0 填充,较长的序列应该被截断,保证输入的序列长度是相同的 Embedding 层输出是(samples,sequence_length,embedding_dimensionality) 的 三维浮点数张量 。 首先,我们需要对文本进行分词处理,然后对分词结果进行序列化 再统一输入的序列长度,最后把统一长度的序列化结果输入到 Embedding 层中 整个过程可以用下面的图描述 从样本的角度看,我们可以用下面的图描述这个过程 示意代码如下 from keras.preprocessing.text import Tokenizer from keras.preprocessing