Word2Vec
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_28840013/article/details/89681499 这里,我们不讲word2vec的原理(其实是还了解不透彻,以后明白了再写,大家在阅读本文之前,可以先简单了解一下其推理过程),就只了解其参数和输入输出。网上还有对word2vec用tensorflow进行的实现,以后再说吧。 1.Word2vec作用:表达不同词之间的相似和类比关系 2.安装方法:pip install --upgrade gensim #因为Gensim开发了一套工具箱叫做gensim,里面继承了Word2vec方法。 3.输入参数格式: import gensim #sentences=[["a","b"],["b","c"] ... ] sentences=word2vec.Text8Corpus("test.txt") #text8为语料库文件名 #sentences是训练所需预料,可通过该方式加载,此处训练集为英文文本或分好词的中文文本 1 2 3 4 sentences是训练所需材料,可通过两种格式载入: 1.文本格式: 将每篇文章 分词去停用词后,用空格分割,将其存入txt文本中(每一行一篇文章) 这个格式文本处理后