word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz 二、数据预处理 2.1 解压并查看原始数据 cd 到原始文件目录下,执行解压命令: tar -zvxf news_sohusite_xml.full. tar .gz 得到文件 news_sohusite_xml.dat, 用vim打开该文件, vim news_sohusite_xml.dat 得到如下结果: 2.2 取出内容 取出<content> </content> 中的内容,执行如下命令: cat news_tensite_xml.dat | iconv -f gbk -t utf- 8 -c | grep " <content> " > corpus.txt 得到文件名为corpus.txt的文件,可以通过vim 打开 vim corpus.txt 得到如下效果: 2.3 分词 注意