维基百科语料中的词语相似度探索
之前写过《 中英文维基百科语料上的Word2Vec实验 》,近期有不少同学在这篇文章下留言提问,加上最近一些工作也与 Word2Vec 相关,于是又做了一些功课,包括重新过了一遍Word2Vec的相关资料,试了一下gensim的相关更新接口,google了一下" wikipedia word2vec " or " 维基百科 word2vec " 相关的英中文资料,发现多数还是走得这篇文章的老路,既通过gensim提供的维基百科预处理脚本"gensim.corpora.WikiCorpus"提取维基语料,每篇文章一行文本存放,然后基于 gensim 的Word2Vec模块训练词向量模型。这里再提供另一个方法来处理维基百科的语料,训练词向量模型,计算词语相似度( Word Similarity )。关于Word2Vec, 如果英文不错,推荐从这篇文章入手读相关的资料: Getting started with Word2Vec 。 这次我们仅以英文维基百科语料为例,首先依然是下载维基百科的最新XML打包压缩数据,在这个英文最新更新的数据列表下: https://dumps.wikimedia.org/enwiki/latest/ ,找到 " enwiki-latest-pages-articles.xml.bz2 " 下载,这份英文维基百科全量压缩数据的打包时间大概是2017年4月4号