Python 结巴分词 + Word2Vec利用维基百科训练词向量
结巴分词 是一个跨语言的中文分词器,整体效果还算不错,功能也够用,这里直接用Python了,其他主流语言版本均有提供。 Word2Vec,起源于谷歌的一个项目,在我刚开始接触的时候就关注到了他的神奇,大致是通过深度神经网络把词映射到N维空间,处理成向量之后我们终于可以在自然语言处理上方便的使用它进行一些后续处理。 Python的 gensim 库中有 word2vec 包,我们使用这个就可以了,接下来我们就对维基百科进行处理,作为训练集去训练。(包地址: http://radimrehurek.com/gensim/models/word2vec.html ) 本文参考: http://www.52nlp.cn/中英文维基百科语料上的word2vec实验 处理 使用维基百科的数据很方便,一是Wiki给我们提供了现成的语料库(听说是实时更新的),虽然中文体积不大,但比起自己爬来方便了不少。 如果使用英文那就更棒了,非常适合作为语料库。 当然只是说在通用的情况下,在专业词汇上,经过测试效果比较一般(考虑到专业词库有专业wiki,以及中文词条本身也不太多)。 首先,我们把Wiki处理成Text格式待处理的文本,这一步在本文参考中有现成的代码。 process_wiki_data.py #!/usr/bin/env python # -*- coding: utf-8 -*- #