依赖:
-
java深度学习框架,deeplearning4j:http://deeplearning4j.org/word2vec
-
开源中文分词框架,ansj_seg:http://www.oschina.net/p/ansj
-
项目GitHub地址:https://github.com/YuyuZha0/word2vec
说明:word2vec深层次的原理不做说明,要实现word2vec主要要做到只有一件事,那就是词汇的识别。英文由于是空格符隔开的,所以分词比较容易,但是中文(包括日文、韩文)等是靠字形成句子的,所以借助分词工具将句子进行语法拆分很重要。word2vec借助一定的模型,通过对语料上下文进行分析,从而将词的含义投射到向量空间。相似的词在向量空间夹角很小,而不同的词差别则较大。需要注意的是,这一过程是不需要人工干预的,你只需要准备好语料即可.
2016-12-19更新:所有代码均迁移到了GitHub
来源:oschina
链接:https://my.oschina.net/u/2541538/blog/663761