Java实现中文word2vec

天涯浪子 提交于 2019-11-26 12:06:03

依赖:

  1. java深度学习框架,deeplearning4j:http://deeplearning4j.org/word2vec

  2. 开源中文分词框架,ansj_seg:http://www.oschina.net/p/ansj

  3. 项目GitHub地址:https://github.com/YuyuZha0/word2vec

     

     

说明:word2vec深层次的原理不做说明,要实现word2vec主要要做到只有一件事,那就是词汇的识别。英文由于是空格符隔开的,所以分词比较容易,但是中文(包括日文、韩文)等是靠字形成句子的,所以借助分词工具将句子进行语法拆分很重要。word2vec借助一定的模型,通过对语料上下文进行分析,从而将词的含义投射到向量空间。相似的词在向量空间夹角很小,而不同的词差别则较大。需要注意的是,这一过程是不需要人工干预的,你只需要准备好语料即可.

 

2016-12-19更新:所有代码均迁移到了GitHub

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!