中文分词工具非常繁多,主要与大家分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。
中文分词工具:
1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。
http://www.oschina.net/p/ikanalyzer
源码地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc
使用方式:下载IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包即可。
2、NLPIR 中文分词库(又名ICTCLAS2013)
示例(Java):http://my.oschina.net/u/944980/blog/132183
3、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具
http://www.oschina.net/p/jcseg
4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的
http://www.oschina.net/p/mmseg4j
5、Anjs 中文分词器
Python中文分词组件:
1、Genius是一个开源的Python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
http://www.oschina.net/p/genius-fc
2、Python中文分词组件“结巴”分词
https://github.com/fxsjy/jieba
安装说明:
代码对 Python 2/3 均兼容
- 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba
- 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
- 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
- 通过 import jieba 来引用
写在最后:下一篇博客我会分享自己研究的其中两个中文分词工具,分别为jieba分词和IK Analyzer分词器。
来源:oschina
链接:https://my.oschina.net/u/2756867/blog/673013