中文分词工具

我怕爱的太早我们不能终老 提交于 2019-12-05 10:01:51

中文分词工具非常繁多,主要与大家分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。

中文分词工具:

1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。

http://www.oschina.net/p/ikanalyzer

源码地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc

使用方式:下载IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包即可。

2、NLPIR 中文分词库(又名ICTCLAS2013)

示例(Java):http://my.oschina.net/u/944980/blog/132183

3、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具

http://www.oschina.net/p/jcseg

4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/  )实现的

http://www.oschina.net/p/mmseg4j

5、Anjs 中文分词器

http://www.oschina.net/p/ansj

Python中文分词组件:

1、Genius是一个开源的Python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。

http://www.oschina.net/p/genius-fc

2、Python中文分词组件“结巴”分词

https://github.com/fxsjy/jieba

安装说明:

代码对 Python 2/3 均兼容

  • 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba
  • 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
  • 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
  • 通过 import jieba 来引用

写在最后:下一篇博客我会分享自己研究的其中两个中文分词工具,分别为jieba分词和IK Analyzer分词器。

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!