结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。 变更日志 创作目的 分词是做 NLP 相关工作,非常基础的一项功能。 jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。 但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。 有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。 最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。 所以自己重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。 而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。 Features 特点 基于 DFA 实现的高性能分词 允许用户自定义词库 支持返回词性 默认关闭,惰性加载,不对性能和内存有影响。 快速入门 准备 jdk1.7+ maven 3.x+ maven 引入 <dependency> <groupId>com.github.houbb</groupId> <artifactId>segment</artifactId> <version>${最新版本}</version> </dependency> 使用示例 相关代码参见 SegmentBsTest.java 获取分词