杨尚川

Java中文分词组件 - word分词(skycto JEEditor)

匆匆过客 提交于 2019-11-29 17:11:45
转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java 分布式中文分词组件 - word分词 word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。注意:word1.3需要JDK1.8 Maven 依赖: 在 pom.xml 中指定 dependency ,可用版本有 1.0 、 1.1 、 1.2 : < dependencies > < dependency > < groupId >org.apdplat</ groupId > < artifactId >word</ artifactId > < version >1.2</ version > </ dependency > </ dependencies > 分词使用方法: 1 、快速体验 运行项目根目录下的脚本 demo