Jieba分词器

11大Java开源中文分词器的使用方法和分词效果对比

半世苍凉 提交于 2019-11-26 21:42:57
本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11 大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样, 我们先定义一个统一的接口: /** * 获取文本的所有分词结果, 对比不同分词器结果 * @author 杨尚川 */ public interface WordSegmenter { /** * 获取文本的所有分词结果 * @param text 文本 * @return 所有的分词结果,去除重复 */ default public Set<String> seg(String text) { return segMore(text).values().stream().collect(Collectors.toSet()); } /** * 获取文本的所有分词结果 * @param text 文本 * @return 所有的分词结果,KEY 为分词器模式,VALUE 为分词器结果 */ public Map<String, String> segMore(String text); } 从上面的定义我们知道,在Java中,同样的方法名称和参数,但是返回值不同