cws_evaluation

Java开源项目cws_evaluation:中文分词器分词效果评估

喜你入骨 提交于 2019-11-27 09:43:05
cws_evaluation 是一个Java开源项目,用于对 Java中文分词器分词效果进行评估 。 cws_evaluation 是 通过对前文《 word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估 》中写的评估程序进行重构改进后形成的。 支持 的分词器有: word分词器 、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、paoding分词器、jieba分词器、stanford分词器等 9 大中文分词器。 评估采用的测试文本有253 3709行,共2837 4490个字符。 cws_evaluation主页 可运行程序下载 最好的评估结果是 word分词 全切分算法(trigram) : word分词 全切分算法(trigram): 分词速度:42.10602 字符/毫秒 行数完美率:65.04% 行数错误率:34.95% 总的行数:2533709 完美行数:1648163 错误行数:885546 字数完美率:56.3% 字数错误率:43.69% 总的字数:28374490 完美字数:15976750 错误字数:12397740 下面的评估数据中,word分词使用bigram,按 行数完美率 排序: 1: word分词 全切分算法: 分词速度:40.259953 字符/毫秒