jieba中文处理 python
一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 现以“南京市长江大桥”为例,3种分词模式的结果如下: 【全模式】: 南京 南京市 京市 市长 长江 长江大桥 大桥 【精确模式】: 南京市 长江大桥 【搜索引擎模式】: 南京 京市 南京市 长江 大桥 长江大桥 为了避免歧义和切出符合预期效果,在这里使用精确模式 1 import jieba 2 all_mode=jieba.cut( ' 南京市长江大桥 ' ,cut_all= True) 3 alls= " " .join(all_mode) 4 print ( ' 【全模式】: ' ,alls) 5 jingque=jieba.cut( ' 南京市长江大桥 ' ,cut_all= False) 6 jings= " " .join(jingque) 7 print ( ' 【精确模式】: ' ,jings) 8 search=jieba.cut_for_search( ' 南京市长江大桥 ' ) 9 searchs= " " .join