python结巴分词
转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库。 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 import jieba s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。' cut = jieba.cut(s) print '【Output】' print cut print ','.join(cut) 【Output】 <generator object cut at 0x7f8dbc0efc30> 我,想,和,女朋友,一起,去,北京故宫博物院,参观,和,闲逛,。 可见分词结果返回的是一个生成器(这对大数据量数据的分词尤为重要)。 全模式 print '【Output】' print ','.join(jieba.cut(s,cut_all = True)) 【Output】 我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛,, 可见全模式就是把文本分成尽可能多的词。 搜索引擎模式 print '【Output】' print ','.join(jieba.cut_for_search(s))