文本数据挖掘 - - python jieba库
jieba库 jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持四种分词模式:精确模式、全模式和搜索引擎模式和新增的 paddle模式。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合文本分析。 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据,不能消除歧义。 搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率 paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。 更多详情请查看 : https://github.com/fxsjy/jieba 常用示例 import jieba import jieba.posseg import jieba.analyse '''模式分词''' # cut_all=True:为全模式 # cut_all=FALSE:精准模式(默认) sentence = "我想去拉斯维加斯" words = jieba.cut(sentence, cut_all=False) # words = jieba.lcut(sentence, cut_all=False) # 返回列表类型 for item in words: print(item) print("----------------") '''搜索引擎分词''' sentence