jieba

阿sa

回眸只為那壹抹淺笑 提交于 2019-12-02 19:10:13
# jieba库概述 .jieba是优秀的中文分词第三方库。需要额外安装。 pip install jieba # jieba库三种分词模式 精确模式:把文本精确的切分开,不存在冗余单词。 全模式:把文本中所有可能的词语都扫描出来,有冗余。 搜素引擎模式:在精确模式基础上,对长词再次切分。 # jieba库常用函数 jieba.cut(s) 精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut_all=True) 全模式,输出文本S中所有可能单词 jieba.cut_for_search(s) 搜素引擎模式,适合搜素引擎建立索引的分词结果 jieba.lcut(s) 精确模式,返回一个列表类型,建议使用 jieba.lcut(s,cut_all=true) 全模式,返回一个列表类型,建议使用 jieba.lcut_for_search(s) 搜素引擎模式,返回一个列表类型,建议使用 jieba.add_word(w) 向分词词典中增加新词w # jieba实例 ```python import jieba txt_1 = "我说话真的不结巴啊,你信不信?" res = jieba.lcut(txt_1) #精确模式,返回一个列表类型,其中参数txt是表示文本的名字,吐字清晰版。 print('吐字清晰版') print(res) res_1 = jieba._lcut

jieba分词库的使用

徘徊边缘 提交于 2019-12-02 19:04:47
1. 作用: 中文文本通过分词获得单个词语 ,属于第三方库,需要提前cmd+r 打开命令行安装, <pip install jieba> 2. 模式:共3种;no.1: 精确模式 : 把文本精确地分开,不存在冗余 no.2: 全模式 : 把文本中所有可能存在的词语都扫描出来,存在冗余 no.3: 搜索引擎模式 : 在精确模式的基础上,对长词再次切分,有冗余 3. 常用函数 函数 描述 jieba.lcut() 返回一个列表类型的分词结果,没有冗余 jieba.lcut(s,cut_all=True) 返回一个列表类型的分词结果,有冗余 jieba.lcut_for_seach(s) 返回一个列表类型的分词结果,有冗余 jieba.add_word(w) 向分词词典增加新词w 4. 案例: import jieba #导入jieba库 txt = "我看见他戴着黑布小帽,穿着黑布大马褂,深青布棉袍,蹒跚地走到铁道边,慢慢探身下去,尚不大难。可是他穿过铁道,要爬上那边月台,就不容易了。" res = jieba.lcut(txt) #精确分词模式,没有冗余print(res) res1 = jieba.lcut(txt,cut_all=True) #全分词模式,有冗余 print(res1) res2 = jieba.lcut_for_search(txt) #搜素引擎分词模式,有冗余

Python3 jieba分词

北城以北 提交于 2019-12-02 17:15:25
参考文章: Github上的项目———jieba 中文分词 对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分词库, 11款开放中文分词系统比较 。 1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法) 2.基于统计:基于词频度统计的分词方法; 3.基于规则:基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。 第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 jieba分词,完全开源,有集成的python库,简单易用。 jieba分词是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG),动态规划查找最大概率路径, 找出基于词频的最大切分组合 安装jieba 在安装有python3 和 pip 的机子上,安装jieba库很简单,使用pip即可: pip install jieba jieba分词特性 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式

jieba模块包的举例使用

梦想的初衷 提交于 2019-12-02 16:41:30
jieba模块包的使用 import jieba txt = '中国是世界四大文明古国之一,有着悠久的历史,距今约5000年前,以中原地区为中心开始出现聚落组织进而形成国家,后历经多次民族交融和朝代更迭,直至形成多民族国家的大一统局面。20世纪初辛亥革命后,君主政体退出历史舞台,共和政体建立。1949年中华人民共和国成立后,在中国大陆建立了人民代表大会制度的政体。' # res = jieba.cut(txt) # for i in res: # print(i) # 或者 # res = jieba.lcut(txt) # 精确模式 # print(res) res = jieba.lcut(txt,cut_all = True) # 全模式 print(res) res = jieba.lcut_for_search(txt) # 搜索模式 print(res) 例子: import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt from imageio import imread f = open('十九大报告.txt',encoding='utf-8') data = f.read() res = jieba.lcut(data) result = "".join(res)

模块jieba库的使用

廉价感情. 提交于 2019-12-02 16:33:45
模块jieba库的使用 一 jieba库基本介绍 1.1 jieba库的概念 jieba库是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 1.2 jieba库的安装 pip install jieba (cmd命令行) 1.3 jieba分词的原理 jieba分词依靠中文词库 利用一个中文词库,确定汉字之间的关系概念 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 jieba库使用说明 2.1 jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 2.2 jieba库常用函数 2.3 分词要点 下面是代码演示 import jieba txt = '中国,是以华夏文明为源泉、中华文化为基础,并以汉族为主体民族的多民族国家,通用汉语、汉字,汉族与少数民族被统称为“中华民族”,又自称为炎黄子孙、龙的传人。' # 精确模式 # res = jieba.cut(txt) # 获取可迭代对象 res = jieba.lcut(txt) # 生成的是一个列表 # 全模式 # res1 = jieba.cut(txt, cut_all

jieba模块

瘦欲@ 提交于 2019-12-02 16:29:46
jieba模块 下载 pip install jieba 使用 import jieba 精确模式 jieba.cut() 直接打印出的是单个文字 转换成列表--》jieba.lcut() import jieba txt = '每当黎明的第一缕阳光冲散黑暗点亮大地,每当我们走向国旗台看见五星红红旗冉冉升起,右手放在胸上时,此刻我的心中只有一样东西,那就是祖国!' ##精确模式 # res = jieba.cut(txt) # for i in res: # print(i) res1 = jieba.lcut(txt)#转列表 print(res1)#打印转列表 全模式 jieba.cut(txt,cut_all=True) 转成列表--》jieba.lcut(txt,cut_all=True) txt = "每当黎明的第一缕阳光冲散黑暗点亮大地,每当我们走向国旗台看见五星红红旗冉冉升起,右手放在胸上时,此刻我的心中只有一样东西,那就是祖国!" #res2 = jieba.cut(txt,cut_all=True) # for i in res2: # print(i) res3 = jieba.lcut(txt,cut_all=True) print(res4) 搜索引擎模式 jieba.cut_for_search() txt="每当黎明的第一缕阳光冲散黑暗点亮大地

表哥用Python爬取数千条淘宝商品数据后,发现淘宝这些潜规则!

╄→гoц情女王★ 提交于 2019-12-02 11:45:18
本文记录了笔者用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。 项目内容 本案例选择商品类目:沙发。 数量:共 100 页 4400 个商品。 筛选条件:天猫、销量从高到低、价格 500 元以上。 项目目的 对商品标题进行文本分析,词云可视化 不同关键词 word 对应的 sales 的统计分析 商品的价格分布情况分析 商品的销量分布情况分析 不同价格区间的商品的平均销量分布 商品价格对销量的影响分析 商品价格对销售额的影响分析 不同省份或城市的商品数量分布 不同省份的商品平均销量分布 注:本项目仅以以上几项分析为例。 项目步骤 数据采集:Python 爬取淘宝网商品数据 对数据进行清洗和处理 文本分析:jieba 分词、wordcloud 可视化 数据柱形图可视化:barh 数据直方图可视化:hist 数据散点图可视化:scatter 数据回归分析可视化:regplot 工具&模块 工具:本案例代码编辑工具 Anaconda 的 Spyder。 模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。 爬取数据 因淘宝网是反爬虫的,虽然使用多线程、修改 headers 参数,但仍然不能保证每次 100% 爬取,所以我增加了循环爬取

re

跟風遠走 提交于 2019-12-02 10:53:22
python中的re库用于正则化,相当于一个过滤器,可以过滤掉不需要的字符,得到自己想要的。 import re import jieba rule = re.compile(r"^[\u4e00-\u9fa5]+$") text='我是卖报的小行家哈哈哈,happy new year!' words=[] seg = jieba.posseg.cut(text) for s in seg: if len(s.word)>1 and re.search(rule, s.word) and\ s.flag in ["a", "v", "x", "n", "an", "vn", "nz", "nt", "nr"]: words.append(s.word) print(words)    运行结果是: ['卖报', '行家'] 其中,\u4e00-\u9fa5表示匹配中文字符,\u4e00是在编码中中文字符开始的值,\u9fa5是中文字符结束的值。 jieba.posseg.cut(text) 可以对段落进行词的划分,划分结果是有两个属性,一个是词word,一个是词性flag。 re.split(r'第.{1,3}章\n', text)[1:] 表示按照章节划分text,其中.{1,3}表示匹配除换行意外的字符1到3次,总的来说可以匹配"第□□□章\n". 来源: https:/

jieba库对中文文本进行切割 python

走远了吗. 提交于 2019-12-02 05:29:52
jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割) # coding=utf-8 import jieba #txt = open(u"D:\data\ebook\红楼梦.txt","r").read() #,encoding='utf-8' txt = open("D:\\data\\ebook\\1.txt","r",encoding='utf-8').read() words = jieba.lcut_for_search(txt) # 使用搜索引擎模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for word in words: print(word) if len(word) == 1: # 长度为1的词语不计算在内 continue else: counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1 items = list(counts.items())#将键值对转换成列表 items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序 for i in range(5): word, count = items[i]

在anaconda安装jieba

一世执手 提交于 2019-12-02 05:07:43
jieba是国内很多人使用最多的多中文分词工具,它的安装方法有很多种,下面我来介绍一种最简单的安装方法: 操作方法; 在cmd中输入 pip install jieba 安装成功界面见上图。 这是安装jieba最简单的一个方法。然后在代码中使用import jieba运行没有报错就是成功安装了。QAQ 来源: https://blog.csdn.net/weixin_43996615/article/details/102719023