jieba

中文分词之结巴分词~~~附使用场景+demo(net)

て烟熏妆下的殇ゞ 提交于 2020-04-01 05:31:21
常用技能(更新ing): http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing): http://www.cnblogs.com/dunitian/p/5493793.html 在线演示: http://cppjieba-webdemo.herokuapp.com 完整demo: https://github.com/dunitian/TempCode/tree/master/2016-09-05 逆天修改版: https://github.com/dunitian/TempCode/blob/master/2016-09-05/jieba.NET.0.38.2.zip 先说下注意点, 结巴分词他没有对分词进行一次去重,我们得自己干这件事;字典得自行配置或者设置成输出到bin目录 应用场景举例 (搜索那块大家都知道,说点其他的) —————————————————————————————————————————————————— 言归正传:看一组民间统计数据:(非Net版,指的是官方版) net版的 IKanalyzer 和 盘古分词 好多年没更新了,所以这次选择了 结巴分词( 这个名字也很符合分词的意境~~结巴说话,是不是也是一种分词的方式呢? ) 下面简单演示一下: 1.先引入包: 2.字典设置: 3

Jieba库使用和好玩的词云

北城以北 提交于 2020-04-01 02:32:54
Jieba库使用和好玩的词云 一、关于词云 WordCloud库常规方法 以WordCloud对象为基础 配置参数、加载文本、输出文件 函数 简述 w.generate(txt) 向WordCloud对象w中加载文本txt w.to_file(file name) 将词云输出为图像文件,例如.png格式 步骤: 配置对象参数 加载词云文本 输出词云文件 配置对象参数 函数 简述 font_path 字体路径,做 中文词云必须设置字体 ,否则无法显示 width 输出的画布宽度,默认为 400像素 height 输出的画布高度,默认为 200像素 max_words 要显示的词的最大个数, 默认为200 stop_words 指定词云的排除词列表,即 不显示 的单词列表 max_font_size 显示的最大字体大小 min_font_size 显示的最小字体大小 background_color 指定词云图片的背景颜色,默认为黑色 mask 指定词云形状,默认为长方形,需要 引用imread()函数 二、文本词频统计(以《红楼梦》为例) 下载一个《红楼梦》文本 这里将文本命名为 hongloumeng.txt 编写代码如下: #DreaminRedMansions.py import jieba #调用jieba库 txt = open("hongloumeng.txt","r"

Note of Jieba ( 词云图实例 )

ⅰ亾dé卋堺 提交于 2020-03-30 09:13:45
Note of Jieba jieba库是python 一个重要的第三方中文分词函数库,但需要用户自行安装。 一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。 搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词。 二、安装库函数 (1) 在命令行下输入指令: pip install jieba(2) 安装进程: 三、调用库函数 (1) 导入库函数:import <库名> 使用库中函数:<库名> . <函数名> (<函数参数>) (2) 导入库函数:from <库名> import * ( *为通配符 ) 使用库中函数:<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能 模式 函数 说明 精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)

python-词云

。_饼干妹妹 提交于 2020-03-30 09:13:30
什么是词云    词云又叫文字云,主要是对文本数据中出现频率较高的“关键词”通过不同颜色、大小的渲染,在视觉上突出表现。形成关键词渲染,从而使用户通过关键词就能了解到文本的主题。因为他形成的图片类似云层,所以称为词云。 先看看效果图:    他还可以是这样的效果: 也可以是这样的效果:    看过效果图后是不是觉得很棒,接下来做属于自己的词云图 先制作一个简单的 1、python 中导入词云库,wordcloud,导入很简单不做多的解释   pip install wordcloud   导入图像库    pip install matplotlib    2、生成词云需要文字。准备词云文字,以英文先做一个小尝试  以【美国】罗伯特·弗罗斯特 写的《未选择的路》为例: heRoad Not Taken -Robert Frost Two roads diverged in a yellow wood, And sorry I could not travel both And be one traveler, long I stood And looked down one as far as I could To where it bent in the undergrowth; Then took the other, as just as fair, And having

python-jieba 安装+分词+定位

那年仲夏 提交于 2020-03-21 19:58:44
安装 : https://github.com/fxsjy/jieba 下载安装包 解压后 进入文件夹 cmd运行: Python setup.py install 使用: 分词:(test.py) import jieba result = jieba.cut("我叫张海鸥") print("/".join(result)) >>>我/叫/张/海鸥 分词+标签:(test_bug,py) import jieba import jieba.posseg as pseg words=pseg.cut("又跛又啞") for w in words: print(w.word,w.flag) 输出: 官方说明:主要功能 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的

python基础===jieba模块,Python 中文分词组件

旧巷老猫 提交于 2020-03-21 19:56:40
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度 基本用法: import jieba #全模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归 #精确模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = False) print("Default Mode:" + '/ '.join(word)) #>>>Default Mode:一人/ 我/ 饮酒/ 醉/ / 醉/ 把/ 佳人/ 成双/ 对/ / 两眼/ / 是/ 独/ 相随/ / 我/ 只求/ 他/ 日/ 能/ 双归 #默认是精确模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归") print(", ".join(word)) #>>>一人, 我, 饮酒,

结巴分词(Python中文分词组件)

谁说胖子不能爱 提交于 2020-03-21 19:55:01
1.安装 sudo pip install jieba 或者 下了jieba后 sudo python setup.py install 如果需要permission的话 2.使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。 jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射 来源: https://www.cnblogs.com

Python基于共现提取《釜山行》人物关系

早过忘川 提交于 2020-03-21 05:38:31
Python基于共现提取《釜山行》人物关系 一、课程介绍 1. 内容简介 《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取,使用python编写代码实现对《釜山行》文本的人物关系提取,最终利用Gephi软件对提取的人物关系绘制人物关系图。 2. 课程知识点 本课程项目完成过程中将学习: 共现网络的基本原理 Python代码对《釜山行》中人物关系提取的具体实现 jieba 库的基本使用 Gephi软件的基本使用 3. 课程来源 课程使用的操作系统为 Ubuntu 14.04 。你可以在我的 Github 上找到针对《釜山行》人物关系提取的全部代码。你也可以直接点击查看 共现网络简单的英文介绍 。 二、实验原理 实验基于简单共现关系,编写 Python 代码从纯文本中提取出人物关系网络,并用 Gephi 将生成的网络可视化。下面介绍共现网络的基本原理。你可以在我的博客查看对 共现网络简单的英文介绍 。 实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现,可以通过识别文本中已确定的实体(人名),计算不同实体共同出现的次数和比率。当比率大于某一阈值,我们认为两个实体间存在某种联系。这种联系可以具体细化,但提取过程也更加复杂。因此在此课程只介绍最基础的共现网络。 三、开发准备 打开Xfce终端,进入

Python爬取网易云音乐1万条评论,感受到疫情下的真情

狂风中的少年 提交于 2020-03-21 03:26:32
3 月,跳不动了?>>> 一、前言 昨天打开网易云音乐被这条视频刷屏了⬇️ 致敬所有疫情前线的工作人员! ​ music.163.com 1600万+的播放量,1.3万+的评论 那么今天我们用python看看这些评论里留下了哪些感人的故事, 二、数据抓取 首先,我们用电脑打开网易云音乐这条视频的链接。找到 最新评论, 目标就是把这些评论全部取出来。接着发现每点击“下一页”,网站的url并没有任何变化,说明整个评论区的内容都是通过 Ajax异步请求 技术得到的。关于这个概念大家可以百度,简单来说就是能够实现在后台与服务器交换数据,在不重新加载页面的情况下更新网页。打开浏览器F12,进入开发者工具,选择Network,我们选择XHR(XmlHttpRequest)就可以选出Ajax的请求包: 然后再一个个点进去查看response,就能找到包含评论的数据包⬇️ 点进去就能看到header信息 可以发现是一个post请求并且接收两个参数 params 以及 encSecKey 我们先来试试看 import requests import json url = 'https://music.163.com/weapi/v1/resource/comments/R_VI_62_3F79C7B87510106B8118EE3F811C1BC5?csrf_token=' headers = {

中文分词-jieba

柔情痞子 提交于 2020-03-20 21:23:04
支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 1 、 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 2、安装 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 3、功能 3.1 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for