jieba | 易学教程

中文分词之结巴分词~~~附使用场景+demo（net）

阅读更多关于中文分词之结巴分词~~~附使用场景+demo（net）

常用技能（更新ing）： http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲（更新ing）： http://www.cnblogs.com/dunitian/p/5493793.html 在线演示： http://cppjieba-webdemo.herokuapp.com 完整demo： https://github.com/dunitian/TempCode/tree/master/2016-09-05 逆天修改版： https://github.com/dunitian/TempCode/blob/master/2016-09-05/jieba.NET.0.38.2.zip 先说下注意点，结巴分词他没有对分词进行一次去重，我们得自己干这件事；字典得自行配置或者设置成输出到bin目录应用场景举例（搜索那块大家都知道，说点其他的） —————————————————————————————————————————————————— 言归正传：看一组民间统计数据：（非Net版，指的是官方版） net版的 IKanalyzer 和盘古分词好多年没更新了，所以这次选择了结巴分词（这个名字也很符合分词的意境~~结巴说话，是不是也是一种分词的方式呢？）下面简单演示一下： 1.先引入包： 2.字典设置： 3

Jieba库使用和好玩的词云

阅读更多关于 Jieba库使用和好玩的词云

Jieba库使用和好玩的词云一、关于词云 WordCloud库常规方法以WordCloud对象为基础配置参数、加载文本、输出文件函数简述 w.generate(txt) 向WordCloud对象w中加载文本txt w.to_file(file name) 将词云输出为图像文件，例如.png格式步骤：配置对象参数加载词云文本输出词云文件配置对象参数函数简述 font_path 字体路径，做中文词云必须设置字体，否则无法显示 width 输出的画布宽度，默认为 400像素 height 输出的画布高度，默认为 200像素 max_words 要显示的词的最大个数，默认为200 stop_words 指定词云的排除词列表，即不显示的单词列表 max_font_size 显示的最大字体大小 min_font_size 显示的最小字体大小 background_color 指定词云图片的背景颜色，默认为黑色 mask 指定词云形状，默认为长方形，需要引用imread()函数二、文本词频统计（以《红楼梦》为例）下载一个《红楼梦》文本这里将文本命名为 hongloumeng.txt 编写代码如下： #DreaminRedMansions.py import jieba #调用jieba库 txt = open("hongloumeng.txt","r"

Note of Jieba ( 词云图实例 )

阅读更多关于 Note of Jieba ( 词云图实例 )

Note of Jieba jieba库是python 一个重要的第三方中文分词函数库，但需要用户自行安装。一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式：精确模式：将句子最精确地切开，适合文本分析。全模式：将句子中所以可以成词的词语都扫描出来，速度非常快，但是不能消除歧义。搜索引擎模式：在精确模式的基础上，对长分词再次切分，提高召回率，适合搜索引擎分词。二、安装库函数 (1) 在命令行下输入指令： pip install jieba(2) 安装进程：三、调用库函数 (1) 导入库函数：import <库名> 使用库中函数：<库名> . <函数名> (<函数参数>) (2) 导入库函数：from <库名> import * ( *为通配符 ) 使用库中函数：<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能模式函数说明精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)

python-词云

阅读更多关于 python-词云

什么是词云　　词云又叫文字云，主要是对文本数据中出现频率较高的“关键词”通过不同颜色、大小的渲染，在视觉上突出表现。形成关键词渲染，从而使用户通过关键词就能了解到文本的主题。因为他形成的图片类似云层，所以称为词云。先看看效果图：　　他还可以是这样的效果：也可以是这样的效果：　　看过效果图后是不是觉得很棒，接下来做属于自己的词云图先制作一个简单的 1、python 中导入词云库，wordcloud，导入很简单不做多的解释　　pip install wordcloud 　　导入图像库　　　pip install matplotlib 　　 2、生成词云需要文字。准备词云文字，以英文先做一个小尝试　　以【美国】罗伯特·弗罗斯特写的《未选择的路》为例： heRoad Not Taken -Robert Frost Two roads diverged in a yellow wood, And sorry I could not travel both And be one traveler, long I stood And looked down one as far as I could To where it bent in the undergrowth; Then took the other, as just as fair, And having

python-jieba 安装+分词+定位

阅读更多关于 python-jieba 安装+分词+定位

安装： https://github.com/fxsjy/jieba 下载安装包解压后进入文件夹 cmd运行： Python setup.py install 使用：分词：（test.py） import jieba result = jieba.cut("我叫张海鸥") print("/".join(result)) >>>我/叫/张/海鸥分词+标签：(test_bug,py) import jieba import jieba.posseg as pseg words=pseg.cut("又跛又啞") for w in words: print(w.word,w.flag) 输出：官方说明：主要功能分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的

python基础===jieba模块，Python 中文分词组件

阅读更多关于 python基础===jieba模块，Python 中文分词组件

api参考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度基本用法： import jieba #全模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归 #精确模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归", cut_all = False) print("Default Mode:" + '/ '.join(word)) #>>>Default Mode:一人/ 我/ 饮酒/ 醉/ / 醉/ 把/ 佳人/ 成双/ 对/ / 两眼/ / 是/ 独/ 相随/ / 我/ 只求/ 他/ 日/ 能/ 双归 #默认是精确模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归") print(", ".join(word)) #>>>一人, 我, 饮酒,

结巴分词(Python中文分词组件)

阅读更多关于结巴分词(Python中文分词组件)

1.安装 sudo pip install jieba 或者下了jieba后 sudo python setup.py install 如果需要permission的话 2.使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。 jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射来源： https://www.cnblogs.com

Python基于共现提取《釜山行》人物关系

阅读更多关于 Python基于共现提取《釜山行》人物关系

Python基于共现提取《釜山行》人物关系一、课程介绍 1. 内容简介《釜山行》是一部丧尸灾难片，其人物少、关系简单，非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取，使用python编写代码实现对《釜山行》文本的人物关系提取，最终利用Gephi软件对提取的人物关系绘制人物关系图。 2. 课程知识点本课程项目完成过程中将学习：共现网络的基本原理 Python代码对《釜山行》中人物关系提取的具体实现 jieba 库的基本使用 Gephi软件的基本使用 3. 课程来源课程使用的操作系统为 Ubuntu 14.04 。你可以在我的 Github 上找到针对《釜山行》人物关系提取的全部代码。你也可以直接点击查看共现网络简单的英文介绍。二、实验原理实验基于简单共现关系，编写 Python 代码从纯文本中提取出人物关系网络，并用 Gephi 将生成的网络可视化。下面介绍共现网络的基本原理。你可以在我的博客查看对共现网络简单的英文介绍。实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现，可以通过识别文本中已确定的实体（人名），计算不同实体共同出现的次数和比率。当比率大于某一阈值，我们认为两个实体间存在某种联系。这种联系可以具体细化，但提取过程也更加复杂。因此在此课程只介绍最基础的共现网络。三、开发准备打开Xfce终端，进入

Python爬取网易云音乐1万条评论，感受到疫情下的真情

阅读更多关于 Python爬取网易云音乐1万条评论，感受到疫情下的真情

3 月，跳不动了？>>> 一、前言昨天打开网易云音乐被这条视频刷屏了⬇️ 致敬所有疫情前线的工作人员！ music.163.com 1600万+的播放量，1.3万+的评论那么今天我们用python看看这些评论里留下了哪些感人的故事，二、数据抓取首先，我们用电脑打开网易云音乐这条视频的链接。找到最新评论，目标就是把这些评论全部取出来。接着发现每点击“下一页”，网站的url并没有任何变化，说明整个评论区的内容都是通过 Ajax异步请求技术得到的。关于这个概念大家可以百度，简单来说就是能够实现在后台与服务器交换数据，在不重新加载页面的情况下更新网页。打开浏览器F12，进入开发者工具，选择Network，我们选择XHR(XmlHttpRequest)就可以选出Ajax的请求包：然后再一个个点进去查看response，就能找到包含评论的数据包⬇️ 点进去就能看到header信息可以发现是一个post请求并且接收两个参数 params 以及 encSecKey 我们先来试试看 import requests import json url = 'https://music.163.com/weapi/v1/resource/comments/R_VI_62_3F79C7B87510106B8118EE3F811C1BC5?csrf_token=' headers = {

中文分词-jieba

阅读更多关于中文分词-jieba

支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议 1 、算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法 2、安装代码对 Python 2/3 均兼容全自动安装： easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install 手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录通过 import jieba 来引用 3、功能 3.1 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for

订阅 jieba