中文分词

Python jieba 库的使用说明

跟風遠走 提交于 2020-04-07 12:29:06
Python jieba 库的使用说明 1、jieba库基本介绍 (1)、 jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率 - 汉字间概率大的组成词组,形成分词结果 - 除了分词,用户还可以添加自定义的词组 2、jieba库使用说明 (1)、 jieba分词的三种模式 精确模式、全模式、搜索引擎模式 - 精确模式:把文本精确的切分开,不存在冗余单词 - 全模式:把文本中所有可能的词语都扫描出来,有冗余 - 搜索引擎模式:在精确模式基础上,对长词再次切分 (2)、jieba库常用函数 3、jieba应用实例 4、利用jieba库统计三国演义中任务的出场次数 import jieba txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for word in words: if len(word) == 1: #

用Python做中文分词与词云制作

岁酱吖の 提交于 2020-04-06 19:14:51
作者:梅昊铭 1. 导读 在大数据时代,我们经常在媒体或者网站上看到各种各样的信息图。词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。对于中文文本的可视化,我们需要先将中文文本进行分词;然后再将文本中的关键词做词云展示。本文将教大家如何使用Python来做中文分词并制作词云,欢迎大家跟着教程一步步实现。 项目地址: https://momodel.cn/workspace/5e77afb7a8a7dc6753f582b9?type=app 2. 中文分词 2.1 分词入门 所谓分词即是将文本序列按完整的意思切分成一个一个的词儿,方便进行下一步的分析(词频统计,情感分析等)。而英文词与词自带空格作为分隔符,相比于中文分词要简单。这里我们以中文分词为例来介绍。Python 为我们提供了 Jieba 库进行分词,接下来如何使用 Jieba 库进行中午呢分词。 import jieba # 文本数据 text = "MomodelAI是一个支持在线数据分析和AI建模的平台。" result = jieba.cut(text) # 将切分好的文本用" "分开 print("分词结果: " + " ".join(result)) ''' 分词结果: MomodelAI 是 一个 支持 在线 数据分析 和 AI 建模 的 平台 。 ''' 2.2 特殊名词

Elasticsearch

冷暖自知 提交于 2020-04-06 13:45:58
下一篇:Elasticsearch - 中文分词器(IK) 安装和简单使用 ELK Kibana 简介: Kibana 可以为Elasticsearch中索引的数据提供搜索和数据可视化功能。 通常视作 ES的制图工具 也可以作为用户界面来监测和管理 Elastic Stack 集群 还可以作为基于 Elastic Stack 所开发内置解决方案的汇集中心 官网下载地址 ( 下载的要和你的Elasticsearch版本一致 ) 解压(安装目录/bin/kibana.bat)启动 要先启动 elasticsearch.bat 成功 访问 http://localhost:5601 控制台 使用中文分词器IK 来源: oschina 链接: https://my.oschina.net/tingqianyunluo/blog/3217711

lucene6+HanLP中文分词

 ̄綄美尐妖づ 提交于 2020-04-06 02:37:22
1.前言 前一阵把博客换了个模版,模版提供了一个搜索按钮,这让我想起一直以来都想折腾的全文搜索技术,于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch。 效果看这里: https://chulung.com/search 源码: CSearch 2.关于分词 索引的一个核心功能便是分词,lucene自带的分词是基于英语的,所以中文分词用其他插件比较好。 网上很多都是推荐IK-Analyzer,不过这个插件很久没更新了,用lucene6的话重构才能用: IK-Analyzer-6 ,这个是我重构的版本。 但在查阅分词的方面的资料的时候无意中发现了 HanLP(Han Language Processing) ,这个汉语言处理包比较新,提供了lucene的分词插件,资料什么的也更详细,所以我就更换过来了。 3.代码中的一些坑 在敲代码时还是遇到了一些比较坑的问题,由于网上基本没有lucene6的中文教程,老的lucene3,4那时的教程很多兼容不上了。 实时查询的DirectoryReader获取 使用IndexWriter新增索引后存在搜索不到的问题,这是因为在getReader时要使用openIfChanged方法,才能保证做到更新后实时查询。 private DirectoryReader getReader() throws Exception

中文分词之结巴分词~~~附使用场景+demo(net)

て烟熏妆下的殇ゞ 提交于 2020-04-01 05:31:21
常用技能(更新ing): http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing): http://www.cnblogs.com/dunitian/p/5493793.html 在线演示: http://cppjieba-webdemo.herokuapp.com 完整demo: https://github.com/dunitian/TempCode/tree/master/2016-09-05 逆天修改版: https://github.com/dunitian/TempCode/blob/master/2016-09-05/jieba.NET.0.38.2.zip 先说下注意点, 结巴分词他没有对分词进行一次去重,我们得自己干这件事;字典得自行配置或者设置成输出到bin目录 应用场景举例 (搜索那块大家都知道,说点其他的) —————————————————————————————————————————————————— 言归正传:看一组民间统计数据:(非Net版,指的是官方版) net版的 IKanalyzer 和 盘古分词 好多年没更新了,所以这次选择了 结巴分词( 这个名字也很符合分词的意境~~结巴说话,是不是也是一种分词的方式呢? ) 下面简单演示一下: 1.先引入包: 2.字典设置: 3

Python实现Wordcloud生成词云图的示例

主宰稳场 提交于 2020-03-30 16:22:23
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概。 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词 是当前使用的最多的类型。 下面我来简单介绍一下结巴分词的用法 结巴分词的分词模式分为三种: (1)全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题 (2)精确模式:将句子最精确地切开,适合文本分析 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词 下面用一个简单的例子来看一下三种模式的分词区别: import jieba # 全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题 text = "哈利波特是一常优秀的文学作品" seg_list = jieba.cut(text, cut_all=True) print(u"[全模式]: ", "/ ".join(seg_list)) # 精确模式:将句子最精确地切开,适合文本分析 seg_list = jieba.cut(text, cut_all=False) print(u"

Note of Jieba ( 词云图实例 )

ⅰ亾dé卋堺 提交于 2020-03-30 09:13:45
Note of Jieba jieba库是python 一个重要的第三方中文分词函数库,但需要用户自行安装。 一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。 搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词。 二、安装库函数 (1) 在命令行下输入指令: pip install jieba(2) 安装进程: 三、调用库函数 (1) 导入库函数:import <库名> 使用库中函数:<库名> . <函数名> (<函数参数>) (2) 导入库函数:from <库名> import * ( *为通配符 ) 使用库中函数:<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能 模式 函数 说明 精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)

结巴分词(Python中文分词组件)

谁说胖子不能爱 提交于 2020-03-21 19:55:01
1.安装 sudo pip install jieba 或者 下了jieba后 sudo python setup.py install 如果需要permission的话 2.使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。 jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射 来源: https://www.cnblogs.com

中文分词-jieba

柔情痞子 提交于 2020-03-20 21:23:04
支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 1 、 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 2、安装 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 3、功能 3.1 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for

中文分词

梦想与她 提交于 2020-03-20 05:15:49
1、 名词说明 中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenizer和filter的组合来实现。 type:可选参数,index或者query,标明此配置是建立索引还是查询。若没有此参数,表示两种都适用。 tokenizer:分词器,接收text(通过重solr那里获取一个reader来读取文本),拆分成token stream filter过滤器,接收token stream,对每个token进行处理(比如:替换、丢弃),输出token stream。因此在配置文档中,Tokenizer放在第一位,Filter放在第二位直至最后一位。 2、分词工作流程简述 analyzer负责把文本field转化为token流,然后自己处理,或者调用tokenzier和filter进一步处理。Tokenzier和filter是同等级和顺序执行的关系,一个处理完后交给下一个处理。对于filter而言,一般通用的处理放在前面,特殊的处理靠后。 3、Smartcn分词器配置 在managed-schema文档中已经定义了一些分词规则。中文分词在solr中是没有默认开启的