jieba

jieba库

倖福魔咒の 提交于 2019-12-01 05:05:11
jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型

NLP自然语言处理中英文分词工具集锦与基本使用介绍

只谈情不闲聊 提交于 2019-11-30 22:21:21
一、中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1. from stanfordcorenlp import StanfordCoreNLP 2. with StanfordCoreNLP(r'E:\Users\Eternal Sun\PycharmProjects\1\venv\Lib\stanford-corenlp-full-2018-10-05', lang='zh') as nlp: 3. print("stanfordcorenlp分词:\n",nlp.word_tokenize(Chinese)) (6)Hanlp分词工具 分词结果如下: 二、英文分词工具 1. NLTK: 二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下: 2. SpaCy: 3. StanfordCoreNLP: 分词结果 来源: oschina 链接: https://my.oschina.net/u/3793864/blog/3056365

Python 词云可视化

大城市里の小女人 提交于 2019-11-30 12:26:59
最近看到不少公众号都有一些词云图,于是想学习一下使用Python生成可视化的词云,上B站搜索教程的时候,发现了一位UP讲的很不错,UP也给出了GitHub上的源码,是一个很不错的教程,这篇博客主要就是搬运UP主的教程吧,做一些笔记,留着以后看。 B站视频链接: https://www.bilibili.com/video/av53917673/?p=1 Github源码: https://github.com/TommyZihao/zihaowordcloud 词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。 从四行代码开始,一步步教你做出高大上的词云图片,可视化生动直观展示出枯燥文字背后的核心概念。进一步实现修改字体、字号、背景颜色、词云形状、勾勒边框、颜色渐变、分类填色、情感分析等高级玩法。 学完本课之后,你可以将四大名著、古典诗词、时事新闻、法律法规、政府报告、小说诗歌等大段文本做成高大上的可视化词云,还可以将你的微信好友个性签名导出,看看你微信好友的“画风”是怎样的。 从远古山洞壁画到微信表情包,人类千百年来始终都是懒惰的视觉动物。连篇累牍的大段文本会让人感到枯燥乏味。在这个“颜值即正义”的时代,大数据更需要“颜值”才能展现数据挖掘的魅力。 对于编程小白,学会此技可以玩转文本,入门中文分词、情感分析。对于编程高手

hanlp和jieba等六大中文分工具的测试对比

二次信任 提交于 2019-11-30 03:11:16
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友! 安装调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件 THULAC清华大学:一个高效的中文词法分析工具包 FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 教程:FoolNLTK 及 HanLP使用 HanLP最高分词速度2,000万字/秒 **中科院 Ictclas 分词系统 - NLPIR汉语分词系统 哈工大 LTP LTP安装教程[python 哈工大NTP分词 安装pyltp 及配置模型(新)] 如下是测试代码及结果 下面测试的文本上是极易分词错误的文本,分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下,分词器的宣传语是否得当吧。 jieba 中文分词 thulac 中文分词 fool 中文分词 HanLP 中文分词 中科院分词 nlpir 哈工大ltp 分词 以上可以看出分词的时间,为了方便比较进行如下操作: 分词效果对比 结果为: 总结: 1.时间上(不包括加载包的时间),对于相同的文本测试两次,四个分词器时间分别为: jieba: 0

NLP自然语言处理中的hanlp分词实例

天大地大妈咪最大 提交于 2019-11-30 03:08:34
本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。 学习内容 在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型语料库中。实验证明思路是对的,最后结果是只有60几个词不在词向量里,其中大部分为名词,还有些为因语音翻译问题所造成的出错连词,所有这些词也只出现一次,这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤,因为此后模型会用到词向量,如果未出现词过多,会影响词向量效果。 问题:不过最后HANLP分词影响了实验判断结果,准确率从93%(jieba分词,同模型同参数)下降到90%。 实验:使用HanLP分词 1,前期准备,(环境ubuntu,python3)安装JAVA-10[3](hanlp是JAVA开发的,即使使用python调用pyhanlp需要借助java), jpype(python中虚拟java环境),hanlp(开源中文处理工具,不只是分词还有各种工具)

关于IDLE报错"No Module Named 'jieba' "

左心房为你撑大大i 提交于 2019-11-29 21:51:46
明明pip已经安装了jieba,并且在pycharm也用调用该库,为什么IDLE却报错"No Module Named ‘jieba’ "??? 解决办法:把jieba的两个安装包和需要调用jieba的.py文件放到同一目录下。再执行idle 就可以使用jieba了。。。。。完美解决。 来源: https://blog.csdn.net/qq_41810188/article/details/100935061

django-haystack插件基本使用操作流程

眉间皱痕 提交于 2019-11-29 19:38:45
搜索   搜索可以使用最原始的模糊匹配的like方式进行搜索。当然这种搜索方式对于一些小量的数据是非常合适的。但是随着数据量越来越大。这时候我们就需要使用搜索引擎了。搜索引擎会将所有需要搜索的数据使用算法做一个索引,以后搜索的时候就只需要根据这个索引即可找到相应的数据。搜索引擎做索引的过程会比较慢,甚至占用空间,但是一旦索引建立完成,那么以后再搜索的时候就会很快了。 django-haystack插件概述   这个插件是专门给Django提供搜索功能的。django-haystack提供了一个搜索的接口,底层可以根据自己的需求更换搜索引擎。他其实有点类似于Django中的ORM插件,提供了一个操作数据库的接口,但是底层具体使用哪个数据库是可以自己设置的。    django-haystack支持的搜索引擎有Solr、Elasticsearch、Whoosh 、Xapian等。Whoosh是基于纯Python的搜索引擎,检索速度快,集成方便。 安装 1 pip3 install django-haystack 2 pip3 install whoosh 集成步骤 1.在项目中安装django-haystack,在settings.py 1 INSTALLED_APPS = [ 2 'django.contrib.admin', 3 'django.contrib.auth', 4

nlp分词词性标注及命名实体

一个人想着一个人 提交于 2019-11-29 18:55:10
title: nlp分词词性标注及命名实体 date: 2019-08-27 14:26:38 categories: 人工智能 tags: nlp cover: https://www.github.com/OneJane/blog/raw/master/小书匠/5f549e01ba4ba668ee78d415b042a010_hd.jpg nlp分词词性标注及命名实体 分词 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 词性标注 词性标注 (Part-of-Speech tagging 或POS tagging) 又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程 序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。 命名实体识别 命名实体识别 (Named Entity Recognition,简称NER) 又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般来说

pyhanlp 分词与词性标注

对着背影说爱祢 提交于 2019-11-29 18:54:11
pyhanlp中的分词器简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器 维特比 (viterbi):效率和效果的最佳平衡。也是最短路分词,HanLP最短路求解采用Viterbi算法 双数组trie树 (dat):极速词典分词,千万字符每秒(可能无法获取词性,此处取决于你的词典) 条件随机场 (crf):分词、词性标注与命名实体识别精度都较高,适合要求较高的NLP任务 感知机 (perceptron):分词、词性标注与命名实体识别,支持在线学习 N最短路 (nshort):命名实体识别稍微好一些,牺牲了速度 第二种方式是使用JClass直接获取java类,然后使用。这种方式除了获取上面的五种分词器以外还可以获得一些其他分词器,如NLP分词器,索引分词,快速词典分词等等 两种使用方式的对比 第一种是使用作者给的HanLP直接获取分词器,直接segment() 会获取 默认的标准分词器也就是维特比分词器,也**可以使用newSegment函数,传入上面的分词器英文名称来获取新的分词器,如使用 HanLP.newSegment("crf") 来获取CRF分词器。**第二种方式是使用JClass从java中获取我们想要的类

中文自动分词---HanLP+jieba

孤街浪徒 提交于 2019-11-29 18:53:06
HanLp 主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。 Github地址: https://github.com/hankcs/HanLP 安装教程: https://mp.weixin.qq.com/s/RQ2o15Bm_6qEGEBj3YR_kQ demo地址: https://github.com/hankcs/pyhanlp/tree/master/tests/demos jieba “结巴”中文分词:做最好的 Python 中文分词组件。 GitHub地址: https://github.com/fxsjy/jieba 安装方法: easy_install jieba 或者 pip install jieba / pip3 install jieba demo地址: https://github.com/fxsjy/jieba 入门的知识繁杂,广大前辈的资料充足,站在前人的肩膀上,事倍功半! 贴一个前辈的地址! 博客地址: https://blog.csdn.net/m0_37306360/column/info/30073/2 来源: CSDN 作者: 锅巴QAQ 链接: https://blog.csdn.net/Pit3369/article/details/94880693