jieba | 易学教程

综合应用，jieba,去标点，分词保存，统计，删词，输出

阅读更多关于综合应用，jieba,去标点，分词保存，统计，删词，输出

import jieba fp1=r'D:/python/a.txt' outph=r'D:/python/out.txt' f=open(fp1,'r',encoding='utf-8') txt=f.read().strip() f.close() words=jieba.lcut(txt) f=open(outph,'w',encoding='utf-8') for word in words: f.write(word) f.write('\n') f.close() #第二题去标点，统计词频 bd='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+，。！？“”《》：、． ' counts={ } exlutes={'作者','之后'} for i in bd: txt=txt.replace(i,'') #字符串替换去标点符号 words=jieba.lcut(txt) #分词 for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1 #所有词全统计 for word in exlutes: del(counts[word]) #删除{a,b} items=list(counts.items()) items.sort(key

判断文本中字符串是否在字典中判断一个元素是否存在一个集合中

阅读更多关于判断文本中字符串是否在字典中判断一个元素是否存在一个集合中

判断一段文本中是否包含一个字典中的某个词布隆算法先来看几个比较常见的例子字处理软件中，需要检查一个英语单词是否拼写正确在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里，一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能这几个例子有一个共同的特点：如何判断一个元素是否存在一个集合中？数组链表树、平衡二叉树、Trie Map (红黑树) 哈希表对于低内存的字典，方法如下： 1 import jieba 2 def check ( s ): 3 huangfan_path = 'path/to/dict.txt' 4 jieba . load_userdict ( huangfan_path ) 5 huangfan_words_dict = set () 6 with open ( huangfan_path , 'rb' ) as fr : 7 for line in fr . readlines (): 8 huangfan_words_dict . add ( line . strip (). decode ( 'utf-8' )) 9 return set ( jieba . lcut ( s )) & self . huangfan_words_dict 来源：博客园作者： cup_leo 链接：https://www

TF-IDF算法简析

阅读更多关于 TF-IDF算法简析

TF-IDF算法可用来提取文档的关键词，关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。算法原理 TF：Term Frequency，词频 IDF：Inverse Document Frequency，逆文档频率词频（TF）：某一个词在该文件中出现的频率计算方法为：逆文档频率（IDF）：总文件数目除以包含该词的文件数目计算方法为：分母加1是为了防止该词不在语料库中而导致被除数为零最后，TF-IDF的计算方式为： TF-IDF 的主要思想为：如果某个词在一篇文档中出现的频率高（即 TF 高），并且在语料库中其他文档中很少出现（即 IDF 高），则认为这个词具有很好的类别区分能力算法过程：先计算出文档中每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词作为关键词进行输出算法优点：原理简单，能满足大多数实际需求算法缺点：单纯以 “词频” 衡量一个词的重要性，不够全面（文档频率小的词就越重要，文档频率大的词就越无用，显然这并不是完全正确的） TF-IDF值的计算没有加入词的位置信息，不够严谨（出现在文档标题、第一段、每一段的第一句话中的词应给予较大的权重） Python实现 jieba jieba内置了TF-IDF算法，调用非常简单，例： sen = '自然语言处理是人工智能和语言学领域的分支学科，此领域探讨如何处理及运用自然语言

文件读写,jieba分词

阅读更多关于文件读写,jieba分词

功能描述:从new_4.txt中读取出数据,然后用jieba分词,最后保存到new_5.txt中. 实验环境:Python3.7 代码实现: import jieba f_out = open('./new_5.txt','wb+') with open('./new_4.txt','r',encoding = 'utf-8') as f: f.close() f_out.close() 文章来源: https://blog.csdn.net/u012297539/article/details/90245925

中文词频统计与词云生成

阅读更多关于中文词频统计与词云生成

1 text = open("C:三体.txt", "r", encoding="UTF-8").read() # 读取文本 1 import jieba 2 3 4 text = open("C:三体.txt", "r", encoding="UTF-8").read() # 读取文本 5 word_txt = jieba.lcut(text) # 进行中文分词 1 jieba.load_userdict(r'C:三体词汇.txt') # 加入小说分析对象的特有词汇 2 jieba.add_word("量子力学") # 丰富词汇 3 jieba.add_word("万有引力") 1 # -*- coding: utf-8 -*- 2 import struct 3 import os 4 5 # 拼音表偏移， 6 startPy = 0x1540; 7 8 # 汉语词组表偏移 9 startChinese = 0x2628; 10 11 # 全局拼音表 12 GPy_Table = {} 13 14 # 解析结果 15 # 元组(词频,拼音,中文词组)的列表 16 17 18 # 原始字节码转为字符串 19 def byte2str(data): 20 pos = 0 21 str = '' 22 while pos < len(data): 23 c = chr(struct

python实例：三国演义TXT文本词频分析

阅读更多关于 python实例：三国演义TXT文本词频分析

0x00 前言效果演示安装jieba库 pip install jieba jieba三种模式：　　1.精准模式 lcut函数，返回一个分词列表　　2.全模式　　3.搜索引擎模式词频：　　<单词>：<出现次数>的键值对　　IPO描述 imput output process 　　输入　：从文件读取三国演义的内容　　处理　：采用jiedb进行分词，字典数据结构统计词语出现的频率　　输出　：文章中出现最对的前10个词代码：　　第一步：读取文件　　第二步：分词　　第三步：统计　　第四步：排序介绍完毕了！那么进入实战吧！ 0x02 ʵս 完整代码如下： 1 import jieba 2 3 content = open( ‘ 三国演义.txt ‘ , ‘ r ‘ ,encoding= ‘ utf-8 ‘ ).read() 4 words =jieba.lcut(content) # 分词 5 excludes={ " 将军 " , " ȴ˵ " , " 二人 " , " 后主 " , " 上马 " , " 不知 " , " 天子 " , " 大叫 " , " 众将 " , " 不可 " , " 主公 " , " 蜀兵 " , " 只见 " , " 如何 " , " 商议 " , " 都督 " , " 一人 " , " 汉中 " , " 不敢 " , " 人马

Python第三方库jieba（结巴-中文分词）入门与进阶（官方文档）

阅读更多关于 Python第三方库jieba（结巴-中文分词）入门与进阶（官方文档）

jieba “结巴”中文分词：做最好的 Python 中文分词组件。下载地址： https://github.com/fxsjy/jieba 特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议安装说明代码对 Python 2/3 均兼容全自动安装： easy_install jieba 或者 pip install jieba pip3 install jieba http://pypi.python.org/pypi/jieba/ python setup.py install 手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录通过 import jieba 来引用算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法主要功能分词 jieba.cut jieba.cut_for_search 待分词的字符串可以是

python+gensim｜jieba分词、词袋doc2bow、TFIDF文本挖掘

阅读更多关于 python+gensim｜jieba分词、词袋doc2bow、TFIDF文本挖掘

转载：https://cloud.tencent.com/developer/article/1010859 分词这块之前一直用R在做，R中由两个jiebaR+Rwordseg来进行分词，来看看python里面的jieba. 之前相关的文章： R语言｜文本挖掘之中文分词包――Rwordseg包(原理、功能、详解) R语言｜文本挖掘――jiabaR包与分词向量化的simhash算法（与word2vec简单比较） . 一、jieba分词功能来源github： https://github.com/fxsjy/jieba 1、主要模式支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 . 2、算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法 . 3、主要功能 jieba.cut 方法接受三个输入参数 : 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM

python3 jieba分词（windows10 + Anaconda+pycharm）

阅读更多关于 python3 jieba分词（windows10 + Anaconda+pycharm）

1.安装jieba 解决方法参考了： Python3.3 - ImportError: No module named 'setuptools' Windons7中安装python的模块出现No module named setuptools错误 ȥ 官网下载setuptools39.2.0 2.查看是否安装成功 # encoding=utf-8 import jieba seg_list = jieba.cut( " 我来到北京清华大学 " , cut_all=True) print ( "Full Mode: " + "/ " . join # ȫģʽ seg_list = jieba.cut( " 我来到北京清华大学 " , cut_all=False) print ( "Default Mode: " + "/ " . join # 精确模式 seg_list = jieba.cut( " 他来到了网易杭研大厦 " # 默认是精确模式 print ( ", " . join (seg_list)) seg_list = jieba.cut_for_search( " 小明硕士毕业于中国科学院计算所，后在日本京都大学深造 " # 搜索引擎模式 print ( ", " . join (seg_list)) 安装成功，能使用。 3.在pycharm里使用，也可以。文章来源:

python/wordcloud制作词云图

阅读更多关于 python/wordcloud制作词云图

主要库：wordcloud,jieba,matplotlib 本例子实现制作一个网页内容的词云注意，如果中文词云出现乱码，可以根据下面的博客介绍内容进行操作： https://blog.csdn.net/Dick633/article/details/80261233 参考文章： http://liyangbit.com/nltk/nltk-yidaiyilu/ 代码中出现的图片 timg.jpg 是直接在百度图片上找到的中国地图。下面直接贴上代码，已有详细注释 # -*- coding: utf-8 -*- """ Created on Tue Jun 5 12:56:01 2018 @author: kindy 本例子实现制作一个网页内容的词云注意，如果中文词云出现乱码，可以根据下面的博客介绍内容进行操作： https://blog.csdn.net/Dick633/article/details/80261233 参考文章：http://liyangbit.com/nltk/nltk-yidaiyilu/ """ ## 0、导入相关包 import jieba from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt import os import PIL

订阅 jieba