jieba

综合应用,jieba,去标点,分词保存,统计,删词,输出

匿名 (未验证) 提交于 2019-12-02 23:57:01
import jieba fp1=r'D:/python/a.txt' outph=r'D:/python/out.txt' f=open(fp1,'r',encoding='utf-8') txt=f.read().strip() f.close() words=jieba.lcut(txt) f=open(outph,'w',encoding='utf-8') for word in words: f.write(word) f.write('\n') f.close() #第二题去标点,统计词频 bd='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+,。!?“”《》:、. ' counts={ } exlutes={'作者','之后'} for i in bd: txt=txt.replace(i,'') #字符串替换去标点符号 words=jieba.lcut(txt) #分词 for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1 #所有词全统计 for word in exlutes: del(counts[word]) #删除{a,b} items=list(counts.items()) items.sort(key

判断文本中字符串是否在字典中 判断一个元素是否存在一个集合中

匿名 (未验证) 提交于 2019-12-02 23:55:01
判断一段文本中是否包含一个字典中的某个词 布隆算法 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 数组 链表 树、平衡二叉树、Trie Map (红黑树) 哈希表 对于低内存的字典,方法如下: 1 import jieba 2 def check ( s ): 3 huangfan_path = 'path/to/dict.txt' 4 jieba . load_userdict ( huangfan_path ) 5 huangfan_words_dict = set () 6 with open ( huangfan_path , 'rb' ) as fr : 7 for line in fr . readlines (): 8 huangfan_words_dict . add ( line . strip (). decode ( 'utf-8' )) 9 return set ( jieba . lcut ( s )) & self . huangfan_words_dict 来源:博客园 作者: cup_leo 链接:https://www

TF-IDF算法简析

匿名 (未验证) 提交于 2019-12-02 23:45:01
TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。 算法原理 TF:Term Frequency,词频 IDF:Inverse Document Frequency,逆文档频率 词频(TF):某一个词在该文件中出现的频率 计算方法为: 逆文档频率(IDF):总文件数目除以包含该词的文件数目 计算方法为: 分母加1是为了防止该词不在语料库中而导致被除数为零 最后,TF-IDF的计算方式为: TF-IDF 的主要思想为: 如果某个词在一篇文档中出现的频率高(即 TF 高),并且在语料库中其他文档中很少出现(即 IDF 高),则认为这个词具有很好的类别区分能力 算法过程:先计算出文档中每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词作为关键词进行输出 算法优点: 原理简单,能满足大多数实际需求 算法缺点: 单纯以 “词频” 衡量一个词的重要性,不够全面(文档频率小的词就越重要,文档频率大的词就越无用,显然这并不是完全正确的) TF-IDF值的计算没有加入词的位置信息,不够严谨(出现在文档标题、第一段、每一段的第一句话中的词应给予较大的权重) Python实现 jieba jieba内置了TF-IDF算法,调用非常简单,例: sen = '自然语言处理是人工智能和语言学领域的分支学科,此领域探讨如何处理及运用自然语言

文件读写,jieba分词

匿名 (未验证) 提交于 2019-12-02 23:32:01
功能描述:从new_4.txt中读取出数据,然后用jieba分词,最后保存到new_5.txt中. 实验环境:Python3.7 代码实现: import jieba f_out = open('./new_5.txt','wb+') with open('./new_4.txt','r',encoding = 'utf-8') as f: f.close() f_out.close() 文章来源: https://blog.csdn.net/u012297539/article/details/90245925

中文词频统计与词云生成

匿名 (未验证) 提交于 2019-12-02 23:26:52
1 text = open("C:三体.txt", "r", encoding="UTF-8").read() # 读取文本 1 import jieba 2 3 4 text = open("C:三体.txt", "r", encoding="UTF-8").read() # 读取文本 5 word_txt = jieba.lcut(text) # 进行中文分词 1 jieba.load_userdict(r'C:三体词汇.txt') # 加入小说分析对象的特有词汇 2 jieba.add_word("量子力学") # 丰富词汇 3 jieba.add_word("万有引力") 1 # -*- coding: utf-8 -*- 2 import struct 3 import os 4 5 # 拼音表偏移, 6 startPy = 0x1540; 7 8 # 汉语词组表偏移 9 startChinese = 0x2628; 10 11 # 全局拼音表 12 GPy_Table = {} 13 14 # 解析结果 15 # 元组(词频,拼音,中文词组)的列表 16 17 18 # 原始字节码转为字符串 19 def byte2str(data): 20 pos = 0 21 str = '' 22 while pos < len(data): 23 c = chr(struct

python实例:三国演义TXT文本词频分析

匿名 (未验证) 提交于 2019-12-02 22:56:40
0x00 前言 效果演示 安装jieba库 pip install jieba jieba三种模式:   1.精准模式 lcut函数,返回一个分词列表   2.全模式   3.搜索引擎模式 词频:   <单词>:<出现次数>的键值对   IPO描述 imput output process   输入 :从文件读取三国演义的内容   处理 :采用jiedb进行分词,字典数据结构统计词语出现的频率   输出 :文章中出现最对的前10个词 代码:   第一步:读取文件   第二步:分词   第三步:统计   第四步:排序 介绍完毕了!那么进入实战吧! 0x02 ʵս 完整代码如下: 1 import jieba 2 3 content = open( ‘ 三国演义.txt ‘ , ‘ r ‘ ,encoding= ‘ utf-8 ‘ ).read() 4 words =jieba.lcut(content) # 分词 5 excludes={ " 将军 " , " ȴ˵ " , " 二人 " , " 后主 " , " 上马 " , " 不知 " , " 天子 " , " 大叫 " , " 众将 " , " 不可 " , " 主公 " , " 蜀兵 " , " 只见 " , " 如何 " , " 商议 " , " 都督 " , " 一人 " , " 汉中 " , " 不敢 " , " 人马

Python第三方库jieba(结巴-中文分词)入门与进阶(官方文档)

匿名 (未验证) 提交于 2019-12-02 22:56:40
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址: https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba pip3 install jieba http://pypi.python.org/pypi/jieba/ python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut jieba.cut_for_search 待分词的字符串可以是

python+gensim|jieba分词、词袋doc2bow、TFIDF文本挖掘

匿名 (未验证) 提交于 2019-12-02 22:54:36
转载:https://cloud.tencent.com/developer/article/1010859 分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言|文本挖掘之中文分词包――Rwordseg包(原理、功能、详解) R语言|文本挖掘――jiabaR包与分词向量化的simhash算法(与word2vec简单比较) . 一、jieba分词功能 来源github: https://github.com/fxsjy/jieba 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 . 2、算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 . 3、主要功能 jieba.cut 方法接受三个输入参数 : 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM

python3 jieba分词(windows10 + Anaconda+pycharm)

匿名 (未验证) 提交于 2019-12-02 22:51:30
1.安装jieba 解决方法参考了: Python3.3 - ImportError: No module named 'setuptools' Windons7中安装python的模块出现No module named setuptools错误 ȥ 官网 下载setuptools39.2.0 2.查看是否安装成功 # encoding=utf-8 import jieba seg_list = jieba.cut( " 我来到北京清华大学 " , cut_all=True) print ( "Full Mode: " + "/ " . join # ȫģʽ seg_list = jieba.cut( " 我来到北京清华大学 " , cut_all=False) print ( "Default Mode: " + "/ " . join # 精确模式 seg_list = jieba.cut( " 他来到了网易杭研大厦 " # 默认是精确模式 print ( ", " . join (seg_list)) seg_list = jieba.cut_for_search( " 小明硕士毕业于中国科学院计算所,后在日本京都大学深造 " # 搜索引擎模式 print ( ", " . join (seg_list)) 安装成功,能使用。 3.在pycharm里使用,也可以。 文章来源:

python/wordcloud制作词云图

匿名 (未验证) 提交于 2019-12-02 22:51:30
主要库:wordcloud,jieba,matplotlib 本例子实现制作一个网页内容的词云 注意, 如果中文词云出现乱码,可以根据下面的博客介绍内容进行操作: https://blog.csdn.net/Dick633/article/details/80261233 参考文章: http://liyangbit.com/nltk/nltk-yidaiyilu/ 代码中出现的图片 timg.jpg 是直接在百度图片上找到的中国地图。 下面直接贴上代码,已有详细注释 # -*- coding: utf-8 -*- """ Created on Tue Jun 5 12:56:01 2018 @author: kindy 本例子实现制作一个网页内容的词云 注意,如果中文词云出现乱码,可以根据下面的博客介绍内容进行操作: https://blog.csdn.net/Dick633/article/details/80261233 参考文章:http://liyangbit.com/nltk/nltk-yidaiyilu/ """ ## 0、导入相关包 import jieba from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt import os import PIL