jieba

二月一号博客

Deadly 提交于 2020-02-02 00:39:47
今天学习自然语言的算法 TF-IDF 算法 : 关键词提取 TF-IDF 的主要思想就是:如果某个词在一篇文档中出现的频率高,也就是 TF 高;在语料库中其他的文档中很少出现,就是 DF 低,也就是 IDF 高,则认为这个词具有很好的类区分能力。 TF 为词频( Term Frequency ),表示词 t 在文档 d 中出现的频率,计算公式 其中, ni,j 是该词 ti 在文件 dj 中的出现次数,而分母则是在文件 dj 中所有字词的出现次数之和。 IDF 为逆文档频率( Inverse Document Frequency ),表示语料库中包含词 t 的文档的数目的倒数,计算公式: 其中, |D| 表示语料库中的文件总数, |{j:ti∈dj}| 表示 包含词 ti 的文件数目,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用 1+|{j:ti∈dj}| 。 TF-IDF 在实际中主要是将二者相乘,也即 TF * IDF , 计算公式: 因此, TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。例如,某一特定文件内的高频率词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF 。 J ieba 中基于 TF-IDF 算法的关键词抽取: jieba代码: #_*_coding:utf-8_*_ import jieba.analyse

jupyter安装库的问题

谁说我不能喝 提交于 2020-01-28 17:31:01
在Anaconda Prompt的窗口输入: 首先寻找你想下载的模块: anaconda search -t conda jieba 接着会出现很多版本,有windows的,linux.....选择你要安装的版本名称,例如此处安装的版本是: conda-forge/jieba,接着执行下面的命令: anaconda show conda-forge/jieba 看到上一个命令的最下方有一条提示命令,用该命令安装即可 conda install --channel https://conda.anaconda.org/conda-forge jieba 上面的安装出现了一点小错误更新 conda : conda update -n base -c defaults conda 来源: https://www.cnblogs.com/zhaoxiansheng666/p/12238195.html

jieba库

跟風遠走 提交于 2020-01-28 13:45:07
jieba库: 利用一个中文词库,确定中文字符之间的关联概率 中文字符间概率大的组成词组,形成分词结果 jieba库分词的三种模式:精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式的基础上,对长词再次切分 常用函数: jieba.lcut(s):精确模式,返回一个列表类型的分词结果 jieba.lcut(s,cut_all=True):全模式,返回一个列表类型的分词结果,存在冗余 jieba.lcut_for_search(s):搜索引擎模式,返回一个列表类型的分词结果,存在冗余 jieba.add_word(w):向分词词典增加新词w 来源: 51CTO 作者: 王果果ooo 链接: https://blog.51cto.com/14232274/2468502

python成功安装jieba库,但是pycharm中无法识别jieba的解决方法

这一生的挚爱 提交于 2020-01-26 21:31:36
python成功安装jieba库,但是pycharm中无法识别jieba的解决方法 首先在cmd中运行 pip installer jieba 系统会自动安装jieba库,直到出现 “successfully installed” 或者是已经成功安装jieba库,系统显示:“Requirement already satisfied: jieba in f:\python\lib\site-packages (0.42.1)” 说明jieba库安装在路径为f:\python\lib\site-packages ,看路径其实是安 装在了 python的安装目录下 但是需要pycharm识别jieba库,需要在pycharm安装目录中的lib中的site-packages文件夹中 有jieba文件夹,所以,将jieba文件夹复制到 pycharm路径中的lib的site-packages文件夹中。 举例:如我的pycharm中lib的site-packages文件夹安装目录为 F:\pycharm\Pyproject\venv\Lib\site-packages 上述提到的jieba库安装路径为: f:\python\lib\site-packages 所以将jieba库从安装路径复制到 F:\pycharm\Pyproject\venv\Lib\site-packages

【Python成长之路】词云图制作

懵懂的女人 提交于 2020-01-22 20:25:32
【写在前面】 以前看到过一些大神制作的词云图 ,觉得效果很有意思。如果有朋友不了解词云图的效果,可以看下面的几张图(图片都是网上找到的); 网上找了找相关的软件,有些软件制作 还要付费。结果前几天在大神的公众号里的文章中看到了python也能实现,而且效果也很不错 。那还等什么,不赶紧盘它? 【示例代码】 1 # coding=utf-8 2 # @Auther : "鹏哥贼优秀" 3 # @Date : 2019/7/31 4 # @Software : PyCharm 5 import numpy as np 6 import jieba 7 from PIL import Image 8 from wordcloud import WordCloud, STOPWORDS 9 import matplotlib.pyplot as plt 10 11 def draw_word_cloud(word): 12 words = jieba.cut(word) 13 wordstr = " ".join(words) 14 sw = set(STOPWORDS) 15 sw.add("ok") 16 mask = np.array(Image.open('2.jpg')) 17 wc = WordCloud( 18 font_path='C:/Windows/Fonts

如何用Python做点面向“对象”的东西?

孤街浪徒 提交于 2020-01-19 21:28:27
前言 我说的当然是你们没有的那个对象。嘿嘿嘿。别问我你的程序为什么找不到object对象,不止是你的程序,还有你!(哈哈哈哈) 话说,一年的情人节到底有多少?问了度娘后,我惊呆了! 1月14日: 日记情人节 ,跨年夜小俩口一起度过!在烟火下许下新年心愿!不妨趁着这天,互赠足够纪录一整年恋爱情事的日记本,象征2人将携手走过未来一年,并留下更多美好回忆。(也不一定1月14日,反正马上要过年了,又要表示心意的时候到了。。。) 2月14日: 西方情人节 ,大家都知道,咋来的就不管了。 3月14日: 白色情人节 ,源自日本的「白色情人节」是2/14西洋情人节女孩送心仪男生巧克力或礼物后,男方可在3/14回礼表示谢意。 4月14日:黑色情人节,这是为了孤家寡人或旷男怨女所设置的单身情人节,如在2/14没收到甜蜜小礼物,也没人可送,在这天大家可共聚一堂,彼此鼓励加油!(终于有个消停的月份了😂,属于单身汪的节日) 5月14日: 玫瑰情人节 ,5月是玫瑰发芽时节,许多情侣都会选在这天到郊外旅游 6月14日: 亲亲情人节 ,在这一天,情侣们不必害羞,可大大方方地用Kiss来表达彼此爱意。 7月14日: 银色情人节 ,在这天情侣们可互赠银制礼品、饰物,另也可带意中人回家给家人认识,或是介绍给所尊敬长辈的日子。 8月14日: 绿色情人节 ,情侣们可趁这天来趟凉爽而清新的森林之旅,尽情享受大自然的美丽绿世界

机器学习笔记(一)-特征提取

流过昼夜 提交于 2020-01-15 16:50:44
机器学习笔记(一) 一、 什么是机器学习? 机器学习是从数据中自动分析获取规律(模型),并利用规律对未知数据进行预测。通常这些要处理的数据是保存在文件中而不是数据库中的。 二 、数据的格式(dataframe) 一般数据的结构是 特征值+目标值 的形式,当然有时候也可以没有目标值。 数据中对于特征的处理通常用到两个根据 sklearn,pandas 三、数据的特征提取 特征提取是对文本等数据进行特征值化,让计算机更好的理解数据。 3.1字典特征提取 样例: from sklearn.feature_extraction import DictVectorizer def dictVect(): ''' 字典数据抽取 ''' #实例化 dict=DictVectorizer(sparse=False) data=dict.fit_transform([{'city':'北京','temperature':100},{'city':'上海','temperature':80},{'city':'武汉','temperature':70}]) print(dict.feature_names_) print(data) # ndarray 二维数组 return None if __name__=='__main__': dictVect() 输出结果为一个 二维数组 3

python学习笔记(三):使用jieba库进行文本词频统计

倖福魔咒の 提交于 2020-01-15 08:16:54
词频统计 从网上搜索下载若干篇中文或英文文本文件,编写Python程序代码,对下载的中英文文档分别进行词频统计(去除无关的构词,增添新创的构词),并对前20个频率最高的内容制作词云图。 停用词表 https://github.com/goto456/stopwords(如有特殊停用词也可自己添加修改) 可使用wordcloud库进行词云的绘制 jieba库常用函数 函数 描述 jieba.cut(s) 精确模式,返回一个可迭代的数据类型 jieba.cut(s, cut_all=True) 全模式,返回一个包括文本s中所有可能单词的可迭代数据类型 jieba.cut_for_search(s) 搜索引擎模式,适合搜索引擎建立索引的分词结果 jieba.lcut(s) 精确模式,返回一个列表类型,建议使用 jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型,建议使用 jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型,建议使用 jieba.add_word(w) 向分词词典中增加新词w 实例代码 import jiebaimport wordcloud import pandas as pd import matplotlib as plt fname = input ( "请输入文件名:" ) f = open (

结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍

ε祈祈猫儿з 提交于 2020-01-15 01:12:31
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。 变更日志 创作目的 分词是做 NLP 相关工作,非常基础的一项功能。 jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。 但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。 有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。 最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。 所以自己重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。 而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。 Features 特点 基于 DFA 实现的高性能分词 允许用户自定义词库 支持返回词性 默认关闭,惰性加载,不对性能和内存有影响。 快速入门 准备 jdk1.7+ maven 3.x+ maven 引入 <dependency> <groupId>com.github.houbb</groupId> <artifactId>segment</artifactId> <version>${最新版本}</version> </dependency> 使用示例 相关代码参见 SegmentBsTest.java 获取分词

python利用wordcloud生成词云图

左心房为你撑大大i 提交于 2020-01-11 15:15:15
一、下载第三方模块 pip install wordcloud pip install jieba wordcloud :它把我们带权重的关键词渲染成词云。 jieba :是一个分词模块,可以从文本里提取关键词,所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据,不再需要它。 二、实例演示 图片和文章要跟py文件放在同一个文件夹下,wordcloud1.png和wordcloud2.png图片是运行程序后生成的。 jiqiren.txt :来源于学习强国的一篇文章:《2020年,机器人已不是幻想 但它还没有“以假乱真”的野心》。 jiqiren.jpg : 百度随便下载的。 第一个实例:wordcloud1.py #导入需要的模块 import jieba import wordcloud f = open ( "jiqiren.txt" , "r" , encoding = "utf-8" ) #加载需要分析的文章 t = f . read ( ) f . close ( ) ls = jieba . lcut ( t ) #对文章进行分词 txt = " " . join ( ls ) #利用join函数把每个词前面加空格 w = wordcloud . WordCloud ( #创建词云对象 font_path = "msyh.ttc" , #字体微软雅黑