jieba | 易学教程

二月一号博客

阅读更多关于二月一号博客

今天学习自然语言的算法 TF-IDF 算法：关键词提取 TF-IDF 的主要思想就是：如果某个词在一篇文档中出现的频率高，也就是 TF 高；在语料库中其他的文档中很少出现，就是 DF 低，也就是 IDF 高，则认为这个词具有很好的类区分能力。 TF 为词频（ Term Frequency ），表示词 t 在文档 d 中出现的频率，计算公式其中， ni,j 是该词 ti 在文件 dj 中的出现次数，而分母则是在文件 dj 中所有字词的出现次数之和。 IDF 为逆文档频率（ Inverse Document Frequency ），表示语料库中包含词 t 的文档的数目的倒数，计算公式：其中， |D| 表示语料库中的文件总数， |{j:ti∈dj}| 表示包含词 ti 的文件数目，如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用 1+|{j:ti∈dj}| 。 TF-IDF 在实际中主要是将二者相乘，也即 TF * IDF ，计算公式：因此， TF-IDF 倾向于过滤掉常见的词语，保留重要的词语。例如，某一特定文件内的高频率词语，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的 TF-IDF 。 J ieba 中基于 TF-IDF 算法的关键词抽取： jieba代码： #_*_coding:utf-8_*_ import jieba.analyse

jupyter安装库的问题

阅读更多关于 jupyter安装库的问题

在Anaconda Prompt的窗口输入：首先寻找你想下载的模块: anaconda search -t conda jieba 接着会出现很多版本，有windows的，linux.....选择你要安装的版本名称，例如此处安装的版本是： conda-forge/jieba，接着执行下面的命令： anaconda show conda-forge/jieba 看到上一个命令的最下方有一条提示命令，用该命令安装即可 conda install --channel https://conda.anaconda.org/conda-forge jieba 上面的安装出现了一点小错误更新 conda ： conda update -n base -c defaults conda 来源： https://www.cnblogs.com/zhaoxiansheng666/p/12238195.html

jieba库

阅读更多关于 jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果 jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式的基础上，对长词再次切分常用函数： jieba.lcut(s):精确模式，返回一个列表类型的分词结果 jieba.lcut(s,cut_all=True):全模式，返回一个列表类型的分词结果，存在冗余 jieba.lcut_for_search(s):搜索引擎模式，返回一个列表类型的分词结果，存在冗余 jieba.add_word(w):向分词词典增加新词w 来源： 51CTO 作者：王果果ooo 链接： https://blog.51cto.com/14232274/2468502

python成功安装jieba库，但是pycharm中无法识别jieba的解决方法

阅读更多关于 python成功安装jieba库，但是pycharm中无法识别jieba的解决方法

python成功安装jieba库，但是pycharm中无法识别jieba的解决方法首先在cmd中运行 pip installer jieba 系统会自动安装jieba库，直到出现 “successfully installed” 或者是已经成功安装jieba库，系统显示：“Requirement already satisfied: jieba in f:\python\lib\site-packages (0.42.1)” 说明jieba库安装在路径为f:\python\lib\site-packages ，看路径其实是安装在了 python的安装目录下但是需要pycharm识别jieba库，需要在pycharm安装目录中的lib中的site-packages文件夹中有jieba文件夹，所以，将jieba文件夹复制到 pycharm路径中的lib的site-packages文件夹中。举例：如我的pycharm中lib的site-packages文件夹安装目录为 F:\pycharm\Pyproject\venv\Lib\site-packages 上述提到的jieba库安装路径为： f:\python\lib\site-packages 所以将jieba库从安装路径复制到 F:\pycharm\Pyproject\venv\Lib\site-packages

【Python成长之路】词云图制作

阅读更多关于【Python成长之路】词云图制作

【写在前面】以前看到过一些大神制作的词云图，觉得效果很有意思。如果有朋友不了解词云图的效果，可以看下面的几张图（图片都是网上找到的）；网上找了找相关的软件，有些软件制作还要付费。结果前几天在大神的公众号里的文章中看到了python也能实现，而且效果也很不错。那还等什么，不赶紧盘它？【示例代码】 1 # coding=utf-8 2 # @Auther : "鹏哥贼优秀" 3 # @Date : 2019/7/31 4 # @Software : PyCharm 5 import numpy as np 6 import jieba 7 from PIL import Image 8 from wordcloud import WordCloud, STOPWORDS 9 import matplotlib.pyplot as plt 10 11 def draw_word_cloud(word): 12 words = jieba.cut(word) 13 wordstr = " ".join(words) 14 sw = set(STOPWORDS) 15 sw.add("ok") 16 mask = np.array(Image.open('2.jpg')) 17 wc = WordCloud( 18 font_path='C:/Windows/Fonts

如何用Python做点面向“对象”的东西？

阅读更多关于如何用Python做点面向“对象”的东西？

前言我说的当然是你们没有的那个对象。嘿嘿嘿。别问我你的程序为什么找不到object对象，不止是你的程序，还有你！（哈哈哈哈）话说，一年的情人节到底有多少？问了度娘后，我惊呆了！ 1月14日：日记情人节，跨年夜小俩口一起度过！在烟火下许下新年心愿！不妨趁着这天，互赠足够纪录一整年恋爱情事的日记本，象征2人将携手走过未来一年，并留下更多美好回忆。（也不一定1月14日，反正马上要过年了，又要表示心意的时候到了。。。） 2月14日：西方情人节，大家都知道，咋来的就不管了。 3月14日：白色情人节，源自日本的「白色情人节」是2/14西洋情人节女孩送心仪男生巧克力或礼物后，男方可在3/14回礼表示谢意。 4月14日：黑色情人节，这是为了孤家寡人或旷男怨女所设置的单身情人节，如在2/14没收到甜蜜小礼物，也没人可送，在这天大家可共聚一堂，彼此鼓励加油！（终于有个消停的月份了😂，属于单身汪的节日） 5月14日：玫瑰情人节，5月是玫瑰发芽时节，许多情侣都会选在这天到郊外旅游 6月14日：亲亲情人节，在这一天，情侣们不必害羞，可大大方方地用Kiss来表达彼此爱意。 7月14日：银色情人节，在这天情侣们可互赠银制礼品、饰物，另也可带意中人回家给家人认识，或是介绍给所尊敬长辈的日子。 8月14日：绿色情人节，情侣们可趁这天来趟凉爽而清新的森林之旅，尽情享受大自然的美丽绿世界

机器学习笔记(一)-特征提取

阅读更多关于机器学习笔记(一)-特征提取

机器学习笔记（一）一、什么是机器学习？机器学习是从数据中自动分析获取规律（模型），并利用规律对未知数据进行预测。通常这些要处理的数据是保存在文件中而不是数据库中的。二、数据的格式（dataframe）一般数据的结构是特征值+目标值的形式，当然有时候也可以没有目标值。数据中对于特征的处理通常用到两个根据 sklearn,pandas 三、数据的特征提取特征提取是对文本等数据进行特征值化，让计算机更好的理解数据。 3.1字典特征提取样例： from sklearn.feature_extraction import DictVectorizer def dictVect(): ''' 字典数据抽取 ''' #实例化 dict=DictVectorizer(sparse=False) data=dict.fit_transform([{'city':'北京','temperature':100},{'city':'上海','temperature':80},{'city':'武汉','temperature':70}]) print(dict.feature_names_) print(data) # ndarray 二维数组 return None if __name__=='__main__': dictVect() 输出结果为一个二维数组 3

python学习笔记（三）：使用jieba库进行文本词频统计

阅读更多关于 python学习笔记（三）：使用jieba库进行文本词频统计

词频统计从网上搜索下载若干篇中文或英文文本文件，编写Python程序代码，对下载的中英文文档分别进行词频统计(去除无关的构词，增添新创的构词)，并对前20个频率最高的内容制作词云图。停用词表 https://github.com/goto456/stopwords（如有特殊停用词也可自己添加修改）可使用wordcloud库进行词云的绘制 jieba库常用函数函数描述 jieba.cut(s) 精确模式，返回一个可迭代的数据类型 jieba.cut(s, cut_all=True) 全模式，返回一个包括文本s中所有可能单词的可迭代数据类型 jieba.cut_for_search(s) 搜索引擎模式，适合搜索引擎建立索引的分词结果 jieba.lcut(s) 精确模式，返回一个列表类型，建议使用 jieba.lcut(s, cut_all=True) 全模式，返回一个列表类型，建议使用 jieba.lcut_for_search(s) 搜索引擎模式，返回一个列表类型，建议使用 jieba.add_word(w) 向分词词典中增加新词w 实例代码 import jiebaimport wordcloud import pandas as pd import matplotlib as plt fname = input ( "请输入文件名：" ) f = open (

结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍

阅读更多关于结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍

Segment Segment 是基于结巴分词词库实现的更加灵活，高性能的 java 分词实现。变更日志创作目的分词是做 NLP 相关工作，非常基础的一项功能。 jieba-analysis 作为一款非常受欢迎的分词实现，个人实现的 opencc4j 之前一直使用其作为分词。但是随着对分词的了解，发现结巴分词对于一些配置上不够灵活。有很多功能无法指定关闭，比如 HMM 对于繁简体转换是无用的，因为繁体词是固定的，不需要预测。最新版本的词性等功能好像也被移除了，但是这些都是个人非常需要的。所以自己重新实现了一遍，希望实现一套更加灵活，更多特性的分词框架。而且 jieba-analysis 的更新似乎停滞了，个人的实现方式差异较大，所以建立了全新的项目。 Features 特点基于 DFA 实现的高性能分词允许用户自定义词库支持返回词性默认关闭，惰性加载，不对性能和内存有影响。快速入门准备 jdk1.7+ maven 3.x+ maven 引入 <dependency> <groupId>com.github.houbb</groupId> <artifactId>segment</artifactId> <version>${最新版本}</version> </dependency> 使用示例相关代码参见 SegmentBsTest.java 获取分词

python利用wordcloud生成词云图

阅读更多关于 python利用wordcloud生成词云图

一、下载第三方模块 pip install wordcloud pip install jieba wordcloud :它把我们带权重的关键词渲染成词云。 jieba ：是一个分词模块，可以从文本里提取关键词，所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据，不再需要它。二、实例演示图片和文章要跟py文件放在同一个文件夹下，wordcloud1.png和wordcloud2.png图片是运行程序后生成的。 jiqiren.txt ：来源于学习强国的一篇文章：《2020年，机器人已不是幻想但它还没有“以假乱真”的野心》。 jiqiren.jpg : 百度随便下载的。第一个实例：wordcloud1.py #导入需要的模块 import jieba import wordcloud f = open ( "jiqiren.txt" , "r" , encoding = "utf-8" ) #加载需要分析的文章 t = f . read ( ) f . close ( ) ls = jieba . lcut ( t ) #对文章进行分词 txt = " " . join ( ls ) #利用join函数把每个词前面加空格 w = wordcloud . WordCloud ( #创建词云对象 font_path = "msyh.ttc" , #字体微软雅黑

订阅 jieba