jieba | 易学教程

结巴分词

阅读更多关于结巴分词

1.文本形式： import jieba text = '我们在野生动物园玩' wordlist = jieba.lcut ( text ) # wordlist默认是列表形式 print ( wordlist ) 输出结果： 2.文件形式 import jieba import jieba.analyse jieba.load_userdict ( "D:/python course/wordsegment/dict/dict.txt" ) # 匹配的词语词典 jieba.analyse.set_stop_words ( "D:/python course/wordsegment/dict/stop_words.txt" ) # 停用词词表 def splitSentence ( inputFile, outputFile ) : fin = open ( 'D:\python course\wordsegment\data\input.txt' , 'r' ) # 待分词文本 fout = open ( 'D:\python course\wordsegment\data\output.txt' , 'w' ) # 分词结果 for line in fin: line = line.strip ( ) line = jieba.analyse.extract_tags (

【python】词云图，入门版

阅读更多关于【python】词云图，入门版

入门版词云图： from wordcloud import WordCloud import matplotlib.pyplot as plt #绘制图像的模块 import jieba #jieba分词 path_txt='citu3.txt' f = open(path_txt,'r').read() jieba.load_userdict("dict.txt") # 结巴分词，生成字符串，wordcloud无法直接生成正确的中文词云 cut_text = " ".join(jieba.cut(f)) wordcloud = WordCloud( #设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的 font_path="C:/Windows/Fonts/STXINWEI.TTF", #设置了背景，宽高 background_color="white",width=1000,height=1000).generate(cut_text) plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.show() 效果图：来源： CSDN 作者： HelenLee01 链接： https://blog.csdn.net/weixin_43289135/article/details

自然语言处理

阅读更多关于自然语言处理

1.处理框架 Ltp:中文分词、分词标注、未登陆词识别、句法分析、语义角色标注 Stanford NLP:中文分词、分词标注、未登陆词识别、句法分析 FudanNLP:中文分词、句法分析 HanLP:中文分词、句法分析等各类算法 ICTCLAS分词系统:具有里程碑意义的中文分词系统 Anjs中文分词系统:中等规模的分词系统 jieba:小规模中文分词 2.分词功能 (1).ltp分词 import sys import os from pyltp import Segmentor seg = Segmentor() seg.load("modal path") words = seg.segment('大家好我是一个例子') print(words) View Code (2).jieba分词 import sys import os import jieba #全模式 wordlist = jieba.cut("大家好我是一个例子",cut_all=True) print("|".join(wordlist)) #精确模式 wordlist = jieba.cut("大家好我是一个例子") print("|".join(wordlist)) #搜索模式 wordlist = jieba.cut_for_search("大家好我是一个例子") print("|".join

如何通过 Serverless 与自然语言处理，让搜索引擎“看” 到你的博客

阅读更多关于如何通过 Serverless 与自然语言处理，让搜索引擎“看” 到你的博客

自然语言的内容有很多，本文所介绍的自然语言处理部分是「文本摘要」和「关键词提取」。很多朋友会有自己的博客，在博客上发文章时，这些文章发出去后，有的很容易被搜索引擎检索，有的则很难。那么有没有什么方法，让搜索引擎对博客友好一些呢？这里有一个好方法 —— 那就是填写网页的 Description 还有 Keywords。但是每次都需要我们自己去填写，非常繁琐。这个过程能否自动化实现？本文将会通过 Python 的 jieba 和 snownlp 进行文本摘要和关键词提取的实现。 ▎准备资源下载以下资源： Python 中文分词组件 Simplified Chinese Text Processing 下载完成后，新建文件夹，拷贝对应的文件：拷贝之后，建立文件 index.py # -*- coding: utf8 -*- import json import jieba.analyse from snownlp import SnowNLP def FromSnowNlp(text, summary_num): s = SnowNLP(text) return s.summary(summary_num) def FromJieba(text, keywords_type, keywords_num): if keywords_type == "tfidf": return

用VS2019写Python导入包时遇到No module named wordcloud和ImportError:DLL load failed:找不到指定模块的问题及其解决

阅读更多关于用VS2019写Python导入包时遇到No module named wordcloud和ImportError:DLL load failed:找不到指定模块的问题及其解决

用VS2019写python，想用wordcloud和jieba的包来实现词云。一开始import wordcloud和import jieba，明明已经成功安装了这两个包，但就是显示No module named wordcloud。解决方法是在资源管理器中，将D:\Anaconda3\Lib\site-packages添加到搜索路径中（我的python是下载Anaconda安装的）。然后再运行再次报错：ImportError:DLL load failed:找不到指定模块。解决方法是将PATH=D:\Anaconda3\Library\bin添加到项目属性的环境变量中。至此可以正常运行。来源： CSDN 作者： Steven_Lenny 链接： https://blog.csdn.net/steven_lenny/article/details/104641206

python 词云小demo

阅读更多关于 python 词云小demo

词云小demo jieba wordcloud 一什么是词云？由词汇组成类似云的彩色图形。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使浏览网页者只要一眼扫过文本就可以领略文本的主旨。二有什么作用？ 1、直观，高大上 2、可装逼，很潇洒三准备工作 1、导入包——jieba和wordcloud 命令：pip install jieba 命令：pip install wordcloud 备注：对于pycharm等可采用各自的方法导入包 2、文本和图片的准备文本：可爬取网上资料或某歌曲书籍等关键字，亦或是像我是自己手动输入文字并用tab隔开图片：找自己喜欢的图片，这里我采用乔巴的图片作为背景，而且除了主要人物外，其他背景都为白色，显示效果较好。采用的文本内容： paper going keep fighting happy Backpropagation/BP AI Technology Chine new year you tahnks hha hmmm emmm yesterday sunday Batch Normalization/BN autoencoder ALL Data big math python abc Thanks for your reminder, I’ll

文本分析

阅读更多关于文本分析

jieba库 jieba是优秀的中文分词第三方库，具体使用方法如下 import jieba test_str = ' 新华网东京记者据日本共同社28日报道' test_str = test_str . strip ( ) result = jieba . cut ( test_str , cut_all = False ) #print(result)打印为可迭代的生成器 print ( ' ' . join ( result ) ) 运行结果如下所示： import jieba seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = True ) print ( "全模式：" + "/" . join ( seg_list ) ) #全模式 seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = False ) print ( "精确模式：" + "/" . join ( seg_list ) ) #精确模式 seg_list = jieba . cut ( "他来到了网易杭研大厦" ) #默认是精确模式 print ( "默认模式：" + "/" . join ( seg_list ) ) seg_list = jieba . cut_for_search (

jieba库的使用

阅读更多关于 jieba库的使用

1. jieba库概述 jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库，需要额外安装 jieba库提供三种分词模式，最简单只需掌握一个函数 2. jieba库的安装（cmd命令行）pip install jieba 3. jieba的分词原理利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组 4. jieba库的使用 4.1 jieba分词的的三种模式精确模式：把文本精确地切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式的基础上，对长词再次切分 4.2 jieba库常用函数 jieba.lcut(s)★ —— 精确模式，返回一个列表类型的分词结果 >> > import jieba >> > jieba . lcut ( "中国是一个伟大的国家" ) [ '中国' , '是' , '一个' , '伟大' , '的' , '国家' ] jieba.lcut(s, cut_all=True) —— 全模式，返回一个列表类型的结果，存在冗余 >> > jieba . lcut ( "中国是一个伟大的国家" , cut_all = True ) [ '中国' , '国是' , '一个' , '伟大' ,

二级python——词云wordcloud库

阅读更多关于二级python——词云wordcloud库

文章目录 wordcloud库 wordcloud.WordCloud() 红楼梦词云 wordcloud库词云：专门用于根据文本生成词云 wordcloud默认会将空格，标点当作分隔符 wordcloud.WordCloud() 对于中文文本，先将其jieba拆分（返回的是列表），再用空格进行拼接红楼梦词云 import jieba f = open ( '红楼梦.txt' , 'r' ) txt = f . read ( ) f . close ( ) words = jieba . lcut ( t ) counts = { } for word in words : if len ( word ) == 1 : # 排出单个字符的分词结果 continue else : counts [ word ] == counts . get ( word , 0 ) + 1 items = list ( counts . items ( ) ) items . sort ( key = lambda x : x [ 1 ] , reverse = True ) for i in range ( 15 ) : word , count = items [ i ] print ( "{0:<10}{1:>5}" . format ( word , count )

手机评论文本挖掘与数据分析（Python）

阅读更多关于手机评论文本挖掘与数据分析（Python）

目的各大电商竞争越来激烈，为了提升客户服务质量，除了打价格战外，了解客户的需求点，对消费者的文本评论进行数据挖掘,倾听客户的心声越来越重要。工具贝壳采集器 Google浏览器 Python3.7 + Pycharm 数据采集 ①本文对京东平台的手机进行爬虫，首先进入京东商城，选择一款手机，这里以华为Mate 30 Pro 5G为例 ②在采集平台输入网址，点击贝壳采集开始配置信息 ③因为是采集评论所以还需要进行下预操作配置切换页面：点击预操作按钮-->添加点击元素按钮-->左键点击流程图中添加元素按钮(悬浮显示操作键)-->点击悬浮显示操作键<选择按钮> -->点击网页商品评论TAB页切换按钮 -->点击保存 ④没有识别出评论信息，手工操作下：清空字段-->更改页面类型为手工识别列表 --> 选中两个一样元素(这里两个用户名称) -->下一页未自动识别成功-->更改分页类型为手动点击下一页-->配置完成-->开始采集数据预处理当我们通过爬虫获取到我们想要的数据之后，进行简单的观察，可以发现评论的一些特点：文本短，基本上大量的评论就是一句话. 情感倾向明显：明显的词汇如”好” “可以” 语言不规范：会出现一些网络用词，符号，数字等重复性大：一句话出现词语重复数据量大. 故我们需要对这些数据进行数据预处理数据预处理包括：去重、分词等下面我们将进行数据清洗

订阅 jieba