jieba

结巴分词

▼魔方 西西 提交于 2020-03-06 17:37:56
1.文本形式: import jieba text = '我们在野生动物园玩' wordlist = jieba.lcut ( text ) # wordlist默认是列表形式 print ( wordlist ) 输出结果: 2.文件形式 import jieba import jieba.analyse jieba.load_userdict ( "D:/python course/wordsegment/dict/dict.txt" ) # 匹配的词语词典 jieba.analyse.set_stop_words ( "D:/python course/wordsegment/dict/stop_words.txt" ) # 停用词词表 def splitSentence ( inputFile, outputFile ) : fin = open ( 'D:\python course\wordsegment\data\input.txt' , 'r' ) # 待分词文本 fout = open ( 'D:\python course\wordsegment\data\output.txt' , 'w' ) # 分词结果 for line in fin: line = line.strip ( ) line = jieba.analyse.extract_tags (

【python】词云图,入门版

末鹿安然 提交于 2020-03-06 01:51:42
入门版词云图: from wordcloud import WordCloud import matplotlib.pyplot as plt #绘制图像的模块 import jieba #jieba分词 path_txt='citu3.txt' f = open(path_txt,'r').read() jieba.load_userdict("dict.txt") # 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云 cut_text = " ".join(jieba.cut(f)) wordcloud = WordCloud( #设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的 font_path="C:/Windows/Fonts/STXINWEI.TTF", #设置了背景,宽高 background_color="white",width=1000,height=1000).generate(cut_text) plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.show() 效果图: 来源: CSDN 作者: HelenLee01 链接: https://blog.csdn.net/weixin_43289135/article/details

自然语言处理

风流意气都作罢 提交于 2020-03-05 03:45:08
1.处理框架 Ltp:中文分词、分词标注、未登陆词识别、句法分析、语义角色标注 Stanford NLP:中文分词、分词标注、未登陆词识别、句法分析 FudanNLP:中文分词、句法分析 HanLP:中文分词、句法分析等各类算法 ICTCLAS分词系统:具有里程碑意义的中文分词系统 Anjs中文分词系统:中等规模的分词系统 jieba:小规模中文分词 2.分词功能 (1).ltp分词 import sys import os from pyltp import Segmentor seg = Segmentor() seg.load("modal path") words = seg.segment('大家好我是一个例子') print(words) View Code (2).jieba分词 import sys import os import jieba #全模式 wordlist = jieba.cut("大家好我是一个例子",cut_all=True) print("|".join(wordlist)) #精确模式 wordlist = jieba.cut("大家好我是一个例子") print("|".join(wordlist)) #搜索模式 wordlist = jieba.cut_for_search("大家好我是一个例子") print("|".join

如何通过 Serverless 与自然语言处理,让搜索引擎“看” 到你的博客

只谈情不闲聊 提交于 2020-03-04 16:42:22
自然语言的内容有很多,本文所介绍的自然语言处理部分是「文本摘要」和「关键词提取」。 很多朋友会有自己的博客,在博客上发文章时,这些文章发出去后,有的很容易被搜索引擎检索,有的则很难。那么有没有什么方法,让搜索引擎对博客友好一些呢?这里有一个好方法 —— 那就是填写网页的 Description 还有 Keywords。 但是每次都需要我们自己去填写,非常繁琐。这个过程能否自动化实现?本文将会通过 Python 的 jieba 和 snownlp 进行文本摘要和关键词提取的实现。 ▎准备资源 下载以下资源: Python 中文分词组件 Simplified Chinese Text Processing 下载完成后,新建文件夹,拷贝对应的文件: 拷贝之后,建立文件 index.py # -*- coding: utf8 -*- import json import jieba.analyse from snownlp import SnowNLP def FromSnowNlp(text, summary_num): s = SnowNLP(text) return s.summary(summary_num) def FromJieba(text, keywords_type, keywords_num): if keywords_type == "tfidf": return

用VS2019写Python导入包时遇到No module named wordcloud和ImportError:DLL load failed:找不到指定模块的问题及其解决

北战南征 提交于 2020-03-04 02:15:42
用VS2019写python,想用wordcloud和jieba的包来实现词云。 一开始import wordcloud和import jieba,明明已经成功安装了这两个包,但就是显示No module named wordcloud。 解决方法是在资源管理器中,将D:\Anaconda3\Lib\site-packages添加到搜索路径中(我的python是下载Anaconda安装的)。 然后再运行再次报错:ImportError:DLL load failed:找不到指定模块。 解决方法是将PATH=D:\Anaconda3\Library\bin添加到项目属性的环境变量中。 至此可以正常运行。 来源: CSDN 作者: Steven_Lenny 链接: https://blog.csdn.net/steven_lenny/article/details/104641206

python 词云小demo

孤街浪徒 提交于 2020-03-03 09:11:56
词云小demo jieba wordcloud 一 什么是词云? 由词汇组成类似云的彩色图形。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 二 有什么作用? 1、直观,高大上 2、可装逼,很潇洒 三 准备工作 1、导入包——jieba和wordcloud 命令:pip install jieba 命令:pip install wordcloud 备注:对于pycharm等可采用各自的方法导入包 2、文本和图片的准备 文本:可爬取网上资料或某歌曲书籍等关键字,亦或是像我是自己手动输入文字并用tab隔开 图片:找自己喜欢的图片,这里我采用乔巴的图片作为背景,而且除了主要人物外,其他背景都为白色,显示效果较好。 采用的文本内容: paper going keep fighting happy Backpropagation/BP AI Technology Chine new year you tahnks hha hmmm emmm yesterday sunday Batch Normalization/BN autoencoder ALL Data big math python abc Thanks for your reminder, I’ll

文本分析

戏子无情 提交于 2020-03-03 04:51:51
jieba库 jieba是优秀的中文分词第三方库 ,具体使用方法如下 import jieba test_str = ' 新华网东京记者据日本共同社28日报道' test_str = test_str . strip ( ) result = jieba . cut ( test_str , cut_all = False ) #print(result)打印为可迭代的生成器 print ( ' ' . join ( result ) ) 运行结果如下所示: import jieba seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = True ) print ( "全模式:" + "/" . join ( seg_list ) ) #全模式 seg_list = jieba . cut ( "我来到北京清华大学" , cut_all = False ) print ( "精确模式:" + "/" . join ( seg_list ) ) #精确模式 seg_list = jieba . cut ( "他来到了网易杭研大厦" ) #默认是精确模式 print ( "默认模式:" + "/" . join ( seg_list ) ) seg_list = jieba . cut_for_search (

jieba库的使用

浪尽此生 提交于 2020-03-02 01:07:42
1. jieba库概述 jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 2. jieba库的安装 (cmd命令行)pip install jieba 3. jieba的分词原理 利用一个中文词库,确定中文字符之间的关联概率 中文字符间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 4. jieba库的使用 4.1 jieba分词的的三种模式 精确模式:把文本精确地切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式的基础上,对长词再次切分 4.2 jieba库常用函数 jieba.lcut(s)★ —— 精确模式,返回一个列表类型的分词结果 >> > import jieba >> > jieba . lcut ( "中国是一个伟大的国家" ) [ '中国' , '是' , '一个' , '伟大' , '的' , '国家' ] jieba.lcut(s, cut_all=True) —— 全模式,返回一个列表类型的结果,存在冗余 >> > jieba . lcut ( "中国是一个伟大的国家" , cut_all = True ) [ '中国' , '国是' , '一个' , '伟大' ,

二级python——词云wordcloud库

∥☆過路亽.° 提交于 2020-03-01 16:30:13
文章目录 wordcloud库 wordcloud.WordCloud() 红楼梦词云 wordcloud库 词云:专门用于根据文本生成词云 wordcloud默认会将 空格 , 标点 当作分隔符 wordcloud.WordCloud() 对于中文文本,先将其jieba拆分(返回的是列表),再用空格进行拼接 红楼梦词云 import jieba f = open ( '红楼梦.txt' , 'r' ) txt = f . read ( ) f . close ( ) words = jieba . lcut ( t ) counts = { } for word in words : if len ( word ) == 1 : # 排出单个字符的分词结果 continue else : counts [ word ] == counts . get ( word , 0 ) + 1 items = list ( counts . items ( ) ) items . sort ( key = lambda x : x [ 1 ] , reverse = True ) for i in range ( 15 ) : word , count = items [ i ] print ( "{0:<10}{1:>5}" . format ( word , count )

手机评论文本挖掘与数据分析(Python)

血红的双手。 提交于 2020-02-26 16:44:26
目的 各大电商竞争越来激烈,为了提升客户服务质量,除了打价格战外,了解客户的需求点,对消费者的文本评论进行数据挖掘,倾听客户的心声越来越重要。 工具 贝壳采集器 Google浏览器 Python3.7 + Pycharm 数据采集 ①本文对京东平台的手机进行爬虫,首先进入京东商城,选择一款手机,这里以华为Mate 30 Pro 5G为例 ②在采集平台输入网址,点击贝壳采集开始配置信息 ③因为是采集评论所以还需要进行下预操作配置切换页面:点击预操作按钮-->添加点击元素按钮-->左键点击流程图中添加元素按钮(悬浮显示操作键)-->点击悬浮显示操作键<选择按钮> -->点击网页商品评论TAB页切换按钮 -->点击保存 ④没有识别出评论信息,手工操作下:清空字段-->更改页面类型为手工识别列表 --> 选中两个一样元素(这里两个用户名称) -->下一页未自动识别成功-->更改分页类型为手动点击下一页-->配置完成-->开始采集 数据预处理 当我们通过爬虫获取到我们想要的数据之后,进行简单的观察,可以发现评论的一些特点: 文本短,基本上大量的评论就是一句话. 情感倾向明显:明显的词汇 如”好” “可以” 语言不规范:会出现一些网络用词,符号,数字等 重复性大:一句话出现词语重复 数据量大. 故我们需要对这些数据进行数据预处理 数据预处理包括:去重、分词等 下面我们将进行数据清洗