jieba

简单的几个步骤,教会你用Python制作你想要的词云图

六眼飞鱼酱① 提交于 2020-08-11 02:37:07
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:码里奥编程 加企鹅群695185429即可免费获取,资料全在群文件里。资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等 效果图 最终效果如下: 接下来,我们来实现一下看看。 实现步骤 首先需要安装3个库: matplotlib我们已经写了好几天应该认识了,是用于绘制图形的; jieba是一个词云拆解库,可以帮助我们准确地拆解出词云图内部的词语组合并生成对应的string字符串 ; wordcloud是帮助我们最终生成词云的库。 注意: 有的电脑在安装库时,会出现报错提示如下: 出现此类型错误,不是代码或个人操作的问题,而是电脑系统在制作时没有安装语言开发支持程序的原因。 解决办法: 1.安装 Microsoft visual c++ 14.0https://964279924.ctfile.com/fs/1445568-239446865 2.如果出现了.Net framework版本过低,小于4.5的最低版本要求: [如果没出现这个问题,跳过这一步]重新安装 .Net framework 更高的版本: https://support.microsoft.com/en-us/help/3151800/the-net

flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务

时光怂恿深爱的人放手 提交于 2020-08-10 19:54:46
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts 搭建的简单新冠肺炎疫情数据可视化交互分析平台,包含疫情数据获取、态势感知、预测分析、舆情监测等任务 包含完整代码和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis 项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看 交互可视化分析截图: 空间数据分析 作业要求 作业目的: 了解空间数据在日常生活中的应用,熟悉空间数据统计分析、空间数据挖掘、空间数据可视化等技术。 作业内容: 新型冠状病毒肺炎(COVID-19,简称“新冠肺炎”)疫情肆虐全球多个国家,2020年3月11日,世界卫生组织 (WHO) 正式宣布将新冠肺炎列为全球性大流行病。在全球抗击新型冠状病毒疫情的过程中,产生了前所未有的大规模疫情数据,利用大数据分析技术和方法能够协助发现病毒传染源、监测疫情发展、调配救援物资,从而更好地进行疫情防控工作。空间数据分析作为大数据分析的重要组成,将数据智能处理、直观展示和交互分析有机地结合,使机器智能和人类智慧深度融合、优势互补,为疫情防控中的分析、指挥和决策提供有效依据和指南。 作业要求以新冠疫情或其它重大公共卫生事件的相关时空数据为基础,利用数据清洗与管理、统计分析

用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫

半腔热情 提交于 2020-08-10 18:56:16
对于动漫爱好者来说,海贼王、火影、死神三大动漫神作你肯定肯定不陌生了。小编身边很多的同事仍然深爱着这些经典神作,可见“中毒”至深。今天小编利用Python大法带大家分析一下这些神作,看看这些神作到底在讲些神马。 人生苦短,我用Python。小编利用Python网络爬虫爬取了豆瓣网,将网站上关于这三部动漫的评论全部抓取下来,之后通过Python的第三方库jieba分词进行词频统计和分析,最后通过matplotlib库和wordcloud库将关键词制作成词云进行可视化展示。 词云是神魔?"词云"这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于近日提出。"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 话不多说,直接上图,下图是《海贼王》的豆瓣评论词云可视化展示图。 《海贼王》豆瓣评论词云 对于《海贼王》来说,世界,梦想,搞笑,感动,冒险,自由等关键词是大家对这部热血动漫的评价。在人物展现了,路飞、索隆和艾斯榜上有名。路飞这个贯穿这个海贼王的名字毫无疑问出现的次数最多,接下来是大剑豪索隆和死去的艾斯。 路飞是草帽海贼团船长,由于他的标志性特征是一顶草帽,因此常被直接称呼为草帽小子或草帽路飞,他的梦想是找到传说中的One

Python爬虫爬取哈利波特小说,并用数据可视化分析出场人物

落花浮王杯 提交于 2020-08-10 04:33:30
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式: 精确模式:默认情况下是精确模式,精确地分词,适合文本分析; 全模式:把所有能成词的词语都分出来, 但是词语会存在歧义; 搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。 jieba 包常用的语句: 精确模式分词:jieba.cut(text,cut_all = False),当cut_all = True时为全模式 自定义词典:jieba.load_userdict(file_name) 增加词语:jieba.add_word(seg,freq,flag) 删除词语:jieba.del_word(seg) 《哈利·波特》是英国作家J·K·罗琳的奇幻文学系列小说,描写主角哈利·波特在霍格沃茨魔法学校7年学习生活中的冒险故事。下面将以《哈利波特》错综复杂的人物关系为例,实践一下jieba包。 #加载所需包 import numpy as np import pandas as pd import jieba,codecs import jieba.posseg as pseg #标注词性模块 from pyecharts import Bar,WordCloud

手把手教你使用Python抓取QQ音乐数据(第三弹)

懵懂的女人 提交于 2020-08-09 14:25:05
【一、项目目标】 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过手把手教你使用Python抓取QQ音乐数据(第二弹)我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 此次我们在项目(二)的基础上获取更多评论并生成词云图,形成手把手教你使用Python抓取QQ音乐数据(第三弹)。 【二、需要的库】 主要涉及的库有:requests、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 【三、项目实现】 1、首先回顾一下,下面是项目(二)获取指定歌曲首页热评的代码; def get_comment(i): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', # 标记了请求从什么设备,什么浏览器上发出 } params = {'g_tk_new

手把手教你使用Python抓取QQ音乐数据(第四弹)

混江龙づ霸主 提交于 2020-08-09 06:20:41
【一、项目目标】 通过 手把手教你使用Python抓取QQ音乐数据(第一弹) 我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过 手把手教你使用Python抓取QQ音乐数据(第二弹) 我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 通过 手把手教你使用Python抓取QQ音乐数据(第三弹) 我们实现了获取更多评论并生成词云图。 此次我们将将三个项目封装在一起,通过菜单控制爬取不同数据。 【二、需要的库】 主要涉及的库有:requests、openpyxl、html、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 如需生成.exe需要pyinstaller -F 【三、项目实现】 1.首先确定菜单,要实现哪些功能: ①获取指定歌手的歌曲信息(歌名、专辑、链接) ②获取指定歌曲歌词 ③获取指定歌曲评论 ④生成词云图 ⑤退出系统 代码如下: class QQ(): def menu(self): print('欢迎使用QQ音乐爬虫系统,以下是功能菜单,请选择。\n') while True: try: print('功能菜单\n1.获取指定歌手的歌曲信息\n2.获取指定歌曲歌词\n3.获取指定歌曲评论\n4.生成词云图\n5.退出系统\n')

Python词云分析:今年的政府工作报告有哪些关键词?

扶醉桌前 提交于 2020-08-08 13:26:01
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 昨天,十三届全国人大三次会议作了政府工作报告。这份政府工作报告仅有10500字左右,据悉是改革开放40年以来最短的一次。受到疫情影响,今年的两会会议适当缩短,政府工作报告也大幅压缩,体现了“实干为要”的理念。那么,这份政府工作报告突出强调了哪些关键词呢?我们其实可以基于Python技术进行词频分析和词云制作! import matplotlib.pyplot as plt # 绘图库 import jieba from wordcloud import WordCloud # 读入文本数据 fp = open(r ' D:\爬虫下载\2020年政府工作报告.txt ' , ' r ' ,encoding= ' utf-8 ' ) content = fp.read() # print(content) # 分词 words = jieba.lcut(content) # 词频分析操作 data = {} for word in words: if len(word)>1 : if word in data: data[word] +=1 else : data[word] =1 # print(data) # 排序 hist = list(data

地摊经济的时代真的到来了吗?今天我们就带你用数据盘一盘。你想好摆摊去卖什么了吗?

南笙酒味 提交于 2020-08-07 19:22:31
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:CDA数据分析师 地摊经济火了!微博微热点数据 我们先看到微博微热点的数据: 全网热度指数趋势 从全网热度指数的变化趋势来看,地摊经济的热度在6月3日起逐步升温,6月4日9时达到了99.69的峰值。 全网关键词云图 再看到全网关键词云图,在与地摊经济相关的全部信息中, 提及频次最高的词语依次为"地摊经济"、“摆摊"和"全员”。 B站视频弹幕数据 目前在B站上也涌现出许多关于地摊经济的视频。 我们看到其中这个关于成都地摊经济与文化的视频,目前该个视频在B站上播放量达到14.1万,收获了3856条弹幕。 地址:https://www.bilibili.com/video/BV1Ft4y1y7iG?from=search&seid=12113765873623399312 那么这些弹幕中大家都在谈论些什么呢?我们对这些弹幕进行分析整理,让我们看到词云图。 弹幕词云图 可以看到大家讨论最多的就是除了"地摊"、“成都”,还有就是"卫生"、“城管”、“利润"等内容。其中地摊"美食”、“小吃”、“烧烤”、"干净"也是大家十分关注的问题。 是否支持地摊经济弹幕投票 在视频结尾,也发起了你是否支持地摊经济的弹幕投票,支持的打数字1,不支持的打数字2

【大数据应用技术】作业八|爬虫综合大作业(下)

左心房为你撑大大i 提交于 2020-08-07 15:11:07
本次所以的要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 前言 本次作业是爬取拉勾网python相关岗位的信息,通过爬取岗位id、城市、公司全名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限等数据并对其进行数据分析从而得出相应结论。 网页爬虫 1.代理IP 在爬取数据之前我们可以考虑使用代理ip进行爬取,所以这里我写了一段代码检测ip的有效性,这里我使用的是 西刺免费代理ip 进行测试。不过在测试中我发现可用的免费代理ip少之又少,并且时效性较短,用起来不太方便,所以如果有专门的爬虫需求的人可以考虑使用付费ip。 测试代理ip时效性代码如下: import requests import random proxies = { ' http ' : '' } def loadip(): url = ' https: // proxy.horocn.com / api / proxies?order_id = 3JXK1633928414619951 & num = 20 & format = text & line_separator = win & can_repeat = yes ' req = requests.get(url) date = req.json()

python深挖65万人的明星贴吧,探究上万个帖子的秘密

早过忘川 提交于 2020-08-06 04:56:10
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 最近一直在关注百度明星吧,发现很多有趣的帖子,于是我就想用python把这些帖子都爬下来,并对内容进行分析。 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:1097524789 本文的知识点: 介绍了mysql数据库内容插入及提取的简单应用; 介绍了如何从mysql数据库提取文本并进行分析; 介绍了数据分析的切入点及思路。 对于初学者想更轻松的学好Python开发技术,Python爬虫,Python大数据分析,人工智能等技术,这里给大家分享一套系统教学资源,加一下我建的Python技术的学习裙;七八四七五八二一四,一起学习。有相关开发工具,学习教程,每天还有专业的老司机在线直播分享知识与技术答疑解惑! 下面给大家详细介绍一下实现过程: 一、网站分析 贴吧的翻页通过url的变化来实现,主要是pn参数: https: //tieba.baidu.com/f?kw=明星&ie=utf-8&pn=页数*50 帖子的内容