jieba | 易学教程

淘宝零食专栏分析（淘宝爬虫+数据分析）

阅读更多关于淘宝零食专栏分析（淘宝爬虫+数据分析）

前言：本文爬虫的关键字眼是“美食”，实际分析时发现“零食”的销售量远远高于“美食”，因此在一开始的数据层面就已经决定了本文分析的片面性，本篇博客主要是用于记录代码和分析过程。实际的结论请看下一篇博客（下一篇博客爬虫的关键字眼是“零食”）。 https://www.cnblogs.com/little-monkey/p/10822369.html 一、爬虫根据崔庆才老师的爬虫视频修改而来，利用selenium进行淘宝爬取（本来想用火车采集器爬取的，尝试了一下发现没法截取淘宝网址的字段）。 selenium完全模拟人工点击操作，原理上可以爬取淘宝的所有可见内容。爬虫代码有参考　　https://www.cnblogs.com/hustcser/p/8744355.html import re import time from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected

手把手教你使用Python抓取QQ音乐数据（第三弹）

阅读更多关于手把手教你使用Python抓取QQ音乐数据（第三弹）

【一、项目目标】通过手把手教你使用Python抓取QQ音乐数据（第一弹）我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。通过手把手教你使用Python抓取QQ音乐数据（第二弹）我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。此次我们在项目（二）的基础上获取更多评论并生成词云图，形成手把手教你使用Python抓取QQ音乐数据（第三弹）。【二、需要的库】主要涉及的库有：requests、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库（pipinstall pillow）【三、项目实现】 1、首先回顾一下，下面是项目（二）获取指定歌曲首页热评的代码； def get_comment(i): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', # 标记了请求从什么设备，什么浏览器上发出 } params = {'g_tk_new

手把手教你使用Python抓取QQ音乐数据（第四弹）

阅读更多关于手把手教你使用Python抓取QQ音乐数据（第四弹）

【一、项目目标】通过手把手教你使用Python抓取QQ音乐数据（第一弹）我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。通过手把手教你使用Python抓取QQ音乐数据（第二弹）我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。通过手把手教你使用Python抓取QQ音乐数据（第三弹）我们实现了获取更多评论并生成词云图。此次我们将将三个项目封装在一起，通过菜单控制爬取不同数据。【二、需要的库】主要涉及的库有：requests、openpyxl、html、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库（pipinstall pillow）如需生成.exe需要pyinstaller -F 【三、项目实现】 1.首先确定菜单，要实现哪些功能： ①获取指定歌手的歌曲信息（歌名、专辑、链接） ②获取指定歌曲歌词 ③获取指定歌曲评论 ④生成词云图 ⑤退出系统代码如下： class QQ(): def menu(self): print('欢迎使用QQ音乐爬虫系统，以下是功能菜单，请选择。\n') while True: try: print('功能菜单\n1.获取指定歌手的歌曲信息\n2.获取指定歌曲歌词\n3.获取指定歌曲评论\n4.生成词云图\n5.退出系统\n')

拿下60亿流量的《惊雷》都是哪些人在听？python帮你统计出来

阅读更多关于拿下60亿流量的《惊雷》都是哪些人在听？python帮你统计出来

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：听不来喊麦的C君 PS：如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！这看起来不着边际的歌词，配上简单粗暴的蹦迪音乐。最近，一首《惊雷》的喊麦歌曲在短视频平台火了，震惊了整个音乐圈。但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌，要旋律没旋律，要节奏没节奏，要律动没律动”，评价其“难听”、“俗气”。 4月11日，MC六道以原唱者的身份对杨坤的指责做出回应表示，音乐没有高低之分，称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。那么《惊雷》这首歌到底怎么样？都是哪些人在听？今天我们就用Python来给你解读。 01 拿下60亿流量喊麦歌曲《惊雷》火了！说道喊麦，作为近年来一种新兴的表演形式，其内容和表达方式则比较简单和浮夸，主要形式是在网上下载一些伴奏（以电音伴奏为主），跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。更简单的说法就是，演唱时不讲究什么技法，带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉

使用jieba库与wordcloud库第三方库进行词频统计

阅读更多关于使用jieba库与wordcloud库第三方库进行词频统计

一、jieba库与wordcloud库的使用 1. jieba库与wordcloud库的介绍　　jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。　　wordcloud是优秀的词云展示第三方库，以词语为基本单位，通过图形可视化的方式，更加直观和艺术的展示文本。 2.安装jieba库与wordcloud库　　在运行里输入 pip install wordcloud和pip install jieba，等待安装完成。二、jieba函数介绍三、调用库函数 from wordcloud import WordCloud with open( "斗破苍穹 .txt " ,encoding= " utf-8 " )as file: # 1.读取文本内容 text= file.read() # 2.设置词云的背景颜色、宽高、字数 wordcloud=WordCloud(font_path= " C:/Windows/Fonts/simfang.ttf " , background_color = " black " ,width=600 , height =300,max_words=50 ).generate(text) # 3.生成图片 image=

数据挖掘——文本挖掘-绘制词云

阅读更多关于数据挖掘——文本挖掘-绘制词云

文本挖掘是将文本信息转化为可利用的数据的知识。　　一、创建“语料库” 语料库（Corpus）是我们要分析的所有文档的集合。将现有的文本文档的内容添加到一个新的语料库中。实现逻辑：　　将各文本文件分类放置在一个根目录下，通过遍历读取根目录下所有子目录中的所有文件，　　然后将读取结果赋值到一个数据框中，得到含有文件路径、文件内容的结果。代码核心：　　构建方法：os.walk(fileDir) 对在fileDir目录下的所有文件（for循环）进行操作，得到文件路径　　文件读取：codecs.open(filepath,medthod,encoding) 文件路径、打开方式（r，w，rw）、文件编码，得到文本内容 # 构建语料库 import codecs filepaths = [] # 构建一个空的‘文件路径’列表 filecontents = [] # 构建一个空的‘文件内容’列表 for root, dirs, files in os.walk('. \SogouC.mini\Sample ' ): for name in files: # 拼接文件路径，得到所有子文件夹下的文件的文件路径的列表 filepaths，包含根目录、子目录和文件名 filepath = os.path.join(root,name) filepaths.append(filepath

Python之利用jieba库做词频统计且制作词云图

阅读更多关于 Python之利用jieba库做词频统计且制作词云图

一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项：由于wordcloud默认是英文不支持中文，所以需要一个特殊字体 simsum.tff.下载地址： https://s3-us-west-2.amazonaws.com/notion-static/b869cb0c7f4e4c909a069eaebbd2b7ad/simsun.ttf 请安装到C:\Windows\Fonts 里面 4.测试所用的三国演义txt文本下载地址（不保证永久有效）： https://www.ixdzs.com/d/1/1241/ 5.调试过程可能会出现许多小问题，请检查单词是否拼写正确，如words->word等等 6.特别提醒：背景图片和文本需放在和py文件同一个地方二.词频统计以及输出　　（1）　　代码如下（封装为txt函数）　　　　　　函数作用：jieba库三种模式中的精确模式（输出的分词完整且不多余） jieba.lcut(str)：返回列表类型 def txt(): #输出词频前N的词语 txt = open("三国演义.txt","r").read() #打开txt文件,要和python在同一文件夹 words = jieba.lcut(txt)

jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）

阅读更多关于 jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）

py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）先来个最简单的： # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1 ] ls = [ " 呵呵 " , " 呵呵 " , " 呵呵 " , " 哈哈 " , " 哈哈 " , " 拉拉 " ] y = max(set(ls), key= ls.count) print (y) 一、字频统计：　　（ collections 库）　　2017-10-27 这个库是python 自带的 http://www.cnblogs.com/George1994/p/7204880.html　　Python collections模块总结 https://www.imooc.com/video/16366　　counter的视频　　2018-11-26 先练习一下方法的使用： collections.Counter　　（这个库里只有Counter这个类比较好用） from collections import Counter cnt = Counter() for word in [ ' red ' , ' blue ' , ' red ' , ' green ' , ' blue ' , ' blue ' ]: cnt

模块wordcloud库的使用

阅读更多关于模块wordcloud库的使用

模块wordcloud库的使用一 wordcloud库基本介绍 1.1 wordcloud库概述 wordcloud是优秀的词云展示第三方库 wordcloud库的安装 1.2 wordcloud库的安装 pip install wordcloud 二 wordcloud库使用说明 2.1 wordcloud库基本使用 wordcloud库把词云当作一个WordCloud对象 wordcloud.WordCloud（）代表一个文本对应的词云可以根据文本中词语出现的频率等参数绘制词云绘制词云的形状，尺寸和颜色都可以设定 2.2 wordcloud库常用方法 W = wordcloud.WordCloud() 以WordCloud对象为基础配置参数，加载文本，输出文件步骤1：配置对象参数步骤2：加载词云文本步骤3：输出词云文件 2.3 配置对象参数 2.4 wordcloud应用实例中文需要先分词并组成空格分隔字符串代码示例 # pip install wordcloud from wordcloud import WordCloud import matplotlib.pyplot as plt # from scipy.misc import imread from matplotlib.image import imread txt = 'you can get

03 爬虫实例-获取网页弹幕内容

阅读更多关于 03 爬虫实例-获取网页弹幕内容

练习：爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来思路：向哔哩哔哩网站发送请求请求成功后,解析爬取的弹幕内容保存到一个文件中读取文件并分析弹幕内容中词组或文字出现的频率将这些词组或文字组成五角星图形组成五角星图形后,以图片的形式输出实现： 1 # !/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # author：albert time:2019/10/28 4 import requests 5 from bs4 import BeautifulSoup 6 import pandas as pd 7 import re 8 import jieba 9 from wordcloud import WordCloud 10 from imageio import imread 11 import matplotlib.pyplot as plt 12 13 ''' 14 --获取网站弹幕列表内容 15 ''' 16 # 网页地址，该地址只针对哔哩哔哩弹幕网有效，获取方式查看 17 url = " http://comment.bilibili.com/124001121.xml " 18 19 # 网站访问的用户代理，建议携带，不携带可能无法访问 20 header = { 21 " User

订阅 jieba