jieba

淘宝零食专栏分析(淘宝爬虫+数据分析)

强颜欢笑 提交于 2020-04-29 16:36:07
前言 :本文爬虫的关键字眼是“美食”,实际分析时发现“零食”的销售量远远高于“美食”,因此在一开始的数据层面就已经决定了本文分析的片面性,本篇博客主要是用于记录代码和分析过程。 实际的结论请看下一篇博客 (下一篇博客爬虫的关键字眼是“零食”)。 https://www.cnblogs.com/little-monkey/p/10822369.html 一、爬虫 根据崔庆才老师的爬虫视频修改而来,利用selenium进行淘宝爬取(本来想用火车采集器爬取的,尝试了一下发现没法截取淘宝网址的字段)。 selenium完全模拟人工点击操作,原理上可以爬取淘宝的所有可见内容。 爬虫代码有参考  https://www.cnblogs.com/hustcser/p/8744355.html import re import time from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected

手把手教你使用Python抓取QQ音乐数据(第三弹)

心不动则不痛 提交于 2020-04-27 17:58:29
【一、项目目标】 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过手把手教你使用Python抓取QQ音乐数据(第二弹)我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 此次我们在项目(二)的基础上获取更多评论并生成词云图,形成手把手教你使用Python抓取QQ音乐数据(第三弹)。 【二、需要的库】 主要涉及的库有:requests、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 【三、项目实现】 1、首先回顾一下,下面是项目(二)获取指定歌曲首页热评的代码; def get_comment(i): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', # 标记了请求从什么设备,什么浏览器上发出 } params = {'g_tk_new

手把手教你使用Python抓取QQ音乐数据(第四弹)

与世无争的帅哥 提交于 2020-04-27 07:46:13
【一、项目目标】 通过 手把手教你使用Python抓取QQ音乐数据(第一弹) 我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过 手把手教你使用Python抓取QQ音乐数据(第二弹) 我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 通过 手把手教你使用Python抓取QQ音乐数据(第三弹) 我们实现了获取更多评论并生成词云图。 此次我们将将三个项目封装在一起,通过菜单控制爬取不同数据。 【二、需要的库】 主要涉及的库有:requests、openpyxl、html、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 如需生成.exe需要pyinstaller -F 【三、项目实现】 1.首先确定菜单,要实现哪些功能: ①获取指定歌手的歌曲信息(歌名、专辑、链接) ②获取指定歌曲歌词 ③获取指定歌曲评论 ④生成词云图 ⑤退出系统 代码如下: class QQ(): def menu(self): print('欢迎使用QQ音乐爬虫系统,以下是功能菜单,请选择。\n') while True: try: print('功能菜单\n1.获取指定歌手的歌曲信息\n2.获取指定歌曲歌词\n3.获取指定歌曲评论\n4.生成词云图\n5.退出系统\n')

拿下60亿流量的《惊雷》都是哪些人在听?python帮你统计出来

末鹿安然 提交于 2020-04-26 13:28:34
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者: 听不来喊麦的C君 PS:如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦! 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐。 最近,一首《惊雷》的喊麦歌曲在短视频平台火了,震惊了整个音乐圈。 但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌,要旋律没旋律,要节奏没节奏,要律动没律动”,评价其“难听”、“俗气”。 4月11日,MC六道以原唱者的身份对杨坤的指责做出回应表示,音乐没有高低之分,称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。 那么《惊雷》这首歌到底怎么样?都是哪些人在听?今天我们就用Python来给你解读。 01 拿下60亿流量 喊麦歌曲《惊雷》火了! 说道喊麦,作为近年来一种新兴的表演形式,其内容和表达方式则比较简单和浮夸,主要形式是在网上下载一些伴奏(以电音伴奏为主),跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。 更简单的说法就是,演唱时不讲究什么技法,带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉

使用jieba库与wordcloud库第三方库进行词频统计

怎甘沉沦 提交于 2020-04-25 09:46:54
一、jieba库与wordcloud库的使用 1. jieba库与wordcloud库的 介绍   jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。   wordcloud是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本。 2.安装jieba库与wordcloud库   在运行里输入 pip install wordcloud和pip install jieba,等待安装完成。 二、jieba函数介绍 三、调用库函数 from wordcloud import WordCloud with open( "斗破苍穹 .txt " ,encoding= " utf-8 " )as file: # 1.读取文本内容 text= file.read() # 2.设置词云的背景颜色、宽高、字数 wordcloud=WordCloud(font_path= " C:/Windows/Fonts/simfang.ttf " , background_color = " black " ,width=600 , height =300,max_words=50 ).generate(text) # 3.生成图片 image=

数据挖掘——文本挖掘-绘制词云

那年仲夏 提交于 2020-04-25 08:36:36
文本挖掘是将文本信息转化为可利用的数据的知识。   一、创建“语料库” 语料库(Corpus)是我们要分析的所有文档的集合。 将现有的文本文档的内容添加到一个新的语料库中。 实现逻辑:   将各文本文件分类放置在一个根目录下,通过遍历读取根目录下所有子目录中的所有文件,   然后将读取结果赋值到一个数据框中,得到含有文件路径、文件内容的结果。 代码核心:   构建方法:os.walk(fileDir) 对在fileDir目录下的所有文件(for循环)进行操作 ,得到文件路径   文件读取:codecs.open(filepath,medthod,encoding) 文件路径、打开方式(r,w,rw)、文件编码 ,得到文本内容 # 构建语料库 import codecs filepaths = [] # 构建一个空的‘文件路径’列表 filecontents = [] # 构建一个空的‘文件内容’列表 for root, dirs, files in os.walk('. \SogouC.mini\Sample ' ): for name in files: # 拼接文件路径,得到所有子文件夹下的文件的文件路径的列表 filepaths,包含根目录、子目录和文件名 filepath = os.path.join(root,name) filepaths.append(filepath

Python之利用jieba库做词频统计且制作词云图

╄→尐↘猪︶ㄣ 提交于 2020-04-25 08:36:17
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordcloud默认是英文不支持中文,所以需要一个特殊字体 simsum.tff.下载地址: https://s3-us-west-2.amazonaws.com/notion-static/b869cb0c7f4e4c909a069eaebbd2b7ad/simsun.ttf 请安装到C:\Windows\Fonts 里面 4.测试所用的三国演义txt文本下载地址(不保证永久有效): https://www.ixdzs.com/d/1/1241/ 5.调试过程可能会出现许多小问题,请检查单词是否拼写正确,如words->word等等 6.特别提醒:背景图片和文本需 放在和py文件同一个地方 二.词频统计以及输出   (1)  代码如下(封装为txt函数)        函数作用:jieba库三种模式中的精确模式(输出的分词完整且不多余) jieba.lcut(str): 返回列表类型 def txt(): #输出词频前N的词语 txt = open("三国演义.txt","r").read() #打开txt文件,要和python在同一文件夹 words = jieba.lcut(txt)

jieba (中文词频统计) 、collections (字频统计)、WordCloud (词云)

限于喜欢 提交于 2020-04-25 08:14:25
py库: jieba (中文词频统计) 、collections (字频统计)、WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1 ] ls = [ " 呵呵 " , " 呵呵 " , " 呵呵 " , " 哈哈 " , " 哈哈 " , " 拉拉 " ] y = max(set(ls), key= ls.count) print (y) 一、字频统计:  ( collections 库)   2017-10-27 这个库是python 自带的 http://www.cnblogs.com/George1994/p/7204880.html  Python collections模块总结 https://www.imooc.com/video/16366  counter的视频  2018-11-26 先练习一下方法的使用: collections.Counter  (这个库里只有Counter这个类比较好用) from collections import Counter cnt = Counter() for word in [ ' red ' , ' blue ' , ' red ' , ' green ' , ' blue ' , ' blue ' ]: cnt

模块wordcloud库的使用

独自空忆成欢 提交于 2020-04-24 23:33:52
模块wordcloud库的使用 一 wordcloud库基本介绍 1.1 wordcloud库概述 wordcloud是优秀的词云展示第三方库 wordcloud库的安装 1.2 wordcloud库的安装 pip install wordcloud 二 wordcloud库使用说明 2.1 wordcloud库基本使用 wordcloud库把词云当作一个WordCloud对象 wordcloud.WordCloud()代表一个文本对应的词云 可以根据文本中词语出现的频率等参数绘制词云 绘制词云的形状,尺寸和颜色都可以设定 2.2 wordcloud库常用方法 W = wordcloud.WordCloud() 以WordCloud对象为基础 配置参数,加载文本,输出文件 步骤1:配置对象参数 步骤2:加载词云文本 步骤3:输出词云文件 2.3 配置对象参数 2.4 wordcloud应用实例 中文需要先分词并组成空格分隔字符串 代码示例 # pip install wordcloud from wordcloud import WordCloud import matplotlib.pyplot as plt # from scipy.misc import imread from matplotlib.image import imread txt = 'you can get

03 爬虫实例-获取网页弹幕内容

爷,独闯天下 提交于 2020-04-24 23:10:21
练习:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 向哔哩哔哩网站发送请求 请求成功后,解析爬取的弹幕内容保存到一个文件中 读取文件并分析弹幕内容中词组或文字出现的频率 将这些词组或文字组成五角星图形 组成五角星图形后,以图片的形式输出 实现: 1 # !/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # author:albert time:2019/10/28 4 import requests 5 from bs4 import BeautifulSoup 6 import pandas as pd 7 import re 8 import jieba 9 from wordcloud import WordCloud 10 from imageio import imread 11 import matplotlib.pyplot as plt 12 13 ''' 14 --获取网站弹幕列表内容 15 ''' 16 # 网页地址,该地址只针对哔哩哔哩弹幕网有效,获取方式查看 17 url = " http://comment.bilibili.com/124001121.xml " 18 19 # 网站访问的用户代理,建议携带,不携带可能无法访问 20 header = { 21 " User