豆瓣

爬取豆瓣电影

安稳与你 提交于 2019-11-29 13:12:49
一、任务描述    爬取 https://movie.douban.com/tag/#/ 豆瓣电影,选择电影,中国大陆,2018年,按评分最高,爬取前200部,保存电影名称,图片链接,和电影评分。   由于网页是动态加载,每页显示20条,每一页的网址是变化的,需要去网页上查看网址。   打开网页,进入开发者模式。    右键new_search_subjects,打开一个新的网页,网页以结构化数据的形式显示了当前页面加载的20部电影的详细信息,例如,电影名称,导演,图片,评分等,此时页面的网址就是要爬取时请求的网址。第一页网址中start的值是0,点击加载更多,加载下一页,出现一个新的new_search_subjects,打开,可以发现,网址的start值变成20,其他不变。第三页的start值变成40,其他不变。所以,加载电影时,一次加载20部,网址中只有start的值是变化的,从0开始,每次增加20,其他地方不变。爬取200部电影就是前10页。    从数据中可以发现,电影名称是title字段,图片链接是cover字段,评分是rate字段。 二、代码 #-*-coding:utf-8-*- import re import json import requests ll = [] for c in range(10): #一页显示20条 url=r'https://movie

爬取豆瓣电影排行top250

Deadly 提交于 2019-11-29 13:08:38
功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1、time 2、json 3、requests 4、BuautifulSoup 5、RequestException 上机实验室: """ 作者:李舵 日期:2019-4-27 功能:抓取豆瓣电影top250 版本:V1.0 """ import time import json import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException def get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'} response = requests.get(url, headers=headers) if response.status_code == 200: return response.text return None except RequestException: return None def

8月31日 课设个人小结(double-H)

半腔热情 提交于 2019-11-29 02:24:54
当天完成的任务: (1)提交gitlab代码 (2)协助组员完成detail评论页面数据的获取。 (3)进行豆瓣网中评论的网络爬虫。 第二天的计划: (1)与组员完成comment页面的评论数据以及页面的完成。 (2)继续从豆瓣网进行网络爬虫的评论数据连接。 个人小结: 今天我和组员进行了detail评论的页面设计与数据网络爬虫,但是我们发现评论的星级是豆瓣评论上的一半,但是我们也没有找出问题,后来只好将星级乘以2输出。而且今天我猜测网络爬虫时 数据经常会发生错乱,后来通过不断百度和修改,发现了很多的问题,都是不仔细导致的,希望在以后的课程设计中可以更加细心一些。 来源: https://www.cnblogs.com/the-cold/p/11440223.html

Python-爬虫实战 简单爬取豆瓣top250电影保存到本地

北城以北 提交于 2019-11-28 20:15:57
爬虫原理 发送数据 获取数据 解析数据 保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content 获取文本方法:res.text re正则模块 re.findall("匹配规则","获取到的数据","匹配模式") re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)人评价</span>', response.text, re.S) 贪婪匹配:.*? 过滤任何内容 非贪婪匹配:(.*?) 提供内容 with open() 保存数据 with open(): # wt(write + txt) wb (write + bytes) 爬虫精髓 分析网站的通信流程 分析查找数据从何而来 分析目标网站的反爬策略 根据目标网站的反爬策略编写攻击手段,获取数据 json格式化 json是一种第三方的数据格式 python中可以使用方法将json转换为可读取的数据类型 json.jumps() #将python数据格式转换为json格式 json

python实战之豆瓣国产烂片解析

…衆ロ難τιáo~ 提交于 2019-11-28 20:12:55
1、读取数据,以“豆瓣评分”为标准,看看电影评分分布,及烂片情况 要求: ① 读取数据“moviedata.xlsx” ② 查看“豆瓣评分”数据分布,绘制直方图、箱型图 ③ 判断“豆瓣评”数据的“烂片标准” → 这里以上四分位数(该样本中所有数值由小到大排列后第25%的数字)评分为“烂片标准” ④ 筛选出烂片数据,并做排名,找到TOP20 提示: ① 读取数据之后去除缺失值 ② score = (豆瓣评分 + imdb评分)/2 2、什么题材的电影烂片最多? 要求: ① 按照“类型”字段分类,筛选不同电影属于什么题材 ② 整理数据,按照“题材”汇总,查看不同题材的烂片比例,并选取TOP20 ③ 将得到的题材烂片比例TOP20制作散点图 → 横坐标为“题材”类型,纵坐标为烂片比例,点大小为样本数量 ** 用bokeh制图 ** 按照烂片比例做降序排列 提示: ① 删除“类型”字段空值的数据 ② 由于一个电影“类型”会有多个,这里需要将一个电影每个“类型”都识别出来,在统计某个题材时都需要计算,例如: 如果一个电影的类型为:“喜剧/爱情”,则在计算“喜剧”、“爱情”题材的烂片比例时,都需要将该电影算上 ③ 注意类型字段中,要删除空格字符 ④ bokeh图设置点大小,这里通过开方减小数据差距 → size = count**0.5*系数 3、和什么国家合拍更可能产生烂片? 要求: ①

豆瓣图书Top250

久未见 提交于 2019-11-28 13:22:05
从豆瓣图书Top250抓取数据,并通过词云图展示 导入库 from lxml import etree #解析库 import time #时间 import random #随机函数 import pandas as pd import requests #请求库 import jieba #导入结巴分词 from pyecharts.charts import WordCloud from pyecharts import options as opts 抓取数据 #循环构造网址 def format_url(base_url,pages=10): urls=[] for num in range(0,pages * 25,25): urls.append(base_url.format(num)) return urls #解析单个页面 def parse_page(url,headers): #创建一个存储结果的容器 result=pd.DataFrame() html=requests.get(url,headers=headers) bs=etree.HTML(html.text) for i in bs.xpath('//tr[@class="item"]'): #书籍中文名 book_ch_name=i.xpath('td[2]/div[1]/a[1]/@title

pip安装tensorflow下载速度慢

自闭症网瘾萝莉.ら 提交于 2019-11-28 10:25:10
安装了 pip 工具之后,其默认的包下载路径为python官网,但下载速度龟慢,且连接不稳定,经常应为连接超时而失败。 提高下载速度可以使用国内的镜像站,常用的镜像库有阿里、豆瓣和 清华 等。 例如: 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/ 来源: CSDN 作者: zcawesome 链接: https://blog.csdn.net/zcawesome/article/details/88261868

python爬虫实战项目之爬取豆瓣最受欢迎的250部电影

南楼画角 提交于 2019-11-28 02:45:31
python爬虫实战项目之爬取豆瓣最受欢迎的250部电影 主要思路,请求豆瓣的链接获取网页源代码 然后使用 BeatifulSoup 拿到我们要的内容 最后就把数据存储到 excel 文件中 主要思路,请求豆瓣的链接获取网页源代码 然后使用 BeatifulSoup 拿到我们要的内容 最后就把数据存储到 excel 文件中 项目源码分享 1 ''' 2 在学习过程中有什么不懂得可以加我的 3 python学习交流扣扣qun,934109170 4 群里有不错的学习教程、开发工具与电子书籍。 5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。 6 ''' 7 8 import requests 9 from bs4 import BeautifulSoup 10 import xlwt 11 12 13 def request_douban(url): 14 try: 15 response = requests.get(url) 16 if response.status_code == 200: 17 return response.text 18 except requests.RequestException: 19 return None 20 21 22 book = xlwt.Workbook(encoding='utf-8',

fiddler---Fiddler修改数据信息

不羁的心 提交于 2019-11-27 15:35:49
  在测试的过程中,可能我们会遇到需要修改一些数据查看请求返回内容是如何的,刚好Fiddler也可以满足我们的要求,Fiddler不仅可以抓包还可以修改包的内容 Fiddler修改数据原理 Fiddler设置断点,拦截HTTP请求数据,修改HTTP请求数据,然后再请求给服务器端 Fiddler可以修改什么数据 Fiddler打完断点后可以修改HTTP请求的任何信息,包括Host,Cookie等 Fiddler如何打断点 打开全局断点 1、打开菜单栏Rules---Automatic BreakPoints Before Requests勾选(或者快捷键F11) 2、点击Fiddler下方阻止图标位置2次 设置完成后访问网页会请求不成功,session会话列表会出现下图情况 最下图也会出现阻止请求图标 取消全局断点 1、打开菜单栏Rules---Automatic BreakPoints Before Requests勾选(或者快捷键F11) 2、点击2次Fiddler下方阻止图标 打开单个断点 已知URL地址时,这个时候只需对这个URL进行断点调试,其他的请求不拦截 在命令行中输入命令:bpu URL地址 如:bpu www.baidu.com 访问百度和其他网站对比发现其他网站可以请求成功,百度网站无法请求成功 取消单个断点 直接在命令航中输入bpu 修改HTTP请求