豆瓣 | 易学教程

爬取豆瓣电影

阅读更多关于爬取豆瓣电影

一、任务描述　　爬取 https://movie.douban.com/tag/#/ 豆瓣电影，选择电影，中国大陆，2018年，按评分最高，爬取前200部，保存电影名称，图片链接，和电影评分。　　由于网页是动态加载，每页显示20条，每一页的网址是变化的，需要去网页上查看网址。　　打开网页，进入开发者模式。　　右键new_search_subjects，打开一个新的网页，网页以结构化数据的形式显示了当前页面加载的20部电影的详细信息，例如，电影名称，导演，图片，评分等，此时页面的网址就是要爬取时请求的网址。第一页网址中start的值是0，点击加载更多，加载下一页，出现一个新的new_search_subjects，打开，可以发现，网址的start值变成20，其他不变。第三页的start值变成40，其他不变。所以，加载电影时，一次加载20部，网址中只有start的值是变化的，从0开始，每次增加20，其他地方不变。爬取200部电影就是前10页。　　从数据中可以发现，电影名称是title字段，图片链接是cover字段，评分是rate字段。二、代码 #-*-coding:utf-8-*- import re import json import requests ll = [] for c in range(10): #一页显示20条 url=r'https://movie

爬取豆瓣电影排行top250

阅读更多关于爬取豆瓣电影排行top250

功能描述V1.0：爬取豆瓣电影排行top250 功能分析：使用的库 1、time 2、json 3、requests 4、BuautifulSoup 5、RequestException 上机实验室： """ 作者：李舵日期：2019-4-27 功能：抓取豆瓣电影top250 版本：V1.0 """ import time import json import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException def get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'} response = requests.get(url, headers=headers) if response.status_code == 200: return response.text return None except RequestException: return None def

8月31日课设个人小结（double-H）

阅读更多关于 8月31日课设个人小结（double-H）

当天完成的任务：（1）提交gitlab代码（2）协助组员完成detail评论页面数据的获取。（3）进行豆瓣网中评论的网络爬虫。第二天的计划：（1）与组员完成comment页面的评论数据以及页面的完成。（2）继续从豆瓣网进行网络爬虫的评论数据连接。个人小结：今天我和组员进行了detail评论的页面设计与数据网络爬虫，但是我们发现评论的星级是豆瓣评论上的一半，但是我们也没有找出问题，后来只好将星级乘以2输出。而且今天我猜测网络爬虫时数据经常会发生错乱，后来通过不断百度和修改，发现了很多的问题，都是不仔细导致的，希望在以后的课程设计中可以更加细心一些。来源： https://www.cnblogs.com/the-cold/p/11440223.html

Python-爬虫实战简单爬取豆瓣top250电影保存到本地

阅读更多关于 Python-爬虫实战简单爬取豆瓣top250电影保存到本地

爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法：res.content 获取文本方法：res.text re正则模块 re.findall("匹配规则","获取到的数据","匹配模式") re.findall('<div class="item">.*?<a href="(.*?)">.*?(.*?).*?(.*?).*?(.*?)人评价', response.text, re.S) 贪婪匹配：.*? 过滤任何内容非贪婪匹配：(.*?) 提供内容 with open() 保存数据 with open(): # wt(write + txt) wb (write + bytes) 爬虫精髓分析网站的通信流程分析查找数据从何而来分析目标网站的反爬策略根据目标网站的反爬策略编写攻击手段，获取数据 json格式化 json是一种第三方的数据格式 python中可以使用方法将json转换为可读取的数据类型 json.jumps() #将python数据格式转换为json格式 json

python实战之豆瓣国产烂片解析

阅读更多关于 python实战之豆瓣国产烂片解析

1、读取数据，以“豆瓣评分”为标准，看看电影评分分布，及烂片情况要求： ① 读取数据“moviedata.xlsx” ② 查看“豆瓣评分”数据分布，绘制直方图、箱型图 ③ 判断“豆瓣评”数据的“烂片标准” → 这里以上四分位数（该样本中所有数值由小到大排列后第25%的数字）评分为“烂片标准” ④ 筛选出烂片数据，并做排名，找到TOP20 提示： ① 读取数据之后去除缺失值 ② score = （豆瓣评分 + imdb评分）/2 2、什么题材的电影烂片最多？要求： ① 按照“类型”字段分类，筛选不同电影属于什么题材 ② 整理数据，按照“题材”汇总，查看不同题材的烂片比例，并选取TOP20 ③ 将得到的题材烂片比例TOP20制作散点图 → 横坐标为“题材”类型，纵坐标为烂片比例，点大小为样本数量 ** 用bokeh制图 ** 按照烂片比例做降序排列提示： ① 删除“类型”字段空值的数据 ② 由于一个电影“类型”会有多个，这里需要将一个电影每个“类型”都识别出来，在统计某个题材时都需要计算，例如：如果一个电影的类型为：“喜剧/爱情”，则在计算“喜剧”、“爱情”题材的烂片比例时，都需要将该电影算上 ③ 注意类型字段中，要删除空格字符 ④ bokeh图设置点大小，这里通过开方减小数据差距 → size = count**0.5*系数 3、和什么国家合拍更可能产生烂片？要求： ①

豆瓣图书Top250

阅读更多关于豆瓣图书Top250

从豆瓣图书Top250抓取数据，并通过词云图展示导入库 from lxml import etree #解析库 import time #时间 import random #随机函数 import pandas as pd import requests #请求库 import jieba #导入结巴分词 from pyecharts.charts import WordCloud from pyecharts import options as opts 抓取数据 #循环构造网址 def format_url(base_url,pages=10): urls=[] for num in range(0,pages * 25,25): urls.append(base_url.format(num)) return urls #解析单个页面 def parse_page(url,headers): #创建一个存储结果的容器 result=pd.DataFrame() html=requests.get(url,headers=headers) bs=etree.HTML(html.text) for i in bs.xpath('//tr[@class="item"]'): #书籍中文名 book_ch_name=i.xpath('td[2]/div[1]/a[1]/@title

pip安装tensorflow下载速度慢

阅读更多关于 pip安装tensorflow下载速度慢

安装了 pip 工具之后，其默认的包下载路径为python官网，但下载速度龟慢，且连接不稳定，经常应为连接超时而失败。提高下载速度可以使用国内的镜像站，常用的镜像库有阿里、豆瓣和清华等。例如：阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/ 来源： CSDN 作者： zcawesome 链接： https://blog.csdn.net/zcawesome/article/details/88261868

python爬虫实战项目之爬取豆瓣最受欢迎的250部电影

阅读更多关于 python爬虫实战项目之爬取豆瓣最受欢迎的250部电影

python爬虫实战项目之爬取豆瓣最受欢迎的250部电影主要思路，请求豆瓣的链接获取网页源代码然后使用 BeatifulSoup 拿到我们要的内容最后就把数据存储到 excel 文件中主要思路，请求豆瓣的链接获取网页源代码然后使用 BeatifulSoup 拿到我们要的内容最后就把数据存储到 excel 文件中项目源码分享 1 ''' 2 在学习过程中有什么不懂得可以加我的 3 python学习交流扣扣qun，934109170 4 群里有不错的学习教程、开发工具与电子书籍。 5 与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容。 6 ''' 7 8 import requests 9 from bs4 import BeautifulSoup 10 import xlwt 11 12 13 def request_douban(url): 14 try: 15 response = requests.get(url) 16 if response.status_code == 200: 17 return response.text 18 except requests.RequestException: 19 return None 20 21 22 book = xlwt.Workbook(encoding='utf-8',

pip:国内的豆瓣源

阅读更多关于 pip:国内的豆瓣源

pip install -i https://pypi.douban.com/simple/ six 来源： https://www.cnblogs.com/daysn/p/11382484.html

fiddler---Fiddler修改数据信息

阅读更多关于 fiddler---Fiddler修改数据信息

　　在测试的过程中，可能我们会遇到需要修改一些数据查看请求返回内容是如何的，刚好Fiddler也可以满足我们的要求，Fiddler不仅可以抓包还可以修改包的内容 Fiddler修改数据原理 Fiddler设置断点，拦截HTTP请求数据，修改HTTP请求数据，然后再请求给服务器端 Fiddler可以修改什么数据 Fiddler打完断点后可以修改HTTP请求的任何信息，包括Host，Cookie等 Fiddler如何打断点打开全局断点 1、打开菜单栏Rules---Automatic BreakPoints Before Requests勾选（或者快捷键F11） 2、点击Fiddler下方阻止图标位置2次设置完成后访问网页会请求不成功，session会话列表会出现下图情况最下图也会出现阻止请求图标取消全局断点 1、打开菜单栏Rules---Automatic BreakPoints Before Requests勾选（或者快捷键F11） 2、点击2次Fiddler下方阻止图标打开单个断点已知URL地址时，这个时候只需对这个URL进行断点调试，其他的请求不拦截在命令行中输入命令：bpu URL地址如：bpu www.baidu.com 访问百度和其他网站对比发现其他网站可以请求成功，百度网站无法请求成功取消单个断点直接在命令航中输入bpu 修改HTTP请求

订阅豆瓣