Python爬虫入门记录2.0:获取指定网站多页表格数据
工具: pycharm 2019.3.1 anaconda3 注:安装完成anaconda后无需再安装Python,anaconda已经集成了Python编译环境。安装anaconda这个全家桶即可。 具体下载网址: (官网即可,请自主匹配合适版本) pycharm(社区免费版): https://www.jetbrains.com/pycharm/ anaconda: https://www.anaconda.com/ 操作步骤: 1、锁定网址类型,获取页面信息(Chrome or 火狐) ① F12调出开发者工具,定位network,刷新页面加载获取: ② 锁定header,找到页面URL、cookie: 注:一般的连接都是采用 keep - alive形式 2、代码实现 ① 加载相关库: from urllib.parse import urljoin import requests import xlrd import xlwt from xlutils.copy import copy from bs4 import BeautifulSoup import time ②创建xls文件,用于存储数据: index = len(value) # 获取需要写入数据的行数 workbook = xlwt.Workbook() # 新建一个工作簿 sheet = workbook