gyt

简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据

ⅰ亾dé卋堺 提交于 2021-01-09 05:02:36
今天我们讲讲如何抓取网页 表格 里的数据。首先我们分析一下,网页里的 经典表格 是怎么构成的。 First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 2-5 行是表格的主体,展示分类内容 经典表格就这些知识点,没了。下面我们写个简单的表格 Web Scraper 爬虫。 1.制作 Sitemap 我们今天的练手网站是 http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=%C9%CF%BA%A3&txtDaoDa=%B1%B1%BE%A9 爬虫的内容是抓取上海到北京的所有列车时刻表。 我们先创建一个包含整个表格的 container,Type 类型选为 Table ,表示我们要抓取表格。 具体的参数如上图所示,因为比较简单,就不多说了。 在这个面板下向下翻,会发现多了一个不一样的面板。观察一下你就会发现,这些数据其实就是表格数据类型的分类,在这个案例里,他把车次、出发站、开车时间等分类都列了出来。 在 Table columns 这个分类里,每一行的内容旁边的选择按钮默认都是打勾的,也就是说默认都会抓取这些列的内容。如果你不想抓取某类内容,去掉对应的勾选就可以了。 在你点击 Save selector 的按钮时,会发现 Result key 的一些选项报错,说什么 invalid format

Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12

元气小坏坏 提交于 2020-04-28 04:32:53
这是简易数据分析系列的 第 12 篇 文章。 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说 修改网页链接加载数据 、 点击“更多按钮“加载数据 和 下拉自动加载数据 。今天我们说说一种更常见的翻页类型—— 分页器 。 本来想解释一下啥叫分页器,翻了一堆定义觉得很繁琐,大家也不是第一年上网了,看张图就知道了。我找了个功能最全的例子,支持数字页码调整,上一页下一页和指定页数跳转。 今天我们就学学,Web Scraper 怎么对付这种类型的网页翻页。 其实我们在本教程的第一个例子, 抓取豆瓣电影 TOP 排行榜 中,豆瓣的这个电影榜单就是用分页器分割数据的: 但当时我们是找网页链接规律抓取的,没有利用分页器去抓取。因为当一个网页的链接变化规律时,控制链接参数抓取是实现成本最低的;如果这个网页进可以翻页,但是链接的变化不是规律的,就得去会一会这个分页器了。 说这些理论有些枯燥,我们举个翻页链接不规律的例子。 8 月 2 日是 蔡徐坤 的生日,为了表达庆祝,在 微博 上粉丝们给坤坤刷了 300W 的转发量,微博的转发数据正好是用分页器分割的,我们就分析一下微博的转发信息页面,看看这类数据怎么用 Web Scraper 抓取。 这条微博的直达链接是: https://weibo.com/1776448504/I0gyT8aeQ?type=repost