简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据
今天我们讲讲如何抓取网页 表格 里的数据。首先我们分析一下,网页里的 经典表格 是怎么构成的。 First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 2-5 行是表格的主体,展示分类内容 经典表格就这些知识点,没了。下面我们写个简单的表格 Web Scraper 爬虫。 1.制作 Sitemap 我们今天的练手网站是 http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=%C9%CF%BA%A3&txtDaoDa=%B1%B1%BE%A9 爬虫的内容是抓取上海到北京的所有列车时刻表。 我们先创建一个包含整个表格的 container,Type 类型选为 Table ,表示我们要抓取表格。 具体的参数如上图所示,因为比较简单,就不多说了。 在这个面板下向下翻,会发现多了一个不一样的面板。观察一下你就会发现,这些数据其实就是表格数据类型的分类,在这个案例里,他把车次、出发站、开车时间等分类都列了出来。 在 Table columns 这个分类里,每一行的内容旁边的选择按钮默认都是打勾的,也就是说默认都会抓取这些列的内容。如果你不想抓取某类内容,去掉对应的勾选就可以了。 在你点击 Save selector 的按钮时,会发现 Result key 的一些选项报错,说什么 invalid format