python如何快速的爬取小说的正确姿势
网路爬虫,一般爬取的东西无非也就四种:文字、图片、音乐、视频。 这是明面上,能想到的东西,除了这些还有一些危险的操作,容易被请喝茶的,就不讨论了。 咱们循序渐进,先谈谈如何下载文字内容。 诡秘之主 说到下载文字内容,第一个想到的就是下载小说了。 在曾经的以《一念永恒》小说为例进行讲解的 CSDN 文章中,有网友留言道: 那么,今天我就再安利一本小说《诡秘之主》。 起点中文网,它的月票 基本是月月第一。 这篇文章其实是在教大家如何白嫖,不过有能力支持正版的朋友,还是可以去起点中文网,支持一下作者的,毕竟 创作不易。 准备工作 话不多说,直接进入我们今天的正题,网络小说下载。 1、背景介绍 小说网站,“新笔趣阁”: https://www.xsbiquge.com/ 盗版小说网站有很多,曾经爬过“笔趣看”,这回咱换一家,爬“新笔趣阁”,雨露均沾嘛! “新笔趣阁”只支持在线浏览,不支持小说打包下载。本次实战就教大家如何“优雅”的下载一篇名为《诡秘之主》的网络小说。 2、爬虫步骤 要想把大象装冰箱,总共分几步? 要想爬取数据,总共分几步? 爬虫其实很简单,可以大致分为三个步骤: 发起请求:我们需要先明确如何发起 HTTP 请求,获取到数据。 解析数据:获取到的数据乱七八糟的,我们需要提取出我们想要的数据。 保存数据:将我们想要的数据,保存下载。 发起请求,我们就用 requests 就行