前言 熟悉我的朋友可能会知道,我一向是不写热点的。为什么不写呢?是因为我不关注热点吗?其实也不是。有些事件我还是很关注的,也确实有不少想法和观点。 但我一直奉行一个原则,就是: 要做有生命力的内容 。 本文介绍的内容来自于笔者之前负责研发的 爬虫管理平台 , 专门抽象出了一个相对独立的功能模块为大家讲解如何使用 nodejs 开发专属于自己的爬虫平台.文章涵盖的知识点比较多,包含 nodejs , 爬虫框架 , 父子进程及其通信 , react 和 umi 等知识, 笔者会以尽可能简单的语言向大家一一介绍. 你将收获 Apify 框架介绍和基本使用 如何创建 父子进程 以及 父子进程通信 使用 javascript 手动实现控制爬虫最大并发数 截取整个网页图片的实现方案 nodejs 第三方库和模块的使用 使用 umi3 + antd4.0 搭建爬虫前台界面 平台预览 上图所示的就是我们要实现的爬虫平台, 我们可以输入指定网址来抓取该网站下的数据,并生成整个网页的快照.在抓取完之后我们可以下载数据和图片.网页右边是用户抓取的记录,方便二次利用或者备份. 正文 在开始文章之前,我们有必要了解爬虫的一些应用. 我们一般了解的爬虫, 多用来爬取网页数据, 捕获请求信息, 网页截图等,如下图: 当然爬虫的应用远远不止如此,我们还可以利用爬虫库做 自动化测试 , 服务端渲染 ,