基于Node.js的爬虫工具 – Node Crawler

拟墨画扇 提交于 2020-01-02 12:27:34

Node Crawler的目标是成为最好的node.js爬虫工具,目前已经停止维护。

 

我们来抓取光合新知博客tech栏目中的文章信息。
访问http://dev.guanghe.tv/category/tech/,右键查看页面源代码,可以看到文章信息等内容,如下所示:

 

 

因为每篇文章都是一个<li>标签,所以我们从页面代码的所有<li>中获取文章的发布时间、链接和标题。

爬虫代码:

 

 

npm install安装crawler模块,node app.js运行程序。
你将会获得如下内容(仅展示部分内容):

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!