WebCollector

java之网络爬虫介绍(非原创)

吃可爱长大的小学妹 提交于 2020-01-20 08:57:13
文章大纲 一、网络爬虫基本介绍 二、java常见爬虫框架介绍 三、WebCollector实战 四、项目源码下载 五、参考文章 一、网络爬虫基本介绍 1. 什么是网络爬虫   网络爬虫(又被称为网页蜘蛛,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. 常见问题介绍 爬虫可以爬取ajax信息么?   网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。如果是自己生成ajax请求,使用开源爬虫的意义在哪里?其实是要用开源爬虫的线程池和URL管理功能(比如断点爬取)。   如果我已经可以生成我所需要的ajax请求(列表),如何用这些爬虫来对这些请求进行爬取?   爬虫往往都是设计成广度遍历或者深度遍历的模式,去遍历静态或者动态页面。爬取ajax信息属于deep web(深网)的范畴,虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说,就是将生成的ajax请求作为种子,放入爬虫。用爬虫对这些种子,进行深度为1的广度遍历

WebCollector 2.x教程列表

不想你离开。 提交于 2019-12-10 05:57:43
WebCollector爬虫官网: https://github.com/CrawlScript/WebCollector WebCollector 2.x教程列表 WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫 JAVA爬虫WebCollector 2.x入门教程——基本概念 WebCollector爬取CSDN博客 使用Spring JDBC持久化WebCollector爬取的数据 WebCollector自定义http请求 WebCollector设置代理 WebCollector内核开发——定制Http请求 WebCollector教程——爬取搜索引擎 WebCollector教程——获取当前深度 WebCollector教程——爬取新浪微博 WebCollector爬取JS加载的数据 WebCollector网页正文提取 WebCollector图片抓取教程 来源: oschina 链接: https://my.oschina.net/u/731762/blog/738263