什么是爬虫 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 举个例子,用户浏览豆瓣时,作为活生生的人看到的是带有样式的HTML。 爬虫看到的仅仅是HTML的文本内容。 爬虫就是将这些标签里的内容提取出来而已。它要做的事情非常的简单。但是实现起来需要挺多的步骤。 URL代表着什么 URL全称统一资源定位符,在它的背后基本上有两种可能:1.一个固定的页面 2. 一个处理请求的程序(如servlet)。故当访问一个URL时,爬虫需要解析的可能是页面或者是json数据。(当然也有可能是类似json的其他格式化数据) 用代码发送HTTP请求 日常生活中,浏览器是访问互联网的工具。它替我们完成了一次次的HTTP请求,服务器在接收到请求后,就是返回响应的内容给浏览器。像一张HTML页面,返回过来之后,在浏览器中进行解析,最后得到平时看到的页面。 那么想想一下一个没有界面的浏览器,并且接收的response也不会解析成好看的网页,只是输出单纯的HTML代码。这就是用代码发送请求,进而获得response的过程。 对返回的HTML代码进行处理 public void parseDemo(){ HttpResponse response = HttpRequest.request("http://www.baidu.com"); } 模拟一个获取response的代码