ASP网站数据采集的攻、防原理和策略
说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验: 我开发过几个采集程序,也研究过很多采集程序代码,所以对采集程序的原理还算是稍微有些了解。 先说一下采集原理: 采集程序的主要步骤如下: 一、获取被采集的页面的内容 二、从获取代码中提取所有用的数据 一、获取被采集的页面的内容 我目前所掌握的ASP常用获取被采集的页面的内容方法: 1、用serverXMLHTTP组件获取数据 Function GetBody(weburl) '创建对象 Dim ObjXMLHTTP Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP") '请求文件,以异步形式 ObjXMLHTTP.Open "GET",weburl,False ObjXMLHTTP.send While ObjXMLHTTP.readyState <> 4 ObjXMLHTTP.waitForResponse 1000 Wend '得到结果 GetBody=ObjXMLHTTP.responseBody '释放对象 Set ObjXMLHTTP=Nothing End Function 调用方法: GetBody(文件的URLf地址) 2、或XMLHTTP组件获取数据 Function GetBody(weburl) '创建对象 Set Retrieval =