分析网站日志

泄露秘密 提交于 2020-01-31 01:14:42

  分析网站日志的目的?

  • 为避免网站服务器被攻击;
  • SEO为确定搜索引擎爬虫访问网站情况;蜘蛛爬行的流程。

如何分析网站日志?

仅以 IIS7 为例:

日志的扩展名为 .log

  1. 打开IIS7,找到自己要查找的网站,用鼠标左键点击,然后在右边找到【高级设置】选项,鼠标右键点击,选择属性进入。

  2.  在高级设置里面找到【ID】选项,这里是3,说明这个网站的日志,在ID为3的文件夹中。
           
   3.  然后打开系统盘,日志文件默认保存到系统盘,在系统盘(我的系统盘是C盘)中,找到inetpub——logs文件夹。
           

   4. 点击打开文件夹,会看到所有网站的日志文件夹都在这个文件夹下面,还是一个网站一个文件夹。找到ID为3的文件夹,这个文件夹就是我们要找的网站的日志文件夹。

           

   5. 点击打开后,会看到许多后缀名为.log的文件,这些文件就是网站的日志。

          

分析网站日志实例解析:

如果蜘蛛抓取返回码出现很多的304状态,蜘蛛抓取的次数就会越来越少

304状态码表示的是蜘蛛来到网站抓取内容时,内容和上一次来抓取的时,网站是没有变化的,也就是没有更新

为了更好地了解蜘蛛爬行的流程,首先需要理解搜索引擎的工作原理

搜索引擎为了自身的用户体验,会想尽办法来提高检索调用率、准确性、新鲜度,这将导致引擎不得不把主要的精力放在拥有优质内容源的网站上。惟其如此,搜索结果的质量才能更加符合搜索者的体验。
因此我们可以这样理解:搜索引擎蜘蛛会更加青睐内容源更新频繁的网站。通过特定时间内对网站抓取返回的状态码来调节对该网站的抓取频次。若网站在一定时间内一直处于304的状态,那么蜘蛛可能会降低对网站的抓取次数。相反,若网站变化的频率非常之快,每次抓取都能获取新内容,那么日积月累,的回访率也会提高。

304状态是如何产生?

服务器为了提高网站访问速度,对之前访问的部分页面制定缓存机制,当客户端在此对这些页面进行请求,服务器会根据缓存内容判断页面与之前是否相同,若相同便直接返回304,此时客户端调用缓存内容,不必进行二次下载,可以说304从某种角度起到了减少服务器带宽并提高蜘蛛爬行效率的作用。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!