解读网站IIS日志


IIS日志是我们网站优化很重要一部分工作,检查我们的网站优化进度和检测出网站的在搜索引擎当中的健康度等,一般我们对IIS日志中搜索引擎蜘蛛的来访时间和频率,访问的URL,访问的状态码等数据是非常宝贵的,下面笔者解读IIS日志给我们带来非常重要的三个部分以及怎么来判断百度的真假蜘蛛。

IIS日志一般我们拓展出来以下三个重要的知识点(我们最好用一个方式就是用一个表格来记录IIS日志的情况)

1、我们对搜索引擎的蜘蛛进行每天的来访监控。这是我们做网站优化检测网站优化进度最直接和本质的方式之一。

2、对站内url进行抽样监控。有些url已经被搜索引擎收录了,那么取出一个集合,作为收录状态监控集;每天的新url尚未被收录,也可以对其进行索引状态的监控。这种基于抽样的评估也是很有效的。

3、对自己的网站日志做深入解剖,并能针对问题做各种实验和分析。

以上三点就是三个知识,本来是详细说明了的,可是这个wordpress不给力啊,我点发布就没了,应该是不小心按键字了,这次重新写想不出这么多了。

另外就是我们怎么来判断一个蜘蛛的真假,一般我们对IP就是追踪,如果其name信息是以baiduspider来标识的就是真的,其它就是假的,下次大家来看三张图片就明白了,这是胖子博客的IIS日志,我们是百度的蜘蛛为案例,环境为XP。


我们把下载回来的IIS日志,利用文本编辑器进行打开,搜索baiduspider就可以看到,我们把前面所反应的IP地址段进行复制,然后我们在XP下面用nslookup或tracert命令进行追踪,来看到如下的name信息就明白,请看下面的两张图片:



而如果你是linux环境,我们可以通过host ip来判断,而谷歌的标识是googlebot,这个里面我们要注意的是这个英文单词“crawl”,这是百度的抓取蜘蛛,我们要非常看中的他回来的状态码,当然我们也可以这一个月的所有蜘蛛统计出来,然后做一个限制,让他访问不同的页面,这就是我们常常的友情链接欺骗常用的方式。像一般指派来抓取网站的就是北京网通的那几个IP过来,数量非常小。


×
请选择支付方式
虚拟产品,一经支付,概不退款!