Jan7th
IIS不能记录爬虫抓取伪静态
SEO发散
用IIS的同学网站做伪静态后,如果用光年日志分析查看日志会发现某一个动态页面会被大量抓取,查看日志源文件的会发现爬虫抓取的是伪静态之前的动态页面,因为中间被截断,所以在光年日志分析中显示的抓取的某一个页面。


其原因是微软的IIS的伪静态组件问题,不能记录爬虫抓取的伪静态之后的地址。
这里有两个问题:
1.爬虫抓取的链接跟日志记录的链接不是一个概念,不可混淆。但是在其他服务器或者静态链接这两个记录是相同,只是在IIS的伪静态这里不一样。
2.遇到这样的情况可以写个小脚本去记录爬虫的实际抓取记录,网站程序是什么语言用什么语言写就行了。如果不嫌麻烦的话,也可以将记录的动态链接根据自己的伪静态规则转换成伪静态后的地址再去查看日志。
本文出自:李让博客,地址:http://www.lirang.net/post/54.html,转载须注明!

