Dec29th
百度蜘蛛疯狂抓取index.html的解决办法
SEO发散
如果做过日志分析的肯定会发现对于有些站,百度蜘蛛会疯狂大量的抓取index.html,对于一些新站往往会占据全部抓取量的很大比重,这样就会浪费掉太多的抓取机会,虽然这种情况可能会随着时间而消失掉,但是对于新站还是要优化一下的好。
先写几种方法吧,以后想起来或者搜集到好的再陆续更新。
以下方法只用某一种不保证有效性。
1.在robots中屏蔽掉,Disallow: /index.html 其他栏目页面以此类推了,等百度更新抓取robots后才会发挥作用吧。
2.使index.html页面返回404状态码,这样告诉蜘蛛这个路径不存在,然后他就不会再来抓取了。
3.指定http head返回码,Content-Location:http://www.XX.com/,注意单独指定index.html页面。
4.head头添加<base href="http://www.lirang.net/" />,起到规范化网址的作用吧。
本文出自:李让博客,地址:http://www.lirang.net/post/51.html,转载须注明!

