何为robots文件?
robots.txt是一个协议文件,当搜索引擎抓取你的网站的时候,首先会访问这个文件,以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说,这个文件,是协议不是命令,事实你也无法命令搜索引擎,因此有时候有的搜索引擎遵守的不是很严格,而且robots.txt更新后,搜索引擎的反应也需要一定时间。
robots.txt不存在的情况下,是默认对搜索引擎无任何限制。若想对蜘蛛有所限制,则需要写robots的规则。
User-Agent: 规则限制的搜索引擎。
Disallow:不允许收录的页面地址。
Allow:希望被搜索引擎访问的页面地址。
具体表示为,User-agent: *,表示此规则对所有搜索引擎均有效。
User-agent: Baiduspider,此规则仅对百度有效。
User-agent: Googlebot,此规则仅对google有效。
Disallow: /a/,此规则作用是禁止爬寻a目录下面的所有文件。
Disallow: /a/*.htm,此规则作用是禁止爬寻a目录下面的所有htm为后缀结尾的文件。
Disallow: /*?* 禁止访问网站中所有的动态页面。
Disallow: /*.jpg$ 禁止抓取网页所有的.jpg格式的图片。
同时,我们也可以指定网站只被某一种搜索引擎抓取。
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
这个规则作用是只允许百度爬取此网站。
最后要提醒的是,有时候当你屏蔽了你的网页,但是如果你的网页被其它网站提及,那么你的页面也有可能出现在百度的搜索结果页面中。但是你的页面不会被百度索引与抓取,百度显示的是别的页面上对你网站的描述,有些类似于以前大家常说的灵异快照。