什么是robots以及robots.txt的写法

何为robots文件?

robots.txt是一个协议文件,当搜索引擎抓取你的网站的时候,首先会访问这个文件,以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说,这个文件,是协议不是命令,事实你也无法命令搜索引擎,因此有时候有的搜索引擎遵守的不是很严格,而且robots.txt更新后,搜索引擎的反应也需要一定时间。

robots.txt不存在的情况下,是默认对搜索引擎无任何限制。若想对蜘蛛有所限制,则需要写robots的规则。

User-Agent: 规则限制的搜索引擎。

Disallow:不允许收录的页面地址。

Allow:希望被搜索引擎访问的页面地址。

具体表示为,User-agent: *,表示此规则对所有搜索引擎均有效。

User-agent: Baiduspider,此规则仅对百度有效。

User-agent: Googlebot,此规则仅对google有效。

Disallow: /a/,此规则作用是禁止爬寻a目录下面的所有文件。

Disallow: /a/*.htm,此规则作用是禁止爬寻a目录下面的所有htm为后缀结尾的文件。

Disallow: /*?* 禁止访问网站中所有的动态页面。

Disallow: /*.jpg$ 禁止抓取网页所有的.jpg格式的图片。

同时,我们也可以指定网站只被某一种搜索引擎抓取。

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

这个规则作用是只允许百度爬取此网站。

最后要提醒的是,有时候当你屏蔽了你的网页,但是如果你的网页被其它网站提及,那么你的页面也有可能出现在百度的搜索结果页面中。但是你的页面不会被百度索引与抓取,百度显示的是别的页面上对你网站的描述,有些类似于以前大家常说的灵异快照。

×
请选择支付方式
虚拟产品,一经支付,概不退款!