什么是robots以及robots.txt的写法

何为robots文件？

robots.txt是一个协议文件，当搜索引擎抓取你的网站的时候，首先会访问这个文件，以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说，这个文件，是协议不是命令，事实你也无法命令搜索引擎，因此有时候有的搜索引擎遵守的不是很严格，而且robots.txt更新后，搜索引擎的反应也需要一定时间。

robots.txt不存在的情况下，是默认对搜索引擎无任何限制。若想对蜘蛛有所限制，则需要写robots的规则。

User-Agent: 规则限制的搜索引擎。

Disallow:不允许收录的页面地址。

Allow:希望被搜索引擎访问的页面地址。

具体表示为，User-agent: *，表示此规则对所有搜索引擎均有效。

User-agent: Baiduspider，此规则仅对百度有效。

User-agent: Googlebot，此规则仅对google有效。

Disallow: /a/，此规则作用是禁止爬寻a目录下面的所有文件。

Disallow: /a/*.htm，此规则作用是禁止爬寻a目录下面的所有htm为后缀结尾的文件。

Disallow: /*?* 禁止访问网站中所有的动态页面。

Disallow: /*.jpg$ 禁止抓取网页所有的.jpg格式的图片。

同时，我们也可以指定网站只被某一种搜索引擎抓取。

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

这个规则作用是只允许百度爬取此网站。

最后要提醒的是，有时候当你屏蔽了你的网页，但是如果你的网页被其它网站提及，那么你的页面也有可能出现在百度的搜索结果页面中。但是你的页面不会被百度索引与抓取，百度显示的是别的页面上对你网站的描述，有些类似于以前大家常说的灵异快照。