robots协议的具体内容怎么书写语法? 正定SEO优化

答案:

Robots.txt语法

你好同学要想正确的使用 robots,就要学会怎么写 robots,写法并不难,下面就跟大家说说 robots的写法和一些注意事项

常用符号
User-agent:定义搜索引擎的类型

Disallow:定义禁止搜索引擎收录的地址

Allow:定义允许搜索引擎收录的地址

*:匹配0 或多个任意字符

$:匹配行结束符


Robots语法解析

User-agent:是定义搜索引擎的。如果想定义所有搜索引擎请用 User-agent:*,如果想定义百度蜘蛛的话, User-agent: Baiduspider。淘宝网为例:

(www.taobao.om/robots. txt)

淘宝网屏蔽了百度蜘蛛对淘宝网站内页面的捉取。由于全球互联网上蜘蛛有近200多种搜索引擎蜘蛛,但你需要知道几个常见蜘蛛

百度蜘蛛: Baiduspider

谷歌机器人:Googlebot

雅虎的蜘蛛: Mozilla

微软bing的蜘蛛: msnbot

soso的蜘蛛: sosospider


Disallow:是禁止所有搜索引擎抓取的路径,注意:/表示根目录,代表网站所有目录,例如针对所有搜素引擎屏蔽这么一个路径www.xxxx.coml/help/index.html,那写法可以是路径下面这样:

User-agent:*

Disallow:/help/index.html


3、A1low:是允许的意思,但需要注意,他的使用一般都是结合Disallow他不能单独出现。意思是,禁止爬取那个内容。加上Alow后意思是,除了可以爬取这个外,其余的都禁止!

如果www.xxxxx.com/help/目录下有很多文件不想给蜘蛛抓取,只要其中的 index.html页面给抓取,写法如下

User-agent:*

Disallow:/help/

Allow:/help/index.html

或者

ragen

User-agent:*

Allow:/help/index.hrml

Disallow:/help/

4、*:匹配零或者多个任意字符。通配符的出现让 robots.txt代码更加精简,用更少的代码能够达到同样的效果。假如出现下面多个URL地址不想给蜘蛛抓取,他们又有相同的规律,那么我们就可以用*号来进行统一屏蔽

www.xxxx.com/books?34f343q=fskdjf4f34f

www.xxxx.com/books?34f343q=fskd4f34f

www.xxxx.com/books?34f343q=rer43r43

www.xxxx.com/books?3grer23q=fsksdfsd


Robots的写法可以如下

User-agent:*

Disallow:/books?*g=*

是不是很简单!


5、$:是结束符(所有以它结尾的都能够进行匹配。)通配符是整个 robots.txt里面的核心内容。

很多网站对于一些统一不想要蜘蛛捉取的内容就可以用到$。例如禁止 Baiduspider抓取网站上所有jpg图片

User-agent: Baiduspider

Disallow:/* jpgs$


总结写法规则就是这些了,你可以灵活的去组合。


×
请选择支付方式
虚拟产品,一经支付,概不退款!