万人网络 网络学院 网站运营 网络策划 网络推广 SEO 网络策划 网站优化 微商

robots.txt怎么写?

想做优化的朋友都会遇到robots.txt,也同时会产生robot.txt怎么写的疑问,那么首先,我来介绍一下什么是robots.txt:robots.txt是搜索引擎中访问网站的时候要查 看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面。最后,robots.txt必须放置在一个站点的根目录下。接下来沈阳seo优化告诉大家robots.txt怎么写:


    大家可以参考一下谷歌、百度和腾讯的robots写法:
  http://www.google.com/robots.txt
  http://www.baidu.com/robots.txt
  http://www.qq.com/robots.txt
  大家了解完robots.txt后,那么我们可以用robots.txt来做什么?同时也就明知了robots.txt怎么写:


  robots.txt怎么写第一节:用robots.txt屏蔽相似度高的页面或没内容的页面。
  我们知道,搜索引擎收录网页后,会对网页进行“审核”,而当两个网页的相似度很高时,那么搜索引擎就会删除掉其中一个,并且会降低一点你网站的得分。
  假设以下这两个链接,内容其实差不多,那么第一个链接就应该屏蔽掉。
  /XXX?123
  /123.html
  像第一个的链接这样的链接非常多,那么我们要怎么屏蔽呢?其实只要屏蔽/XXX?就可以屏蔽所有的链接了。
  代码如下:
  Disallow: /XXX?
  同理,一些没有内容的页面我们也可以利用相同的办法将其屏蔽掉。


  robots.txt怎么写第二节:用robots.txt屏蔽多余的链接,一般保留静态的链接(既HTML、htm、shtml等)。
  由于网站中经常会出现多个链接指向同一个页面的情况,而这样会让搜索引擎对网站的友好度降低。为了避免这一个情况,我们就可以通过robots.txt把 非主要的链接去掉。
  比如以下两个链接指向同样的页面:
  /OOO?123
  /123.html
  那么我们就应该去掉第一个垃圾,代码如下:
  Disallow: /OOO?123


  robots.txt怎么写第三节:用robots.txt屏蔽死链
  死链就是曾经存在的网页,因为改版或其他原因而失去效用后就变成死链,也就是说看似一个正常的网页链接,但点击后不能打开相对应的网页页面。
  比如,原来在目录为/seo下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉,代码如下:
  Disallow: /seo/


  robots.txt怎么写第四节:告诉搜索引擎你的sitemap.xml地址
  利用robots.txt可以告诉搜索引擎你sitemap.xml文件的地址,而不需要在网站上添加sitemap.xml的链接。具体代码如下:
  Sitemap: 你的sitemap地址
  以上就是robots.txt的基本用法,一个好的网站必定会有一个好的robots.txt,因为robots.txt是搜索引擎了解你网站的一个途径。

另外在这里我推荐一下 robots.txt的写法 沈阳seo优化参考:

User-agent:*
Sitemap:http://www.wordmars.com/wm-seo/sitemap.xml        //这个指引搜索引擎蜘蛛找到你的Sitemap
Disallow:/ADMIN/         //管理员登陆入口,搜索引擎就不要进来吧?呵
Disallow:/SCRIPT/        //我们调用的SCRIPT文件,搜索引擎抓到了,也不读。
Disallow:/PLUGIN/        //插件目录,不需要抓取
Disallow:/FUNCTION/        //不需抓取
Disallow:/UPDATE/        //Zblog官方的升级信息目录,不需抓取。
Disallow:/ARTICLE-IMAGE/        //网站模板中用到的一些小图标,这些在网上到处都是,就是让搜索引擎抓去了也没有排名,还浪费你的资源。
Disallow:/DATA/        //数据库目录
Disallow:/CACHE/        //Zblog生成静态页的缓存目录,这个和你的正常文章基本一致,高重复。建立拿掉
Disallow:/STYLE/        //CSS生成目录,不需抓取
Disallow:/TEMPLATE/        //模板目录,不需抓取
Disallow:/CSS/        //CSS的一些调用文件目录,不需抓取
Disallow:/LANGUAGE/        //语言目录,不必抓取
Disallow:/login.asp         //我们的登录后台文件,不需抓取。
Disallow:/cmd.asp?         //这个是供别人引用通知时产生的页面,不需抓取。
Disallow:/search.asp         //搜索页,这页在没有人使用时,就是一个空页
Disallow:/atom.xml         //支持ATOM的FEED页,高重复。
Disallow:/rss.xml         //支持RSS的FEED页,高重复。
Disallow:/view.asp?         //一般后台预览时生成的页面,高重复。
注意:你如果要用这段代码,把//和//前面的空格删掉再用,同时记得把sitemap地址改过来,要用绝对地址。

Disallow:后面不要有空格,因为有空格在一些验证程序中通不过。

最后,如果你觉得上面所说的还不能满足你的需要,那么你可以在谷歌或百度官方提供的robots.txt使用指南学习:
百度:http://www.baidu.com/search/robots.html
 

 

当你知道了robots.txt怎么写,就赶快去完成它,它会让搜索引擎更信任你的网站,更合理清晰的抓取你的网站,它也是网站优化不可或缺的一步!

标签:robots.txt怎么写
分类:SEO基础| 发布:admin| 查看: | 发表时间:2012-8-28
原创文章如转载,请注明:转载自http://www.yinese.com/seo/
本文链接:http://www.yinese.com/seo/post/seo-25.html

相关文章

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。