首先,我们从其定义讲到其使用方法,方便光大seoer更加精准的使用rotbots.txt使用。 一、定义: robots.txt 是存放在站点根目录下的一个纯文本文件,让搜索蜘蛛读取的txt文件,文件名必须是小写的“robots.txt”。 二、作用: 通过robots.txt可以控制搜索引擎收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。 三、语法: User-agent:搜索引擎的蜘蛛名 Disallow:禁止搜的内容 Allow:允许搜的内容 四、实例: 1.User-agent: * //禁止所有搜索引擎搜目录1、目录2、目录3 Disallow: /目录名1/ Disallow: /目录名2/ Disallow: /目录名3/ 2. User-agent: Baiduspider //禁止百度搜索secret目录下的内容 Disallow: /secret/ 3. User-agent: * //禁止所有搜索引擎搜索cgi目录,但是允许slurp搜索所有 Disallow: /cgi/ User-agent: slurp Disallow: 4. User-agent: * //禁止所有搜索引擎搜索haha目录,但是允许搜索haha目录下test目录 Disallow: /haha/ Allow:/haha/test/ 五、常见搜索引擎蜘蛛的代码 #搜索引擎User-Agent代码对照表######################## # 搜索引擎 User-Agent代码 # AltaVista Scooter # Infoseek Infoseek # Hotbot Slurp # AOL Search Slurp # Excite ArchitextSpider # Google Googlebot # Goto Slurp # Lycos Lycos # MSN MSNBOT # Netscape Googlebot # NorthernLight Gulliver # WebCrawler ArchitextSpider # Iwon Slurp # Fast Fast # DirectHit Grabber # Yahoo Web Pages Googlebot # Looksmart Web Pages Slurp # Baiduspider Baidu 以上是rotbots.txt使用方法,可能会有人问,我肯定是要让搜索引擎全部抓取的,那rotbots.txt对我而言,岂不是没有作用了吗?其实不然,rotbots.txt的设置,对于SEO来说是有一定原因的。举例说明: 1、在进行网站优化时,常常出现很多不同的URL指向相似的网页,这是不符合“网页内容互异性原则”的。设置好了robots.txt可屏蔽掉次要的链接。 2、网页改版、URL静态化时,会残留许多死链接以及不友好搜索引擎的链接,我们需要把他们全部屏蔽掉,仍然要用rotbots.txt来进行设置。 3、许多没有进行关键词设置的页面,比如:http://www.baidu.com/bj/youhua-bj/,屏蔽其URL后SEO效果会更好。 4、许多站内会有全站搜索,这种页面是动态化的页面,而且是不确定的临时页面,用rotbots.txt屏蔽其页面,对网站优化的效果也会不错。 |
|