Robots.txt是存放在网站根目录下的一个文件,通常情况下,搜索引擎会对所有的网站页面进行抓取分析,如果一个网站管理员不想让搜索引擎抓取一些页面,比如网站管理后台,网站次要目录或者涉及到不愿被搜索引擎抓取公开的内容等,则通过创建该文件来引导各大搜索引擎抓取。当搜索引擎抓取一个站点时,会首先检查其根目录下是否有robots.txt存在。如果存在,则会按照文件中所规定的抓取范围,若不存在,则会按照正常的方法进行抓取。 首先是了解各大搜索引擎spider名称。 Baiduspider[baidu] Scooter[altavista] ia_archiver[alexa] Googlebot[google] FAST-WebCrawler[alltheweb] MSNBOT[MSN] SEO中国的robots.txt的写法: User-agent: * User-agent是指定搜索引擎robot的名字,即若针对baidu则会对应的值是Baiduspider,google对应的是Googlebot等。如果针对所有搜索引擎均有效,则保留为*值。 Disallow是规定让搜索引擎忽略抓取的目录。例如,http://www./dir为SEO中国的分类目录地址,而其管理地址是对搜索引擎抓取没有任何意义的目录,则该例中,/dir/admin/为所有搜索引擎所禁止抓取。 Disallow书写方法:默认从根目录出发,指定忽略的目录,末尾加上/ 以上是针对网站目录抓取情况进行处理,如何进行单个文件处理呢?采用Robots Meta方法。 和其他的meta,如description.keywords等相同,书写到<head></head>之间 <head> 则规定了该页的抓取方法:正常抓取,顺序抓取。 与之对应的是:"noindex,nofollow"。Robots则可以指定为各大单个搜索引擎spider名称。另外,Googlebot还制定了archive用于规定网页快照的保留与否。
article from: http://www./post/robots-txt.html
|
|