robots.txt写法,规范,作用

昵称25551 2007-04-20

展开全文

Robots.txt是存放在网站根目录下的一个文件，通常情况下，搜索引擎会对所有的网站页面进行抓取分析，如果一个网站管理员不想让搜索引擎抓取一些页面，比如网站管理后台，网站次要目录或者涉及到不愿被搜索引擎抓取公开的内容等，则通过创建该文件来引导各大搜索引擎抓取。当搜索引擎抓取一个站点时，会首先检查其根目录下是否有robots.txt存在。如果存在，则会按照文件中所规定的抓取范围，若不存在，则会按照正常的方法进行抓取。

首先是了解各大搜索引擎spider名称。

Baiduspider[baidu] Scooter[altavista] ia_archiver[alexa] Googlebot[google] FAST-WebCrawler[alltheweb] MSNBOT[MSN]

SEO中国的robots.txt的写法：

User-agent: *
Disallow: /dir/admin/

User-agent是指定搜索引擎robot的名字，即若针对baidu则会对应的值是Baiduspider，google对应的是Googlebot等。如果针对所有搜索引擎均有效，则保留为*值。

Disallow是规定让搜索引擎忽略抓取的目录。例如，http://www./dir为SEO中国的分类目录地址，而其管理地址是对搜索引擎抓取没有任何意义的目录，则该例中，/dir/admin/为所有搜索引擎所禁止抓取。

        Disallow书写方法：默认从根目录出发，指定忽略的目录，末尾加上/
        指定多个目录：
        Disallow: /dir/admin/
        Disallow: /a/
        Disallow: /b/

以上是针对网站目录抓取情况进行处理，如何进行单个文件处理呢？采用Robots Meta方法。

和其他的meta，如description.keywords等相同，书写到<head></head>之间

        <head>
        <title>SEO中国,搜索引擎优化,网站优化,网站SEO研究</title>
        <meta name="Robots" content="index,follow">
        <meta name="Keywords" content="SEO中国, 网站排名, Google左侧排名, 搜索引擎优化, SEO研究, SEO资讯, SEO下载, SEO案例, 网站推广">
        <meta name="Description" content="SEO中国致力于网站优化,Google左侧排名,搜索引擎优化,中国网站SEO研究,提高中国网站搜索引擎排名竞争力.">
        </head>

则规定了该页的抓取方法：正常抓取，顺序抓取。

与之对应的是："noindex,nofollow"。Robots则可以指定为各大单个搜索引擎spider名称。另外，Googlebot还制定了archive用于规定网页快照的保留与否。

article from: http://www./post/robots-txt.html