分享

robots.txt写法,规范,作用

 昵称25551 2007-04-20

        Robots.txt是存放在网站根目录下的一个文件,通常情况下,搜索引擎会对所有的网站页面进行抓取分析,如果一个网站管理员不想让搜索引擎抓取一些页面,比如网站管理后台,网站次要目录或者涉及到不愿被搜索引擎抓取公开的内容等,则通过创建该文件来引导各大搜索引擎抓取。当搜索引擎抓取一个站点时,会首先检查其根目录下是否有robots.txt存在。如果存在,则会按照文件中所规定的抓取范围,若不存在,则会按照正常的方法进行抓取。

        首先是了解各大搜索引擎spider名称。

        Baiduspider[baidu]    Scooter[altavista]    ia_archiver[alexa]    Googlebot[google]    FAST-WebCrawler[alltheweb]     MSNBOT[MSN]

        SEO中国robots.txt的写法:

        User-agent: *
        Disallow: /dir/admin/

        User-agent是指定搜索引擎robot的名字,即若针对baidu则会对应的值是Baiduspider,google对应的是Googlebot等。如果针对所有搜索引擎均有效,则保留为*值。

        Disallow是规定让搜索引擎忽略抓取的目录。例如,http://www./dirSEO中国分类目录地址,而其管理地址是对搜索引擎抓取没有任何意义的目录,则该例中,/dir/admin/为所有搜索引擎所禁止抓取。

        Disallow书写方法:默认从根目录出发,指定忽略的目录,末尾加上/
        指定多个目录:
        Disallow: /dir/admin/
        Disallow: /a/
        Disallow: /b/

        以上是针对网站目录抓取情况进行处理,如何进行单个文件处理呢?采用Robots Meta方法。

        和其他的meta,如description.keywords等相同,书写到<head></head>之间

        <head>
        <title>SEO中国,搜索引擎优化,网站优化,网站SEO研究</title>
        <meta name="Robots" content="index,follow">
        <meta name="Keywords" content="SEO中国, 网站排名, Google左侧排名, 搜索引擎优化, SEO研究, SEO资讯, SEO下载, SEO案例, 网站推广">
        <meta name="Description" content="SEO中国致力于网站优化,Google左侧排名,搜索引擎优化,中国网站SEO研究,提高中国网站搜索引擎排名竞争力.">
        </head>

        则规定了该页的抓取方法:正常抓取,顺序抓取。

        与之对应的是:"noindex,nofollow"。Robots则可以指定为各大单个搜索引擎spider名称。另外,Googlebot还制定了archive用于规定网页快照的保留与否。
 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多