根据查看网站访问日志发现百度蜘蛛爬行规律 | V说

看见就非常 2012-08-01

展开全文

当我们的网站上线之后，我们最关心的就是搜索引擎的收录，谷歌好点，收录比较快，最郁闷的就是度娘了。没办法，在中国用百度的远远多于谷歌！所有我们需要去寻找百度蜘蛛来我们网站的爬行足迹,方便我们做SEO优化，提高百度的收录!那么我们怎么知道搜索引擎什么时候来过，是早上、中午、傍晚、还是深夜？还是根本没来过？想想如果我们能够知道百度蜘蛛的来访规律，我们是不是可以在百度网络蜘蛛到来之前更新和发表博文。百度蜘蛛一来看见有食物可食，是不是很开心，然后就把你的网站吃了！哈哈！

下面我们来看看怎么查看网站的访问日志来寻找网络蜘蛛的爬行规律：

可利用FTP进入空间查看LOGS文件里面的访问日志！访问日志格式如下：220.181.108.148 – - [18/Jun/2012:00:58:04 +0800] "GET /wp-content/uploads/2012/06/ps5.png

HTTP/1.1" 200 81655 "-" "Baiduspider-image+(+http://www.baidu.com/search/spider.htm)" 这是一条完整的apache访问日志记录，总共有九项。

220.181.108.148 这个是百度蜘蛛大侠的IP。

"[18/Jun/2012:00:58:04 +0800]"这个是访问日期 -时区！

"GET /wp-content/uploads/2012/06/ps5.png" 这个是访问你的那个位置；GET表示服务器动作。

HTTP/1.1" 200 81655 这个又2个数据，200 服务器响应状态码，200表示成功，有时候301就是指向错误，收录失败！ 81655为页面字节数。

"Baiduspider-image+(+http://www.baidu.com/search/spider.htm)"这个大家一看就明白了，百度蜘蛛大虾的名称！

现在手工分析一般都集中在研究每日蜘蛛在网站上爬行规律与网站更新数据之间的关系。当然每个网站需根据自己来观察，最后会有一个非常完美的规律。
小V会把每日的蜘蛛访问时间按时间段排序统计成报表，
比如：2012-7-10 0-1点爬行5次
2-3点爬行2次
3-4点爬行10次
如果你细心，可以做个走势图就非常直观。这种统计一般都是在网站刚建立后和网站出异常后加强分析日志，日常运营中，更多注重的是分析出蜘蛛每日的爬行规律然后定时的放出充量文章，增加收录。
手工分析日志都是比较枯燥的，有时会影响心情，不过现在工具繁盛的年代，我们也借助工具来达到事半功倍。
具体什么工具，百度一下就很多了，因为小V也是新手学习，没有什么工具使用经验，不能推荐大家使用什么工具,请见谅!我用的是光年日志分析工具！

注意：在日志分析中，很多时候我们都是想从日志中寻找到问题，以便改进我们的自身的问题，所以需要特别关注404,301等状态码。
真假蜘蛛辨别
为什么会出现真假蜘蛛，主要是因为现在信息繁盛，很多采集工具为不让对方发现自己的痕迹都模拟蜘蛛的痕迹来下载数据源。所以会造成很多seoer误认为蜘蛛大量的抓取页面却发现收录并未增加的现象。下面笔者告诉大家比较容易辨认真假蜘蛛和一些特别注意的地方。
1，真蜘蛛
220.181.108.96 – - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
这是小V网站的日志片段，我拿出ip，在win系统下cmd登录dos框下输入nslookup 220.181.108.96 查看回显：

若是百度蜘蛛，他会直接回显百度的域名。
2，山寨蜘蛛
假蜘蛛比较经典的就是chinaz的查询工具了，他就是模拟百度蜘蛛的，他的ip为125.90.88.96 我们反查后并未出现百度域名。有兴趣的可以nslookup 125.90.88.96下，笔者就不截图了。
一般假蜘蛛的存在形式为：XXX.XXX.XXX.XXX – - [07/Apr/2012:01:22:21 +0800] “GET /site/sex/index.php HTTP/1.1″ 302 20 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
看着跟真的一样，唯独ip就是猫腻！
3，特殊情况的蜘蛛
1) cdn加速后，造成ip混乱。
此类情况出现一般是网站在做了cdn加速后，再去查看apache服务器的访问日志的时候发现很多蜘蛛的痕迹ip都非常的类似，如果按照百度官方出的辨别手法nslookup ip 后肯定为匿名，因为这些ip都是cdn节点ip，所以会造成误解。若开启cdn后，蜘蛛实际访问次数一般都<=日志中蜘蛛总数值。
2) 百度匿名蜘蛛的存在性讨论。
匿名蜘蛛？百度工程师lee一直强调百度蜘蛛是不会匿名去访问网站的，但笔者从网上查阅资料，加上笔者某个站的数据推测，笔者认为会有两种情况:
第一种：假如真的存在匿名蜘蛛，这很明显与lee的话有悖。所以这点我们可以去辩证的去理解，假如存在，匿名蜘蛛会做什么，很多seoer包括笔者都猜测可能会存在用此类蜘蛛去验证网站是否对蜘蛛与用户做了不同的待遇。所以此种情况，做贼就不要心虚嘛，老老实实做站吧。
第二种：可能是百度的上班族们在公司访问了你的网站，百度员工也是人，他们也有七情六欲，或许你的网站被他们某人发现了，访问了你的网站后，从而留下了百度ip，造成了误解。(其实百度很多部门都是一直在做收集客户资料的，比如网盟部门)