分享

火车采集器/分页采集

 csutjf 2014-01-03



分页就是目标网站上一个文章分为好几页,需要设置规则将其全部采到。采集要点:

  • 采集规则要对每个分页都适用。
  • 分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。

具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。

下边以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/1226877.html为例来说明一下具体的使用方法。

第一点:采集规则要对每个分页都适用看一下,这里分页有两个,前一页[1] [2] 下一页 ,要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以获得要的内容,那么,说明这一步已经成功了。

进入下一步。规则是这样写的,两个页面都通过。

Locoy FYCJ1.jpg

现在看分页这里的设置,全部列出是在第一页或每一页上都有全部的发布文章的网址,上下页是没有将全部的列出。这个规则里选全部列出。因此,只要在第一页里找好包含所有网址的区域就可以了。

Locoy FYCJ2.jpg

看一下,上边是有分页网址的区域,选个开头结尾,就可以正常采到分页了。

Locoy FYCJ3.jpg

火车的新版是可以直观的看到分页网址的,这对做分页规则很有用。

Locoy FYCJ4.jpg

这样全部采集到了。

注意:分页设置下边有个分页内容合并连接代码,可以设置成你想要的东西,比如CMS的手动分页标签

下边来讲一个上下页的分页处理方法及如何使用手动链接地地规则.

以 http://www./doc/hard/86643.htm 这个页面为例.来找一下分页的开头和结尾,这个分页很明显.

开始:<div id="divSubPageNav" class="doctext08">

结束:</div>.

使用上一页,下一页的形式就可以采到所有地址.不过会发现有一个地址是不需要的,看下边:

此页面包含多个分页:
1:http://www./doc/hard/86643.htm
2:http://www./doc/hard/86643_2.htm
3:http://www./doc/hard/86643_3.htm
4:http://www./doc/hard/86643_4.htm
5:http://www./doc/hard/86643_5.htm
6:http://www./doc/hard/86643_6.htm
7:http://www./doc/hard/86643_7.htm
8:http://www./doc/hard/86643_8.htm
9:http://www./doc/hard/86643_9.htm
10:http://www./doc/hard/86643_10.htm
11:http://www./doc/hard/86643_11.htm
12:http://www./doc/hard/86643_12.htm
13:http://www./doc/hard/86643_13.htm
14:http://www./doc/hard/86643_14.htm
15:http://www./doc/hard/86643_15.htm
16:http://www./doc/hard/86643_16.htm
17:http://www./doc/hard/86643_17.htm
18:http://www./doc/hard/86643_18.htm
19:http://product./Product_default_1041.htm
有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]

最后一个不是,可以看到,前边的网址和后边的是不一样的.现在是使用手动填写链接地址规则的时候了.在分页链接地址样式里边,写 http://www./[参数].htm 分页网址里写http://www./[参数1].htm,现在看一下,正确了.

Locoy FYCJ5.jpg

技巧:在使用自定义地址样式时,程序会自动补全网址,请看这个规则


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约