分享

火车头采集器第二章第3节:另外两种多级采集规则

 加斗图表情包群 2020-01-21
大家好,我是教程君,上节我提到了三种多级采集规则,只讲了其中的“从页面自动分析得到地址链接”,这节我们接着讲另外两种。
一、手动填写链接地址规则
我们还是以https://news.qq.com/newsgn/gdxw/gedixinwen.htm这个网址作为起始地址,我们打开网址,寻找我们需要的信息如图:

然后复制第一个标题,右键打开源代码,按ctrl+F会出现如右上角一样的搜索框,复制进去直接跳到如图:


我们通过上图看,被红圈标记的就是我们这次要采集的内容页网址,他的网址基本结构为<a target='_blank' href='我们需要的网址'>,所以我们如下操作:



接下来我们看一下测试结果:


二、使用Xpath方式获取地址

在采集网址规则中选择使用Xpath方式获取地址,点击使用Xpath浏览器如下:



点击浏览器之后在左下角找到如下的小箭头,上面附有提示如下图:




我们点击小箭头,然后去选择自己想要的第一条内容,之后再点击箭头,选择最后一条内容如下:



之后点击测试:


点击完成之后效果如下:


这种用Xpath的方法看起来很简单,完全不用去了解代码,但是也有其弊端,那就是对于代码的闭合性要求严谨,对于代码书写规范的网页有用,如果代码不严谨,我们就无法通过这种方式来获取了。

关于多级采集规则中的网址获取已经讲完了,如果有不懂的地方,欢迎下方留言!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多