大家好,我是教程君,上节我提到了三种多级采集规则,只讲了其中的“从页面自动分析得到地址链接”,这节我们接着讲另外两种。 一、手动填写链接地址规则 我们还是以https://news.qq.com/newsgn/gdxw/gedixinwen.htm这个网址作为起始地址,我们打开网址,寻找我们需要的信息如图: 然后复制第一个标题,右键打开源代码,按ctrl+F会出现如右上角一样的搜索框,复制进去直接跳到如图: 我们通过上图看,被红圈标记的就是我们这次要采集的内容页网址,他的网址基本结构为<a target='_blank' href='我们需要的网址'>,所以我们如下操作: 接下来我们看一下测试结果: 二、使用Xpath方式获取地址 在采集网址规则中选择使用Xpath方式获取地址,点击使用Xpath浏览器如下: 点击浏览器之后在左下角找到如下的小箭头,上面附有提示如下图: 我们点击小箭头,然后去选择自己想要的第一条内容,之后再点击箭头,选择最后一条内容如下: 之后点击测试: 点击完成之后效果如下: 这种用Xpath的方法看起来很简单,完全不用去了解代码,但是也有其弊端,那就是对于代码的闭合性要求严谨,对于代码书写规范的网页有用,如果代码不严谨,我们就无法通过这种方式来获取了。 关于多级采集规则中的网址获取已经讲完了,如果有不懂的地方,欢迎下方留言! |
|