分享

火车头采集器第三章第2节:正则提取数据

 加斗图表情包群 2020-01-21
大家好,我是教程君,这节给大家讲解数据采集第二种方式:正则提取。我们还是用上节采集的光明网:http://politics.gmw.cn/node_9840.htm
我们打开内容采集选择正则提取:

然后打开我们采集到的一个页面:

源代码找出文章起始和结束点:


在正则提取中如下操作:

把首尾部中间添加参数,这样是最简单的正则提取内容数据。这种方式再面对结构复杂的网页内容时更能灵活的采集内容,可以设置多个参数,对参数进行组合。
我们测试看一看:


下面是我找的一个正则表达式的网上教程,学习一些这种表达式能够让你更加灵活的使用这种提取方式。

正则表达式教程:https://www.runoob.com/regexp/regexp-tutorial.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多