火车头采集器第三章第２节：正则提取数据

加斗图表情包群 2020-01-21

展开全文

大家好，我是教程君，这节给大家讲解数据采集第二种方式：正则提取。我们还是用上节采集的光明网：http://politics.gmw.cn/node_9840.htm
我们打开内容采集选择正则提取：

然后打开我们采集到的一个页面：

源代码找出文章起始和结束点：

在正则提取中如下操作：

把首尾部中间添加参数，这样是最简单的正则提取内容数据。这种方式再面对结构复杂的网页内容时更能灵活的采集内容，可以设置多个参数，对参数进行组合。
我们测试看一看：

下面是我找的一个正则表达式的网上教程，学习一些这种表达式能够让你更加灵活的使用这种提取方式。

正则表达式教程：https://www.runoob.com/regexp/regexp-tutorial.html

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：加斗图表情包群 > 《表情包》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

加斗图表情包群

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换