大家好,我是教程君,这节给大家讲解数据采集第二种方式:正则提取。我们还是用上节采集的光明网:http://politics.gmw.cn/node_9840.htm 我们打开内容采集选择正则提取: 然后打开我们采集到的一个页面: 源代码找出文章起始和结束点: 在正则提取中如下操作: 把首尾部中间添加参数,这样是最简单的正则提取内容数据。这种方式再面对结构复杂的网页内容时更能灵活的采集内容,可以设置多个参数,对参数进行组合。 我们测试看一看: 下面是我找的一个正则表达式的网上教程,学习一些这种表达式能够让你更加灵活的使用这种提取方式。 正则表达式教程:https://www.runoob.com/regexp/regexp-tutorial.html |
|