火车头采集器过滤秘籍

昵称23094139 2015-04-23

展开全文

为了得到一个标准的内容，在采集上必须下足功夫才行！编写好采集规则。

我对标准内容的衡量：

提取数据方式

选择正则提取，组合结果填 [参数1]

有些内容开始和结尾并没有p标签，换行是用br标签来完成，所以我们要创造p标签

第一步：清除与正文无关的内容，如文中的广告，注释等

正则 <header>[\s\S]*?</header>|<!--.*?-->| |规则4|规则5 替换为 空

如果发布到一些免费平台，有的HTML特殊字符并不会被转化，只需在末尾加入'|&.*?;'过滤掉最后特殊HTML字符即可。

第二步：只保留图片以及常用的块级元素

正则 (?i)<(?!/?h|/?p|/?div|br|img).*?> 替换为 空

只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ；前面的(?i)表示不区分大小写

第三步：去掉除了img标签外的所有标签的选择器或样式，并把标签修改为p

正则 <(?!img)(/?)\w+.*?> 替换为 <$1p>

第四步：把乱七八糟的图像样式，改成标准图像代码

正则 <img.*?src="(.+?)".*?> 替换为 <img src="$1">

第五步：规范段落标签开始结束

正则 </?p>替换为</p><p>

第六步：把或前后的空格替换为空

正则 \s*(<\/?p>)\s* 替换为 $1

第七步：把连续2个以上的或替换为1个

正则 (<p>){2,}|(</p>){2,} 替换为 $1$2

第八步：把所有的空段落替换为空

内容 <p></p> 替换为 空

第九步：由于第五步的关系，文章开头可能是结尾可能是需要清理他们

正则 ^</p>|<p>$ 替换为 空

TAG标签：采集优秀工具

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昵称23094139 > 《实用教程》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

昵称23094139

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换