分享

dedecms采集规则和过滤规则图文攻略

 怕是谁的谁 2013-02-08

  dedecms采集规则和过滤规则图文攻略

 

 进入正题

“新增采集节点:第二步设置内容字段获取规则”页面,如下图所示

 

 
第一个说明:“预览网址”,一般是文章列表页的第一篇文章的网址,对于“内容分页导航所在的区域匹配规则”选择“全部列出的分页列表”的选项即可。这里选择目标页面http://www./post/254.html作为测试。

第二个是文章标题的设置

打开目标网页并单击右键,选择查看源代码,找到title部分,如图所示

 

 

 
这里应修改填写<title>[内容]——温州seo</title>。标题中不合适的内容过滤原则:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim},这样能去掉标题中的链接。


第三个是文章作者的修改和文章来源的修改,这个看你喜欢修改,跟上面类似的,多多试试就知道了。

 

第四个是文章内容的设置

同样的查看源代码,找到内容页面的起始代码,就已刚才的列表页中打开第一个网址http://www./post/254.html为例子,可以找到<div class="article-body">代码即为文章开始内容。过滤规则,我们看到还有一些链接和广告,使用过滤规则来过滤其中不需要的内容。

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}  过滤链接
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}  过滤内嵌框架
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}  过滤JS广告

最后设置好了,之后如图,

 

 
 

 

检查无语后,保存并预览。

单个网页测试网址http://www./post/254.html的效果如图,可见测试还行,具体喜欢细节还可以自己调整。

 

 
 

 测试都正确后,可以进入采集了,成功采集后导出即可。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多