dedecms采集规则和过滤规则图文攻略 进入正题 “新增采集节点:第二步设置内容字段获取规则”页面,如下图所示 第一个说明:“预览网址”,一般是文章列表页的第一篇文章的网址,对于“内容分页导航所在的区域匹配规则”选择“全部列出的分页列表”的选项即可。这里选择目标页面http://www./post/254.html作为测试。
第二个是文章标题的设置。 打开目标网页并单击右键,选择查看源代码,找到title部分,如图所示 这里应修改填写<title>[内容]——温州seo</title>。标题中不合适的内容过滤原则:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim},这样能去掉标题中的链接。
第四个是文章内容的设置 同样的查看源代码,找到内容页面的起始代码,就已刚才的列表页中打开第一个网址http://www./post/254.html为例子,可以找到<div class="article-body">代码即为文章开始内容。过滤规则,我们看到还有一些链接和广告,使用过滤规则来过滤其中不需要的内容。 {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} 过滤链接 最后设置好了,之后如图,
检查无语后,保存并预览。 单个网页测试网址http://www./post/254.html的效果如图,可见测试还行,具体喜欢细节还可以自己调整。 测试都正确后,可以进入采集了,成功采集后导出即可。 |
|