分享

自动采集文章后SEO加工并自动发布到网站详细教程

 新用户51556lpy 2021-03-21

简数采集平台支持自动采集文章,采集完成后进行SEO处理,对提高文章的收录和网站权重有非常重要的作用,并自动或定时发布到相应的一个或多个网站,实现文章搜索采集、SEO内容优化、发布网站全流程的自动化,减少每天机械化的重复操作工作。

使用步骤:

  1. 网站采集配置

  2. 自动化配置

  3. SEO配置

  4. 定时发布网站

  5. 网站发布配置

1. 网站采集配置:

一点概念:

  大多数网站都是以列表页详情页的层次结构进行组织的,例如我们进入新浪新闻频道,有很多标题链接,这可认为是列表页。点标题链接后进入的便是详情页。

  而使用数据采集工具一般目的:大批量地获取详情页里面的具体内容数据,并使用这些数据进行各种分析,发布自有网站等等。

  列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。主要作用:通过列表页可获取多个详情页的链接。

  详情页:包含具体内容的页面,如一篇网页文章,里面含有:标题,作者,发布日期,正文内容,标签等。

  开始,请先登录进入“简数控制台':

采集详细使用步骤:

  1. 创建采集任务

  2. 完善列表页的智能抽取结果(可选)

  3. 完善详情页的智能抽取结果(可选)

  4. 启动运行

第一步:创建采集任务

  点击左侧菜单按钮“创建采集任务”,输入采集任务名和要采集的”列表页“网址,如:https://www.cnblogs.com/ (这里首页即作为列表页:内容含有多个详情页即可),详情页链接可不填,系统会自动识别。

如下图:

  输入后点击 “下一步”。

第二步:完善列表页的智能抽取结果(可选)

  系统会先采用智能算法获取需要采集的详情页链接(多个),用户可以双击打开检查,如果不是想要数据,可以点击“列表提取器”进行手动指定,只需要在可视化界面上用鼠标点击。

智能获取结果如下图:

  另外:上面结果中,系统也智能发现了翻页规则,用户可以设置要采集多少页。也可以稍后在任务中的“基本信息&入口网址”--》“按规则生成网址”项中进行配置。

列表提取器 打开后如下图:

第三步:完善详情页的智能抽取结果(可选)

  上一步获取了多个详情页链接后,继续下一步,系统会使用其中一个详情页链接来智能抽取详情页数据(如:标题,作者,发布日期,内容,标签等)

详情页智能抽取结果如下:

  如果智能抽取的内容非想要的,那么可以打开'详情提取器'进行修改。

如下图:

可以在左侧对各字段进行修改或增加删除等。

  还可以对每个字段进行详细设置或数据处理(双击字段即可):替换,提取,过滤,设置默认值等等,

如下图:

第四步:启动运行

完成后,即可启动运行,进行数据采集了:

  采集后的数据结果,在该采集任务的“结果数据&发布”里面,您可以在这里对数据进行修改或者直接导出excel或发布你的网站(WordPress,织梦DEDE,HTTP接口,数据库等)。

2.自动采集配置

  定时采集和自动发布功能搭配使用,用户无需再时刻关注任务采集和发布情况,省时省力高效。

  自动发布还有一种模式:定时自动发布,可指定某时间发布数据,而不是采集后立即发布数据,详情可见章节定时发布 & 站群发布章节

3.SEO配置

简数采集提供强大灵活的SEO优化工具,对提高文章的收录和网站权重有非常重要的作用。

简数SEO工具策略主要包括:正文插入动态段落(强烈推荐)、标题插入关键词、正文插入段落及标题自动关键词、自动内链、同义词替换、简繁体转换。

  • 正文随机插入动态段落:指在文章正文开头、中间、结尾各插入一段摘要,段落摘要来自同任务的其它采集的数据,用户无需预定义段落,只需定义段落格式(默认即可)。

    文章正文前中后插入内容后,对搜索引擎来说,相当于完全不同的文章,有利于收录,并且不影响用户阅读(段落可加底色区分)。

  • 标题插入关键词 :指在文章标题(默认title字段)开头或结尾随机插入用户提供的关键词,还可选择是否对标题分词,与用户提供的关键词(即关键词库)做交集,将交集结果插入。

  • 正文插入段落及标题自动关键词:指在文章正文的开头、中间、结尾随机插入用户提供的段落,并把段落对应的关键词添加到“标题”最后。(用户需预定义段落库及相应关键词)。

  • 自动内链:给正文指定的关键词添加自定义链接,并可控制内链数量。合理的网站内链接,能提高收录与网站权重。

  • 同义词替换:可以使用同义词库(官方提供,用户也可自定义)替换指定字段(如内容、标题等)中的内容,对收录也有很大的帮助。是内容的一种替换。

  • 简繁体转换:可快速进行简繁体互相转换,例如简体转换为繁体后,可再转换回简体。

  • 组合多个字段发布:在发布目标【配置映射对应字段】的标题或内容处组合不同字段,合成新的标题或正文发布。

  • 随机插入图片、关键词、链接:使用【正文插入段落及标题自动关键词】SEO工具实现在正文中随机插入图片、关键词、链接。

  • 翻译工具:翻译支持百度、有道API接口。多语言同时翻译,翻译后内容存储到新的字段中。

  • SEO词库及句料库:可以设置供对应SEO工具使用的关键词库、同义词库、关键词内链库、SEO句料库等。

4.定时发布网站

定时自动发布,可设置每间隔一段时间自动发布数据,站群发布可使用【每条数据只发布一个域名】以及【每条数据只发到已选目标中的1个】发布方式,随机发布数据到某一个域名下或者某一个发布目标;建议定时发布和定时采集同时使用,实现定时定量更新网站内容,可有效提高网站的收录。(定时发布和定时采集是独立运行的,定时设置的时间互相不影响的)

5.网站发布配置

采集结果数据可以发布到:各种CMS系统(WordPress,织梦DEDECMS,帝国,zblog,Destoon,Discuz,Typecho,Emlog,Mipcms,苹果cms,Phpcms,易优cms,米拓cms,云优cms,Phpwind,PbootCMS等)、自定义http接口等。

数据导出格式目前支持csv和sql(mysql)等。

发布到CMS主要三个步骤:

一、在用户网站安装发布插件(插件市场安装或复制文件到目录即可)

二、在简数控制台任务的“发布目标配置”项中添加发布目标

三、在任务的“结果数据&发布”列表中对数据进行发布

详细操作请看各种CMS发布目标:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多