分享

八爪鱼采集规则基本步骤介绍

 AS400r 2018-01-08
 
八爪鱼采集器采集规则步骤简介:
1.打开网页
2.点击元素
3.输入文本
4.提取数据
5.循环
6.切换下拉选项
7.条件分支
8.鼠标悬停

1、打开网页

该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。

打开网页步骤注意事项:
1) 网页地址
网址,一般可以从网页浏览器如IE等的地址栏中复制得到,如:http://www.

2) 使用当前循环项
配合循环步骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项。

3) 阻止弹出窗口
用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出。

4) 超时
在网页加载完成前等待的最大时间,如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤,应尽量避免设置过长的超时时间,因为这会影响采集速度。

5) 滚动到底部
个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部

6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度。

2、点击元素
该步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮,点击超链接等。

点击元素步骤注意事项:
1)使用当前循环项
配合循环步骤来使用,用以重复点击循环中设置的多个元素,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。 如果勾选此项,则无需设置点击的元素,要点击的元素会自动显示循环设定的当前循环项,使用该选项时,应当作为循环步骤的子步骤,但不必是第一个子元素。

2)新标签页中打开
如果点击元素时希望在新的标签页中打开,而不是在当前页打开,请勾选此选项。 一般情况下,在需要循环打开一个页面上的多个超链接时,需要勾选此选项以便保留列表页面,以便点击列表页上的下一个超链接;但是如果是循环点击下一页时,则不要勾选此选项,以在当前页面打开下一页。

3)滚动到底部
个别网页在加载完成后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部

4)异步加载数据
异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤, 使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用

5)异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用,通常使用本选项时,不能勾选“新标签页中打开”

6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度。

3、输入文本
本步骤用在网页输入框中输入指定的文本,例如输入搜索关键词,输入账号等。可以搭配循环步骤和点击元素步骤一起使用,进行关键字搜索的循环采集

要输入的文本
在操作框中将设定的文本输入,网页的输入框中会显示。


4、提取数据
该步骤根据提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等。

提取数据步骤注意事项:
1) 抓取模板
从网页面中提取数据的规则

2) 字段名称
给抓取的数据字段取个别名,如新闻标题,新闻正文

3) 提取到的数据
从网页上提取到的数据,将会在本列显示所抓取到的示例

4) 描述
对本数据字段的一些描述信息

5) 使用当前循环项
配合循环步骤来使用,用以重复的从循环中设置的多个元素中提取数据,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。 如果勾选此项,会从循环所设置的元素中根据抓取规则提取出示例数据,使用该选项时,提取数据步骤应当作为循环步骤的子步骤,但不必是第一个子元素。


5、循环
1) 本步骤用来重复执行一系列步骤,根据配置不同,支持多种模式。
循环固定单个元素,例如循环点击每一页中的下一页按钮;
1) 循环固定列表,例如循环处理一个页面中指定的多个元素;
2) 循环可变列表,当需要循环处理多个页面,但是每个页面上要处理的元素数量不固定时使用;
3) 循环网址列表,主要用来循环打开一批指定网址的网页,然后执行同样的处理步骤。

循环步骤注意事项
1) 元素在IFRAME里
如果循环中设置的元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH

2) IFAMEXPath
元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。

3) 固定的一个元素
循环的对一个元素进行特定操作,如循环点击下页,下翻下拉列等,当翻到最后一页或下拉列表已到最后一项时,会自动结束当前循环。

4) 固定的元素列表
逐个的对列表中的元素进行特定操作,如循环点击、从中提取数据、将鼠标悬停在元素上,当所有元素循环完毕时,会自动结束当前循环。

5) 动态元素列表
当元素列表不是固定的,可指定一个动态路径(多个元素都符合此路径,即可以根据此路径定位到多个元素),系统会根据指定路径先找到一个元素列表,然后执行跟‘固定的元素列表’一样的操作。

6) URL列表
配合打开网页操作作用,指定一个URL列表,确保循环里面的打开网页操作的使用当前循环项标识已勾选,以逐个的打开URL列表中的连接。

7) 循环执行次数等于在执行到指定次数时退出循环。


6、切换下拉选项

本步骤用于切换下拉列表

切换下拉选项步骤注意事项:

1) 从option顺序/到option顺序
默认为空,代表从下拉列表第一个顺序切换,直到最后一个,但有时需要跳过第一个选项,从第二个或者中间某个位置开始切换下拉列表, 使用这两个选项可以控制切换的起始和结束顺序,例如,假设下拉选项有5个,需要从第2个顺序切换到第4个,则“从option顺序”设置为2,“到option顺序”设置为4。

2) 跳过值/到值
默认为空,表示按照设定,顺序切换下拉列表,但如果切换中需要跳过某个下拉项,则使用此设置,可以控制跳过的范围, 例如,假设下拉列表有5个选项,值分别是10、11、12、13、14,如果需要跳过12,则设置“跳过值”为12,如果需要跳过12、13,则设置“跳过值”为12,“到值”设置为“13”。

3) 使用当前循环项
配合循环步骤来使用,用以重复的循环中的指定的下拉列表切换到下一个选项。

4) 异步加载数据
异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤, 使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用

5) 异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。

6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度。

7、条件分支

本步骤会从左到右选择第一个符合条件的分支,并执行该分支

条件分支步骤注意事项:

1) "总是"
不需要设置任何判定条件,该分支总是符合执行条件

2) 当页面中包含文本
当页面中包含指定文本是,该分支符合执行条件

3) 当页面中包含元素
当页面中包含指定元素时,该分支符合执行条件,配合元素XPATH使用

4) 元素XPATH
判定条件元素的XPATH路径

5) 在IFRAME里
如果判定条件元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH

6) IFAMEXPath
元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。

8、鼠标悬停
本步骤用于将鼠标悬停在指定元素上
鼠标悬停步骤注意事项:

1)使用当前循环项
配合循环步骤来使用,用以重复的将将鼠标悬停循环中指定的元素上,然后执行下面的流程。

2)Ajax加载数据
Ajax也叫异步加载,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤。 很多网页会在鼠标悬停在某些元素上时异步加一些数据,并在页面上显示。使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用。

3)异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多