分享

一业数据采集器

 昵称55712980 2018-09-04

一业网页数据采集器简介及用户手册

1        简介

一业网页数据采集器软件是为了方便个人用户采集网络数据,设计开发的一个网页数据采集器,主要功能包括:链接生成、数据下载、数据抽取和抽取模型创建工具。其中对抽取模型的创建,是通过渲染展示出页面,由用户通过点选的方式进行配置,极大的降低了用户的使用难度。

对普通用户来说,一般采集目标比较明确,但是要么采集的数据数量相对较小,在百万级一下;要么采集频率比较低,不到每周一次。另外,一般用户也没有编写采集软件的能力,既是有,对于数据的抽取处理也是比较麻烦的事情。基于此,一业网页数据采集器软件将下载分成五个简单的步骤,使普通用户能够快速的掌握使用方法,完成较高难度的数据采集工作。五个步骤的内容如下:

1.         配置列表页面链接。

2.         配置链接抽取模型。

3.         配置详情页面链接。

4.         配置详情页面抽取模型。

5.         执行下载。

一业网页数据采集器软件把采集把采集内容分成两个部分:对列表页数据的采集和对详情页数据的采集。列表页包含了详情页的链接地址,采集列表页其实是为了获取详情页的链接地址。这样划分简化了软件逻辑的复杂度,也更容易让用户理解和使用。

随着信息化、网络化、人工智能等技术的发展,越来越多的人或多或少的需要采集网络数据,供工作、学习、研究等使用。一业网页数据采集器软件就是为了让普通用户简便的、快速的、高质量的采集到所需要数据。

 


 

2        主要功能

2.1      软件主要功能界面

2.1.1       软件主界面

双击可执行文件,打开软件,进入主界面

本界面是软件的主界面,主要用于配置下载页面的链接、抽取模型等。界面中各输入项的说明如下:

1.   列表页面链接:配置要采集数据的列表页面,页面中包含详细信息页面地址的列表。其中:配置的链接将被保存在软件根目录下的file\url\url_config_list.txt文件中,可以手工修改这个文件。这里配置的是列表页面的链接,抽取出其中的链接以继续下载。
可以使用高级语法:输入 http:///[1:100] 来爬取 1 100 100 个页面。输入 http:///[10:100:10] 来爬取 102030...100 等共 10 个页面,数字每次递增 10。输入 http:///[3:15:2]s[1:100] 来爬取 3s1 15s99 7x100 = 700 个页面。

点击后面的“批量添加”按钮,进入批量添加链接页面。如果已经有了入口链接数       据列表,可以通过此功能将其加入软件配置。

2.   链接抽取模型:使用模型确定需要抽取的链接,如果此处不配置抽取模型,则作为列表页面自动抽取链接。此处的模型会抽取由列表页面链接配置下载的html页面,抽取出的链接数据保存在详情页面链接中。

3.   详情页面链接:配置详情页面链接,页面中包含用户最终需要的数据。配置的链接将被保存在软件根目录下的file\url\url_data_mid.txt文件中,可以手工修改这个文件。支持高级语法。第一步中抽取出的url也会保存在这里。所以如果配置了第一步的链接数据,此处可以不用配置。

点击后面的“批量添加”按钮,进入批量添加链接页面。如果已经有了详情页链接       数据列表,可以通过此功能将其加入软件配置。

4.   详情页面抽取模型:配置抽取正文数据的模型,抽取出的数据为用户最终需要的数据。

5.   执行普通下载:点击按钮,软件会根据配置,以发送http请求的方式下载数据。

6.   执行渲染下载:点击按钮,软件会根据配置,以浏览器渲染的形式下载页面。

7.   暂停:点击按钮,软件会暂停当前的下载,下次下载会继续执行未下载的配置数据。

8.   渲染测试:点击按钮,进入渲染采集测试页面。对于高级用户,渲染采集可以加入自己的javascript脚本逻辑。这个时候需要对javascript脚本进行测试,就会用到这个功能。

从主界面中点击“批量添加”按钮,进入批量添加界面。主界面有两个“批量添加”按钮,分别进入“批量添加入口页面链接”和“批量添加详细页面链接”界面,如下图示

其中,每行一个链接,点击“保存”按钮,保存配置的链接后返回;点击“关闭”按钮,则不保存其中的链接,直接返回。

 

2.1.2       创建模型界面

本界面用户创建抽取模型,包括列表页面抽取详细链接的模型和详细页面抽取具体数据的模型。输入要抽取数据的页面链接地址,点击“Enter”键或“打开”按钮,在界面中渲染出对应的页面,用户可以在页面中通过鼠标点选需要抽出数据的区域,生成抽取模型,如下图所示

其中:

1. 输入链接:输入要抽取数据的页面链接地址。

2. 树形结构:在选取抽取块之后,软件会根据dom结构生成树形关系结构,供用户查看。

3. 选为抽取块:将选中的区域设定为抽取块,抽取块为基本的抽取单元,可以设定相应的属性信息。

4. 清空:清楚已选择的数据块,以便重新创建模型。

5. 测试:对创建的模型测试,对渲染出来的页面进行抽取,并展示抽取结果,供用户查看检查抽取模型是否正确。

6. 测试2:对创建的模型测试,使用http请求的方式,请求链接地址获取页面数据,

7. 保存:将上面创建的模型保存为文件,供抽取时使用。

在页面渲染区点击鼠标右键,会弹出菜单如下:

其中:

1.     选为抽取块:和界面上的按钮“选为抽取块”功能相同。

2.     选为循环块:专门对类似列表型的数据进行抽取。每个循环块需要有一个父级抽取块,或一个父级循环块。一个抽取块下面只能有一个直接的子级循环块,其他的循环块都在这个子级循环块之内。下面会用例子说明。

3.     选为表格块:专门对表格型属性数据进行抽取。表格型属性,即一列属性名对应一列属性值。下面会用例子说明。

4.     修改:点击修改菜单,会弹出数据块属性修改界面。

5.     删除所选:删除鼠标点击位置所在的最内层选择块。

6.     查看源:查看选然后的页面源代码。

点击修改菜单,会弹出相应的属性窗口,如下图所示:

其中,

1.     Names:属性名。如果抽取出的属性有多个,则属性名以半角逗号连接依次拼接。

2.     NameType:属性值类型,多个属性以半角逗号分隔。0:普通文本;1:链接;2:时间;3:数字。软件自动生成,一般不用修改。

3.     NextConfig:对抽取出的数据进一步处理,暂未实现。

4.     RemoveHtml:是否删除抽取结果中的html标记。True为删除,false为不删除,默认为true

5.     ReplaceReg:字符串替换,第一行为正则表达式,第二行为要替换的字符串。可以有多个替换,一行正则一行替换字符串,以此类推。

6.     ReplaceStr:字符串替换,第一行为原字符串,第二行为要替换的字符串。可以有多个替换,一行原字符串一行替换字符串,以此类推。

7.     EndTag:数据块结束字符串,如果有多个,从起始位置开始,在找到上一个的基础上依次往下找,直到结束或找不到,将最后的位置设为结束位。

8.     RegexField:获取数据项使用的正则列表。由软件自动生成,高级用户可自行修改。

9.     RegexList:获取数据项列表使用的正则列表。由软件自动生成,高级用户可自行修改。

10.  RemoveHtmlPre:预处理html,删除注释、脚本、样式表等。如果为True,则先删除后再进行抽取;否则,不删除。默认为true

11.  StartTag:数据块起始字符串,如果有多个,在找到上一个的基础上依次往下找,直到结束或找不到,将最后的位置设为起始位。

12.  XpathBlock:数据块对应的XPath。由软件自动生成,高级用户可自行修改。

13.  XpathField:数据项对应的XPath。由软件自动生成,高级用户可自行修改。

2.1.3         模型创建示例

2.1.3.1       一般数据抽取

以新闻抽取为例,抽取标题、时间、正文,输入页面链接并打开,如下图所示:

1、用鼠标左键选中标题,然后选为抽取块。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示:

其中,属性中的Names设置为Title,其它不用修改。

2、用鼠标左键选中时间,然后选为抽取块。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示:

其中,属性中的Names设置为Time,其它不用修改。

3、用鼠标左键选中正文,然后选为抽取块。鼠标点选的时候可能不能正好选中正文的全部区域,这时可以通过点击界面左下角动态生成的按钮来改变选择范围。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示:

其中,属性中的Names设置为Content,其它不用修改。

以上的步骤完成之后,就可以点击“测试”按钮进行测试,结果如下图所示:

其中,为了方便用户查看,人工格式化了测试结果。

 

2.1.3.2       列表数据抽取

以招聘信息列表数据为例,抽取详情页的链接和标题,输入页面链接并打开,如下图所示:

1、用鼠标左键选取列表数据范围,然后选为抽取块。如下图所示:

2、用鼠标左键选取列表数据中一行的职位名称,然后选为循环块。如下图所示:

然后点击“测试”按钮进行测试,结果如下图所示:

其中,抽取出的数据中,包含了职位名称和职位详情页链接。

 

2.1.3.3       表格属性数据抽取

下面例子展示对表格型属性数据的抽取,输入页面链接并打开,如下图所示:

使用鼠标左键选中其中的表格属性区,然后选为表格块,如下图所示:

然后点击“测试”按钮进行测试,结果如下图所示:

其中,为了方便用户查看,人工格式化了测试结果。

 

2.2      工具菜单

在软件主界面中,点击文“工具”菜单,弹出菜单项如下图所示:

抽正文、抽链接、查看大文本数据是数据采集中常用的工具,这里为了方便用户使用,把这些功能集成在了软件中,下面分别说明。

2.2.1       抽正文

抽正文是对已有的html文件数据进行集中的抽取,抽取结果保存在本地文件中。本功能界面如下图所示:

其中,

1.     html文件夹:选择存放html文件的文件夹。

2.     保存路径:选择抽取出来的数据存放的文件。

3.     抽取模型:选择用于抽取html中数据的模型文件。

4.     线程数:设置执行抽取的线程数。如果想让抽取结果文件中的数据顺序和html文件夹中的文件一致,请将线程数设为1

5.     抽取:点击“抽取”按钮后,软件开始根据模型抽取html中的数据,并将结果保存在配置的文件中。

6.     输入UrlHtml:用于待抽取页面的地址链接或Html源代码。点击“测试”按钮后,会对输入的页面,使用上面配置的模型进行抽取测试。

 

2.2.2       抽链接

抽链接是将html页面中的链接,根据模型抽取出来,如下图所示:

其中,

1.     网址:页面地址链接。页面中的链接为相对路径时,会根据本链接补全抽取出的链接。

2.     抽取模型:配置抽取链接的模型。

3.     Html:配置待抽取的Html源代码。

4.     Url:用户显示抽取出的链接数据。

 

2.2.3       大文本

大文本查看功能,将大文本分页展示,提高加载展示速度,也降低了内存占用。如下图所示:

其中,

1.     选择:点击“选择”按钮,选择要打开的文本文件。

2.     编码:软件会自动探测文件编码格式,如果探测错误,可人工修改。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多