一业数据采集器

昵称55712980 2018-09-04

展开全文

一业网页数据采集器简介及用户手册

1 简介

一业网页数据采集器软件是为了方便个人用户采集网络数据，设计开发的一个网页数据采集器，主要功能包括：链接生成、数据下载、数据抽取和抽取模型创建工具。其中对抽取模型的创建，是通过渲染展示出页面，由用户通过点选的方式进行配置，极大的降低了用户的使用难度。

对普通用户来说，一般采集目标比较明确，但是要么采集的数据数量相对较小，在百万级一下；要么采集频率比较低，不到每周一次。另外，一般用户也没有编写采集软件的能力，既是有，对于数据的抽取处理也是比较麻烦的事情。基于此，一业网页数据采集器软件将下载分成五个简单的步骤，使普通用户能够快速的掌握使用方法，完成较高难度的数据采集工作。五个步骤的内容如下：

1. 配置列表页面链接。

2. 配置链接抽取模型。

3. 配置详情页面链接。

4. 配置详情页面抽取模型。

5. 执行下载。

一业网页数据采集器软件把采集把采集内容分成两个部分：对列表页数据的采集和对详情页数据的采集。列表页包含了详情页的链接地址，采集列表页其实是为了获取详情页的链接地址。这样划分简化了软件逻辑的复杂度，也更容易让用户理解和使用。

随着信息化、网络化、人工智能等技术的发展，越来越多的人或多或少的需要采集网络数据，供工作、学习、研究等使用。一业网页数据采集器软件就是为了让普通用户简便的、快速的、高质量的采集到所需要数据。

2 主要功能

2.1 软件主要功能界面

2.1.1 软件主界面

双击可执行文件，打开软件，进入主界面

本界面是软件的主界面，主要用于配置下载页面的链接、抽取模型等。界面中各输入项的说明如下：

1．列表页面链接：配置要采集数据的列表页面，页面中包含详细信息页面地址的列表。其中：配置的链接将被保存在软件根目录下的file\url\url_config_list.txt文件中，可以手工修改这个文件。这里配置的是列表页面的链接，抽取出其中的链接以继续下载。
可以使用高级语法：输入 http:///[1:100] 来爬取 1 至 100 共 100 个页面。输入 http:///[10:100:10] 来爬取 10、20、30、...、100 等共 10 个页面，数字每次递增 10。输入 http:///[3:15:2]s[1:100] 来爬取 3s1 至 15s99 共 7x100 = 700 个页面。

点击后面的“批量添加”按钮，进入批量添加链接页面。如果已经有了入口链接数据列表，可以通过此功能将其加入软件配置。

2．链接抽取模型：使用模型确定需要抽取的链接，如果此处不配置抽取模型，则作为列表页面自动抽取链接。此处的模型会抽取由列表页面链接配置下载的html页面，抽取出的链接数据保存在详情页面链接中。

3．详情页面链接：配置详情页面链接，页面中包含用户最终需要的数据。配置的链接将被保存在软件根目录下的file\url\url_data_mid.txt文件中，可以手工修改这个文件。支持高级语法。第一步中抽取出的url也会保存在这里。所以如果配置了第一步的链接数据，此处可以不用配置。

点击后面的“批量添加”按钮，进入批量添加链接页面。如果已经有了详情页链接数据列表，可以通过此功能将其加入软件配置。

4．详情页面抽取模型：配置抽取正文数据的模型，抽取出的数据为用户最终需要的数据。

5．执行普通下载：点击按钮，软件会根据配置，以发送http请求的方式下载数据。

6．执行渲染下载：点击按钮，软件会根据配置，以浏览器渲染的形式下载页面。

7．暂停：点击按钮，软件会暂停当前的下载，下次下载会继续执行未下载的配置数据。

8．渲染测试：点击按钮，进入渲染采集测试页面。对于高级用户，渲染采集可以加入自己的javascript脚本逻辑。这个时候需要对javascript脚本进行测试，就会用到这个功能。

从主界面中点击“批量添加”按钮，进入批量添加界面。主界面有两个“批量添加”按钮，分别进入“批量添加入口页面链接”和“批量添加详细页面链接”界面，如下图示

其中，每行一个链接，点击“保存”按钮，保存配置的链接后返回；点击“关闭”按钮，则不保存其中的链接，直接返回。

2.1.2 创建模型界面

本界面用户创建抽取模型，包括列表页面抽取详细链接的模型和详细页面抽取具体数据的模型。输入要抽取数据的页面链接地址，点击“Enter”键或“打开”按钮，在界面中渲染出对应的页面，用户可以在页面中通过鼠标点选需要抽出数据的区域，生成抽取模型，如下图所示

其中：

1．输入链接：输入要抽取数据的页面链接地址。

2．树形结构：在选取抽取块之后，软件会根据dom结构生成树形关系结构，供用户查看。

3．选为抽取块：将选中的区域设定为抽取块，抽取块为基本的抽取单元，可以设定相应的属性信息。

4．清空：清楚已选择的数据块，以便重新创建模型。

5．测试：对创建的模型测试，对渲染出来的页面进行抽取，并展示抽取结果，供用户查看检查抽取模型是否正确。

6．测试2：对创建的模型测试，使用http请求的方式，请求链接地址获取页面数据，

7．保存：将上面创建的模型保存为文件，供抽取时使用。

在页面渲染区点击鼠标右键，会弹出菜单如下：

其中：

1. 选为抽取块：和界面上的按钮“选为抽取块”功能相同。

2. 选为循环块：专门对类似列表型的数据进行抽取。每个循环块需要有一个父级抽取块，或一个父级循环块。一个抽取块下面只能有一个直接的子级循环块，其他的循环块都在这个子级循环块之内。下面会用例子说明。

3. 选为表格块：专门对表格型属性数据进行抽取。表格型属性，即一列属性名对应一列属性值。下面会用例子说明。

4. 修改：点击修改菜单，会弹出数据块属性修改界面。

5. 删除所选：删除鼠标点击位置所在的最内层选择块。

6. 查看源：查看选然后的页面源代码。

点击修改菜单，会弹出相应的属性窗口，如下图所示：

其中，

1. Names：属性名。如果抽取出的属性有多个，则属性名以半角逗号连接依次拼接。

2. NameType：属性值类型，多个属性以半角逗号分隔。0：普通文本；1：链接；2：时间；3：数字。软件自动生成，一般不用修改。

3. NextConfig：对抽取出的数据进一步处理，暂未实现。

4. RemoveHtml：是否删除抽取结果中的html标记。True为删除，false为不删除，默认为true。

5. ReplaceReg：字符串替换，第一行为正则表达式，第二行为要替换的字符串。可以有多个替换，一行正则一行替换字符串，以此类推。

6. ReplaceStr：字符串替换，第一行为原字符串，第二行为要替换的字符串。可以有多个替换，一行原字符串一行替换字符串，以此类推。

7. EndTag：数据块结束字符串，如果有多个，从起始位置开始，在找到上一个的基础上依次往下找，直到结束或找不到，将最后的位置设为结束位。

8. RegexField：获取数据项使用的正则列表。由软件自动生成，高级用户可自行修改。

9. RegexList：获取数据项列表使用的正则列表。由软件自动生成，高级用户可自行修改。

10. RemoveHtmlPre：预处理html，删除注释、脚本、样式表等。如果为True，则先删除后再进行抽取；否则，不删除。默认为true。

11. StartTag：数据块起始字符串，如果有多个，在找到上一个的基础上依次往下找，直到结束或找不到，将最后的位置设为起始位。

12. XpathBlock：数据块对应的XPath。由软件自动生成，高级用户可自行修改。

13. XpathField：数据项对应的XPath。由软件自动生成，高级用户可自行修改。

2.1.3 模型创建示例

2.1.3.1 一般数据抽取

以新闻抽取为例，抽取标题、时间、正文，输入页面链接并打开，如下图所示：

1、用鼠标左键选中标题，然后选为抽取块。选为抽取块后，在其上点击鼠标右键，选择“修改”菜单，修改数据块的属性信息，如下图所示：

其中，属性中的Names设置为Title，其它不用修改。

2、用鼠标左键选中时间，然后选为抽取块。选为抽取块后，在其上点击鼠标右键，选择“修改”菜单，修改数据块的属性信息，如下图所示：

其中，属性中的Names设置为Time，其它不用修改。

3、用鼠标左键选中正文，然后选为抽取块。鼠标点选的时候可能不能正好选中正文的全部区域，这时可以通过点击界面左下角动态生成的按钮来改变选择范围。选为抽取块后，在其上点击鼠标右键，选择“修改”菜单，修改数据块的属性信息，如下图所示：

其中，属性中的Names设置为Content，其它不用修改。

以上的步骤完成之后，就可以点击“测试”按钮进行测试，结果如下图所示：

其中，为了方便用户查看，人工格式化了测试结果。

2.1.3.2 列表数据抽取

以招聘信息列表数据为例，抽取详情页的链接和标题，输入页面链接并打开，如下图所示：

1、用鼠标左键选取列表数据范围，然后选为抽取块。如下图所示：

2、用鼠标左键选取列表数据中一行的职位名称，然后选为循环块。如下图所示：

然后点击“测试”按钮进行测试，结果如下图所示：

其中，抽取出的数据中，包含了职位名称和职位详情页链接。

2.1.3.3 表格属性数据抽取

下面例子展示对表格型属性数据的抽取，输入页面链接并打开，如下图所示：

使用鼠标左键选中其中的表格属性区，然后选为表格块，如下图所示：

然后点击“测试”按钮进行测试，结果如下图所示：

其中，为了方便用户查看，人工格式化了测试结果。

2.2 工具菜单

在软件主界面中，点击文“工具”菜单，弹出菜单项如下图所示：

抽正文、抽链接、查看大文本数据是数据采集中常用的工具，这里为了方便用户使用，把这些功能集成在了软件中，下面分别说明。

2.2.1 抽正文

抽正文是对已有的html文件数据进行集中的抽取，抽取结果保存在本地文件中。本功能界面如下图所示：

其中，

1. html文件夹：选择存放html文件的文件夹。

2. 保存路径：选择抽取出来的数据存放的文件。

3. 抽取模型：选择用于抽取html中数据的模型文件。

4. 线程数：设置执行抽取的线程数。如果想让抽取结果文件中的数据顺序和html文件夹中的文件一致，请将线程数设为1。

5. 抽取：点击“抽取”按钮后，软件开始根据模型抽取html中的数据，并将结果保存在配置的文件中。

6. 输入Url或Html：用于待抽取页面的地址链接或Html源代码。点击“测试”按钮后，会对输入的页面，使用上面配置的模型进行抽取测试。

2.2.2 抽链接

抽链接是将html页面中的链接，根据模型抽取出来，如下图所示：

其中，

1. 网址：页面地址链接。页面中的链接为相对路径时，会根据本链接补全抽取出的链接。

2. 抽取模型：配置抽取链接的模型。

3. Html：配置待抽取的Html源代码。

4. Url：用户显示抽取出的链接数据。

2.2.3 大文本

大文本查看功能，将大文本分页展示，提高加载展示速度，也降低了内存占用。如下图所示：

其中，

1. 选择：点击“选择”按钮，选择要打开的文本文件。

2. 编码：软件会自动探测文件编码格式，如果探测错误，可人工修改。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昵称55712980 > 《文件夹1》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

昵称55712980

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换