一业网页数据采集器简介及用户手册 1 简介一业网页数据采集器软件是为了方便个人用户采集网络数据,设计开发的一个网页数据采集器,主要功能包括:链接生成、数据下载、数据抽取和抽取模型创建工具。其中对抽取模型的创建,是通过渲染展示出页面,由用户通过点选的方式进行配置,极大的降低了用户的使用难度。 对普通用户来说,一般采集目标比较明确,但是要么采集的数据数量相对较小,在百万级一下;要么采集频率比较低,不到每周一次。另外,一般用户也没有编写采集软件的能力,既是有,对于数据的抽取处理也是比较麻烦的事情。基于此,一业网页数据采集器软件将下载分成五个简单的步骤,使普通用户能够快速的掌握使用方法,完成较高难度的数据采集工作。五个步骤的内容如下: 1. 配置列表页面链接。 2. 配置链接抽取模型。 3. 配置详情页面链接。 4. 配置详情页面抽取模型。 5. 执行下载。 一业网页数据采集器软件把采集把采集内容分成两个部分:对列表页数据的采集和对详情页数据的采集。列表页包含了详情页的链接地址,采集列表页其实是为了获取详情页的链接地址。这样划分简化了软件逻辑的复杂度,也更容易让用户理解和使用。 随着信息化、网络化、人工智能等技术的发展,越来越多的人或多或少的需要采集网络数据,供工作、学习、研究等使用。一业网页数据采集器软件就是为了让普通用户简便的、快速的、高质量的采集到所需要数据。
2 主要功能2.1 软件主要功能界面2.1.1 软件主界面双击可执行文件,打开软件,进入主界面 本界面是软件的主界面,主要用于配置下载页面的链接、抽取模型等。界面中各输入项的说明如下: 1. 列表页面链接:配置要采集数据的列表页面,页面中包含详细信息页面地址的列表。其中:配置的链接将被保存在软件根目录下的file\url\url_config_list.txt文件中,可以手工修改这个文件。这里配置的是列表页面的链接,抽取出其中的链接以继续下载。 点击后面的“批量添加”按钮,进入批量添加链接页面。如果已经有了入口链接数 据列表,可以通过此功能将其加入软件配置。 2. 链接抽取模型:使用模型确定需要抽取的链接,如果此处不配置抽取模型,则作为列表页面自动抽取链接。此处的模型会抽取由列表页面链接配置下载的html页面,抽取出的链接数据保存在详情页面链接中。 3. 详情页面链接:配置详情页面链接,页面中包含用户最终需要的数据。配置的链接将被保存在软件根目录下的file\url\url_data_mid.txt文件中,可以手工修改这个文件。支持高级语法。第一步中抽取出的url也会保存在这里。所以如果配置了第一步的链接数据,此处可以不用配置。 点击后面的“批量添加”按钮,进入批量添加链接页面。如果已经有了详情页链接 数据列表,可以通过此功能将其加入软件配置。 4. 详情页面抽取模型:配置抽取正文数据的模型,抽取出的数据为用户最终需要的数据。 5. 执行普通下载:点击按钮,软件会根据配置,以发送http请求的方式下载数据。 6. 执行渲染下载:点击按钮,软件会根据配置,以浏览器渲染的形式下载页面。 7. 暂停:点击按钮,软件会暂停当前的下载,下次下载会继续执行未下载的配置数据。 8. 渲染测试:点击按钮,进入渲染采集测试页面。对于高级用户,渲染采集可以加入自己的javascript脚本逻辑。这个时候需要对javascript脚本进行测试,就会用到这个功能。 从主界面中点击“批量添加”按钮,进入批量添加界面。主界面有两个“批量添加”按钮,分别进入“批量添加入口页面链接”和“批量添加详细页面链接”界面,如下图示 其中,每行一个链接,点击“保存”按钮,保存配置的链接后返回;点击“关闭”按钮,则不保存其中的链接,直接返回。
2.1.2 创建模型界面本界面用户创建抽取模型,包括列表页面抽取详细链接的模型和详细页面抽取具体数据的模型。输入要抽取数据的页面链接地址,点击“Enter”键或“打开”按钮,在界面中渲染出对应的页面,用户可以在页面中通过鼠标点选需要抽出数据的区域,生成抽取模型,如下图所示 其中: 1. 输入链接:输入要抽取数据的页面链接地址。 2. 树形结构:在选取抽取块之后,软件会根据dom结构生成树形关系结构,供用户查看。 3. 选为抽取块:将选中的区域设定为抽取块,抽取块为基本的抽取单元,可以设定相应的属性信息。 4. 清空:清楚已选择的数据块,以便重新创建模型。 5. 测试:对创建的模型测试,对渲染出来的页面进行抽取,并展示抽取结果,供用户查看检查抽取模型是否正确。 6. 测试2:对创建的模型测试,使用http请求的方式,请求链接地址获取页面数据, 7. 保存:将上面创建的模型保存为文件,供抽取时使用。 在页面渲染区点击鼠标右键,会弹出菜单如下: 其中: 1. 选为抽取块:和界面上的按钮“选为抽取块”功能相同。 2. 选为循环块:专门对类似列表型的数据进行抽取。每个循环块需要有一个父级抽取块,或一个父级循环块。一个抽取块下面只能有一个直接的子级循环块,其他的循环块都在这个子级循环块之内。下面会用例子说明。 3. 选为表格块:专门对表格型属性数据进行抽取。表格型属性,即一列属性名对应一列属性值。下面会用例子说明。 4. 修改:点击修改菜单,会弹出数据块属性修改界面。 5. 删除所选:删除鼠标点击位置所在的最内层选择块。 6. 查看源:查看选然后的页面源代码。 点击修改菜单,会弹出相应的属性窗口,如下图所示: 其中, 1. Names:属性名。如果抽取出的属性有多个,则属性名以半角逗号连接依次拼接。 2. NameType:属性值类型,多个属性以半角逗号分隔。0:普通文本;1:链接;2:时间;3:数字。软件自动生成,一般不用修改。 3. NextConfig:对抽取出的数据进一步处理,暂未实现。 4. RemoveHtml:是否删除抽取结果中的html标记。True为删除,false为不删除,默认为true。 5. ReplaceReg:字符串替换,第一行为正则表达式,第二行为要替换的字符串。可以有多个替换,一行正则一行替换字符串,以此类推。 6. ReplaceStr:字符串替换,第一行为原字符串,第二行为要替换的字符串。可以有多个替换,一行原字符串一行替换字符串,以此类推。 7. EndTag:数据块结束字符串,如果有多个,从起始位置开始,在找到上一个的基础上依次往下找,直到结束或找不到,将最后的位置设为结束位。 8. RegexField:获取数据项使用的正则列表。由软件自动生成,高级用户可自行修改。 9. RegexList:获取数据项列表使用的正则列表。由软件自动生成,高级用户可自行修改。 10. RemoveHtmlPre:预处理html,删除注释、脚本、样式表等。如果为True,则先删除后再进行抽取;否则,不删除。默认为true。 11. StartTag:数据块起始字符串,如果有多个,在找到上一个的基础上依次往下找,直到结束或找不到,将最后的位置设为起始位。 12. XpathBlock:数据块对应的XPath。由软件自动生成,高级用户可自行修改。 13. XpathField:数据项对应的XPath。由软件自动生成,高级用户可自行修改。 2.1.3 模型创建示例2.1.3.1 一般数据抽取以新闻抽取为例,抽取标题、时间、正文,输入页面链接并打开,如下图所示: 1、用鼠标左键选中标题,然后选为抽取块。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示: 其中,属性中的Names设置为Title,其它不用修改。 2、用鼠标左键选中时间,然后选为抽取块。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示: 其中,属性中的Names设置为Time,其它不用修改。 3、用鼠标左键选中正文,然后选为抽取块。鼠标点选的时候可能不能正好选中正文的全部区域,这时可以通过点击界面左下角动态生成的按钮来改变选择范围。选为抽取块后,在其上点击鼠标右键,选择“修改”菜单,修改数据块的属性信息,如下图所示: 其中,属性中的Names设置为Content,其它不用修改。 以上的步骤完成之后,就可以点击“测试”按钮进行测试,结果如下图所示: 其中,为了方便用户查看,人工格式化了测试结果。
2.1.3.2 列表数据抽取以招聘信息列表数据为例,抽取详情页的链接和标题,输入页面链接并打开,如下图所示: 1、用鼠标左键选取列表数据范围,然后选为抽取块。如下图所示: 2、用鼠标左键选取列表数据中一行的职位名称,然后选为循环块。如下图所示: 然后点击“测试”按钮进行测试,结果如下图所示: 其中,抽取出的数据中,包含了职位名称和职位详情页链接。
2.1.3.3 表格属性数据抽取下面例子展示对表格型属性数据的抽取,输入页面链接并打开,如下图所示: 使用鼠标左键选中其中的表格属性区,然后选为表格块,如下图所示: 然后点击“测试”按钮进行测试,结果如下图所示:
2.2 工具菜单在软件主界面中,点击文“工具”菜单,弹出菜单项如下图所示: 抽正文、抽链接、查看大文本数据是数据采集中常用的工具,这里为了方便用户使用,把这些功能集成在了软件中,下面分别说明。 2.2.1 抽正文抽正文是对已有的html文件数据进行集中的抽取,抽取结果保存在本地文件中。本功能界面如下图所示: 其中, 1. html文件夹:选择存放html文件的文件夹。 2. 保存路径:选择抽取出来的数据存放的文件。 3. 抽取模型:选择用于抽取html中数据的模型文件。 4. 线程数:设置执行抽取的线程数。如果想让抽取结果文件中的数据顺序和html文件夹中的文件一致,请将线程数设为1。 5. 抽取:点击“抽取”按钮后,软件开始根据模型抽取html中的数据,并将结果保存在配置的文件中。 6. 输入Url或Html:用于待抽取页面的地址链接或Html源代码。点击“测试”按钮后,会对输入的页面,使用上面配置的模型进行抽取测试。
2.2.2 抽链接抽链接是将html页面中的链接,根据模型抽取出来,如下图所示: 其中, 1. 网址:页面地址链接。页面中的链接为相对路径时,会根据本链接补全抽取出的链接。 2. 抽取模型:配置抽取链接的模型。 3. Html:配置待抽取的Html源代码。 4. Url:用户显示抽取出的链接数据。
2.2.3 大文本大文本查看功能,将大文本分页展示,提高加载展示速度,也降低了内存占用。如下图所示: 其中, 1. 选择:点击“选择”按钮,选择要打开的文本文件。 2. 编码:软件会自动探测文件编码格式,如果探测错误,可人工修改。 |
|
来自: 昵称55712980 > 《文件夹1》