大数据分享：Top10的开源Web抓取工具

xxcc140 2019-10-03

展开全文

web爬行器是一种工具或一段代码，执行处理，以提取从因特网上的网页上的数据。各种Web抓取工具在大数据的繁荣中发挥了重要作用，并使人们轻松抓取所需的数据。
作者：伊娜

在各种Web抓取工具中，开源Web抓取工具允许用户根据其源代码或框架进行编码，并为快速，简单但广泛的方式帮助抓取提供了大量支持。我们将在2019年浏览十大开源Web抓取工具。

1. Scrapy

2. Heritrix

3. Web-Harvest

4. MechanicalSoup

5. Apify SDK

6. Apache Nutch

7. Jaunt

8. Node-crawler

9. PySpider

10. StormCrawler

1. Scrapy

大数据分享：Top10的开源Web抓取工具

语言：Python

Scrapy是Python中最流行的开源和协作式Web抓取工具。它有助于从网站上高效地提取数据，根据需要对其进行处理，并以您喜欢的格式（JSON，XML和CSV）进行存储。它建立在扭曲的异步网络框架之上，该框架可以接受请求并更快地处理请求。使用Scrapy，您将能够以高效灵活的方式处理大型Web抓取项目。

好处：

快速而强大
易于使用的详细文档
无需接触核心即可插入新功能的能力
健康的社区和丰富的资源
云环境下运行刮板

2. Heritrix

语言：JAVA

Heritrix是基于JAVA的开源扩展程序，具有高度可扩展性，并且设计用于Web归档。它高度尊重robot.txt排除指令和Meta机器人标签，并以不影响正常网站活动的可衡量的自适应速度收集数据。它提供了基于Web的用户界面，可通过Web浏览器访问该界面，以便操作员控制和监视爬网。

好处：

可更换的可插拔模块
基于Web的界面
尊重robot.txt和元机器人标签
出色的可扩展性

3. 网络收获

语言：JAVA

Web-Harvest是用Java编写的开源刮板。它可以从指定页面收集有用的数据。为此，它主要利用诸如XSLT，XQuery和正则表达式之类的技术来操作或过滤基于HTML / XML的网站中的内容。可以通过自定义Java库轻松对其进行补充，以增强其提取功能。

大数据分享：Top10的开源Web抓取工具

好处：

强大的文本和XML操作处理器，用于数据处理和控制流
用于存储和使用变量的变量上下文
支持真实的脚本语言，可以轻松地将其集成到刮板配置中

4. 机械汤

大数据分享：Top10的开源Web抓取工具

语言：Python

MechanicalSoup是一个Python库，旨在模拟人在使用浏览器时与网站的交互。它是围绕Python巨人的Requests（用于http会话）和BeautifulSoup （用于文档导航）构建的。它会自动存储和发送cookie，跟随重定向，跟随链接并提交表单。如果您尝试模拟人类行为，例如等待某个事件或单击某些项目，而不仅仅是抓取数据，那么MechanicalSoup真的很有用。

好处：

模拟人类行为的能力
快速抓取相当简单的网站
支持CSS和XPath选择器

5. 验证SDK

大数据分享：Top10的开源Web抓取工具

语言：JavaScript

Apify SDK是内置JavaScript的最佳Web抓取工具之一。可扩展的抓取库可使用无头Chrome和Puppeteer开发数据提取和Web自动化作业。借助其独特的强大工具（例如RequestQueue和AutoscaledPool），您可以从几个URL开始，然后递归地链接到其他页面的链接，并分别以系统的最大容量运行抓取任务。

好处：