在各种Web抓取工具中,开源Web抓取工具允许用户根据其源代码或框架进行编码,并为快速,简单但广泛的方式帮助抓取提供了大量支持。 我们将在2019年浏览十大开源Web抓取工具。 1. Scrapy 2. Heritrix 3. Web-Harvest 4. MechanicalSoup 5. Apify SDK 6. Apache Nutch 7. Jaunt 8. Node-crawler 9. PySpider 10. StormCrawler 1. Scrapy 语言:Python Scrapy是Python中最流行的开源和协作式Web抓取工具。它有助于从网站上高效地提取数据,根据需要对其进行处理,并以您喜欢的格式(JSON,XML和CSV)进行存储。它建立在扭曲的异步网络框架之上,该框架可以接受请求并更快地处理请求。使用Scrapy,您将能够以高效灵活的方式处理大型Web抓取项目。 好处:
2. Heritrix 语言:JAVA Heritrix是基于JAVA的开源扩展程序,具有高度可扩展性,并且设计用于Web归档。它高度尊重robot.txt排除指令和Meta机器人标签,并以不影响正常网站活动的可衡量的自适应速度收集数据。它提供了基于Web的用户界面,可通过Web浏览器访问该界面,以便操作员控制和监视爬网。 好处:
3. 网络收获 语言:JAVA Web-Harvest是用Java编写的开源刮板。它可以从指定页面收集有用的数据。为此,它主要利用诸如XSLT,XQuery和正则表达式之类的技术来操作或过滤基于HTML / XML的网站中的内容。可以通过自定义Java库轻松对其进行补充,以增强其提取功能。 好处:
4. 机械汤 语言:Python MechanicalSoup是一个Python库,旨在模拟人在使用浏览器时与网站的交互。它是围绕Python巨人的Requests(用于http会话)和BeautifulSoup (用于文档导航)构建的。它会自动存储和发送cookie,跟随重定向,跟随链接并提交表单。如果您尝试模拟人类行为,例如等待某个事件或单击某些项目,而不仅仅是抓取数据,那么MechanicalSoup真的很有用。 好处:
5. 验证SDK 语言:JavaScript Apify SDK是内置JavaScript的最佳Web抓取工具之一。可扩展的抓取库可使用无头Chrome和Puppeteer开发数据提取和Web自动化作业。借助其独特的强大工具(例如RequestQueue和AutoscaledPool),您可以从几个URL开始,然后递归地链接到其他页面的链接,并分别以系统的最大容量运行抓取任务。 好处:
6. Apache Nutch 语言:JAVA Apache Nutch是另一个完全用Java编写的开源刮板,它具有高度模块化的体系结构,允许开发人员创建用于媒体类型分析,数据检索,查询和群集的插件。Nutch是可插拔和模块化的,还为自定义实现提供了可扩展的接口。 好处:
7. Jaunt 语言:JAVA 基于JAVA的Jaunt专为网络抓取,网络自动化和JSON查询而设计。它提供了一种快速,超轻巧,无头的浏览器,该浏览器提供了网页抓取功能,对DOM的访问以及对每个HTTP请求/响应的控制,但不支持JavaScript。 好处:
8. 节点搜寻器 语言:JavaScript Node-crawler是基于Node.js的功能强大,流行和生产的Web搜寻器。它完全用Node.js编写,并且本机支持非阻塞异步I / O,这为搜寻器的管道操作机制提供了极大的便利。同时,它支持DOM的快速选择(无需编写正则表达式),并提高了搜寻器开发的效率。 好处:
9. PySpider 语言:Python PySpider是Python中功能强大的网络爬虫系统。它具有易于使用的Web UI和 具有诸如调度程序,提取程序和处理器之类的组件的分布式体系结构。它支持各种数据库(例如 MongoDB 和 MySQL)进行数据存储。 好处:
10. StormCrawler 语言:JAVA StormCrawler是成熟的开源Web搜寻器。它由可重复使用的资源和组件组成,这些资源和组件主要用Java编写。它用于在Java中构建低延迟,可扩展和优化的Web抓取解决方案,也非常适合用于输入流,其中URL通过流发送以进行爬网。 好处:
开源Web抓取工具功能强大且可扩展,但仅限于开发人员。有很多非编码工具,例如Octoparse, 使抓取不再是开发人员的特权。如果您不熟悉编程,那么这些工具将更适合您,并且使抓取变得容易。 |
|