【原】大数据安全分析08_大数据处理框架介绍

微言晓意 2021-05-10

展开全文

大数据安全分析需要支持对接分布式数据库进行离线批处理分析，来实现长周期的网络安全、用户行为、业务安全分析，所以大数据平台首先需要支持批处理模式。

网络流量产生的实时数据往往是高吞吐量的，一个小型Mbps的企业网络，每秒都能产生几千条数据。所以大数据平台必须要能在高吞吐量下做得低延迟的数据分析能力。

无论是离线分析，还是在线分析，使用的方法都会覆盖：黑白名单、规则（CEP）、机器学习算法这三大类。所以大数据平台必须从API层面，就能支持关联分析、CEP规则定义和机器学习算法整合。

▼▼批处理框架Hadoop

Hadoop以及其MapReduce处理引擎提供了一套久经考验的批处理模型，最适合处理对时间要求不高的非常大规模数据集。

通过非常低成本的组件即可搭建完整功能的Hadoop集群，使得这一廉价且高效的处理技术可以灵活应用在很多案例中。

与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础。

对于仅需要批处理的工作负载，如果对时间不敏感，比其他解决方案实现成本更低的Hadoop将会是一个好选择。

▼▼流处理框架Storm

目前来说Storm可能是近实时处理领域的最佳解决方案。该技术可以用极低延迟处理数据，可用于希望获得最低延迟的工作负载。

对于仅需要流处理的工作负载，Storm可支持更广泛的语言并实现极低延迟的处理，但默认配置可能产生重复结果并且无法保证顺序。

由于Storm无法进行批处理，如果需要这些能力可能还需要使用其他软件，不过这种情况下其他流处理框架也许更适合。

▼▼混合处理框架 Spark

使用Spark而非Hadoop MapReduce的主要原因是速度。在内存计算策略和先进的DAG调度等机制的帮助下，Spark可以用更快速度处理相同的数据集。

Spark的另一个重要优势在于多样性。该产品可作为独立集群部署，或与现有Hadoop集群集成。该产品可运行批处理和流处理，运行一个集群即可处理不同类型的任务。

除了引擎自身的能力外，围绕Spark还建立了包含各种库的生态系统，可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce，Spark任务更是“众所周知”地易于编写，因此可大幅提高生产力。

流处理系统采用批处理的方法，需要对进入系统的数据进行缓冲。缓冲机制使得该技术可以处理非常大量的传入数据，提高整体吞吐率，但等待缓冲区清空也会导致延迟增高。这意味着Spark Streaming可能不适合处理对延迟有较高要求的工作负载。

▼▼混合处理框架 Flink

Flink目前是处理框架领域一个独特的技术。Flink是一种可以处理批处理任务的流处理框架。该技术可将批处理数据视作具备有限边界的数据流，借此将批处理任务作为流处理的子集加以处理。

虽然Spark也可以执行批处理和流处理，但Spark的流处理采取的微批架构使其无法适用于很多用例。Flink流处理为先的方法可提供低延迟，高吞吐率，近乎逐项处理的能力。

Flink提供了低延迟流处理，同时可支持传统的批处理任务。Flink也许最适合有极高流处理需求，并有少量批处理任务的组织。该技术可兼容原生Storm和Hadoop程序，可在YARN管理的集群上运行，因此可以很方便地进行评估。快速进展的开发工作使其值得被大家关注。

扩展 · 本文相关链接

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：微言晓意 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

微言晓意

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换