「Flink」理解流式处理重要概念

python_lover 2020-11-24

展开全文

什么是流式处理呢？

这个问题其实我们大部分时候是没有考虑过的，大多数，我们是把流式处理和实时计算放在一起来说的。我们先来了解下，什么是数据流。

数据流（事件流）

数据流是无边界数据集的抽象

我们之前接触的数据处理，大多都都是有界的。例如：处理某天的数据、某个季度的数据等
无界意味着数据是无限地、持续增长的
数据流会随着时间的推移，源源不断地加入进来

数据流无处不再

信息卡交易
电商购物
快递
网络交换机的流向数据
设备传感器发出的数据
…
这些数据都是无穷无尽的
每一件事情，都可以看成事件序列

数据流是有序的

数据的到来总是有个先后顺序

数据流是不可变的

事件一旦发生，就不能被改变
它陈述了某一个时刻的事实

数据流是可以重播的

为了处理的一些问题、纠正过去的错误，可以重跑数据流
借助于Kafka，我们可以重新消费几个月之前的原始数据流

流式处理

流式处理就是指实时地处理一个或多个事件流。它是一种编程范式。其他编程领域，主要有3种编程范式：

请求与响应

延迟最小的一种方式，响应时间要求亚毫秒级到毫秒之间
响应时间一般分稳定
发出请求，等待响应（大部分的JavaEE同学，都是开发这一类编程范式的应用），其实就是OLTP

批处理

特点：高延迟、高吞吐
一般是固定某个时刻开始启动执行，读取所有的数据，然后输出接口
每次读取到的都是旧数据
主要应用在DWH或BI中

流式处理

特点：介于上述两者之间
流式处理可以让业务报告保持更新，持续响应

流的定义不依赖某个框架，只要储蓄从一个无边界数据集中读取数据，并对它们进行处理生成结果，就是进行流式处理。重点是：整个过程必须是持续的。

流式处理中的时间

上述我们已经说过了，数据流都是有序的。某一时刻的数据是确定的。时间是流式处理中非常重要的概念。大部分流式应用的操作都是基于时间窗口的。

流式系统一般包含以下几个时间概念（熟悉Flink的同学应该会很熟悉）：

事件时间（Eventtime）

事件实际发生的时间
用户一般只对事件发生时间感兴趣

日志追加时间

日志追加时间是指事件保存到事件存储源的时间
例如：数据是什么到达Kafka的（Kafka是可以启用自动添加时间戳功能的）

处理时间

流式处理应用接收到事件后，要对齐进行处理的时间
处理时间取决于流式处理应用何时读取到这个时间
如果应用程序使用了两个线程来读取同一个事件，这个时间戳可能会不一样
这个时间戳非常不可靠，应该避免使用它

状态

如果流式处理是来一个事件就处理一个事件，那么流式处理就很简单。但如果操作中包含了多个事件，流式处理就有意思了。例如：我们想在流式处理中统计北京用户的订单数量、消费金额等等。此时，就不能光处理单个事件了，我们需要获取更多的事件。事件与事件之间的信息就称之为状态。例如简单的，求某个类型的订单数等。

这些状态一般就保存在流式处理程序本地变量（本地内存）中，例如：使用HashMap来保存计数。但这种做法是很不可靠的，流式处理处理的是无界数据集，一旦应用程序出现异常，就会出现状态丢失，这是我们说不能接受的。所以，每一种流式计算框架都会很小心地持久化状态。如果应用程序重启，需要将这些数据恢复。

流式处理一般包含两种状态：

本地状态

这种状态只能被应用程序实例访问（不过Flink 1.9版本是可以外部来访问本地状态的）
内嵌到应用程序的数据库中进行维护和管理
特点：速度快，但受内存大小的限制，所以，很多流式处理系统都将数据拆分到多个子流中处理

外部状态

用外部存储来处理，一般使用NoSQL系统，例如：Cassadra
特点：没有大小限制，可以被应用程序多个实例访问、甚至外部应用访问，但引入额外的系统会造成延迟、复杂性（例如：要维护内部和外部状态一致性问题）

时间窗口

大部分针对流的操作都是基于时间窗口的。例如：计算一周内销量最好的产品。两个流的合并也是基于时间窗口的。流式系统会合并发生在相同时间段上的事件。窗口是有类型的。以下几点是我们设计窗口需要考虑的：

窗口的大小

是基于5分钟计算还是基于15分钟、甚至是一天
窗口越小，就能越快地发现变更，不过噪声也就越多
窗口越大，变更就跟平滑，不过延迟也越严重

窗口的移动频率（移动间隔）

5分钟的窗口，可以1分钟计算一次，或者每秒钟计算一次，或者每当有新事件到达时计算一次
如果“移动频率”与窗口大小相等，这种称为滚动窗口（tumbling window）
如果窗口随着每一条记录移动，这种情况称为滑动窗口（sliding window）

窗口的可更新时长

假设：计算了 00:00 – 00:05 之间的订单总数，一个小时后，又得到了一些“事件时间”是 00:02的事件（例如：因为网络通信故障，这个消息晚到了一段时间），这种情况，是否需要更新 00:00 – 00:05 这个窗口的结果呢？或者就不处理了？
理想情况下，可以定义一个时间段，只要在这个时间段内，事件可以被添加到对应的时间片段里。例如：如果事件处于4个小时以内，就更新，否则，就忽略掉。