分享

数据流

 Sophia_Study 2021-10-20

什么是数据流?

https://www./50974

流处理

https://www./53767

数据流的基本概念

https://blog.csdn.net/chengjianghao/article/details/82776610

总结:

1) 数据流:

一组有序,有起点和终点的字节的数据序列。包括输入流和输出流。

2) 输入流(Input Stream):

程序从输入流读取数据源。数据源包括外界(键盘、文件、网络…),即是将数据源读入到程序的通信通道

** 3) 输出流:

程序向输出流写入数据。将程序中的数据输出到外界(显示器、打印机、文件、网络…)的通信通道。

采用数据流的目的就是使得输出输入独立于设备。

Input Stream不关心数据源来自何种设备(键盘,文件,网络)Output Stream不关心数据的目的是何种设备(键盘,文件,网络)

传统上,数据是分批移动的。 批处理通常同时处理大量数据,具有长时间的延迟。 例如,该过程每24小时运行一次。 虽然这可以是处理大量数据的有效方法,但它不适用于要流式传输的数据,因为数据在处理时可能是陈旧的。

数据流是时间序列和随时间检测模式的最佳选择。 例如,跟踪Web会话的长度。 大多数物联网数据非常适合数据流。 交通传感器,健康传感器,交易日志和活动日志等都是数据流的理想选择。

此流数据通常用于实时聚合和关联,过滤或采样。 通过数据流,您可以实时分析数据,并深入了解各种活动,例如计量,服务器活动,设备地理位置或网站点击。

————————————————

流式数据分析 https://blog.csdn.net/HeatDeath/article/details/78986025

互联网企业常常需要面对这样的需求,管理员需要了解服务器的负载、网络traffic、磁盘IO等等状态信息,决策人员需要实时地获知站点交易下单笔数、交易总金额、PV、UV等业务数据。这些都是源源不断产生的流式数据,并且需要给用户实时响应计算结果,对于这种场景来说,尽管MapReduce可以作一些实时性方面的改进,但仍很难稳定地满足需求。

流式数据的特征是数据会源源不断的从各个地方汇集过来,来源众多,格式复杂,数据量巨大,对于流式数据的处理,有这样的一种观点,即数据的价值将随着时间的流逝而降低,因此数据生成后最好能够尽快的进行处理,实时的响应计算结果,而非等到数据累积以后再定期地进行处理,这样,对应的数据处理工具必须具备高性能,实时性,分布式和易用性几个特征

————————————————

大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为史大数据,流式大数据又被称为实时大数据

复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。

基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。

基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。

————————————————

http://www./article-905-1.html

详解什么是数据流

https://www./article/1883

数据流

https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B5%81

流数据特点:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息

快速持续到达;

来源多,格式复杂;

数据量大,但不关心存储;

注重整体价值;

顺序颠倒或不完整;

数据的价值随着时间的流逝而降低;

流计算系统要求:

高性能

海量式

实时性

分布式

易用性

可靠性

算框架:

商业级:IBM InfoSphere Streams;IBM StramBase(用于银行);

开源流计算框架:Twitter Storm;Yahoo! S4;

公司自行开发:Facebook Puma;Dstream(百度);银河流数据处理平台(淘宝)

————————————————

流数据处理过程:

数据实时采集;数据实时计算;数据实时查询服务;

数据实时采集:需要保证实时性、低延时、稳定可靠;

目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒数百MB的数据采集和传输需求,如:

Facebook的Scribe

LinkedIn的Kafka

淘宝的Time Tunnel

基于Hadoop的Chukwa和Flume

基本架构有三个部分:

Agent:主动采集数据,并把数据推送到Collector部分

Collector:接收多个Agent的数据,并实现有序、可靠、高性能的转发

Store:存储Collector转发过来的数据(对于流计算不存储数据)

数据实时计算:对采集的数据进行实时的分析和计算,并反馈实时结果

实时查询服务:经由流计算框架得出的结果可供用户进行实时查询、展示或储存

传统:需要用户主动查询;数据为历史数据;

实时查询:实时;最新数据;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多