配色: 字号:
大数据相关理论和技术(3)
2022-05-02 | 阅:  转:  |  分享 
  
大数据相关理论和技术(3)

胡经国



大数据相关技术云计算技术

⑴、大数据与云计算的关系

大数据常和云计算联系在一起因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万电脑(或服务器)分配工作。可以说,云计算充当了工业革命时期发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业带动下,一种行之有效的计算模式出现了:云计算提供基础架构平台,而大数据应用则运行在这个平台上。

在IT业内是这样来形容云计算与大数据的关系:若没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;若没有云计算的计算能力,则大数据的信息积淀再丰富,也终究只是“镜花水月”,不能发挥其价值。

云计算与大数据两者相结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

⑵、大数据与云计算的区分

如果将大数据与云计算进行一些比较,那么它们最明显的区分在两个方面:

①、在概念上两者有所不同

云计算改变了IT,而大数据则改变了业务。然而大数据必须有云计算作为基础架构,才能得以顺畅运营。

②、两者的目标受众不同

云计算是CIOChiefInformationOfficer,首席信息官是一种新型的信息管理者等关心的技术层,是一个进阶的IT解决方案。而大数据是CEOChiefExecutiveOfficer,首席执行官)关注的业务层产品,大数据决策者是业务层。

⑶、大数据需要的云计算技术

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL泛指非关系型数据库、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。分布式处理技术

⑴、分布式处理系统的概念

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机(或服务器)用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务这就是分布式处理系统的概念。

⑵、Hadoop的概念

下面,以Hadoop为例进行说明

Hadoop是一个实现了MapReduce计算模式的能够对大量数据进行分布式处理的软件框架。它以一种可靠、高效、可伸缩的方式进行大量数据处理。

⑶、MapReduce及其主要思想

MapReduce是一种云计算的核心计算模式,一种分布式运算技术,也是一种简化的分布式编程模式

MapReduce模式的主要思想是首先将数据自动分割的、要执行的问题(例如程序)拆解成Map(映射)和Reduce(化简)的方式在数据被分割以后通过Map函数的程序将数据映射成不同的区块,分配给计算机机群(或服务器集群)进行处理达到分布式运算的效果通过Reduce函数的程序将运算结果汇总整理,最后输出开发者需要的结果。

⑷、Hadoop的特性

再来看Hadoop的特性

①、可靠性它假设计算元素和存储会失败,因而它维护了多个工作数据副本,确保能够针对失败的节点重新分布处理。

Hadoop是高效的因为它以并行方式工作,通过并行处理加快处理速度。

Hadoop还是可伸缩的。它能够处理PB级数据。

由于Hadoop依赖于社区服务器,成本比较低,因而任何人都可以使用。

⑸、Hadoop的构成及用到的技术

你也可以这么理解Hadoop的构成Hadoop=HDFS(Hadoop分布式文件系统)+HBase(数据库)+MapReduce(并行计算框架)+……Others(其它)

Hadoop用到的一些技术有:

HDFSHDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统

MapReduce:并行计算框架

HBase:分布式NoSQL(非关系型)列数据库

Hive:数据仓库工具

Zookeeper:分布式锁设施

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制

Pig:大数据分析平台,为用户提供多种接口

Ambari:Hadoop管理工具,可以快捷地监控、部署和管理集群

Sqoop:用于在Hadoop与传统的数据库之间进行数据的传递。

⑹、实例:淘宝大数据技术架构

说了这么多,举个实际的例子淘宝的大数据技术架构有助于理解大数据的运作处理机制

淘宝的大数据技术架构分为五个层次,从上至下依次为:数据来源层、计算层、存储层、查询层和产品层。

①、数据来源层

存放淘宝各店的交易数据。在数据源层产生的数据,通过DataX是一个在异构的数据库文件系统之间高速交换数据的工具,实现了在任意的数据处理系统之间的数据交换,DbSync数据库同步备份工具是一款异构数据库之间同步的工具,支持市面上大多数主流数据库和Timetunel实时数据传输平台准实时传输到下面所述的云梯。

②、计算层

在计算层内,采用的是Hadoop集群这个集群我们暂且称之为“云梯”,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

③、存储层

在这一层中,采用了两个东西,一个MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的存储集群;Prom是基于HadoopHbase技术的一个NoSQL(非关系型数据库)的存储集群。

④、查询层

在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL(UniformResourceLocator,统一资源定位符,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL)来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

⑤、产品层

最后一层是产品层,这个就不用解释了。存储技术

⑴、大数据存储和大数据分析的关系

大数据技术可以抽象分为大数据存储和大数据分析这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

⑵、大数据的可存储性

提到存储,有一个著名的摩尔定律,即:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每1824个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断地扩大计算能力和存储能力其中很多的计算能力和存储能力的扩展都是在廉价服务器和普通存储硬盘的基础上进行的这就大大降低了其服务成本因此可以将更多的资金投入到技术研发之中。

以Amazon例,AmazonS3是一种面向Internet的存储服务。该服务旨在让开发人员能更轻松地进行网络规模计算。AmazonS3提供一个简明的Web服务界面,用户可通过它随时在Web上的任何位置存储和检索任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施。Amazon用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供99.999999999%的耐久性和99.99%的可用性,并且能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上每个角落都有Amazon用户的身影。

AWS(AmazonWebServices,亚马逊Web服务)是亚马逊公司旗下的云计算服务平台,为全世界各个国家和地区的客户提供一整套基础设施和云解决方案。AWS面向用户提供包括弹性计算、存储、数据库、物联网在内的一整套云计算服务,帮助企业降低IT投入和维护成本,轻松上云。感知技术

⑴、大数据采集与感知技术紧密联系

大数据采集与感知技术的发展是紧密联系的。以传感器技术、指纹识别技术、RFID技术、坐标定位技术等为基础的感知能力的提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

⑵、感知技术发展与世界数据化

随着智能手机的普及,感知技术可谓迎来了发展的高峰期除了地理位置信息被广泛应用外,一些新的感知手段也开始登上舞台,比如,最新的iPhone5S”在home键内嵌指纹传感器新型手机可通过呼气直接检测燃烧脂肪量用于手机的嗅觉传感器面世可以监测从空气污染到危险化学药品微软正在研发可感知用户当前心情智能手机技术谷歌眼镜InSight新技术可以通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新比如牙齿传感器实时监控口腔活动及饮食状况婴儿穿戴设备可用大数据去养育宝宝Intel正研发3D笔记本摄像头可追踪眼球读懂情绪日本公司开发新型可监控用户心率的纺织材料业界正在尝试将生物测定技术引入到支付领域等。

其实,这些感知被逐渐捕获的过程就是旧世界被数据化的过程一旦世界被完全数据化了,那么世界的本质也就是信息了。

3







献花(0)
+1
(本文系胡经国图书...原创)