配色: 字号:
大数据及其特点(1)
2022-01-29 | 阅:  转:  |  分享 
  
大数据及其特点(1)

胡经国





据了解,目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于大数据定义的一些常见表述,供读者参考。

1、表述1

大数据(BigData)是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。

BigDatareferestodatasetswhosesizeisbeyondtheabilityoftypicaldatabasesoftwaretoolstocapture,store,manage,andanalyze.MGIMay,2011

大数据是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。

Bigdataaredatasetsthatgrowsolargethattheybecomeawkwardtoworkwithusingon-harddatabasemanagementtools.Difficultiesincludecapture,storage,search,sharing,analytics,andvisualizing.Wikipedia

2、表述2

大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

3、表述3

大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。

4、表述4:大数据是指其大小超出常规数据库工具的采集、存储、管理和分析能力的数据集。

由于

无独有偶,IDC(国际数据公司)在给大数据做定义时,也把设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导对大数据的判断总是好事。

5、表述5

维基百科给出的大数据定义:所谓大数据在当今互联网业界是指这样一种现象:一个网络公司日常运营所生成和积累的用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不能用我们以所熟知的多少G和多少T为单位来衡量,而要以P、E或Z为计量单位来衡量,所以称之为大数据。

6、表述6

国际数据公司(IDC)是从大数据的4V特点来定义的,即:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

7、表述7

大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数据组。在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据并非公司顾客关系管理数据库的常态数据组。

8、表述8

大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到掘取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。

9、表述9

故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。数据具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可估量。

10、表述10

大数据是指所有数据的集合,具有4V特点,即:数据量大(Volume)、数据类型多样(Variety)、生成速度快(Velocity)、蕴含巨大价值(Value)。

据报道,有记者就大数据有关问题对有关专家进行了访谈。现将其访谈录介绍如下,供读者参考。

记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但是确实以前没有这么火过。首先,我们想知道的是,大数据到底有多大?

专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数据内容,经常被用来证明大数据之大。其实,在传统产业和我们的生活中,大数据比比皆是。

以北京市交通智能化分析平台为例,它的数据源是路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租车等运输行业等。4万辆浮动车每天产生2000万条记录;交通卡刷卡记录每天1900万条;手机定位数据每天1800万条;出租车运营数据每天100万条;高速ETC(ElectronicTollCollection,(不停车)电子收费(系统))数据每天50万条……这些信息,从数据体量和速度上,都达到了大数据的规模。

比如,交通状况与其它领域的数据都存在有较强的关联性。研究发现,可以从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是40~45分钟,这就是交通早高峰时间。同样,可以从电网数据中,统计出傍晚办公楼集中关灯的时间加上偏移量来估计出晚上的堵车时间。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。

记者:IT业界所指的数据诞生不过60多年。而一直到个人电脑普及以前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社会值得记录的信息,并未形成数据。大数据到底有没有一个“门槛”?关于大数据的一些定义准确吗?

这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。无独有偶,IDC在给大数据做定义时,也把其“门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导企业对大数据的判断总是好事。

三、大数据

1、大数据“4V”特点解读(1)

大数据的“4V”特点是指大数据在以下4个方面(层面)的特点,即:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。

⑴、Volume(大量)

Volume(大量)是指大数据的体量(规模、容量或尺寸)巨大,从TB级别跃升到PB级别。

二进制信息最小基本单位为Bit(比特),按顺序其所有单位为:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。其中:

1Byte(字节)=8bit

其它按照进率1024(=210)来计算:

1KB(Kilobyte,千字节)=1024Bytes=1024B

1MBMegabyte,兆字节,兆1024KB

1GB(Gigabyte,吉字节1024MB

1TB(Terabyte,太字节)1024GB

1PB(Petabyte拍字节)1024TB

1EB(Exabyte艾字节)1024PB

1ZB(Zettabyte,泽字节1024EB

1YB(Yottabyte,尧字节1024ZB

1BB(Brontobyte)=1024YB

1NB=1024BB

1DB=1024NB

⑵、Variety(多样)

Variety(多样)是指大数据类型繁多,如网络日志、视频、图片、地理位置信息等等。

⑶、Velocity(高速)

Velocity(高速)是指大数据处理速度快,1秒定律1秒定律,或秒级定律,是对处理速度有一定要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统数据挖掘技术之间的最大区别。

⑷、Value(价值)

Value(价值)是指大数据价值密度低。以视频为例,在连续不间断视频监控过程中可能有用的数据仅仅只有一两秒。

2、大数据4V特点解读(2)

虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有4V特点,即:大数据在Volume(容量)、Variety(种类)、Velocity(速度)和最重要的Value(价值)这4个方面(层面)的特点。

⑴、Volume(容量)

Volume(容量)是指大数据巨大的数据量与数据完整性。IT业界所指的数据诞生不过60多年。而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但是那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。

尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重要的。

Variety(种类)意味着要在海量、种类繁多的数据之间发现其内在关联。在互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,而且已成为信息的制造者和传播者。在这个阶段,不仅是数据量开始爆炸式增长,数据种类也开始变得繁多。

这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据之间的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出正确的判断。

⑶、Velocity(速度)

Velocity(速度)可以理解为更快地满足实时性需求。数据的实时性需求正越来越清晰和迫切。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。在吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上。还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……。

如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接。这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。

比起前面3个特点更为重要的是Value(价值)。它是大数据的最终意义,即:获得洞察力和价值。大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,最后以知识促成决策和行动。

就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值的数据相对越少。



2019年9月10日编写于重庆

2022年1月29日修改于重庆

6







献花(0)
+1
(本文系胡经国图书...原创)