分享

大数据时代

 淮安俞小杰 2015-10-02

大数据时代/(英)维克托·迈尔-舍恩伯格,(英)肯尼思·库克耶著;盛杨燕,周涛译,浙江人民出版社,2013/1

世界的本质就是数据,大数据将开启一次重大的时代转型;大数据发展的核心动力来源于人类测量、记录和分析世界的渴望;从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。

【拥抱“大数据时代”】宽带资本董事长 田溯宁

随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置、甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。发掘数据价值、征服数据海洋的“动力”就是云计算。

互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。在云计算出现之前,传统的计算机是无法处理如此量大、并且不规则的“非结构数据”的。以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。通过云计算对大数据进行分析、预测,会使得决策更为精准,释放出更多数据的隐藏价值。数据,这个21世纪人类探索的新边疆,正在被云计算发现、征服。

“不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系”,“思维转变过来,数据就能够被巧妙地用来激发新产品和新型服务”。

【实实在在大数据】知名IT评论人 谢文

在人类历史长河中,即使是在现代社会日新月异的发展中,人们还主要是依赖抽样数据、局部数据和片面数据,甚至是无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。维克托指出,大数据时代来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。

【在路上,晃晃悠悠】电子科技大学教授,互联网科学中心主任 周涛

书中一个重要观点:大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要!作者抛出了大数据时代处理理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

【引言】一场生活、工作与思维的大变革

1大数据,变革公共卫生

当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。

2大数据,变革商业

3大数据,变革思维

如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。

★这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。

4大数据,开启重大的时代转型

技术成熟度曲线又叫技术循环曲线,或者直接叫做炒作周期,是指新技术、新概念在媒体上曝光度随时间的变化曲线。

PB,拍字节,等于250次方字节。EB,艾字节,等于260次方字节,相当于10亿GBZB,泽字节,等于270次方字节,相当于1024艾字节。

有趣的是,在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。

按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%

人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。

★亚历山大图书馆藏书丰富,有据可考的超过50000卷(纸草卷),包括《荷马史诗》、《几何原本》等。它建成之时正是中国战国时代的末期,此时百家争鸣。较有影响的十大家(儒、道、墨、法、名、阴阳、纵横、杂、农、小说)多有著述,且己出现如《诗经》、《楚辞》、《离骚》等文学作品。虽没有像亚历山大图书馆一样的集中式藏书中心,但也占据了世界知识量的相当份额。

想象一下,现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据也一样,量变导致质变。物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。

以纳米技术为例:纳米技术专注于把东西变上而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,你就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子肯有抗菌性,但当它以分子形式存在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做很多在小数据量的基础上无法完成的事情。

5预测,大数据的核心

它是把数学算法运用到海量的数据上来预测事情发生的可能性。

就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。

6大数据、大挑战

大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

○在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。但高性能数字技术的流行,使我们能使用一切数据,也就为我们带来了更高的精确性,让我们看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。

○研究数据如此之多,以至于我们不再热衷追求精确度。直到今天,我们的数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可以找出和我们检索的内容完全一致的检索记录。

这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。如一个小商店打烊盘帐,有时候是以“分”为单位(每分都要数清楚),但我们不可能用“分”这们单位去精确度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。

达到精确需要有专业的数据库。针对小数据量和特定事情,追求精确性依然是可行的。即当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。

大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

○转变因前两个转变而促成,即我们不再热衷于寻找因果关系。

寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。

如果百万条电子医疗记录显示橙汁和阿司匹林的特定组合要以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。这样,我们会注意到很多以前从来没有意识到的联系的存在。

在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。星探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。

“马其诺防线”现在用来意指看似表面坚固,实际毫无价值的东西。

人们自愿在网络上分享信息,而这种分享的能力成为了网络服务的一个中心特征,而不再是一个需要规避的薄弱点了。

第一部分:大数据时代的思维变革

一、更多不是随机样本,而是全体数据

让数据“发声”

大数据与三个重大的思维转变有关:

1要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本:过去,因为记录、储存和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。

○小数据时代的随机采样,最少的数据获得最多的信息

○全数据模式,样本=总体

在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和Twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。

采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没什么意义了。

样本=总体是指我们对数据进行深度探讨,而采样几乎无法达到这样的效果。

大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于实证数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态,也就是不用担心在做研究和调查问卷时存在的偏见了。(这种偏见既包括研究者设计实验问卷时的偏差,也包括被试人员由于了解自己作为被试的角色而产生的不同于日常的心理和行为。)现在我们不再依赖抽样调查了。

二、更杂不是精确性,而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

1允许不精确

对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。所以在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

我们研究一个现象,是因为我们相信我们能够理解它。后来,测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录、并呈现可重复结果的能力。伟大的物理学家开尔文男爵说过:“测量就是认知。”

然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。如,服务器处理投诉时的数据与用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果,但也有助于我们把握整个事情的大致情况的。

混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。

很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。为了扩大规模,我们接受适量错误的存在。有时得到2+2等于3.9的结果,也很不错了。为了了解大致的发展趋势,我们愿意对精确性做出一些让步。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间。但当我们试图扩大数据规模时,要学会拥抱混乱。

 

第二部分 大数据时代的商业变革

04数据化:一切皆可“量化”

大数据发展的核心动力来源于在类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚美灯打向“I”,开始关注信息本身了。

数据化,不是数字化:“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。这是欧几里得的一部经典著作的标题,这本书用已知的或者可由已知推导的知识来解释几何学。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。“数据化”,这是指一种把现象转变化可制表分析的量化形式的过程。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。这需要我们拥有正确的工具。计量和记录的需求也是数据化的前提,而我们在数字化时代来临的几个世纪前就已经奠定好了数据化的基础。

量化一切,数据化的核心:记录信息的能力是原始社会和先进社会的分界线之一。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。

算术赋予了数据新的意义,因为它现在不但可以被记录还可以被分析和再利用。

最终让阿拉伯数字广为采用的是复式记帐法的出现,它也是数据化的一种工具。如今,复式记帐法通常被看成是会计业金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关帐户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使会计们能够读懂彼此的帐本。

伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。到了19世纪,随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象,科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代,人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在,对颅相学这类伪科学的热情最终淡去了,但是人类对于量化一切的热情却始终没有减退。

数据化的实现有一点必不可少,那就是要从潜在的数据是挖掘出巨大的价值,然后揭示出新的深刻洞见。

计算机的出现带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

当文字变成数据:2004年,谷歌试图把所有版权条例允许的书本内容进行数字化,发明了一个能自动翻页的扫描仪。刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辩率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查询了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像,这些图像只有依靠人的阅读才能转化为有用的信息。

谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。

如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发出几百年来人类思维发展和思维传播的轨迹。

谷歌的数字图书馆:输入网址:http://books.google.com/ngrams,打开Google Ngram Viewer,它利用谷歌所拥有的所的图书作为数据资源,为你提供单词和短语历年使用次数的展示图表。眨眼之间,我们就能发现“causality”(因果关系)这个词在1900年之前的使用频率比“correlation”(相关关系)高;而在1900年之后,情况就与之前相反了。对于作者存在争议的书籍,我们自己也可以进行作品风格鉴定。数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,很多欧洲政客的抄袭行为被曝光,最终不得不引咎辞职。

15世纪中叶,人类发明了印刷机,在这之后大约出版了1.3亿册图书。到2010年为止,也就是谷歌的数字化图书计划实行7年之后,大约有2000万图书被扫描成了数字图书,这几乎相当于人类所有书写文明的15%。这诱发了一个新的学术方向——文化组学。“文化组学”是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。

当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。

至少现在,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。

有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。

05价值:“取之不尽,用之不竭”的数据创新

验证码,全称为“全自动区分计算机和人类的图灵测试”。

大部分数据的直接价值对收集者而言是显而易见的。事实上,数据通常都是为了某个特定的目的而被收集——商店为了会计核算而收集销售数据,网站记录每一个用户点击(即使是鼠标光标的移动)来分析和优化其呈现给访客的内容。数据的基本用途为信息的收集和处理提供了依据。

亚马逊同时记录下了客户购买的书籍和他们浏览过的页面,便可以利用这些数据来为客户提供个性化的建议。

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人使用不妨碍他人的使用,而且信息不会像其它物质产品一样随着使用而有所耗损。数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值,后面这一点尤其重要。

数据的“潜在价值”:物理学家解释能量的方法可以帮助我们理解数据。他们认为物体拥有“储存着的”或“潜在的”能量,只是处于休眠状态。数据亦然。在大数据时代,我们终于有了这种思维、创造力和工具,来释放数据的隐藏价值。

数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。

数据创新1:数据的再利用

典型例子是搜索关键词——让客户采集搜索流量来揭示消费者的喜好,进而了解其它欲了解的趋势、状况等情况。

如果使用正确,即使是最平凡的信息也可以具有特殊的价值。如移动运营商,他们记录了人们的手机在何时何地连接基站的信息,包括信号强度。运营商可用这些数据来微调其网络的性能,决定在哪里需要添加或者升级基础设施。但这些数据还有很多其他潜在的用途,比如手机制造商可以用它来了解影响信号强度的因素,以改善手机的接收质量。

数据创新2:重组数据

随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。

数据创新3:可扩展数据

零售商店安装摄像头,原用来防盗,但也能跟踪在商店里购物的客户流和他们停留的位置。这些信息可为零售商在设计店面的最佳布局并判断营销活动的有效性提供帮助。这就是“一份钱两份货”——如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。

数据创新4:数据的折旧值

数据创新5:数据废气

数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网络上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。

一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。谷歌不断地“从数据中学习”的这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。

【巴诺与NOOK快照】

电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据:读者阅读一页或一节需要多长时间,读者是略读还是直接放弃阅读,读者是否画线强调或者在空白处做了笔记,这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来,数据废气可以用理化的方式向出版商和作者展示一些他们可能永远都不会知道的信息,如读者的好恶和阅读模式。这是十分具有商业价值的。电子图书出版公司可以将这些信息卖给出版商,从而帮助改进书籍的内容和结构。例如,巴诺通过分析NOOK电子阅读器的数据了解到,人们往往会弃读长篇的非小说类书籍。公司从中受到启发,从而推出“NOOK快照”,加入了一系列健康和时事等专题的短篇作品。

数据创新6:开放数据

奥巴马:“面对怀疑,公开优先。”

最近有一个想法得到公认,即提取政府数据价值最好的办法是允许私营部门和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,当然可能危害到国家安全或他人隐私权的情况除外。

这种想法让“开放政府数据”的倡议响彻全球。开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据;而且数据必须以标准的可机读形式展现,以方便人们处理。否则,信息公开只会是徒有虚名。

世界银行公开了数百个之前被限制的关于经济和社会指标方面的数据集。

06角色定位:数据、技术与思维的三足鼎立

大数据价值链的3大构成:根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指,数据本身、技能与思维。

第一种是基于数据本身的公司:这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思维的技能。如Twitter

第二种是基于技能的公司。通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。

第三种是基于思维的公司。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。

近年来,一种新的职业出现了,那就是“数据科学家”。数据科学家是统计学家、软件程序员、图形设计与作家的结合体。与通过显微镜发现事物不同,数据科学家通过探寻数据库来得到新的发现。全球知名咨询管理公司麦肯锡,就曾极端地预测数据科学家是当今和未来稀缺的资源。

谷歌的首席经济学家哈尔·范里安认为统计学家是世界上最棒的职业。他的这种说法非常著名。“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人,”他还说,“数据非常之多而且具有战略重要性,但是真正缺少的是从数据中提取价值的能力。这也是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”

数据才是最核心的部分。要知道原因,就必须考虑到大数据价值链的各个部分,以及它们会如何发展变化。

所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多