分享

漫谈大数据:一种文化引领一个时代

 爬虫爱书 2019-01-05

对于大数据这个词,人们并不陌生,在企业工作的上班族、公务员、管理者也更多的接触到大数据相关的内容。比如,企业选择精准投放广告,精准投放的背后就是基于庞大的消费者行为数据;政府或企业做舆情监控,这也是大数据的一种应用。

漫谈大数据:一种文化引领一个时代

那么,大数据究竟是怎么来的,他未来又会给我们的生活、工作带来哪些翻天覆地的变化?

任何新生事物,都是基于一种已有的文化,这种文化甚至可能是根深蒂固的。大数据也不例外。大数据本质上首先是数据,我们就从数据说起。

这些年,已经有很多科学家或学者发表言论:中国上下五千年的历史,大国泱泱,大河滂滂,但在科学领域,中国这五千年的历史几乎一片空白,基本看不到科学的影子。有人可能会反驳,我们有四大发明、天工开物、地动仪等等。但这些都不是科学,他们只是技术。科学是基础,技术是表象。填满中国五千年历史的是儒学/佛学/道家/法家等等,唯独没有科学。

而科学的基础是数学。反观欧洲,欧几里得/达芬奇这些大家都是数学大师。

从这一点,我想的是,我们整个中国自古以来缺乏科学思维、数学思维、数据思维。

那么,大数据的根基也就只能从西方文化中寻找。

数据思维是怎么兴起来的呢?关于数据思维的文化来源,《数据之巅》这本书给出了我们答案,作者涂子沛,这本书也是了解大数据的必读刊物。《数据之巅》就主要讲两个事情,一个是美国的民主共和文化;一个是大数据。这本书的中心思想就是数据文化的根基是民主文化。什么是民主?你有意见,我有意见,他也有意见,考虑每个人的意见,这叫民主。

美国恰恰是一个民主制的国家,他们有民主党,共和党。那么,该听谁的呢?这种背景下,我想说服别人,就必须拿出证据。什么是最好的证据?以往的历史数据、有利的信息显然是最好的证据。

美国总统林肯提出来,政府要代表人民,要by the people,of the people, for the people,要民治、民有、民享。那政府怎么代表人民,政府怎么向人民表明,看我干的还不错?这就要求政府应该公布自己的政府信息/政府数据。人民根据这些政府数据来投票政府,支持自己的认可的党派。

那么,政府数据公布以后,政府的压力就来了。政府制定一个决策,怎么才能得到民众的认可,于是就有了另外一种数据,民生数据/社会数据。政府把社会数据公布给大众,让公民判断我制定的政策是否符合社会发展。这种数据文化在美国民主制的政治中也就慢慢流行开。甚至政府每出台一个政策,都要扒拉扒拉数据,看是否有数据支持我的观点。比如林肯,在南北战争时期,通过对南北地区青壮年的数据统计,就得出“持久必胜利”的言论。

漫谈大数据:一种文化引领一个时代

所以,数据思维、数据文化的根源是民主文化。

在我们中国,不仅科学是空白,数据思维也是十分罕见的,中国讲的是“君君臣臣,父父子子”。这是《论语/颜渊》中的一句话,齐景公问政于孔子,孔子回答:君君臣臣,父父子子。什么意思呢?这句话本质的意思就是一言堂。臣要听君的,子要听父的,下级要听上级的,不用管他们讲的对不对,也不用去做任何论证,无条件听从。这就是一言堂。不做论证又怎么能产生数据思维呢?

漫谈大数据:一种文化引领一个时代

当然,现在的中国政府、中国企业越来越认识到数据思维的重要性,开始做精益管理,做商业智能。这些企业思维背后都是数据思维。所以才有了海尔/美的/华为这种优秀的企业。

这就是数据思维的文化基础。

那么大数据又是怎样的一种数据呢?大数据的英文是“BIG DATA”而非Large DATA?Large 是指的体积/容积大,而Big则是指的相对于小的大。有小有大。所以,BIG data这个词本身就反应了大数据的本质含义:数据庞大。

这也就衍生出了大数据的三个特征:规模大,类型多,结构复杂。

规模大很容易理解:过去我们上数学课,高中课本上就讲到了概率,讲到了统计,做统计,有总体,有样本,做抽样数据可能是几百个,几千个,规模大一些的也才几万个。在这个基础上,我们再推算总体。这是传统数据思维中最常见的方法。后来,我们到社会上工作,传统的企业数据量又是怎样的?也就几千/几万/几十万。但大数据又是什么样的?我们看腾讯的用户,QQ微信都有几亿个账户,如果一个账户是一条数据,这数据规模就上亿了。如果我们在给他加上时间维度,每天一个用户的行为都会生成一条数据,这种数据的规模就是几十亿、几百亿了。所以,大数据首先讲究的是体量庞大,几千万、几亿的数据规模在现在越来越常见。

大数据的第二个特征是类型多。我们过去见到的数据主要是什么数据?中国的人口14亿,中国的GDP82万亿,美的的市值3000亿,这些数据都是数字型。过去处理数据类型大部分都是这种。但大数据时代,任何信息都可能是数据,文本信息/图片信息/语音信息/视频信息等各种形式的数据,所以,我们要做文本挖掘,要做图片识别,要做语音识别,要做视频解析。很多大数据公司都在干这活儿。百度大脑是语音识别,Face++是图片识别。

大数据的第三个特征是结构复杂,什么是结构化的数据,我们看我们的excel,一般怎么统计数据?比如第一列省份,第二列人口数量,第三列GDP,这是结构化的数据。但我如果从网络上抓数据,从智能设备上采集数据,我如果处理大批量的文本,图片,怎么能一开始就做成这种结构化的数据?很难。所以 ,大量非结构化数据是大数据要解决的一个问题,这也是大数据的第三个特征。

那么,有了大数据,我们怎么让它发挥价值呢?

说到这里,就不得不提牛顿的《自然哲学的数学原理》,自然哲学的数学原理本质上是在表达一种什么思想?这个世界上又诸多的确定性,这些确定性决定了这个世界凡事是有规律可循的,既然有规律可循,那么我就能用数学公式/数学符号来表达这个世界,所以才有万有引力定律,才有惯性定律,才有物体相互作用的规律。

漫谈大数据:一种文化引领一个时代

大数据发挥价值的根本在于,在不确定性中发现规律,让他趋近或转化成确定性。其实,自古以来,古今中外,但凡发家致富的成功商人,都基本是靠着这条法则。我在不确定的因素中,挖掘有用信息,让不确定性变成确定性,然后卖出去,这就是发大财的法则。

大数据发挥价值也是靠这一点。非典时期,政府很想了解谁感染了病毒,病毒扩散到哪里了,病毒还会扩散到哪里。但收集和确认一个病号都需要几天的时间。解决这个不确定问题,效率十分低下。而谷歌则通过人们在使用搜索引擎是否发生过SARS相关信息检索,检索病毒病情的什么信息,就能预判出这个人是否可能感染,SARS病毒又传染到了哪里。在极短的时间,回答了这一系列不确定问题,进而创造了价值。

企业也越来越多的在大数据中挖掘价值,比如沃尔玛通过对数据分析发现啤酒销量和尿布销量有关,有人发现吸白沙烟的男人性欲强,还有数据表明可以向购买男性护肤品的男人推荐古典音乐。这都是数据价值的一种挖掘和释放。

漫谈大数据:一种文化引领一个时代

现在,已经出现了政府大数据、企业大数据、互联网大数据、用户大数据、金融大数据、工业大数据、物联网大数据等诸多领域。我们使用一款手机APP,它能够通过数据记录我们的上网轨迹、兴趣爱、生活习惯、喜不喜欢熬夜等等,我们的家电家居入网,也就是物联网,能够记录我们使用空调的时间,常用的温度,周围地区大部分人在使用多少温度;车联网可以记录我们听什么音乐,开车时的油耗是多少,有没有急加速,有没有急减速,有没有系安全带;交通大数据可以记录我们有没有违规驾驶,我们的车牌号时多少,有多少危险操作,交通有没有堵塞,哪里有共享汽车等等。这一系列的大数据应用,都将改变我们生活的点点滴滴,改变我们的衣食住行。甚至影响着我们会不会被企业裁员,会不会丢掉工作,会不会被这个社会淘汰。

这是大数据的光芒,这是一个崭新的时代。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多