分享

如何正确认识“大数据”?

 我的梦想登名山 2017-09-25

 

 

        最近几年,“大数据”这个词在国内特别热,到处都在谈,五花八门与“大数据”有关的书籍应运而生,已经成了一种时尚。然而,如何认识“大数据”则成了亟需普及的科学知识。下面就谈谈我个人的理解,以帮助大众对“大数据”这个概念的认识。

 

        大数据是个统计学概念,借助它可以发现概率规律。

        统计学和概率论是从赌博中发展出来的,然而,虽然中国的赌博传统源远流长,可是我们中国人一直没有注意到概率规律的存在。所以,今日的大众在对待大数据上容易陷入种种误区,应特别加以注意。

         一个随机事件没有什么好解释的,但是大量随机事件往往有规律可循。比如,一个袋子里装了100个红色球,100个白色球。一个人随意从袋子里取出4个球,完了再放进去,重复同样的动作足够多次,就会发现一个规律:出现“22白”的次数是“4个全红”或者“4个全白”的6倍。这就是个概率规律,然而只有经过多次的实验才能证实它。

         我在2010年回斯坦福大学讲学期间,听了菲尔兹奖获得者陶哲轩的一个报告,他讲的一观点给我留下深刻的印象,那就是一些规律只有从大数据中才能显示出来。

 

        大数据可以提高结论的可靠性,小数据的出错概率可能高达50%

        中国人喜欢赌博,那么就以赌博为例来说明“大数据”和“小数据”对人们判断的影响。

        在澳门的博彩业中,百家乐是最受国人欢迎的。假如一个人连赌10次,可能赢了8次。他在澳门连赌3天,这次运气特别好,赢了500万元回家。同样运气好的人可能不止一个。那么,如果一个人只看到这少数几个赢钱的人,就有可能得出结论:赌博可以轻松赚钱。 然而,如果统计数字足够大的话,就会发现10万个赌徒中不会有一个人赚钱的,即使那些一时赢了钱的人,只要继续赌下去,还会连本输得精光。这是为什么?

         赌场就是根据一个大数定律而设计的,所以他们铁定会赚钱,而不会有一个人能赢他们的钱,只要这个人继续赌下去,赌的次数足够多。这是一个著名的数学规律,是由法国的一位数学家首先证明的。

        所以,从大数据来看赌博,会得出正确结论:赌博必然导致倾家荡产。

 

         ③大数据只适合社会现象中的随机事件,而不适合自然界的规律。

         大数据只适应社会中的随机发生的现象,诸如患病、购房、车祸等这些现象。然而它并不能应用于自然界高度有规律的事物,比如植物生长等。举一个例子,一个人来到一个陌生的山上,看见一种野果子,尝第一颗是苦的涩的,第二颗也是,第三颗还是,就可以得出可靠的结论说:这种果子是不宜食用的。他不需要把一棵树的果子全吃完才能下结论,更不需要把满山的果子都尝完,才能得出结论。

 

            大数据不能提供因果关系,只能描写伴随现象。

          在分析大数据时,很多人容易犯一个错误,就是会误把伴随现象当成具有因果关系的两种现象。比如一个调查了大量的成名小说作家,他们都有抽烟的习惯,那么能不能说“抽烟”和“当作家”之间具有因果关系呢?显然不能。两种伴随现象之间是否有因果关系,还需要借助各种科学手段进行分析。

 

             大数据只反映某种倾向性,无法准确预测下面要发生什么

            拿小孩的性别为例来说明这一点。从总体上看,生男孩和生女孩的概率都是50%左右。在一个妇产科医院里,第一个出生的小孩是女孩,但是不能由此而断定下面一个就一定是男孩,下面一个生男孩和生女孩的概率仍然是50%。即使前面5个出生的小孩都是女孩,第6个是男孩的概率仍然是只有50%,生男孩的概率并不会提高。这是大众思维中经常犯的错误,就是误把随机事件当成依赖事件。

          什么是“依赖事件”?它是指前面发生的事情影响后面发生的事情的概率。比如,一个袋子里装有红、黄、蓝三个球,第一次拿出红球的概率是1/3;如果第一次拿出的是黄球,那么第二次拿出红球的概率就提高为1/2;如果第二次拿出的是篮球,那么最后一个必然是红球,即概率为100%

            

        重视大数据,但是不要过于迷信大数据,它并不是法力无边的科学方法,有很多局限性。如果一个人陷入数据的汪洋大海中,往往还会限制自己的想象力和创造力。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多