大数据，我们认识世界的一扇新门

xxcc140 2017-07-27

展开全文

本文首发于微信公众号极简经济学，欢迎关注

“小试牛刀”的大数据

2009年甲型H1N1病毒在几周之内迅速传播，由于没有新型流感病毒的疫苗，公共卫生专家只能减慢病毒的传播速度，但这一努力却被严重滞后的信息系统拖累。美国要求医生在发现新型流感病例时告知疾病控制与预防中心。但人们可能患病多日才去医院，信息传回疾控中心也需时间，这导致通报新流感病例有一两周的延迟。

就在千钧一发实际，“外行”谷歌挺身而出。谷歌员工猜测网民输入特定的检索词是为了在网络上得到关于流感的信息，他们设立的系统关注特定检索词条的使用频率与流感在时间和空间传播之间的联系。谷歌保存网民多年来所有的搜索记录和每天新增的搜索指令，谷歌共处理4.5亿个不同的数学模型，以测试这些检索词条的“可信度”。谷歌将得出的预测与美国疾控中心记录的2007年和2008年实际流感病例进行对比后发现了45条检索词条的组合，一旦将它们用于一个数学模型，他们的预测与官方数据的相关性高达97%。谷歌成为一个更有效、更及时的指标，公共卫生机构的官员获得了非常有价值的数据信息。

令人惊叹的不仅是谷歌预测的准确性和速度，更是谷歌预测的方式，它不是分发口腔试纸和联系医生，而是海量网民的检索词与流感之间的“相关性”。谷歌颠覆了我们传统认知世界的方式，它通过对海量数据进行分析，获得了深刻的洞见。

小数据与统计学

古代美索不达米亚平原的记账人员为了有效记录信息发明了书写。公元前8000年，苏美尔商人用黏土珠记录出售的商品。自圣经时代开始，政府通过人口普查建立大型国民数据库。古埃及和古罗马的奥古斯都、凯撒都进行过人口普查，1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。虽然人口普查花费了大量时间和金钱，但数据的准确性性仍难以保证，“人口普查”这个词来源于拉丁语的“censere”，意思就是推测、估算。

1662年英国人约翰·格朗特在《关于死亡率的自然观察和政治观察》中利用教区死亡记录数据来估计伦敦的人口，每年伦敦大约有13000葬礼，每十一个家庭平均每年3人死亡，家庭平均8个人，因此当时伦敦的人口数量约为384000。格朗特利用少量有用的样本信息来获取人口的整体情况，开启了统计学之门。

当众多的数据遇上有限的处理能力，用较少的数据证实较为重大的发现成为人们认识世界的“次优选择”，也成为统计学的使命，随机抽样和精确性成了实现这一使命的基石。

随机抽样

人们非常想利用所有数据分析问题，但当数量无比庞大时，“以小见大”是现实选择。那么，如何选择“小”呢？有人提出通过有目的地选择最具代表的样本来“择小”，1934年波兰统计学家耶日·奈曼指出这会导致更多更大的漏洞。统计学家研究证明抽样分析的精确性随着抽样随机性的增加而大幅提高，与增加样本数量关系不大。这意味着我们可以通过随机抽样用较少的代价做出高精准度的推断。19世纪以来随机抽样从人口普查推广至商品质量监督、客户调查及选民满意度调查等诸多领域，成为现代测量领域的主心骨。

误差

当测量事物能力受限时，人们会关注最重要的数据以获取最精确的结果。减少错误，保证质量是“小数据”条件下搜集数据最基本、最重要的要求。对精确度的高要求始于13世纪中期的欧洲，天文学家对时间、空间的研究采取了比以往更为精确的量化方式，后来测量方法逐渐被运用到科学观察与解释方法中。19世纪法国开发了一套能准确计量时间、空间单位的系统，这套系统奠定了后来国际公认的测量条约的基础。虽然量子力学永远粉碎了“测量臻于至善”的幻梦，但物理学以外的测量工程师和科学家仍沉湎于完美测量，商界则更加崇尚这种思想。

大数据何以从理想变为现实

数据（data）在拉丁文里的意思是“已知”，数据是对事物的描述。记录数据能力的增强既是人类文明进步的结果，也是人类文明的推进器。

公元前3000年美索不达米亚平人书写的发展催生了记录生产和交易的精确方法，人类计量的范围也慢慢从长度、重量扩展至面积、体积和时间。但早期的计量方法不适合计算，没有以10为底记数制的罗马数字系统难以进行乘除计算。

公元1世纪印度发明了自己的数字系统，后经由阿拉伯人改进，形成了阿拉伯数字的前身。公元1000年教皇西尔维斯特二世倡导使用阿拉伯数字，12世纪阿拉伯数字传播到整个欧洲，复式记账法的出现和推广让阿拉伯数字在16世纪晚期被广泛采用。

随着数据记录的发展，人类渴望能更精准地记录时间、距离、地点、体积和重量等，19世纪科学家们发明了测量和记录电流、气压、温度、声频等自然科学现象的新工具。

新工具和开放的思维促进了测量事物和记录数据的繁荣，但是在模拟时代离现代数据化还有不小的差距。随着人类文明的飞速发展，信息爆炸日趋膨胀，不管是信息总量还是信息增长速度都呈现加速增长的态势。与此同时，以计算机、感应器、各种数据采集终端、互联网乃至移动互联网的出现和发展使得大数据的记录和处理成为可能。信息爆炸和数据处理能力的迅速发展，大数据几乎涉及到人类生活的每个领域。

大数据下思维方式的转变

从随机样本，到全体数据

大数据不用随机抽样而采用所有数据来认知世界。如果要评价一首歌是否好听，随机抽样会“随机”抽取若干段以做出判断，这种方法的优点在于成本低、可行性强，但随机抽样会失去很多细节信息、甚至会遗漏关键性信息，无法形成对这首歌的“整体性”判断。若进行大数据分析，我们听完这首歌再做判断，可以在更宽广的范围进行“比较，这样的结论不仅可信度更高，而且还会得出一些有价值的新结论。谷歌流感趋势预测不是依赖于分析随机样本，而是分析了整个美国几十亿条检索记录，这可以提高微观层面分析的准确性，甚至能推测出某个特定城市的流感状况。只有掌握所有数据，通过将正常交易与异常情况进行比较才可以识别信用卡诈骗。

从精确性，到混杂性

传统分析师一生都在研究如何防止和避免出现错误，所以他们很难容忍错误数据。采集样本时，统计学家会用各种策略减少错误发生的概率。公布结果之前，他们会测试样本是否存在潜在的系统性偏差。

大数据时代我们需要重新审视精确性。假设要测量一个葡萄园的温度，但整个葡萄园只有一个温度计，那必须确保这个温度计精确而且能一直工作。如果每100棵葡萄树就有一个温度计，有些数据可能会错，也可能更加混乱。如果每分钟测量一下温度，测量结果按照时间排列。如果每分钟测量十次甚至百次，不仅读数可能出错，连时间先后都可能搞混掉。

在第一种情形中，为获得更广泛的数据牺牲了精确性，但看到了如若不然无法被关注到的诸多细节。在第二种情形中，为高频率放弃了精确性，结果观察到了可能被错过的变化。

宽容混杂和不精确意味着我们可以获得更多的数据，这可以让我们用“数量优势”来替代“智力优势”以更好地认识世界。2000年微软研究中心的米歇尔·班科和埃里克·布里尔一直在寻求改进word程序中语法检查的方法。但他们不能确定是努力改进现有算法、研发新方法，还是添加更加细腻精致的特点更有效。在实施这些措施之前，他们决定往现有算法中添加更多数据。他们发现当数据为500万时，有一种简单的算法表现很差，当数据达10亿时表现最好，准确率从75%增至95%以上。少量数据运行得最好的算法，加入更多数据时，准确率只从86%增至94%。

依赖于混杂性而产生的“标签”让我们可以更有效地对海量信息进行检索。分类和索引是人们在“小数据”时代存储和检索数据的有效手段，但如果我们想为拥有数十亿张照片的社交网站建立索引就显得毫无意义。那么，我们如何在海量信息中进行检索？当上传照片时，人们用自己的方式创造和使用标签，这些标签没有标准和预先设定的分类。任何人都可以输入新的标签，标签成为网络资源的分类标准。标签被广泛地应用于facebook、博客等社交网络上。因为它们的存在，文本资源和图片、视频和音乐等非文本类资源更容易在互联网上被检索到。

从因果关系，到相关关系

2002年诺贝尔经济学奖得主丹尼尔·卡尼曼指出人有快思维和慢思维两种思维模式。平时生活的惰性，当看到两件事情接连发生，人们更偏爱以因果关系来看待一切的快思维模式，我们甚至会臆想出因果关系。父母经常告诉孩子天冷时不戴帽子和手套就会感冒，事实上，感冒和穿戴之间没有直接联系。

相关关系是比因果关系更“弱”的关系，因果关系一定是相关关系，但相关关系不一定是因果关系。沃尔玛研究交易记录发现，当季节性飓风来临时，飓风用品销量会增加，同时蛋挞销量也会增加。我们可以说，飓风来临与飓风用品销量增加之间是因果关系，但飓风来临与蛋挞销量增加之间不是因果关系，而是相关关系。

虽然相关关系貌似没有因果关系更有说服力，但相关关系却给我们开启了另一扇了解世界之门。相关关系不关注“X是Y的原因”，关注“X和Y一起发生”。相关分析不能准确告知我们某件事情为何发生，但它提醒我们这件事情正在发生。沃尔玛不知道飓风来临时蛋挞销量增加增加的原因，但当飓风来临时将蛋挞和飓风用品放在一起，沃尔玛就可以获得更多的利润，这就足够了。

计算能力不足导致小数据时代的大部分相关分析仅限于寻求线性关系，实际上有很多变量之间的关系是非线性关系。比如，一开始消费支出随着收入的增加而增加，当收入达到一定水平之后，消费支出并没有随着收入增加而增加反而保持不变，当收入高于某个水平之后，消费支出随着收入的增加呈现加速增加的趋势。

诸多飞速发展的新技术和新软件从多方面提高了相关关系分析工具发现非因果关系的能力。大数据时代不断涌现的工具和思路为我们提供了一系列新的视野和有用的预测，我们看到了很多以前不曾注意到的联系，掌握了以前无法理解的复杂技术和社会动态。

除此之外，相关关系分析有助于进一步深化因果关系的探究。通过找出可能相关的事物，我们可以进一步的因果关系分析，如果存在因果关系的话，我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。

神奇的算命术

美国折扣零售商塔吉特的分析团队查看了签署婴儿礼物登记簿的女性的消费记录，发现登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液，几个月之后她们会买一些镁、钙、锌等营养品。公司最终找出了大概20多种关联物，这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券。

一天，一个男人冲进一家位于明尼阿波利斯市郊的塔吉特商店，要求经理出来见他。他气愤地说：“我女儿还是高中生，你们却给她邮寄婴儿服和婴儿床的优惠券，你们是在鼓励她怀孕吗？”而当几天后，经理打电话向这个男人致歉时，这个男人的语气变得平和起来。他说：“我跟我的女儿谈过了，她的预产期是8月份，是我完全没有意识到这个事情的发生，应该说抱歉的人是我。”

本文由维克托.迈尔-舍恩伯格、肯尼思.库克耶所著《大数据时代：生活、工作和思维的大变革》整理编辑而来。