大数据的非随机样本 ——任世贤讲大数据之六

renxiaoxian 2016-01-20

展开全文

大数据的非随机样本

——任世贤讲大数据之六

任世贤

（贵州攀特工程统筹技术信息研究所）

2015年11月15日

在《大数据时代》第1章的开首，用了一个醒目的标题 “更多：不是随机样本，而是全体数据”。维克托?迈尔-舍恩伯格所说的“全体数据”是什么呢？所分析的相关问题“能获得的所有数据”就是这里的“全体数据”。

迈尔的“所有数据”又该如何理解呢？迈尔在书中写道：“大数据是指不用随机分析方法这样的捷径，而（是）采用所有数据的方法”。应当说明，这里的“（是）”为作者所加。“所有数据”是大数据分析应用的数据，而不是随机分析方法所采用的数据。这可以作为他“所有数据”的补充解释。

迈尔在书中举了一个精彩的例子：与传统相机只可以记录一束光不同，Lytro相机可以记录光场里所有的光，达到1100万束之多。这样，用户没有必要在照相时就聚焦，而可以在照片生成后再根据需要确定。这是因为，Lytro相机已经捕捉到了光场里的全部光束，所以用户只要选择聚焦图像中的任意一点就可以了。记录了光场里的全部光束，也就是收集了所有的数据，“样本＝总体”——这就是Lytro相机的创新之处。与普通相机相比，Lytro相机的照片获得了“复用性”可以循环利用。Lytro相机的例子很好地揭示了迈尔“所有数据”的内涵。

在《大数据时代》第1章的开首，维克托?迈尔-舍恩伯格这样说道：“我们需要的是所有的数据，‘样本＝总体’。” 迈尔的“所有数据”是“样本＝总体”的数据。

人类记录和累积数据的历史是非常早的。只是在有了计算机以及数据库技术后，才得到较为广泛的推广和应用。例如，在银行、电信等这些特殊的行业，顾客的使用记录最先被完整地记录下来。在小数据时代，因为记录、储存和分析数据的工具不够好，只能收集少量数据进行分析。为了让分析变得简单，建立很多机构，我们采用的都是使用尽可能少的信息的技术，因为统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。于是，我们形成了一种习惯，那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。随机分析和随机采样就是这样的方法和手段。

随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但是迈尔指出：“这只是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷”。随机采样的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。

可是，现在一切都改变了，数据处理技术的进步可谓翻天覆地，日新月异。因此，迈尔说：“我们会收集所有的数据，即‘样本＝总体’。”

大数据的分析也是要获取“样本”的。如何正确获取大数据分析的样本（或“所有数据”的样本）呢？在《大数据时代》中关于“所有数据”举了这样一个案例：艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录。这个通信记录是“一个为全美五分之一人口提供服务的无线运营商提供的”。迈尔说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”一个仅仅是全美1/5人口四个月的通信记录提供的数据，能够作为分析美国全社会层面的样本吗？

系统科学理论的研究成果指出：部分与整体之间具有相似性；整体包含部分，部分反映整体。采样分析的精确性随着采样随机性的增加而大幅提高，但却与样本数量的增加关系不大。对1100人进行的关于“是否”问题的抽样调查有着很高的精确性，精确度甚至超过了对所有人进行调查时的 97%。不管是调查10万人还是1亿人，20次调查里有19都是这样。为什么会这样？迈尔写道：“原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样”。因此，作者认为，这个案例所用的数据是大数据分析的“所有数据”。这里，作者所用的是定性分析方法。大数据分析本质上是定量分析。在定量分析之前，必须做好定性分析。定性分析是定量分析的基础，定性分析错了，定量分析也就失去了其意义和价值。

近来，英国媒称谷歌流感预测连续三年“不靠谱”，称该系统多年来一直高估了美国的流感病例，并指出：这项失败凸显了依赖大数据技术的危险性。是什么原因造成谷歌流感预测的失败呢？是“所有数据”即“样本＝总体”吗？《自然》杂志报道中提出这样一种看法，认为媒体对于流感爆发的过分关注及炒作，是导致谷歌流感趋势数据不准确的主要原因。作者认为，谷歌第一年发布的流感预测应当是比较准确的；但是，在诸多媒体对此成果进行报道后，尤其是在一些媒体借机炒作之后，谷歌的工程师们没有根据互联网上关于流感预测环境的变化对其算法进行实时调整，最后造成了第二年和第三年预测的连续偏高的失真。谷歌流感预测的失败，绝不是“所有数据”即“样本＝总体”的失败，它为后来的大数据分析提供了宝贵的资料。作者深信，谷歌流感预测的项目总结了失败的教训后，一定能够获得成功。

最后，本文作如下的几点小结：

（1）应当从“所有数据”的角度来理解“全体数据”。“所有数据”是所分析问题的所有数据，是专题问题的所有数据，是专业问题的所有数据，这是“样本＝总体”的数据。

（2）部分与整体之间具有相似性；整体包含部分，部分反映整体。这是数据样本存在的理论依据。在大数据时代，随机样本和“样本＝总体”的大数据样本都具有其特定的价值，二者具有互补性。

（3）定性分析是定量分析的基础。大数据分析是定量分析。在确定大数据样本时，必须先做好定性分析。项目的启动是这样，项目的跟踪同样也是这样。