大数据不是用来算平均数的

木立 2013-12-28

展开全文

受不了《为什么我对大数据（Big Data）持怀疑态度》这篇文章了，我要说说我的看法了。

更多的数据意味着更多的信息

数据越多显然是信息越多的，关键在于你怎么去使用这些信息。一个人的身高量上1亿次自然是没有什么意义的，但是你有一亿个人的身高信息，这就完全不一样了。尽管人类的身高怎么着也不会超过3米，10亿人里面有很多是重复的数据，但是重复的数据就没有意义么？你是知道人类的身高范围好呢，还是知道人类身高范围的分布好呢？当然是分布更有意义了！假如说这里不止有人的身高信息，再加上了人的地理信息，那更可以进一步分析身高和地理位置之间的关系，如果我们发现某个地方的人出奇的高，那是不是就很有必要去探究一下，是不是没准就获得了之前从没发现的知识呢？这个不敢保证，但是更多的数据提供了更广阔的的视野来发现更多的新鲜事，我觉得人们肯定会发现更多有价值的知识。这还只是地理的信息，如果再加上人种的信息，性别的信息，体重的信息。是不是突然就给人豁然开朗的感觉呢?

数据越多，信息肯定是更多的，真正变低的是价值密度，边际效应出现在这个地方也没啥奇怪的吧。

大数据可以发现新知识

啤酒尿布的例子就不用多说了吧。当然反对者可以说这个不需要多么大的数据。数据的意义不只是在于去找一些common的知识，很多时候就是为了检测一些异常的情况，如果数据都不够大，连异常都没有存储下来，还谈什么检测。

说到个性化的例子，用1亿人的数据来给一个majority做个性化推荐自然很简单，但是社会中本身就是有小众群体的存在，如果数据规模不够大，这些小众群体直接就被忽视掉了，又怎么能针对他们做更好的服务？

处理大数据的技术和处理小数据的技术有本质区别

用一台电脑就能算的数据量和用1000台电脑才能算的数据量，技术上怎么可能没有本质的差别？？

如果说算法层面没有本质的区别，尚可认同，因为想算法的人很少会关注算法的具体实现。确实如果让研究算法的人还需要头疼数据是存硬盘还是存内存，是网络带宽充足的情况下怎么算，不足的时候怎么算，如果使用集群的过程中，一台机器崩溃了怎么办，如果数据通过网络传输过程中丢失了怎么办，那实在是有点残忍。再说了，搞算法的人更加关注的是算法的正确性这样的原因，数据量动辄就往无穷大去想，数据量确实不会对算法产生本质的影响。

但到了基础架构这一层，情况就完全不一样了。数据量一大，一台机器搞不来，必须多台机器搞。想象一个网站每天有了上亿的用户，假如这些用户每天就上一次这个网站，网站花费1KB的空间来记录一个用户的访问信息，那么一年下来，纯粹的数据就有36TB，这还不考虑备份啥的问题。这个数据量肯定就算是大数据的范围了吧，按照现在机械硬盘30M/s的写速度，把这些数据复制一份就要11天，在这样的数据量上怎么去高效正确的支持应用层的访问和处理就是一个全新的问题。当然这些问题在数据库领域一直在研究，但正是大数据的出现才真正让这些研究有了用武之地，而且也是大数据的出现才让这一沉寂许久的领域重新有了活力。

大数据还能火多久

要回答这个问题，先要知道为什么会有大数据的问题。人们要收集更多的数据不是为了去算算平均数，当互联网行业中巨头一一呈现，高速网络深入每个角落，网民数量急剧增长时，数据量必然相匹配的要增长。即便在非互联网领域，随着时间的积累和越来越多的企业和机构选择使用传感器记录日常数据，数据量的增长时不可逆转的。

计算机领域中，决定问题复杂程度的根本原因就是数据的复杂程度，因此大数据才会被作为一个单独的问题提出来。数据量随着时间是必然要增长的，因此大数据的问题就一直会存在下去。能够长久存在的东西根本不需要在乎火不火得了一时的问题吧。