第四范式：大数据对于科研的意义

rendianlei 2016-10-28

展开全文

吉姆·格雷是一个传奇人物。他是图灵奖得主，著名的计算机科学家。2007年1月28日，他在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前，1月11日，他在加州山景城召开的NRC-CSTB（National Research Council-Computer Science and Telecommunications Board）上，发表了他的著名演讲：科学方法的一次革命。在这篇演讲中，吉姆·格雷将科学研究的范式分为四类——除了之前的实验范式、理论范式、仿真范式之外，新的信息技术已经促使新的范式出现——数据密集型科学发现（Data-Intensive Scientific Discovery）。

这个第四范式，所谓的“数据密集型”，也就是现在我们所称的“大数据”。

一、何谓“第四范式”

“范式”一词，英文名Paradigm，一般指已经形成模式的，可直接套用的某种特定方案或路线。在计算机科学界，编程有编程范式，数据库有数据库架构的范式，不一而足。总之，你将其认为是某种必须遵循的规范或大家都在用的套路即可。

在科学发现领域，第一范式，是指以实验为基础的科学研究模式。简单说来，就是以伽利略为代表的文艺复兴时期的科学发展初级阶段。在这一阶段，伽利略老师爬上比萨斜塔扔俩铁球，掐着脉搏为摆动计时等等我们耳熟能详的故事，为现代科学开辟了崭新的领域，开启了现代科学之门。

当实验条件不具备的时候，为了研究更为精确的自然现象，第二范式，即理论研究为基础的科学研究模式随之而来。在这个阶段，科学家们会将无法用实验模拟的科学原理用模型简化，去掉一些复杂的因素，只留下关键因素，然后通过演算得到结论。比如我们熟知的牛顿第一定律：任何物体都要保持匀速直线运动或静止状态，直到外力迫使它改变运动状态为止。这个结论就是在假设没有摩擦力的情况下得出的。令人欣喜的是，当时的理论科学与实验科学结合得如此完美，任何一个理论都很容易被实验所证实。因此第二范式很快成为了重要的科研范式。

第二范式发展到极致是19世纪末，当时牛顿三大定律解释了经典力学，麦克斯韦理论解释了电磁学。经典物理学的大厦构建得宏伟壮观，而且似乎毫无瑕疵。结果在20世纪初，天边的两朵乌云无情地破坏了它的完美。量子力学和相对论两座暂新的高山拔地而起，那是科学的另一个黄金时代。然而，不论是量子力学还是相对论，不约而同地以理论研究为主，超凡的头脑和计算超越了实验。尽管在一段时间之后，经过复杂设计的实验终究还是证实了计算的理论。因此每一位中学物理老师都会把牛顿和爱因斯坦相提并论，并称人类历史上最伟大的两位物理学家。

随着验证理论的难度和经济投入越来越高，正在科学研究逐渐力不从心之际，另一位顶尖科学家站了出来。冯·诺依曼老师，在上世纪中期提出了现代电子计算机的架构，并一直持续到今天。于是，随着电子计算机的高速发展，第三范式，即利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及。不论在基础科学研究还是工程实验中，计算机仿真越来越多地取代实验，成为科研的常用方法。半个世纪之后的2013年，诺贝尔化学奖甚至授予了用计算机模拟开发多尺度复杂化学系统模型的科学家卡普拉斯、莱维特和瓦谢勒。诺贝尔化学奖评选委员会在当天发表的声明中说：现在，对化学家来说，计算机是同试管一样重要的工具，计算机对真实生命的模拟已为化学领域大部分研究成果的取得立下了“汗马功劳”。

那么，当时间进入互联网时代，吉姆·格雷认为，鉴于数据的爆炸性增长，数据密集范式理应并且已经从第三范式即计算范式中分离出来，成为一个独特的科学研究范式，即“第四范式”。

二、“第四范式”的特点

同样是计算，第四范式与第三范式有什么区别呢？

最显著的区别就是：计算范式是先提出可能的理论，再搜集数据，然后通过计算仿真进行理论验证。而数据密集型范式，是先有了大量的已知数据，然后通过计算得出之前未知的可信的理论。

简单举个例子说明吧。以前我们对一个问题（比如雾霾）进行研究是这样的：首先，发现问题，比如出现雾霾了，想知道雾霾是什么，怎么预防。其次，发现这个事儿好像不那么简单，雾霾的形成机理除了源头、成分等东西之外，还包括气象因素，包括地形、风向、湿度等等，参数之多超出了我们的控制范围。那么我们要怎么办呢？去除一些看起来不怎么重要的参数，保留一些简单的参数，提出一个理论。然后搜集数据，用计算机进行模拟，并不断对理论进行修正。最后得出可信度比较高的结果，以此来对可能形成雾霾天气的预测。这条途径大家都熟悉，这就是第三范式。

但是，这条途径中有一个看起来很小的问题：你如何确定哪些参数是重要的，哪些是不重要的？那些看起来不重要的参数，会不会在某些特定条件下，起到至关重要的作用？毕竟南美洲的一只蝴蝶扇扇翅膀都可能引起印度洋的风暴啊不是么？

从这一点来看，能够获取最全面的数据，也许才能真正探寻到雾霾的成因，以及做出更科学的预测。那么第四范式就是这样一个研究方法。

首先，布置海量的监测点，收集海量的数据。海量的意思就是比传统意义上多得多。传统意义上我们在北京市布置几十个上百个监测点，海量的意思……嗯，我们假设每款手机都自带PM2.5测量功能，这样全北京市就有2000万的监测点，而且这些监测点还有空间的移动信息。这样相对于固定监测点所产生的数据，就是海量数据。

其次，利用这些数据，分析得出雾霾的形成原因和预测。

最后，验证预测，从中总结出理论。

大家已经看到了，第二和第三步我都只用了一句话。不是因为它很简单，恰恰相反，而是因为它太复杂，我无法在这篇小文章中详细阐述。

事实上，在当今，许多研究人员所面临的最大问题，已经不是缺少数据，而是面对太多的数据，不知道怎么来使用它们。因为这种体量的数据，基本上可以认为，已经超出了普通人的理解和认知能力。

幸运的是我们有了超级计算机，有了计算集群，有了超大的分布式数据库，还有了基于互联网的云计算。这就使得运用第四范式的科学研究成为了可能。

三、“第四范式”的挑战

第四范式科研已经在气象和环境、生物和医学方面取得了很大进展，但很明显，随着移动互联网的发展，各行各业产生的数据呈现爆炸式的增长，科研人员所面对的各个领域的数据只会越来越多。那么问题来了，实现第四范式的科研，从中发现更多更新的成果，所面临的挑战有哪些呢？

第一，不同结构数据的整合。

作为一个研究雾霾的人员，我需要气象数据，还需要工厂排放的数据、汽车尾气的数据，这些不同来源的数据势必有不同的形态。简单点说，一个excel表跟一个word文档，怎么把它们结合起来使用（当然实际情况比这个复杂得多）。这是一开始我们要使用第四范式时就会面对的最大问题。

第二，海量数据的处理。

你使用的excel表可以处理多少条数据？很多人可能不知道，一个工作表是65535行（2的16次方=65536）和255列（2的8次方=256）。桌面使用的Access数据表呢？我实际使用中，基本上超过十万条速度就会很慢了。SQL Server或者Oracle这类商用数据库？百万到千万级数据记录问题不大，过亿甚至到千亿的量级，凭借分布式处理也还可以支撑。但更多呢？千万亿量级呢？

不要以为千万亿量级是一个很遥远的概念。简单起见，不按1024按1000算，一MB就是一百万Byte，一GB就是十亿，一TB就是万亿，一PB就是千万亿……PB后面是EB、ZB、YB。嗯，阿里巴巴2014年3月宣布其数据量已经超过100PB。所以说，当你想剁手的时候，想像一下你给这么多数据里所做的贡献也不过是沧海一粟，估计负罪感会减轻很多吧。

为了解决这么多数据的问题，常见的数据库肯定是只能摊手了。好在做搜索引擎的那些人早就要面对这个问题，然后他们也比较好地解决了这个问题。谷歌的MapReduce架构，阿帕奇在此基础上弄出的Hadoop，几年的功夫就席卷了计算机界，成为目前分析大数据的领先平台。所以现在这个问题暂时算是解决了，当然了，永远只能是“暂时”解决。

第三，算法的发展。

其实针对大数据的算法没多少好说的，基本上还是最开始那些算法。最基本的，贝叶斯、决策树、k-关联算法、聚类分析。值得一提的是人工智能，从70年代发展以后，近几年人工智能倒是借着大数据的东风发展了一把。因为人工智能主要依靠大量数据的训练，所以数据越多，对人工智能的训练就越靠谱。因此类似于人工智能、遗传算法之类的分层次不太可控的算法，应该是发展方向。

第四，研究结论的展现。

这是值得一提的方面。对于大数据的分析，展现出的结论一般人未必能直观地了解。本来嘛，过亿数量级的数据，已经超出了人类统计学的理解能力。如何将其展现给人类（甲方/用户/普通群众），则是一个如何将神化的东西接地气的问题。大数据分析结果的可视化，在近几年确实是一个热点。另一方面，移动互联时代，读图比读文字要直观得多（本文只有文字而没有图是一大缺陷，希望我罗里吧嗦的文字能够让看的人看得懂）。大家在微博上看到的大部分大数据分析结论，都是图片更直观。因此，如何将研究结果展现出来，让人脑能够接受，这也是一个很重要的问题。

四、高校利用“第四范式”开展科研

本来作为科普文，到第三部分也就可以结束了。但身为高校的一份子，有些事情还是想继续说说，遂有此部分文字。

作为科研的主力军，我国高校承担了国家70%以上的科研项目，并取得了大量的科研成果。同时，自上世纪八十年代以来，我国高校迅速经过第一和第二范式的科研训练，很快接受了第三范式。计算机仿真成为科研中快速追赶世界领先水平的重要手段。

然而，面对大数据海啸（这个词已经取代了“浪潮”成为更形象的比喻了）的第四范式，我国高校却面临一定的困局。首先，收集并管理海量数据，需要巨量的投入。没有一所高校或研究机构能够负担上千万台服务器这样的投入。另一方面，在互联网和云计算技术已经发展成熟的时代，重复投入建设也是一种巨大的浪费。其次，大部分高校尚未能理解大数据对于科研意味着什么。提出理论、进行模拟和仿真、得到结论这一传统步骤仍然是主要的研究方式，更遑论大数据的基本原理和分析方法，很多科研人员更是所知寥寥。

这一困局无法突破，科研的未来只能继续跟在别人身后亦步亦趋，难以在工程学科、社会学科等方面得出重大的成果。而如果能够突破这一困局，或许将成为我国整个科技工作实现弯道超车的关键。事实上，非洲一些贫困国家的科研，已经通过互联网实现与欧洲或北美的共同研究，并取得了相当快的进展。利用欧洲和北美积累的科研大数据，非洲一些国家比如肯尼亚、南非、阿尔及利亚的科研水平得到了大幅的提高。

个人认为，要积极拥抱科研的“第四范式”，国内高校需要在以下几个方面取得突破：

1、尽快搭建自身的虚拟云平台，为科研人员提供虚拟计算空间。目前浙江大学已经计划与阿里巴巴合作建设私有云，将来为每位教师提供个人的计算空间服务。

2、将云计算、大数据分析技术作为基础课程设置，使其作为科研的基本工具和必要科研素质。

3、与大型互联网企业进行合作，作为科研平台建设的一部分，力争以低廉价格获取各类海量数据和计算资源。在这方面，斯坦福大学与亚马逊云服务的合作可作借鉴。亚马逊为美国大学提供廉价的云计算资源及可供分析的数据资源，解脱了大学对于这方面巨量投入的负担，同时也使得亚马逊积累的海量数据能够得到更好的利用。

4、以交叉学科平台建设、协同创新中心建设等多样化的科研模式创新，促进不同类型不同来源数据的整合，形成新知识新发现的不断涌现。

综上，数据密集型科技发现范式，超越了时间和空间的限制，也超越了学科藩篱，是科技发展史上难得的契机。抓住其发展方向，扩大其应用范围，实现我国科研的跨越式发展并非天方夜谭。以上是个人的一些浅见，请批评指正。

2015/5/7 于北洋园