数据科学与计算智能（三）：值得关注的牵引性应用、关键科学挑战和问题

东河人 2021-01-16

展开全文

数据科学的发展，将为计算智能的持续发展提供新的可能与机遇；与此同时，计算智能的发展与新型智能范式的兴起，也将为大数据在各行业和各领域的应用提供新的契机。

文章阐述了数据科学的内涵，探讨了计算智能的发展与新型智能范式，列举了引领数据科学与计算智能研究的应用方向；进而基于香山科学会议第 667 次学术讨论会与会专家的讨论，提炼形成数据科学与计算智能领域的七大关键问题，以期使该领域研究得到相关领域研究者与应用者的共同关注，从而把握时代的机遇，推动数据科学与计算智能持续发展。

囿于篇幅，将原文分为 3 篇，于近期推出，以飨读者。

本文节选自《中国科学院院刊》2020年第12期文章《数据科学与计算智能：内涵、范式与机遇》

1 引领数据科学与计算智能研究的应用

作为一门实践性强的学科，数据科学的发展离不开实际需求牵引与技术应用驱动。

随着感知、计算、通信、控制等技术的发展及综合集成应用，“人-机-物”三元世界高度融合，在线形成了一个网络化的大数据系统，其内部包含了互联网、物联网连接而成的各类数据。这是一个高度复杂、强不确定性、持续动态演化的复杂系统，是“系统的系统”。它既是智慧城市、智能制造、健康医疗等各个领域应用的空间载体，也为国家安全、社会治理、数字经济等领域的科学化、智能化发展提供了重要的数据资源供给。

前文已提及，这个现实存在的大数据系统，除了具备高度复杂性、强不确定性等特性，人在回路也是其显著特征。

针对这一现实系统的研究与应用，将有可能为数据科学的理论与技术发展带来机遇。

针对这一复杂系统的典型场景展开研究，不仅有利于揭示数据的基本规律，也有可能因此而牵引未来新型智能范式的研究。其典型的应用场景有如下 4 种。

1.1 基于非确定数据的社会认知

在社会系统中，我们搜集到的数据通常与真实的情况存在一定的偏差，大量的虚假内容、非确定性内容混杂在这些数据当中。如何能基于这样不完备的、非确定的大数据进行社会认知是一个非常有挑战的问题。

社会认知具体包括真假判定、社会心理计算、舆情判定与导向等。而面向非确定数据的社会认知，其中一大关键在于如何对大量复杂的非确定数据进行假设建模，如何建立复杂社会系统中个人行为与群体社会认知之间的关联。演化智能、复杂系统仿真与模拟也许是解决这一问题的突破口。

1.2 基于开放环境的群智决策

互联网极大地方便了信息、知识和智慧的互联互通。在互联网中，已经有许多复杂问题可以通过群智决策的方式加以有效解决，如众包计算、人本计算等。

一方面，未来我们该如何设计或改进群智决策中的内部个体交互、融合与反馈方式，以人工构造的群体智能方式进一步提升互联网群智决策的智能上限？
另一方面，从计算机的视角来看，该如何利用或者模拟这种人类的群智决策方式，来解决一些复杂的决策问题？

考虑到智能系统的演化及复杂系统的仿真与模拟，对单个智能体及智能体之间复杂交互进行建模，也许是未来复杂问题求解的一个可能方向。

1.3 人机融合的智慧医疗

智慧医疗是医学、计算机科学、公共卫生学等学科相互交叉的新兴领域。随着信息技术的普及发展，医疗领域产生了大量的数据（如电子病历、PB 级基因数据等），也催生了诸多与智慧医疗相关的应用需求。

如何根据患者的电子病历及临床影像等数据对疾病诊断提供辅助决策支持？
如何根据人类的基因数据，提前进行疾病的预测，为疾病的早期发现、新生儿的先天缺陷预测提供帮助？

需要注意的是，智慧医疗需要强大的可靠性，但目前的人工智能还难以替代医生。一种比较好的提高思路是，考虑人（医生）在回路的新型智能范式；通过这样人机混合的方式，使得机器的智能与人的智能相辅相成，使医疗从传统的“个体经验决策”转向“智能辅助决策”的新模式，进而为医疗系统的革新带来新的可能。

1.4 重大公共安全问题与社会治理

重大公共安全问题指对社会和公民所需的稳定环境有严重影响的重大问题。公共安全问题涉及多方复杂因素，包括人类社会、自然环境、突发事件等，是典型的人在回路的复杂应用问题，急需应用大数据技术手段进行预测、预警和防控。以新冠肺炎疫情为例，大数据分析技术手段和人机混合智能，为疫情走势预测、传播链排查、谣言传播溯源和意图研判等人在回路的复杂问题提供了有力帮助，支撑疫情精准防控。

2 数据科学与计算智能的关键问题

数据科学的发展，将帮助我们厘清数据科学的理论边界，为计算智能的持续发展提供新的可能与机遇；与此同时，计算智能的发展与新型智能范式的兴起，也将为大数据在各行业和各领域的应用提供新的契机。

在本节，我们从数据科学的基本内涵与边界、新型智能范式与智能能力测试、数据评价体系与共享利用 3 个方面出发，基于香山科学会议第 667 次学术讨论会与会专家的讨论，提炼形成数据科学与计算智能领域的七大关键问题，以期得到相关领域研究者的共同关注，从而把握时代的机遇，推动数据科学与计算智能的持续发展。

2.1 大数据中的相关关系与因果关系

因果关系指一个变量的发生会导致另一个变量的发生。而相关关系则指一个变量发生变化时，另一个变量也会规律性地发生变化。

一般情况下，因果关系往往也是相关关系，而相关关系并不一定是因果关系。大数据的存在，使得人们可以广泛寻求相关关系，Mayer-Schönberger甚至在其书中说道，“大数据时代最大的转变就是放弃对因果关系的渴求，而取而代之关注相关关系”。相关关系确实能在商业和实际应用中带来巨大的成功，但这种成功从科学角度尚需谨慎看待。

从科学研究的角度来看，相关关系研究是可以替代因果分析的科学新发展，还是因果分析的补充？
从实际应用看，从数据中挖掘出的相关关系能否看作是一种近似因果关系帮助人们进行预测或决策？

对此，不同的学者有不同甚至相反的看法。

建议未来重点研究方向：相关关系能够逼近因果关系的程度，相关关系和因果关系的边界，是否可以利用反事实推断从相关关系中推断出因果关系，以及如何保证大数据分析的结论可信等问题。

2.2 数据科学的复杂性问题

在计算机科学中，算法的计算复杂性是一个基本问题，包括时间复杂性和空间复杂性。而数据科学除了对计算复杂性的研究外，还需要探索数据自身的复杂性及模型复杂性。数据科学不能一味地靠增加数据量或者模型的参数规模来提升其性能。

给定一个具体问题，到底需要多大规模的数据或多复杂的模型才能获得有效解？一个复杂模型判定能力的提升到底有没有尽头或界限？数据规模和模型复杂度之间是什么关系？这些问题在大数据工程化应用中也许可以有经验性的判定，但是在数据科学研究中需要弄清楚其基本内涵和规律。

建议未来重点研究方向：从数据科学理论出发，给出数据复杂性、模型复杂性和模型性能之间的关系（上下界或渐进理论），为大数据的科学化研究和高效率应用奠定重要基础；当然，要对所有领域给出一个共同的数据科学基础理论，可能比较困难，但可以考虑先从某些重要领域或典型问题出发进行探索。

2.3 有限时空约束下的无限数据计算

在很多场景中，解决问题所需要的数据可能是大量流动的，甚至是无限的——无法确定其边界。

例如，真实的自动驾驶技术需要在任意环境、道路上都确保其有效性，理想情况下我们需要通过搜集大量的数据来不断训练自动驾驶模型，促使自动驾驶水平的提升；但问题在于，在实际操作中我们无法在有限时空资源下搜集、处理所有的数据。现有的自动驾驶技术，也基本都是在有限的实验室环境下或者固定的道路上进行学习训练，以期能够实现在任意环境和非确定道路上的自动驾驶。

建议未来重点研究方向：面向上述边界不确定的数据，到底多大的数据量对问题而言是足够的，以及什么样的数据采样机制才能保证逼近数据整体分布；或者说，该如何在有限时空资源限制下来处理边界不确定的数据。

2.4 强不确定性复杂系统环境下的新型智能范式

大数据空间融合了“人-机-物”三元世界，其交互方式、运行方式极其复杂。复杂系统中跨域高维稀疏的大数据具有很强的时空分布不确定性和价值规律不确定性。在这样一个强不确定性的复杂环境下，能否形成形式化、可计算的新型智能范式？如果存在这样的智能范式，是否还需要依靠大规模数据驱动？现有的脑启发计算、演化智能、复杂系统模拟等主要还是依赖计算机的计算能力，未来还需要进一步探索能够突破计算机计算能力边界的智能范式。人在回路的人机混合智能是一个可能的发展方向，其目标是打通人类智能与机器智能的融合通道，通过有机融合方式实现人机混合智能。

建议未来重点研究方向：人机混合的智能通道构建及其方式（近几年发展迅速的脑机接口技术、思维融合范式等）；探索这类新型智能范式的主要特征是什么，是否图灵计算等价，是对当前计算智能的改良还是颠覆，以及数据科学在其中发挥什么样的作用等。这些开放性问题研究将为数据科学和计算智能带来新的视野和机会。

2.5 图灵测试以外的通用人工智能测试

图灵测试是早期普遍被接受的人工智能测试准则，主要通过测试者（人）与被测试者（机器）在隔离情况下的问答来测试机器的智能。这是一种非常巧妙的思想实验，但并非工程实验。图灵测试的 3 个开放特点——问题开放、测试者开放、语言开放，导致真正可重复的图灵测试很难实现。而在一般的计算智能设计中，一个重要准则就是需要可重复且有效的评价方式。

建议未来重点研究方向：探寻图灵测试之外更加科学有效的通用人工智能测试方法，以及探索以人作为标准答案和参照系之外的可重复且有效的智能评价标准。

2.6 领域无关的数据分类体系与评价指标

数据科学研究中的数据常常来自各个不同的领域，领域之间的数据类型、数据完整性、数据规律等具有非常大的差异性。我们不能只针对某个特定领域的数据来谈论数据科学，而应该对所有领域的数据建立一套共同的话语体系和统一的度量标准。换句话说，需要对不同领域的大数据，进行领域无关的科学分类，构建跨领域、可泛化的数据评价指标和体系。

建议未来重点研究方向：可以从数据质量、多样性、复杂性、不确定性或价值密度等多个维度出发，定义数据的统一评价指标。这样的评价指标可以使不同领域的研究者对数据拥有共同话语体系，有利于以数据作为研究对象开展持续的科学化研究。

2.7 可信任的数据共享与流通

大数据是数据科学的研究基础和研究对象，数据科学的发展离不开良性的数据治理和大数据基础环境建设。其中一大挑战问题是可信任的数据共享与流通。数据不同于传统商品，可能会存在无限复制和无限使用的问题，因而造成数据流通价值失效。

建议未来重点研究方向：如何用技术手段来确保数据共享和流通的有效与安全，其中数据供给和数据使用是 2 个关键环节。

在数据供给方面，可以考虑数据的有限供给，通过技术的手段对数据进行限量发行。例如，通过对使用数据的工具增加保护机制，实现数据的有偿服务。也可以利用区块链等技术，保证数据的单方持有。
在数据使用方面，需要考虑数据的有界使用，保证数据的使用不涉及用户隐私等问题。

具体来说，可以利用密码学、联邦学习等手段，在保证隐私的前提下加密数据的传输，通过确立数据类型或关系而非获得数据本身作为数据使用的主要方式。数据的共享和流通是数据开放研究的基础，期待未来有更多的人关注数据开放的技术手段研究。

3 未来展望：开启“第五范式”科学研究

在过去十几年间，随着可获得和可使用的大数据持续增长，第四范式作为一种新的科学研究范式，受到科学家越来越多的关注；同时，也暴露出了很多不足。譬如：数据不确定性问题、数据复杂性问题、数据的维数爆炸问题、数据的尺度边界问题等。

目前，网络科学、脑科学、社会科学等领域面临的重大问题都是极其复杂且动态变化的难题，采用经典物理一样的简单实验（第一范式）、基于公理和假说的理论推演（第二范式）、基于模型的计算机模拟（第三范式）和数据驱动的相关性分析（第四范式）都无法解决。为此，科学家开始寻求更接近数据和智能本质、更有效认识复杂性和不确定性的新科学研究范式。

目前，这类新的科学探索方法论尚未形成定论，大体上看，这类新的科学研究范式是以智能为研究目标的浸入式具身研究，我们暂时称之为“第五范式”。基于数据科学本体论认识，我们猜测“第五范式”和第四范式一样都会以数据为对象，不同的是“第五范式”更侧重于人、机器及数据之间交互，强调人的决策机制与数据分析的融合，体现了数据和智能的有机结合；“第五范式”强调从本体论的角度看待数据，认为数据本身蕴含自然智能的规律，也是新型智能的载体和产物，期望在数据驱动智能的同时突破现有计算智能的能力边界，借助自然智能构造新型智能范式。

目前，针对“第五范式”的探索刚刚起步，从方法论上还归纳不出它的基本特征；但可以肯定，它的一个重要特征是“融合”，既要融合前四种范式，又要融合统计学、网络科学、脑科学等前沿研究中涌现的新方法。

第三范式和第四范式都用到计算机：

第三范式是“人脑+计算机”，人脑是主角；
第四范式是“计算机+人脑”，计算机是主角。
第五范式既强调人脑与计算机的“有机融合”，也可能更进一步从社会系统和人脑系统借鉴其中的计算与决策机制，从而更重视人和社会在科学研究回路中的形式化建模与计算融合。

数据科学和计算智能的发展催生“第五范式”；“第五范式”发展离不开对数据科学内涵的丰富和计算智能能力边界的突破。

从研究对象看，“第五范式”是科学研究从对物理世界、人类社会的研究拓展到“人-机-物”融合的三元空间；
从研究目标上看，“第五范式”不仅仅是传统的科学发现，更是对智能系统的探索和实现；
从研究方法上看，“第五范式”强调人在回路的浸入式具身研究。

目前，还难以给出“第五范式”的清晰界定，也许再过 10—20 年，“第五范式”的特征就明朗了，可能逐步成为科学研究的主流范式之一。

程学旗 中国科学院计算技术研究所副所长、研究员，中国科学院网络数据科学与技术重点实验室主任，大数据分析系统国家工程实验室常务副主任。在大数据分析系统、Web 信息检索与数据挖掘等领域发表学术论文 200 余篇，获授权发明专利 60 余项。

李国杰 中国工程院院士、发展中国家科学院院士。中国科学院计算技术研究所原所长、研究员，中国科学院科技战略咨询研究院科技智库特聘研究员。主要从事并行算法、高性能计算机、互联网、人工智能等领域的研究，发表学术论文 150 余篇，出版《创新求索录》个人文集。主持研制“曙光-1000”等计算机，获国家科技进步奖一等奖等奖励。

（文章源自：程学旗, 梅宏, 赵伟, 华云生, 沈华伟, 李国杰. 数据科学与计算智能：内涵、范式与机遇. 中国科学院院刊, 2020, 35(12): 1470-1481）