吴喜之：作为科学的统计

wheatfa 2017-02-10

展开全文

本文节选自吴喜之教授的《复杂数据统计方法：基于R的应用》第一章引言，转载请注明出处。

统计是科学（Science），而科学的基本特征是其方法论：对世界的认识源于观测或实验的信息（或者数据），总结信息时会形成模型（亦称假说或理论），模型会指导进一步的探索，直至遇到这些模型无法解释的现象，这就导致对这些模型的更新和替代。这就是科学的方法。只有用科学的方法进行的探索才能称为科学。

科学的理论完全依赖于实际，统计方法则完全依赖于来自实际的数据。统计可以定义为“收集、分析、展示和解释数据的科学”，或者称为数据科学（data science）。统计几乎应用于所有领域。人们现在已经逐步认识到，作为数据科学的统计，必须和实际应用领域结合，必须和计算机科学结合，才会有前途。

统计的思维方式是归纳（induction），也就是从数据所反映的现实得到比较一般的模型，希望以此解释数据所代表的那部分世界。归纳和以演绎（deduction）为主的数学思维方式相反，演绎是在一些人为的假定（比如一个公理系统）之下推导出各种结论。

在统计科学发展的前期，由于没有计算机，不可能应付庞大的数据量，只能在对少量数据的背景分布做出诸如独立同正态分布之类的数据假定后，建立一些假定的数学模型，进行手工计算，并推导出一些由这些模型所得结果的性质，诸如置信区间、假设检验的p值、无偏性及相合性等。在数据与数学假定相差较远的情况下，人们又利用诸如中心极限定理或大样本定理得到当样本量趋于无穷时的一些类似的性质。统计的这种发展方式，给统计打上了很深的数学烙印。

统计发展的历史痕迹体现在很多方面，特别是流行“模型驱动”的研究及教学模式。各统计院系的课程大多以数学模型作为课程的名称和主要内容，一些数理统计杂志也喜欢发表没有数据背景的关于数学模型的文章。很多学生毕业后只会推导一些课本上的公式，却不会处理真实的数据。一些人对于有穷样本，也假装认为是大样本，并且堂而皇之地用大样本性质来描述从有穷样本中得到的结论。至于数据是否满足大样本定理的条件，数据样本是不是“大样本”等关键问题尽量不谈或少谈。按照模型驱动的研究方式，一些学者不从数据出发，而是想象出一些他们感觉很好的数学模型，然后在世界上到处寻求“适合”他们模型的数据来“证明”自己的模型的确有意义。这种自欺欺人的做法绝对是不科学的。

以模型而不是数据为主导的研究方式导致统计在某种程度上成为自我封闭、自我欣赏及自我评价的系统。固步自封的后果是，30多年来，统计丢掉了许多属于数据科学的领域，也失去了许多人才。在现成数学模型无法处理大量复杂数据的情况下，计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法，处理了传统统计无法解决的大量问题，诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型的相继出现宣告了传统数学模型主导（如果不是垄断的话）数据分析时代的终结。这些研究最初根本无法刊登在传统统计杂志上，因此大多出现在计算机及各应用领域的杂志上。

模型驱动的研究方法在前计算机时代有其合理性。但是在计算机快速发展的今天，仍然固守这种研究模式，就不会有前途了。人们在处理数据时，首先寻求现有的方法，当现有方法不能满足他们的需求时，往往会根据数据的特征创造出新的可以计算的方法来满足实际需求。这就是统计科学近年来飞速发展的历程。创建模型的目的是适应现实数据。统计研究应该是由问题或者数据驱动，而不是由模型驱动的。

随着时代的进步，各个统计院系现在也开始设置诸如数据挖掘、机器学习等课程，统计杂志也开始逐渐重视这些研究。这些算法模型大多不是用封闭的数学公式来描述，而是体现在计算机算法或程序上。对于结果的风险也不是用假定的分布（或渐近分布）所得到的p值来描述，而是用没有参加建模训练的测试集的误差来描述。这些方法发展很快，不仅因为它们能够解决问题，还因为那些不懂统计或概率论的人也能够完全理解结果（这也是某些有“知识垄断欲”的传统统计学家不易接受的现实）。现在，无论承认与否，多数统计学家都明白，如果不会计算机编程或者不与编程人员合作，则不会产生任何有意义的成果。