分享

如何介绍“原理”

 liyu_sun 2020-07-01
在课堂、讲座、教科书、百科、学术论文和其它形式的科研报告中,往往需要对某一原理进行介绍。原理本身具有普适性甚至有深奥、神秘的一面,需要以严谨的方式呈现。但在介绍原理时,不能只强调深奥、神秘和严谨,而应采取一种由浅入深的介绍思路,这样读者或听众就可能被原理吸引。反过来,如果开门见山地强调严谨,一开始就使用深奥的语言,可能会吓退本来感兴趣的读者。

为了说明如何由浅入深地介绍原理,先声明一下这里所指的原理是什么。这里所指的原理可以是一条数学定理、一条物理定律、一种现象、一种行为规律等等。以下便是我们每人可能熟悉或听说过的若干“原理”:
  • 直角三角形的勾股定理
  • 浮力定律
  • 魔幻数字七现象(The magic number seven)
  • 一万小时成才定律
  • 万有引力定律
  • 飞机机翼产生升力的原理
  • 相对论原理

原理的介绍常常出现在课堂、讲座、教科书、百科、论文科研报告中。例如,在论文的方法部分,可能有对原理的介绍。一般情况下,都需要对原理进行陈述、介绍主要性质、对原理进行解释并指出有何应用价值(必要时需要给出相关文献)。那么,如何安排这些内容呢?

一种比较标准的形式是,将原理的介绍按顺序分成概述原理陈述主要性质解释应用五个部分。本文余下部分按顺序介绍各部分的要求。需要事先指出的是,依据不同的要求,原理的介绍也不一定分成五个部分,详见本文末尾的补充说明。

本文将使用本福德定(Benford's Law)作为主要说明例子。该定律是关于那些没有经过人为改造的自然发生的数据中首位数字为1到9的数字的数量所占的比例。

一、概述:用科普手笔,让外行都能理解

概述的目标不是为了吓退读者,而是为了吸引尽可能多的读者。概述是写给所有读者的,包括普通读者,目的是让外行都能理解,于是需要尽可能使用科普手笔

在概述部分,应以通俗易懂的语言对原理进行图文并茂、形象生动的简介。可以适当给一到两个容易理解的例子来帮助读者事先对原理产生直觉级别的理解。

现在来看文献网站Brilliant.org是如何就本福德定律来书写概述的。先是针对该定律的两段文字性描述(为了符合中文阅读习惯,我们对原文有较大改动和补充)。

本福德定律描述的是自然出现的数据集中首位数字满足的规律。一个数的首位数字是指最左侧的那位数字,例如,3298的首位数字是3,而7888的首位数字是7。直觉上,我们会认为首位数字取1-9中间的任何一个的概率是相等的,都是1/9。然而,本福德定律却预测,首位数字为1的概率最大,高达30%左右,接着是2,以此类推,以致首位数字为9的概率只有不到5%。不可思议的是,自然发生的数据集中的首位数字确实常常满足本福德定律。 这只是本福德定律的通俗介绍,严格而言,该定律使用以10为基数的对数来预测首位数字的概率所满足的关系式。

本福德定律预测的这种现象通常发生在现实世界数据的许多不同实例中。当来自不同来源的更多数据组合在一起时,这种情况变得更加明显和可能。然而,由于也存在不满足本福德定律的数据集,因此解释为什么在一些众所周知的数据集中会满足该定律存在无比想象的困难。科学家甚至已经开始使用该定律的不同版本来检测预期符合该定律的公开发布的数据(如纳税申报、选举结果)中是否存在潜在的欺诈行为。

第一段是对定律进行由浅入深的描述,第二段是对发生场景和价值进行简介。为了进一步帮助理解,网站Brilliant.org接着举了几个生动的例子来说明本福德定律的表现形式。第一个例子是全球不同国家的国土面积,第二个例子是美国不同地区的人口数量。下面滑动窗口给出了第二个例子。

请向上滑动

现在用柱状图和表格来呈现数据满足的规律。图1是美国3142个县级单位的首位数字为1到9的人口量出现的概率。可见,首位数字出现的概率并不相等,而是像本福德定律预测的一样,随着首位数字由1增加到9,出现的概率由30%左右降为5%以下。

图1 美国县级单位人口数量首位数字概率图(Brilliant.org)

表1是美国县级单位人口数量首位数字概率与本福德定律预测结果的比较(注意,表中的数据采取了四舍五入)。可以看出,实际统计与预测结果十分接近。

表1 实际统计结果与本福德定律预测结果的比较(Brilliant.org)



网站Brilliant.org举了一个反例,说明本福德定律不成立的情况。

一组由随机数发生器产生的介于1和10^6之间的1000个数字则不符合本福特定律的分布。事实上,这些随机数的首位数字会平均分布在所有1到9的九种可能性之间。 

网站Brilliant.org针对本福德定律的概述,让所有读者都事先对本福德定律有了一个概貌。对于不需要将本福德定律作为专业知识的读者,概述起到了科普作用,不需要阅读下面的深入内容就掌握了直觉级别的知识。对于需要上升到专业级别的读者,上面的概述起到了帮助理解下面正式内容的效果。

二、原理陈述:采取教科书级别的风格

在原理陈述中,给出对原理的教科书级别的描述,包括假设、限定和原理的表现形式。
  • 如果原理是通过数学表达式呈现,那么给出数学表达式和符号说明。如果原理涉及多个数学表达式,则需要按前后逻辑关系顺序给出。下面会针对本福德定律给出示例。
  • 如果原理是一种可以用文字和数字描述的现象,那么需要按可理解原则来表述。以魔幻数字七现象为例,哈佛大学心理学家发现的魔幻数字七现象只适合文字性陈述:“一个普通人在任何时候能有意识地处理的物体的数量是7,误差不超过2”。

网站Brilliant.org针对本福德定律的陈述中,先对本福德定律给出严格的定义。

定义:如果一组数字的首位数字d(d∈1,…,9)以概率
P(d)=log10(d+1)-log10(d)=log10(1+1/d)
出现,则称这组数满足本福德定律。用数据表示,满足本福德定律的数字的首位数字d出现的概率P(d)为:
     d=1, P(d)=30.1%
     d=2, P(d)=17.6%
     d=3, P(d)=12.5%
    d=4, P(d)= 9.7%
    d=5, P(d)= 7.9%
    d=6, P(d)= 6.7%
    d=7, P(d)= 5.8%
    d=8, P(d)= 5.1%
     d=9, P(d)= 4.6%
接着对定律进行适当说明:
本福德定律预测的一组数据中随机选取的数中,首位数字为d的概率为log10(1+1/d).  如果实际数据的概率接近本福德定律预测的概率,那么称这些实际数据是本福德数据,如乡村面积是本福德数据,乡村人口数据是本福德数据。 
如果有必要,可以对原理进行图形说明。以本福德定律为例,如果你把首位数字为1到9出现的概率放在一张立柱图中,横坐标是首位数字,由左到右从1递增9,纵坐标是相应的首位数字出现的概率,那么,本福德定律的分布规律如图2所示。可见,首位数字越大,出现的概率越低。

图2 本福德定律(Carlton Collins) 
最后,对本福德定律进行一些注释,包括指出概率之和为1,以及本福德定律是如何诞生的。详细介绍见网站Brilliant.org。

三、 主要性质:突出意想不到的特征

如果原理本身存在一些意想不到的特征或影响因素,且只有强调这些特征和影响因素才能正确使用该原理,才能避免用错或出现意外,那么就需要在主要性质部分强调。

假定你要介绍的“原理”是某天气预报模型,而在该模型中,某些参数的设置具有失之毫厘谬以千里的影响,那么就需要拿出来重点介绍。

网站Brilliant.org针对本福德定律指出了两条重要的性质:
  1. 结论与自然对数的底数无关,例如,将log10(1+1/d)  改成log2(1+1/d) ,结论不变。

  2. 结论与数据的单位没有关系。为此,还给出了一个例子,见图3。该例子涉及全球197个国家的面积的首位数字为d出现的概率,用以说明无论是采取平方英里、平方英尺还是英亩作为面积单位,都符合本福德法则。

图3  全球197个国家的国土面积符合本福德定律的情况(Stephanie)

针对第二条性质,网站Brilliant.org还正式给出了一条定理并给出了该定理的证明:
定理:如果一个数据集满足本福德定律,那么将原始集合中的所有数字乘以一个固定常数得到的新的集合也将满足本福德定律。
证明:(略)

四、 解释:知其原,也知其所以原

只有理解原理,才能正确地使用原理,并在原理有缺陷时对原理进一步发展。为此,需要对原理作出解释。

解释的一种含义是,指出为什么成立该原理,必要时给出证明。有的原理可以被严格证明,例如勾股定理就是如此。有的原理只是一种观察、假设或统计结果。对于这类原理,解释成立的原因往往是困难的。例如,牛顿定律就是一种无法用现有理论证明的原理。

网站Brilliant.org试图对本福德定律进行这种解释(explanation of the law),但实际上是将该原理表述成另外一种数学形式,并不是真正的解释或证明。例如,Stephanie就指出:

这个(本福德)定律很难用数学来证明,因为它更像一个公理(有点像乘法法则)。人们已经做了许多尝试来解释这一现象,从本福特最初关于数据对数性质的想法到希尔(Hill)的概率框架,希尔使用不同概率分布的混合物来部分解释这一现象。在写这篇文章的时候,还没有一个完整的答案来回答为什么本福德定律成立。...。

如果无法给出或者没有必要给出严格证明,也可以给出直接级别的推理。在推送《奇妙的数据规律——本福德定律》中,针对散布谣言者数目越来越多这一现象,给出了为何每天散布谣言者的数据可能会满足本福德定律的直觉原因:

对于基于之前的数目按比例增长(如谣言传播者)的数据,由100涨到200需要增长100%,因此需要很多天。由200涨到300需要增长50%。...。由900涨到1000,只需要涨10%多一点点,因此不需要很久。如果每日记录当日数据,那么显然,首位数字为1的数据比为2的数据多多了,为2的比为3的多,最少的显然是9。

解释的另一种含义是对原理进行理解。如果无法对原理进行严格证明,那么可以交代人们是如何理解的,虽然这可能带有一定的主观性甚至有时这种理解不一定正确。以魔幻数字七为例,网站Excellence Assured对该现象的理解是:
每秒大约有200万比特的信息进入我们的大脑,我们通过我们的过滤器删除、扭曲和概括,直到我们达到数字7 ± 2。这意味着我们在经历事件和对之做出反应时被过滤掉了一些信息。...。这一限制适用于短期记忆和许多其他认知过程,如辨别不同的声调和一眼就能感知物体

解释的第三种含义是介绍原理的实际检验。如果尚未找到原理存在的原因,则可解释人们是如何用观察结果来检验原理的正确性的。在满足假设的前提下接近真理且经得起检验的东西才能称之为原理。一个重要的原理会不断接受检验,例如,一百多年以来,爱因斯坦的广义相对论不断被新的天文学观察检验。在介绍爱因斯坦的相对论原理时,可以哈菲勒——基廷实验(Hafele–Keating experiment)来交代原理的一种实际检验。

哈菲勒——基廷实验
1971年10月,哈菲勒和基廷在定期的商业航班上两次将铯原子钟飞行到世界各地,一次飞往东方,一次飞往西方,以检验广义相对论效应和狭义相对论效应对时间膨胀的影响。 对于这两次飞行,爱因斯坦的相对论理论预测,飞行时钟在向东飞行时应该损失40+/-23纳秒(其中,广义相对论效应增加144+/-14纳秒,狭义相对论效应损失184-/+18纳秒),在向西飞行时应该增加275+/-21纳秒(其中,广义相对论效应增加179+/-18纳秒,狭义相对论效应增加96+/-10纳秒)。实际观察结果是,飞行时钟在向东飞行时损失了59+/-10纳秒,接近理论预测值40+/-23纳秒,在向西飞行时增加了273+/-7纳秒,接近理论预测值275+/-21纳秒。 (数据取自R Nave)


五、 有何应用:知识服务于社会


指出原理有哪些应用是必要的,同时应指出如何应用。概述中的举例实际上也是指的应用。

以本福德定律为例,网站Brilliant.org是这样提到应用价值的:
人类很难使用手工来构造满足本福德定律的分布。欺诈性的数字数据通常可以通过简单地查看首位数字出现的频率来识别,尽管在实践中经常使用一个以上的数字来进行更精确的检查。特别是,本福德定律适用于纳税申报表、选举结果、经济数字和会计数字。

作为本部分以及本文的结尾,现在来介绍如何针对我们熟悉的当前例子——新冠肺炎的数据——来应用本福德定律。这些数据可用于检验本福德定律,也可以用本福德定律来检验是否存在数据造假嫌疑。

考虑到经过人为改造的数据不会符合本福德定律这一事实,可以用本福德定律来检验数据是否造假。例如,如果一些国家的数据满足本福德定律,而某一国家的数据不满足,那么,就可以初步断定数据不满足本福德定律的国家存在数据造假的可能性。


三国新冠肺炎数据与本福德定律

达拉斯联邦储备银行的克里斯托弗·科赫(C  Koch)和牛津大学的肯·冈村(K Okamura)最近在投递给《社会科学研究网》(Social Science Research Network)的文章中,用本福德定律检验了中美意三国各地区的新冠肺炎人数,发现这些数据均满足本福德定律(图4),从而证明这三个国家报道的数据均没有人为改造的现象。 

图4  新冠肺炎报道病例数据(Koch & Okamura)


补充说明

在本文开始的地方,我们已经指出,也不一定总是按概述原理陈述主要性质解释应用五个部分来介绍原理。有时需要改变顺序,有时可能需要合并,有时可能需要补充,有时可能需要删减。
  1. 后三个部分也可以改成其它顺序。例如,可以把解释放在主要性质之前。

  2. 如果某两个部分权重不大,可以将其中两个甚至多个部分整合成一个部分。

  3. 如果原理的诞生过程充满传奇色彩(如阿基米德的浮力定律和牛顿的万有引力定律的诞生都有传说中的传奇色彩),那么原理的诞生过程也可以单独拿出来作为一个独立部分介绍。

  4. 如果是在原创学术论文的方法部分介绍一个原理,可以忽略应用,因为论文本身就在探讨其它应用。其它个别用处不大的部分也可以忽略,而只突出与全文相关的那些部分。


(完)
撰文 | 学位论文写作工作组
排版 | 琳月
校对 | 白博士

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多