分享

从常识、哲学和统计角度看可能性

 heshingshih 2022-02-08

心智从幼稚到成熟,重要标志是描述灰色地带的词汇越来越丰富。谈论事态,幼稚心智的特点是黑白分明,非此即彼,非好即坏,非鸡汤即毒鸡汤,语言特点是有两极无中段。心智开始成熟,语言就增加了描述斑驳不纯的词汇,黑白之间有灰色,彼此之间有中立,天使与魔鬼之间有常人。

心智越成熟,描述灰色地带的词汇越多,应用越精确。有与无之间的灰色地带是可能。“可能性很小”“不排除这种可能”“不大可能”“可能性不大”“有这种可能”指小于五五开的可能性,但程度有别;“或许”“有可能”“也许”指大致五五开的可能性;“大概”“很可能”“可能性很大”“可能性极大”“几乎可以肯定”指大于五五开的可能性,但程度有别。

日常语言有用,然而模糊。“有”为白,“无”为黑,“可能”为灰,灰度有别。能把灰色的“可能”大致分为三个谱段,就足以应付日常生活了。

从常识到哲学,也有语言标志。谈论过去与现在,用“不可能”“可能”“现实”;谈论现在与未来,用“不可能”“可能”“必然”。辩证思维,以无始无终的动态永恒为对象,把关于过去和关于未来的两个三段论合二为一,进而把这个一转化为无限的动态延续。不可能不是一种状态,是可以无限趋近但无法到达的极限;必然不是一种状态,是可以无限趋近但无法到达的极限;可能也不是一种状态,而是介于不可能与必然之间的无限延续上的一个运动中的点。

统计分析也以可能性为对象。统计分析的目的是展望未来的可能,手段是分析过去的可能。为了炫耀严谨,统计学家约定用不同的英文词标识这两种可能性。过去的可能性叫likelihood,一般译为“或然”或“似然”,未来的可能性叫probability,一般译为概率。

统计数据是过去的记录,分析过去为了展望未来,努力当好事后诸葛亮,为的是有助于当好能掐会算的诸葛亮。分析过去的可能性,工具是对数回归(logistic regressionlogit regression)。

学统计方法的关键是正名,这一点对学“对数回归”格外重要。“对数回归”是我的译法,常见的是音译,“逻辑斯蒂回归”(logistic regression)和逻辑特回归(logit regression)。这类音译有点像“阿耨多罗三藐三菩提”,用神秘的说法表达并不复杂的事态。“阿耨多罗三藐三菩提”指的是“无上正等正觉”,即最高级的智慧觉悟。“逻辑斯蒂”“逻辑特”让人想到“逻辑”,但那是被误导的“遐想”;“对数”让人想到“对数”,才是踏入征途的“联想”。

概率为0,是不可能;概率为1,是必然。统计分析不关心不可能,也不关心必然,只关心从极小(无限接近0)到极大(无限接近1)的可能性。应用统计方法,不关心无限接近0的概率,也不关心无限接近1的概率,只关心具有现实意义的概率。对社会科学研究而言,极小概率是万分之一,极大概率是万仅一失。

思考可能性,似易实难。首先难在用什么单位测量可能性。在常识层面思考可能性,测量单位是彼此相等的小片段。比如,最常听见但最不精密的测量单位是0.1,即“几成把握”的“成”和“几分把握”的“分”;更精密的测量单位是 0.010.0010.0001

其次难在思维方式。用彼此相等的小片段作为可能性的测量单位,采用的是线性思维方式。用直线思维思考概率的变化,即使测量单位精细到十万分之一百万分之一,回归模型总会预测出小于零和大于一的概率。

关于可能性的对数回归采用对数作为测量单位,相应的思维方式是S型曲线。统计学家用分数测量概率,但不停留于此,再做两步转换。第一步是把标志概率的分数转换成发生率(odds),即一个事件发生的概率与其不发生的概率的比率(发生的概率为分子,不发生的概率为分母)。第二步是取发生率的自然对数(natural logarithm)(即以2.718为底的对数)。这个对数就是logit,即 log of itnatural logarithm of itit是发生率。以可能性为因变量,以logit为可能性的测量单位,回归分析就是logit regression(逻辑特回归),为了悦耳,叫做logistic regression(逻辑斯蒂回归)。

统计学家用发生率的自然对数作为概率(可能性)的测量单位,实现了从直线思维到曲线思维的转变。我们既能以近似线性回归的方式分析自变量的变化如何影响因变量的变化,同时又不做出不合乎逻辑荒谬的预测。下图展示的是与自然对数从-9.21增加到9.21相对的概率变化。

图片

SPSS自带的“雇员数据”(Employee Data)分析雇员教育程度如何影响当经理的概率,最小二乘回归的模型会预测出负概率和大于一的概率,如下图所示。

图片

用同一个数据分析雇员教育程度如何影响当经理的概率,对数回归模型的预测符合逻辑。先看上学年数的增加如何影响当经理的发生率自然对数。

图片

再看上学年数的增加如何影响当经理的概率。

图片
下面是我的讲课纲要。

理论的概率变化区间:
00.51

现实的概率变化区间:
0.00010.50.9999

理论的发生率变化区间:
1/∞1

现实的发生率变化区间:
0.000119999

理论的发生率自然对数变化区间:
-∞0

现实的发生率自然对数变化区间:
-9.2109.21

展开后的讲稿是《戏说统计》的第六章第二节。
图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多