分享

从观测过程的观点看对事件发生概率的观测

 hi! 2011-06-24

文章编号 

从观测过程的观点看对事件发生概率的观测

陈必红*

(深圳大学理学院数学系,深圳 518060)

 

    本文用观测过程的观点来研究对一给定事件的发生概率的知识函数的变化,也就是将一给定事件的发生概率看作观测客体,通过对事件发生次数的观测来获得观测主体对此观测客体的后验分布,证明了此后验分布为Β(贝塔)分布,其两个参数α,β的取值为α=m+1β=n-m+1, 其中n为试验总次数,m为事件发生的次数. 本顺便指出对一事件发生概率的最小均方误差估计为(m+1)/(n+2),即事件发生的次数加1除以总试验次数加2. 这种估计比传统的频率估计有更小的均方误差值,且更有合理性,尤其是在小样本的情况下更是如此. 例如,假设只试验了一次,事件发生了,则对事件发生概率的估计,最小均方估计为2/3,而频率估计则将其估计为1,即必然事件. 再例如试验了一百次,一百次事件都发生了,按最小均方估计,事件发生的概率为100+1除以10020.99,而传统的频率估计为1,给人以必然事件的错觉. 虽然用频率来估计概率已经被证明为无偏且优效的估计,但本文指出它并不是最小均方的. 而本文提出的最小均方估计却是有偏的,这种有偏估计有它的合理性. 当然,按观测过程的观点,任何的估计都是损失信息的,因当按知识函数来进行决策而非估计值来进行决策.

关键词  统计,检测与估计,概率论

中图分类号  TN911.6            文献标识码  A

 

在给定一试验环境或者试验条件的情况下,通常一个给定的事件A发生的概率P也就给定了. 为了获得对此发生概率P的估计,作了n次试验,结果A发生了m次,则按照传统的统计学,将m/n称作事件发生的频率,用此发生频率来作为对P的估计. 而本文将给出对P的另一估计,证明此估计是最小均方的,且具有更强的合理性,尤其适于小样本的试验. 大家知道有一些试验是须要付出较大的代价的,例如导弹试验,因此试验的次数不可能很大. 本文提出的对P的估计如下式表示:

                                                                                                       1

其中n为试验总次数,而m是事件A发生的次数. 也就是说,将事件发生的次数加上1除以试验总次数加上2,就是观测主体对于事件发生概率的最小均方估计.

比如说,假设只进行了一次试验,即n=1,事件A发生了,则m=1则按上式得出的对A发生的概率的估计为2/3. 而按传统的频率法,则发生频率为1,估计为必然事件,但在大部分情况下是不合理的.

美国的NMD国家导弹防御计划已经进行了三次试验,成功了一次,则按(1)式可认为导弹拦截的成功率为(1+1)/(3+2)2/5.

一位司机出车一千次无事故,则按(1)式估计,无事故的概率为10001除以10002,即0.999仍不能得出无事故为必然事件,不怕一万就怕万一,仍然不能掉以轻心,麻痹大意.

一种药品临床试验了100次,有效100次,则按(1)式得出的估计为0.99,仍不能保证百分之百地有效.

一位打工者已经应聘了100次,次次失败,则按(1)式估计得出的成功率为0.01,仍然不能说他找到工作的可能性为零,希望还在,不能灰心.

凡是对概率论及复杂数学推导讨厌的读者看到这里就足够了,无须接着往下将本文看完. 你们已经能够用(1)式估计各种事件发生的概率了. 这种估计概率的方法简单且有效,不是吗?但对我给出的(1)式有怀疑的统计学家们当然需要进一步看本文其余部分的推导.

[1]中我提出了观测过程的概念,即观测主体通过贝叶斯递推,从观测值中不断获得有关客体的信息. [2]中进一步给出了在观测主体对观测客体一无所知时,将取最大熵分布的情况. [3]中则对两种具体的观测器,门限观测器和周期观测器的知识函数变化进行了分析.

本文研究将任何一事件的发生概率作为观测客体进行观测,研究在这种情况下观测主体关于观测客体知识函数的变化情况. 假设有一事件A,其有一发生概率P,而观测主体则对此概率P一无所知,这时通过试验来获得有关发生概率P的信息. 那么,根据传统的概率论和统计理论,是作上n次试验,统计事件A发生的频率,根据大数定律,在试验次数趋向于无穷时,频率将趋向于概率. 但是,如果试验次数非常地小,比如说只有一次试验,能够用频率来作为概率的估计吗?当然不能. 比如说,只试验了一次,而这一次成功了,那么发生频率就是百分之百,能够认为此事件是必然事件吗?当然是不合适的. 但经常出现的情况就是,有时试验的代价很高,不允许作大量的试验,或者说每作一次试验,其结果就会极大地左右或者影响决策者的进一步行动.

需知观测主体并不会无端地对任何观测客体感兴趣. 观测主体之所以要对一些量感兴趣,完全是为了作出某些决策,从经济学上考虑,这些决策当然会给观测主体带来收益或者负收益(损失). 而传统的统计学则侧重于根据观测量来进行检测和估计,再根据估计值来进行决策,这经常是很不科学的. 实际上最佳的办法是直接根据知识函数来进行决策,而非根据估值来进行决策. 虽然本文慑于传统的压力也不得不作出某种估值,但强烈地希望读者们能够关注在观测过程中知识函数的变化情况.

1    基本假设

既然观测量是某一事件A发生的概率P,根据[1]的模型,令观测客体X=P. 假设作了n次试验,因此得到n个结果,则可以用观测量Yi, i=1,2,…,n来代表这n个结果,当第i次试验时,如果事件A发生,则Yi取值为1,否则取值为0,也就是说Yi服从0-1分布,取1的概率为X,取零的概率为1-X. 我们当然无法直接对X进行观测,而是通过观测值Yi来获得对X的知识.

那么,根据[1],观测主体一开始对X一无所知,因此处于最大熵状态,也就是对于X的先验分布为在整个实数轴上均匀分布. 但后来知道X可作为某一事件发生的概率,由此语句信息得到的知识函数就改为在[0,1]区间均匀分布. 也就是说观测开始时,观测主体有关观测客体X的知识函数fX(x)

                                                                                         (2)

根据[1]的记法,起始的知识函数可写为f0(x)=fX(x). 而我们将要用[1]的办法进行贝叶斯递推,因此将[1]的递推公式再次写在下面:

                                                                        (3)

2    一次观测的情况

先研究只作了一次观测的情况,也就是只试验了一次,得到的观测值为Y1. (2)式我们知道,需要先求出条件概率 ,代入(2)式就得新知识函数或者后验概率密度函数. 这里我们仍按[1]的习惯将无论离散的还是连续的概率分布都统一用概率密度函数来表示,这里也借助了[1]中重新定义的单位脉冲函数δ(x)

                                                                                             (4)

其中δ为整个实数轴的长度,为一非标准的无穷大数,而ε为其倒数,为一大于0却小于任何标准实数的无穷小数.

我们知道在观测客体X取值为x的条件下,Y1取值为1的概率为x,取值为0的概率为1x,也就是说Y1为服从发生概率为x0-1分布. 这样用概率密度的形式表示的 就可写为

                                                          (5)

现在要根据(3)式算出在已经观测到观测量Y取具体值0或者1条件下的观测主体关于X的知识函数,或者称后验概率密度函数 . 则按Y1取值1Y1取值0两种情况分别讨论.

Y1取得的观测值y11时,也就是我们在这次试验中观察到事件A发生了,则将y=1代入到(5)式中,得到

                                                                               (6)

综合(2)式和(6)式,知现(3)式中的分子为

                                                                      (7)

(3)式中的分母则为

                                                                                                        (8)

(7)式除以(8)式就得到现在的观测主体关于X的后验分布密度函数为

                                                                    (9)

这时按上式给定的后验概率分布计算出后验期望值就是X的最小均方估计,记作 ,则有

                                                                                            (10)

而当Y1取的观测值y10时,即试验的结果事件A没有发生,则将y=0代入到(5)式中得

                                                                    (11)

(3)式中的分母为

                                                                                             (12)

(11)式除以(12)式即可得X的后验概率密度函数为

                                                           (13)

这时对X的最小均方估值为

                                                             (14)

3    广义概率密度函数

为了简化分析,我提出广义概率密度函数的概念.

大家知道,概率密度函数f(x)有一重要的性质,就是它在全区间上的积分为1,即 ,因此知道,如果有一函数g(x)f(x)成正比,记作g(x)f(x),即存在不为0的常数a使g(x)=af(x),则在已知g(x)的条件下可以求得 . 因此可以认为g(x)包含了概率密度函数的全部信息. 因此,假设随机变量X的概率密度函数为f(x),任何与之成正比的函数g(x)都被称为X的广义概率密度函数.

因此,采用广义概率密度函数的概率对(3)式作重新的描述,观察(3)式即可知道,只要知道其分子,则分母可以用分子求出. 因此,称gi(x)fi(x)为广义知识函数, 为广义观测函数,则(3)式描写为:

                                                                                (15)

这就省了计算分母的积分的麻烦,成为贝叶斯公式的简化形式. 而任何时候要从gi(x)求出fi(x),可按下面的(16)式计算:

                                                                                           (16)

4    多次观测的知识函数变化

现在讨论试验了n次的情况. 这时将获得n个观测量Y1,Y2,…,Yn. 在给定X=x的条件下这n个观测量相互独立且均服从0-1分布,取1的概率为x而取0的概率为1-x. 因此其广义观测函数 可表示为

                                                                (17)

(5)式相比,我干脆将条件|y-1|<ε改为y=1而去掉1周围粘着的无穷小数,同样将条件|y|<ε改为y=0. 这样并不影响贝叶斯递推的过程.

广义先验分布g0(x)表示为

                                                                                   18

假设试验n次得到n个观测量的具体的n个观测值y1,y2,…,yn. 这些观测值不是1就是01表示事件A发生而0表示事件A不发生. 假设事件A共发生了m次, ,也就是说,这n个观测值中有m1n-m0. (15)式和(17)式,我们知道递推了这么n次后得到的知识函数一定是mx乘上n-m1-x,即

                                                                     (19)

这正是В分布的广义密度形式,将其归一化可得试验n次事件A发生m次的关于发生概率的后验概率密度函数fn(x)

                                        (20)

В分布的参数α=m+1,β=n-m+1. 参见[5].

В分布与В函数密切相关,В函数的定义为

                                                                 (21)

它与Γ函数的关系为

                                                                                           (22)

而我们涉及到的В函数的参数都是正整数,在xy均为正整数的情况下, 可以用阶乘表示,则(22)式又可表示为

                                                                                   (23)

因此,我们可以计算由(20)式表示的概率密度fn(x)对应的后验数学期望,即关于事件A的最小均方估计 (参见[4])

               (24)

这就是本文要推导出的一个重要结果. 可以看出,当试验次数n无限增大时,这个估计值将趋向于同事件发生频率一致.

varn(x)表示n次观测后的后验方差,即最小均方的这个均方值,也就是计算概率密度为fn(x)时的方差,则因为

                                (25)

(25)式减去(24)式的平方,得

                                                              (26)

根据大数定律,当试验次数增加时,(26)式的 将趋向于概率x 将趋向于(1-x),则在n很大时,后验方差近似为 ,正好同频率法估计的方差一样.

结语

本文推导出的结果具有普遍的实用意义,和传统的用频率来估计概率的算法相比,本文给出的算法更适用于小样本的情况和极低概率和极高概率的情况. 这个算法的另一个优点是,它永远不会统计出概率1和概率0,即使是全部试验事件A发生,或者全部试验中事件A不发生,也只不过是概率接近1或者0而已.

当样本很小的情况下,通常统计学家会抱怨统计信息不够,会要求继续做试验. 但实际情况常有这种情况,要么由于时过境迁无法在相同条件下继续试验,或者由于试验的代价很大限制了试验次数. 当然,试验次数小,结果中携带的信息就少,但少的信息也应当充分利用而不是将其抛弃.

此外,从观测过程的观点,是尽量反对任何估计的行为的,因为任何估计都损失了信息. 观测主体只所以要对某些观测客体进行观测,必然有其目的,而不能够是无端地感兴趣,在许多情况下观测的目的是为了决策. 即使在样本很小的情况下,例如只试验一次,其目的也是为了决策. 因此观测过程理论更主张直接利用知识函数进行决策,而非利用估值进行决策. 因此,观测主体更关心的应当是本文中的(20)式而非(24).

参考文献

[1]    陈必红. 观测中的信息传递与广义均匀分布[A]. 深圳大学学报(理工版)[J], 1998,15(2-3):17~21.

[2]    陈必红. 观测过程中的信息熵变化[A]. 深圳大学学报(理工版)[J], 1998,15(4):8~12.

[3]    陈必红. 门限观测器及周期观测器的收缩性研究[A]. 深圳大学学报(理工版)[J], 1999,16(1):9~13.

[4]    陈炳和. 随机信号处理[M]. 北京:国防工业出版社, 1996:258~259.

[5]    周概容. 概率论与数理统计[M]. 北京:高等教育出版社, 1984:146.

References

[1]    Chen Bi-hong. Information transfer on observation and generalized uniform distribution [A]. Journal of Shenzhen University (Science & Engineering) [J], 1998,15(2~3): 17~21. (in chinese).

[2]    Chen Bi-hong Information entropy change in observation process [A]. Journal of Shenzhen University (Science & Engineering) [J], 1998,15(4): 8~12. (in chinese).

[3]    Chen Bi-hong. Research on shrinking of threshold observer and cycle observer [A]. Journal of Shenzhen University (Science & Engineering) [J], 1999,16(1): 9~13. (in chinese).

[4]    Chen Bin-he. Random Signal Processing [M]. Beijin: National Defence Industry Publish House, 1996: 258~259. (in chinese).

[5]    Zhou Gai-rong. Probability theory and mathematical statistics [M]. Beijin: Higher education Publish House, 1984: 146. (in chinese).

 


The Observing to the Probability of an Event by the View of Observation Process

 

CHEN Bihong

 

Department of Mathematics

Shenzhen University

Shenzhen 518060

P.R.China

Abstract In this paper, we research the vary of knowledge function of the probability of a given event by the opinion of the observation process. That is, we look the happen probability of a given event as a observation object, and get the posterior distribution of observation subject to the object by observing the happen times of the event, and prove that it is Β(Beta) distribution whose two parameters α,β is α=m+1β=n-m+1, where n is the total test times and m is happen times of the event. By the way, we point that the minimum mean square estimation to a happen probability of an event is (m+1)/(n+2), the happen times of the event add one divide total test times add two. This estimation has less square error valueand more reasonable, especially in the small samples situation. For example, assuming that we just test once, and the event happened, and we estimate the happen probability, the minimum mean square estimation is 2/3, and the frequency estimation is 1, that means necessity event. For another example, test one hundred times, and the event happened one hundred times, the estimated probability is 100+1 divide 100+2 is 0.99 by minimum square error estimation and is 1 by traditional frequency estimation, which give people a wrong impression of necessity event. although estimating probability using frequency have been proved unbiased minimum variance, but it is still not minimum mean square estimation. The minimum mean square estimation put forward by the paper is bias, and the bias estimation has its rationality. Certainly, by the opinion of observation process, any estimation would loss the information, so it would be better to make decision on knowledge function, not on estimation value.

Key words    statistics, detection and estimation, probability theory

 



*收稿日期: 2000-09-01

作者简介: 陈必红(1955~),(汉族),江苏人,深圳大学讲师、博士. E-mail: cbhong@public.szptt.net.cn

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多