分享

信賴區間與信心水準

 航海王魯夫 2009-05-22

信賴區間與信心水準解讀相關之機率與統計知識

陳宏/台大數學系

一、引言

的概念局,瑞士數學家賈奎斯伯努力(Jacques Bernoulli)在機率方面的開創性成果Ars Conjectandi (The Art of Conjecturing;推測的技術,術;參看文末之附圖,附圖來源為nsm1.nsm.iup.edu/gsstoudt/history/images/arsconj.html)在他死後八年(西元1713)才出版,此書對機率論發展有重大貢獻,書中包含了排列組合理論、伯努大數法則及著名的伯努(Bernoulli numbers)伯努大數法則乃在於探討何謂一事件(設想擲銅板出現正面之事件)發生的機率是 p,且問是否

可藉由重覆實驗(設想擲銅板)多次所得該事件發生之比例來估計 p

西元1654年,在巴斯卡(Pascal)費馬(Fermat)的五封信函內,討論當一約定賭局在勝負底定前,若臨時終止賭局,該如何合理的分配該筆賭金。這其中所探討的一個問題是

總共有100元賭金,甲、乙兩人約定如果誰先贏得3局,就可以把賭金全部拿走。規定每贏一局可以得到一分,所以首先拿到3分者就取得勝利,可以拿走所有的賭金。若現在拿到兩分,而拿到一分,當每局甲、乙兩人獲勝的機率都相等時,在此時結束賭局,應該如何分配賭金?

在探討此問題時,產生古典機率(假設每局兩人獲勝的機率都相等)及使用數學期望值來分配該筆賭金(見蘇),故在數學史上,認定機率論誕生於西元1654年。

古典機率是指在同等確實之概念下(試驗所有可能簡單事件的出現機率皆均等下,當所有可能簡單事件出現之總數為n時,當某事件可表為r簡單事件時,該事件發生之機率定義為r/n(此分數稱為頻度)。所以「擲一個公正銅板,出現正面的機率是1/2」,此話的意思是指擲該銅板只可出現「正面」或「反面」這兩種簡單事件,且因材質均勻,故此二簡單事件的出現機率均等,所以得「正面」的機率是1/2這是在現行綱要或95暫綱在課堂中所講授的機率定義,所以在教學上與排列組合相契合,在這行之有年的課程安排下,在教學上並未產生過多的問題。不過在95暫綱探討「信心水準的解讀」時,須引進機率的極限相對頻率(limiting relative frequency)解釋,也就是上述伯努力所欲探討的問題或伯努力大數法則

95暫綱中,統計部份的內容,除了現行綱要之敘述統計部分外,並在

一、  第四冊中引進信賴區間與信心水準的解讀。並說明須涵蓋常態分配及68-95-99.7規律。僅需處理二元資料,不必引進機率模型,以教學活動瞭解信賴區間與信心水準的解讀。

二、  高三選修(Ⅰ)中之「數學期望值與二項分配」這一單元要與「信賴區間與信心水準的解讀」結合。

而在九年一貫數學教材之能力指標中的D-4-05,「學習上要求能在具體情境中認識機率的概念,此一能力指標包含「能以具體情境介紹機率的概念」及「能進行簡單的實驗以了解抽樣的不確定性、隨機性質等初步概念」這兩個細目。所以95暫綱中的「信賴區間與信心水準的解讀」單元,乃在於落實前述之指標,藉由模擬實驗來理解何謂信賴區間之信心水準,或何謂一事件發生的機率是p,而引進機率的頻率觀,同時將統計與機率相結合

為與現行數學教學相結合,於選修(Ⅰ)中要求教授二項分配(註:其實應該討論超幾何分配,但在實務上所會面臨之超幾何分配,可被二項分配逼近極好。),但須與信心水準相結合,目的乃在於,藉由二項分配之期望值與變異數之計算,學生可明瞭信賴區間公式為何有道理及為何出現p(1-p)/n,落實信賴區間與信心水準的解讀

在本文中將僅就信賴區間與信心水準解讀相關之機率相對頻率觀及統計知識,作一闡述。並由學理、執行面就教於諸先進。在第二節中探討信心水準的解讀與機率的極限相對頻率觀之聯結,也處理民意調查中使用簡單隨機抽樣所得之同意比例相關之分配為超幾何分配,其可被二項分配近似,到二項分配可被常態分配近似。在第三節中探討弱大數法則與機率的極限相對頻率觀。在第四節中探討使用弱大數法則來使用樣本估計信賴區間中的未知參數。在第五節中探討常態分配及中央極限定理。

二、信心水準的解讀與機率的極限相對頻率觀

在新聞媒體所讀到的民意調查而言,常會見到諸如所有合格的選民中(設想為15×106人),使用簡單隨機抽樣訪問1600人,來推測所有合格的選民對一議題的同意比例 p。設想當取得該次1600位受訪者對該一議題的同意比例為42%,代入信賴區間公式,得到諸如42%±2.5%=(39.5%,44.5%)95%信賴區間。

若令C代表 p 落於區間(39.5%,44.5%)之一事件時,此時未知的 p,因係一定數,其或落於區間(39.5%,44.5%)或不落於區間(39.5%,44.5%)。如被問P(C)為何時,我們當然不可能回答是0.95。這也是稱為95%信賴區間的緣由,此處之95%稱之為信心水準。

那麼,信賴區間真與機率有關嗎?或是95%真與機率有關嗎?又何謂信心水準?因(39.5%,44.5%)此一信賴區間顯然與被採用簡單隨機抽樣取得的樣本有關,如果重複上述試驗一次,可能會因取得的樣本不同,而得到諸如(40.5%,45.5%)之區間。因樣本的取得是採用簡單隨機抽樣,所有可能產生的不同樣本最多能達到C(15×106,1600)種,但因只關心被調查者的答案是「同意」或「不同意」,所得的同意比例 的取值只可能是0/1600, 1/1600, ,1600/1600,1601個取值的其中之一。可將每一次的試驗樣本視為一簡單事件,則該簡單事件發生的機率恰為1/C(15×106,1600)。所以產生同意比例 = i/1600機率

由中央極限定理可知,當1600p1600(1-p)皆大於5時,

在此F(.)係標準常態分配的累積分配函數。

所以信賴區間為一隨機區間,其機率是由簡單隨機抽樣所引進,當定義(複合)事件C由簡單隨機抽樣所得95%信賴區間確包含真實值p」時,機率之意涵是由簡單隨機抽樣所賦與的,此時之P(C)約為0.95。如藉由上述之機率近似,可知在這C(15×106,1600)信賴區間(但只有1601個相異之區間)中,約有0.95C(15×106,1600)簡單隨機抽樣取得樣本所造出的信賴區間會包含 p,也有0.05C(15×106,1600)簡單隨機抽樣取得樣本所造出的信賴區間不會包含 p。所以上述一特定抽樣所得之95%信賴區間(39.5%,44.5%) 的實現值為42%,只是信賴區間中之一,它有可能是包含 p信賴區間中的一個,也有可能是不包含 p信賴區間中的一個。但因大多數信賴區間會包含 p,所以只敢說很有信心此一信賴區間(39.5%,44.5%)會包含 p,而用上述之95%來表示信心的強度

但為何不是機率,乃因未知的 p為一定數,pÎ(39.5%,44.5%) pÏ(39.5%,44.5%),並無法賦與機率之意義,而使用信心一詞。

而在課程綱要中,採用模擬的方式,其目的乃在幫助學習者能掌握「信賴區間為一隨機區間」的概念,而95%乃指P(C)=0.95機率,或是指在重覆進行多次試驗下,會有近95%比例的信賴區間會包含 p,這是伯努力頻率觀因著伯努力頻率觀,我們可以進行模擬來掌握信賴區間的意涵,給定特定之信賴區間時,其可能包含或不包含 p,這正投擲一出現正面機率未知的錢幣,得正面時表示該信賴區間包含 p,由多次投擲來決定投擲一材質不均勻的錢幣,其得正面的機率

伯努力探討「一事件發生的機率是 p」之前,機率與經驗世界並無太多的關聯。當丟擲骰子或錢幣一次,其觀測值的機率是藉由對稱等概念而導出,此稱之為古典機率。而在課綱的執行要點上,要求使用實驗等方式來進行教學,期望在學習上理解

1.    諸如42%±2.5%95%信賴區間,並非指42%±2.5%此區間包含未知量 p的機率是0.95

2.    過去三個世紀偉大的思想家如何提出一個數學架構來處理不確定事務。

3.    落實九年一貫數學內涵之教授,將統計與機率兩者作更緊密的結合

4.    引進模擬之概念。

三、弱大數法則與機率的極限相對頻率觀

當接受古典機率時,公平銅板出現正面事件的機率是0.5伯努力的問題是「是否可藉由重覆丟擲該銅板多次,使用出現正面事件發生之比例來估計0.5」。這個答案是肯定的,但其意義是什麼?因丟擲該銅板10次,不同的簡單事件共1024出現正面的次數可為01102/1024(0.2%)的機率會得到0次或10次,此時出現正面事件發生之比例為01,這顯然與0.5是有相當的差異;有22/1024 (.2%)的機率會得01910次,此時出現正面事件發生之比例為00.10.91,這顯然與0.5仍有相當的差異。有112/1024 (10%)的機率會得到0128910次,或有約90%的機率出現正面事件發生之比例介於0.30.7之間。

當丟擲該銅板20次時,則出現正面事件發生之比例為01的機率為2/10242(0.0002%),較丟擲該銅板10次時為低;有420/10242 (0.37%)的機率會得到出現正面事件發生之比例為不超過0.1或不小於0.9;有約95.86%的機率出現正面事件發生之比例為介於0.30.7之間;或有約88.47%的機率出現正面事件發生之比例為介於0.350.65之間。

接下來,說明當丟擲該銅板多次,出現正面事件發生之比例與0.5的距離超過定數c的機率會隨著試驗次數增加,越來越小

Xn丟擲該銅板n次時出現正面之次數,則Xn的可能取值為0, 1, …, n,且 。現藉助巴斯卡三角形第n列的(n+1)個數字,來看出上述出現正面事件發生之比例與0.5超過一定的機率會隨著n變大呈現下降的趨勢。因巴斯卡三角形的第n列的n+1個數字為C(n,0)、C(n,1)、…、C(n,n),當以k為組中點,組次數C(n,k)所繪製之直方圖時,可知該直方圖對稱於通過(1+n)/2之垂直線,且其圖形呈現上升再下降之走勢。由於 可知當k<(n-3)/4時,C(n,k+1)/C(n,k)>3;當(n-2)/3>k>(n-3)/4時,3> C(n,k+1)/C(n,k)>2。由等比級數之特性,可知直方圖會集中於(1+n)/2之垂直線附近,由附錄二的證明可知,直方圖會集中於過(1+n)/2±2n此二垂直線之間,或說對於非0的正數c

這就回答是否可藉由重覆實驗(設想丟擲銅板)多次所得該事件發生之比例來估計p,也就是一般所稱的(弱)大數法則。

(弱)大數法則:假設一事件發生之機率為 p,假設能一再地重覆該實驗n次,觀察同樣的現象,每次的佈置都相同(機會相同),而且一次次之間互相獨立,其中有k次發生了這件事件;我們計算發生的相對頻率k/n,那麼,在n趨近無限大時,這相對頻率k/n就趨近於p,「|k/n-p|不很小」的機會很小!

當丟擲一枚公平銅板n次時,事件A代表 在附錄中經由期望值及變異數之計算,再藉由柴比雪夫(Chebyshev)不等式,給出an之上界bn,因 ,由夾擊定理,可知 。或說找出事件{|Xn/n-1/2|>c}機率上界,因該上界會隨著n增大而趨近於0,這說明事件{|Xn/n-1/2|>c}並不易被觀察到。

四、信賴區間與弱大數法則

信賴區間的公式中會出現 這三項,直觀上乃是 來估計p值, 來量測 之變動。因 未知,而以 近似

n夠大時,由附錄二的弱大數法則之證明可知,定義A 事件對於大的c值,弱大數法則告訴我們事件A之發生機率不會太大,而中央極限定理給出A之近似機率值

現說明為何 近似,當事件AC發生時, 接近於p時,因 x的連續函數,所以 接近於 這就像是1(1.01)1/2近似值同樣的道理(用微機積分的說法,因 x=1此點附近連續,所以 (1.01)1/2近似值)。至於事件A發生時,因事件A發生機率甚小,並不須考慮 是否接近於 。當使用機率之進階語言時,稱 機率收斂 上述之弱大數法則,乃是說 機率收斂p

在統計推論上,常使用機率收斂的方式來說明為何有信心確認未知量與已知量兩者間的距離小。試以丟擲一現正面事件的機率是p的銅板100次為例,令X表其出現正面之次數,當完成該試驗觀察到X=x時, 已知量,而p未知量。在此xX的觀察值,統計採用 來描述 間之距離,或是說用機率來描述 間之距離,只要 取值大於c機率小,就宣稱有信心認定 間之距離小於c

當然我們可能會問是否有比「藉由重覆丟擲該銅板多次,使用出現正面事件發生之比例更好的方式來估算 p」,由西元1713年迄今近300年的時間,尚未找到替代的方法。不過此方式是可說明手術成功率、任兩個人之指紋都不相同等生活上會面臨的問題,但並無法回答諸如一個人被閃電擊中之機率、核能廠發生嚴重事故之機率等問題。

接下來我們探討兩個問題,第一個問題是「當多個人重覆擲同一銅板多次,是否有可能會得出彼此衝突的結果?」,第二個問題是「一個人重覆丟擲一銅板,每丟擲一次,就計算累計出現正面的相對頻率,在此過程中是否會得出彼此衝突的結果?」。

對第一個問題,設想當有N個人重覆丟擲該銅板 n次時,Xi代表i個人得到正面之次數,而事件Ai代表 時,則所有事件Ai都同時發生的機率為

這顯然與Nan的相對大小有關。在信賴區間的實驗時,c的取值與n有關,當c=2 時,且常態分配函數是二項分配函數好的近似時,an0.05。當N=40時,所有事件Ai都同時發生的機率約為 。因Nan2,也可使用 exp(-2)≈ 13.53%給出的所有事件Ai都同時發生的機率。那麼僅有其中一事件不發生的機率約為 ( )。至於恰有二、三、四事件不發生的機率約分別為27.76%、18.51%、9.01%、由此可知大部分的實驗結果,差異不大。

對第個問題,乃是所謂的大數法則。在大學機率課本的表達方式為

但弱大數法則的表達方式為

在弱大數法則之證明,我們先定義事件An= 且令 ,而上述的表達方式乃是說 。當我丟擲一枚出現正面事件機率是p的銅板100次得到60次正面時,如果藉由弱大數法則,我們可有把握0.6p的距離甚小?當我頗有信心說0.6p的距離甚小時,這依賴以下的兩個信心:

信心一、事件A100不發生;信心二、0a100的好近似。

後者是談極限或用電腦計算時所必須面對的問題,但在機率或統計所面臨的困難,常在於無法讓n跑到無窮,所以需要更好的近似方式。如果信心二是事實,信心一可以變成是事實嗎一般而言,信心一常不可變成事實,所以才有信賴區間這類思想之發展。

那麼大數法則又在說什麼?它回答上述的第二個問題,就是「一個人重覆丟擲一銅板,每丟擲一次,就計算累計出現正面的相對頻率,在此過程中不太會得出彼此衝突的結果。或是說當我丟擲一枚出現正面事件機率是p的銅板n次得到r(n)次正面,是否會有

要能清楚這件事之前,得先理解何謂隨機變數,或甚麼是w。對於遺傳學之父孟德爾而言,他發現:「如果長莖豌豆和矮莖豌豆交配,子代和孫代全部是長莖,一直到第四代,四株中才有一株是矮莖」。他藉著函數y=f(x)來理解遺傳,y子代的表徵,而f(x)是父代的表徵,但顯然使用y=f(x)來理解遺傳時的f不符合函數的定義,因其是一對多。不果或許我們可使用y=f(x,w)w未被觀察到。現在我們試著用此來理解丟擲一銅板的試驗,使用y=f(w)w未被觀察到、f未知、y係正面或反面。此時大數法則乃在回答一函數列 是否可被常數函數y=p所逼近當n大時。

丟擲一枚出現正面事件機率是p的銅板100次得到X次正面時,弱大數法則告訴我們

,在此事件An=

。這只要依賴「信心二」及著者這類樂觀統計人的中心教條「小機率事件視為重不發生的事件」。而強大數法則,在精神上接近於高微中的均勻收斂。在應用上,自動控制、臨床試驗等常須仰仗,但不在本文中討論。

五、    常態分配及中央極限定理

在自然科學及行為科學的許多觀測值或量測值,諸如天文量測(拉普拉士Laplace 1749-1827高斯 1777-1855)身高、質量、生物或社會量測(奎特雷 Quetelet 1796-1874)、心理量測(高爾頓Galton 1822-1911),其直方圖皆近似於一常態分配。棣美弗1667-1754)於1734年首先提出常態分配(normal distribution),在其書中The Doctrine of Chances (1738, 第二版)使用Stirling's (Stirling證明constant(2p)1/2) formula

n! ~ [constant] nn+1/2 exp(-n)

證明為何常態分配可用來近似n大時的二項分配,這建立常態分配與隨機現象之關係。

奎特雷嘗試去決定人口的平均體格特徵和智力等特性,發展出「平均人」的概念,藉由聚集"生命的事實"來評價個人的狀態。如身體質量指數(BMI, Body Mass Index)或稱Quetelet指標,就是奎特雷所定義的,它乃是體重﹝kg÷身高2﹝平方公尺﹞理想的BMI現今被世界衛生組織認定在22。在「平均人」的概念下,他提出誤差理論(error theory),如「某人的BMI可寫成「平均人的BMI」及「誤差」的和。他1817年發表5732位蘇格蘭軍人的胸圍數據及其直方圖如下:

胸圍(英吋)

頻率

胸圍 (英吋)

頻率

33

3

41

935

34

19

42

646

35

81

43

313

36

189

44

168

37

409

45

50

38

753

46

18

39

1062

47

3

40

1082

48

1

總體而言,該直方圖呈現「鐘型」,對稱於其平均值。或是男人胸圍數據之分布,是平均值加上離差(deviation, the error),而離差為一期望值為0的隨機變數,其分配為常態分配。此時可將一軍人的胸圍表為平均值及離差的和。

該組數據的平均值及標準差分別為39.852.07,下圖中的鐘型曲線為一常態分配的密度函數,即

,其中的m = 39.85s = 2.07。。

現仿棣美弗使用Stirling's formula

n! ~ [constant] nn+1/2 exp(-n)

證明為何常態分配可用來近似np大時的二項分配。

考慮X為二項分配的情況,試以X~Bin(2m,0.5)為例

Stirling formula可知 可得 P(m-0.5≤Xm+0.5) = C(2m,m)/22m,故P(m-0.5≤Xm+0.5)

X可寫為Y1,…,Y2m的和,Yi的取值為10,由附錄二事實三可知E(X)= mVar(X)=m/2中央極限定理所給的近似為X的分配近似於N(m,m/2),如使用此一近似,可得

我們不難觀察到m大時,常態分配是可能提供一好的近似,較完整的說明請參看附錄。

現敘述拉普拉士1810年,在他的著作「機率的分析理論 Théorie Analytique des Probabilités」中所證明的中央極限定理(Central Limit Theorem)

中央極限定理:當從平均數為m,標準差為s的母體中,隨機地抽取大小為n的獨立樣本X1,…, Xn(這是指X1,…, Xn彼此獨立且具相同的分配)。當樣本數n很大時,其樣本平均 減掉平均數m再除以標準差 ,將會趨近一平均數為0,標準差為1的常態分佈(常表為N(0,1))。或者是說當樣本數n很大時,樣本和Sn =X1++ Xn減掉平均數m再除以標準差 ,將會趨近平均數為0,標準差為1的常態分佈,即

這說明Sn直方圖的圖形看起來將會很像常態分佈的鐘形,有人嘗試著說身高、胸圍等同時受多種基因的影響,且每一個基因的影響都差距不大,所以依據中央極限定理,其直方圖的圖形看起來將會很像常態分佈的鐘形。當然這是個尚未被確認的說法,或許當科學對基因調控更清楚的時候,或許就有機會驗證上述的臆測。

接下來我們說明何謂此胸圍長的直方圖接近於常態分佈N(39.85,2.072),對於一常數c,該筆胸圍長數據中不大於c比例p*接近於p,在此 X為一二項分配,符號上記為X~Bin(n,p)在機率上的中央極限定理是這麼說的,此時對於所有的cP(Xc)趨近於

在此P(Xc)=an P(Xc)趨近於a,係指 X~Bin(n,p)時, 或當k=0,1,…,n ,將此機率視為相對頻率,以組距為1,組中心點為整數的情況下繪製直方圖,此直方圖可被 近似。

 

 附錄一:九年一貫數學教材之能力指標

D-4-05 能在具體情境中認識機率的概念。

能以具體情境介紹機率的概念。

     可使用實物,如骰子、抽球、撲克牌等,來做實驗,或以樹狀圖分析所有可能發生的情形,來理解某些情形發生的機會,以認識機率的概念。

     例: 10位同學輪流丟一顆骰子,每人丟6次,並記錄每次出現的號碼。實驗完成後統計每個號碼出現的次數,看看每個號碼出現的相對次數是否接近1/6,且所有相對次數的總和為1。如果不夠接近,多找幾位同學加入,再觀察實驗結果。

     例: 教師請一位同學同時丟二顆骰子,問這位同學所丟骰子的號碼相同的機會是多少?

     例: 教師將裝有10顆球的袋子(其中有2顆紅球8顆黃球),展示於學生面前,學生已經知道共有10顆球且分成2種顏色,但不知道各有幾顆,讓每位同學抽1顆球,並統計全班抽到紅球、黃球的次數各有幾次,做成分類表或長條圖,觀察結果,看看之間的比例,用此比例來猜猜袋中紅球與黃球的比例,再以此比例猜猜袋中的10顆球中有幾顆紅球、幾顆黃球?

能進行簡單的實驗以了解抽樣的不確定性、隨機性質等初步概念。

    初步資料的收集(丟骰子、抽球等實驗)可以利用課餘進行。在生活中進行簡單的實驗,以了解機率的初步概念。

    例: 本活動的目的在於,讓學生在抽樣實驗中,經驗樣本被抽到的機會一樣多的可能。實驗活動為:10個已編號的乒乓球,每人抽3個,抽完後統計每個乒乓球被抽到的次數,將結果繪製成長條圖,看看每個乒乓球被抽到的機會是不是一樣多?

    例: 理想中每一個樣本出現的機會一樣多,本活動的目的在於,讓學生在抽樣實驗中,經驗樣本出現的機會一樣多的可能。實驗活動為:每個人丟骰子5次,統計各種點數出現的次數,將結果繪製成長條圖,讓學生觀察長條圖,看看各點出現的次數是不是一樣多?

附錄二: 伯努力的大數法則

事實一XY為二隨機變數且ab為常數,則E(X+Y)=E(X)+E(Y)E(aX+b)=aE(X)+b

證明:僅以離散的隨機變數為例,

E(aX+b) = Sx(ax+b)P(X=x) = aSxxP(X=x)+ bSx P(X=x) = aE(X)+b

E(X+Y)= Sx,y(x+y)P(X=x,Y=y) = Sx,yxP(X=x,Y=y) + Sx,y yP(X=x,Y=y)

= Sx x[SyP(X=x,Y=y)] + Sy y[SxP(X=x,Y=y)] = Sx xP(X=x) + Sy yP(Y=y)

= E(X)+E(Y)

事實二柴比雪夫不等式)當X為一隨機變數且c為一正數,則

證明:僅以離散的隨機變數為例,由

可知事實二成立。

註、      事實二告知隨機變數X取值大過於E(X)+c或小過於E(X)-c的機率,以Var(X)c2之比例為上界。

事實三

在二項分布的機率模型假定之下,只要實驗的次數n夠大,則事件發生的次數比x/n,從機率的觀點來看,就會很接近p值。在此機率的觀點是指「實驗次數n大時,出現x遠離np這類事件的機率甚小」,它首先由伯努力證明,在他死後發表於1713年。以下我們將用十九世紀的數學家柴比雪夫18241894年)的不等式推導伯努力的大數法則。

以上述實驗為例,每個Xk是一中獎機率為p的二項分配,所以

由此可知

柴比雪夫不等式,可知

因為上式的右邊隨著n增大而趨近於0,所以只要n夠大, p 之差要大於c的機率就會任意小。

 

 

註:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多