王燕飛
(吉林化工學院理學院,吉林 吉林132022)
貝葉斯統計是統計學專業中唯一一門非經典統計學的學科。英國學者貝葉斯的遺作《論有關機遇問題的求解》,提出了著名的貝葉斯公式和一種歸納推理方法,成為了貝葉斯學派的奠基石。之后,在Jeffreys、Good、Savage、Berger等學者的不斷努力下,把貝葉斯方法在觀點和理論上不斷完善,并在工業、經濟、管理等領域獲得了成功的應用[1]。目前,貝葉斯學派已發展成為一個有影響的統計學派,打破了經典統計學一統天下的局面,占據了統計學的半壁江山。
貝葉斯統計是在與經典統計的爭論中逐漸發展起來的。其基本思想和觀點是:總體分布中的未知參數可以看作隨機變量;事件的概率除了用頻率解釋外,還可用個人經驗和歷史資料來獲得,即承認主觀概率;在經典統計所用的總體信息和樣本信息外,還充分利用了抽樣之前的信息—先驗信息,并可根據先驗信息獲得先驗分布。而這些觀點在經典統計學看來都是不合理的。實際上,人們在生活中都在不知不覺的運用貝葉斯的思想解決問題。比如,醫生在做手術之前會根據病人的病情和自己的經驗估計手術成功的概率;免檢產品的鑒定需要利用該產品以往的不合格品率的歷史資料,若多次在零附近,且每隔一段時間抽查,仍保持該結果,則認定該產品為免檢產品。這些實例都是在運用了先驗信息后才得到了更好的解決,因此,若能充分利用先驗信息,對于解決很多統計問題,無疑是非常有利且有效的。
然而正是由于貝葉斯統計獨有的思想和方法,學生在習慣于以往所學的經典統計的課程思路情況下,接受起來有一定的困難。因此,教師在教授過程中一定要深入淺出,運用實例,易于學生理解。將貝葉斯統計與經典統計比較講授相關內容,讓學生從熟悉的知識進入,循序漸進逐步認識貝葉斯方法和理論。
后驗分布的定義是貝葉斯統計中第一章課程的內容,學生剛剛接觸,理解起來有一定的難度。可由經典統計中所熟悉的貝葉斯公式引入講解,比較容易接受。另外通過實用案例,激發學生的學習興趣,并能更好理解定義。
設A1,A2,…,An是樣本空間Ω的一個劃分或完備事件組,即滿足:。則對Ω中任一事件B,有:

這就是概率統計中著名的貝葉斯公式,也叫逆概率公式[2]。我們可將事件B看作是試驗結果,A1,A2,…,An看作是導致結果B的原因。則該公式表明了結果B發生條件下由第i個原因導致的概率。即執果索因[3]。
案例1
已知5%的男人和0.25%的女人是色盲,現隨機挑選一人,檢驗為色盲,若男人和女人各占人數的一半,問此人是男人的概率。

即抽取此人是色盲時,為男人的概率為0.952。
在貝葉斯公式中,結果B可認為是已經出現的樣本數據x,發生結果的原因Ai可認為是未知的隨機變量θ的取值。于是將貝葉斯公式推廣可得到后驗分布的離散形式定義。
設總體x服從分布密度p(x|θ),其中θ為離散型隨機變量,取值為有限個或可列個。即θ=θi,i=1,2,…。θ的先驗分布為π(θi)=P(θ=θi),i=1,2,…。樣本的觀察值為x=(x1,x2,…,xn),樣本聯合分布密度為,則θ的后驗分布為:

將離散形式推廣得到連續形式的后驗分布定義。
設總體x服從分布密度p(x|θ),其中θ為連續型隨機變量,取值為參數空間Θ。θ的先驗分布為π(θ)。樣本的觀察值為x=(x1,x2,…,xn),樣本聯合分布密度為,則θ的后驗分布為:

注:1.分母與未知參數θ無關,不含有θ的任何信息,稱為樣本x的邊緣分布。
記作:

2.若總體x為離散型隨機變量,則總體分布密度p(x|θ)改為分布列P(X=x|θ),后驗分布的離散形式和連續形式就不難寫出來了。
先驗分布π(θ)反映了人們在抽樣前對參數θ的認識,而后驗分布π(θ|x)則是在獲得了樣本后,對參數θ的認識,是人們利用總體信息、樣本信息(統稱為抽樣信息)對先驗分布π(θ)的認識作調整的結果。
案例2
英國統計學家Savage(1961年)考察一個統計實驗:一位常飲牛奶加茶的婦女聲稱,她能辨別先倒進杯子里的是茶還是牛奶。對此作了10次試驗,結果她都說對了。
若不考慮該婦女的經驗,則應認為每次她猜對的概率為0.5,則10次猜對的概率為0.510=0.0009766非常小,顯然與實際不符,不合理。因此應該充分利用經驗,即先驗信息。對該婦女的了解,認為有可能她每次猜對的概率為0.95。設θ為她每次猜對的概率,則取值為0.95或者0.5。
保守起見,認為π(0.95)=0.6,π(0.5)=0.4。x為10次試驗中婦女猜對的次數,則x服從二項分布b(10,θ)。即x=0,1,…,10,試驗結果表明x=10。則P(X=10|θ=0.95)=0.9510,P(X=10|θ=0.5)=0.510。故θ的后驗分布為:

后驗分布是基于總體信息、樣本信息和先驗信息三種信息的綜合結果,是一個非常重要的定義,在整個貝葉斯統計學中起著基石一樣的作用。貝葉斯統計的點估計、區間估計、假設檢驗及預測等統計推斷問題都是建立在后驗分布基礎之上進行的。而在后驗分布引入損失函數之后,便構成了貝葉斯決策理論的基本框架。顯然,后驗分布在貝葉斯統計中占有舉足輕重的地位,可以說任何貝葉斯統計問題都離不開后驗分布。因此,在學習該定義之初應使學生能夠理解好,并靈活運用定義。在后續其他貝葉斯理論的講授中應逐步加深對該定義的認識和應用。
貝葉斯統計課程是在統計學花海中的一支獨秀。通過對后驗分布定義的教學研究探索,我們可以將其方法推而廣之,運用到貝葉斯統計中的其他理論知識的講授中。在教師教學和學生學習的過程中,貝葉斯方法和思維方式都是與其他統計學科非常不同的。因此,可以在與熟知的經典統計學的對照中比較學習,深入淺出,列舉實際案例,易于理解。通過案列的講解還能激發學生的學習興趣,提高主動思考和解決實際問題的能力,培養學生的創新意識和應用能力。當學生遇到某個問題時,若能不僅局限于經典統計方法,還能考慮到使用貝葉斯方法結合解決,也就具備了貝葉斯思想,那么該課程的開設便達到了目的。若能有部分同學有興趣進一步拓寬貝葉斯方法的應用領域,深入研究學習,那么我國的貝葉斯統計研究就后繼有人了。
[1]茆詩松,湯銀才.貝葉斯統計[M].北京:中國統計出版社,2012:5-6.
[2]李自勇.基于貝葉斯公式及應用數學的認識與實踐[J].數學教學研究,2014(3):63-65.
[3]李春娥,王景艷.貝葉斯公式及其應用的教學研究[J].大學數學,2015:119-121.