趙明睿
(蘭州資源環境職業技術大學 基礎教學部,甘肅 蘭州)
關于條件概率計算問題是日常生活中常常會遇到的現實問題,要想解決這些問題并不容易,而貝葉斯公式正是為這些復雜的條件概率問題應用而生的,主要思路是復雜問題簡單化。在使用貝葉斯公式計算復雜事件的概率時最重要的一步是是要找到樣本空間的合適劃分(完備事件組),用全概公式求出復雜事件的概率,再結合條件概率定義式和乘法公式得到所求復雜條件概率。本文主要給出全概率公式及貝葉斯公式在疾病診斷、產品檢驗和信號估計這三個方面的廣泛應用,體現了貝葉斯公式在實際應用中的重要性。
本文主要是借助貝葉斯公式對于修正先驗概率的應用。對于貝葉斯公式的介紹,很多教材講得都比較少,并且所舉的例子也是比較簡單的,本文主要是對教材的講解給予擴充和加深,同時體現了貝葉斯公式還有一個很好的用處就是對那些看似正確的結論可以進行理論檢驗。
定義1[1-2](樣本空間的劃分)若事件組B1,B2,…,Bn,滿足以下兩個條件:
(1) B1,B2,…,Bn,兩兩不相容;
則稱B1,B2,…,Bn為一個完備事件組。
定理1 (全概率公式)設B1,B2,…,Bn是樣本空間的一個完備事件組,A 是一個事件,當P(A)>0,P(Bj)>0,j=1,2,…,n,則
證明:因為
所以,上述等式兩邊求概率可得:
再根據乘法公式,就有:
全概率公式體現了“各個擊破,分而食之”的解題策略,是在已知原因發生的概率,去求結果發生的概率,即是“知因求果”的過程。
定理2(貝葉斯公式)設B1,B2,…,Bn是樣本空間的一個完備事件組,A 是一個事件,當P(A)>0,P(Bj)>0,j=1,2,…,n,則
此公式成為貝葉斯公式。
證明:根據全概公式得:
由條件概率的定義式得:
再由乘法公式得:
使用貝葉斯公式的基本思路是首先根據加法公式把復雜事件的概率化為多個簡單事件的概率的和,再根據乘法公式得出在已知復雜事件作為結果已經發生的情況下,其中某個原因發生的條件概率,也就是所謂的“后驗概率”,即是“知果索因”的過程。
利用貝葉斯公式,導致結果發生的諸多原因發生的概率可以根據已經發生的結果來求得,即“知果索因”的過程。在應用過程中,需要先分析導致結果發生的諸多原因,這些原因就自然而然是完備事件組,同時,找到在這些原因下結果發生的概率,最后把這些概率加起來,就會得到該結果發生的概率,然后利用條件概率的計算公式,得到在已知結果發生的條件下,所要探求的原因發生的條件概率。接下來,我們研究貝葉斯公式分別在傳染病診斷,產品檢驗和信息篩查這些領域中的應用過程。在應用時,首先需要找到一個恰當的完備事件組,然后再利用貝葉斯公式求得所需條件概率。
眾所周知,醫生對疾病的有效控制,首先是確定疾病。而在對患者進行疾病診斷的過程是很復雜的,這時可以運用貝葉斯公式能夠簡化化驗過程,能夠達到較快地治愈患者的作用[3]。具體過程,樣本空間是疾病的致病細菌全體,假設疾病是肝癌和美國艾滋病,具體使用貝葉斯公式進行診斷的過程如下例。
例1 診斷肝癌可以選擇用甲胎蛋白法,被檢驗者患肝癌記為A 事件,判斷被檢驗者患肝癌記為B 事件。已知P(B|A)=0.95,P(B|A)=0.90,P(A)=0.000 4。如果已有一位患者被診斷為患肝癌,由于診斷會存在誤差,要求計算此人真的患肝癌的概率P(A|B)。
解:由題知:
根據貝葉斯公式可得:
題中已知的患肝癌的概率0.4% 是由以往的數據分析得到的, 叫做先驗概率,而再檢查結果為陽性的條件下真正患肝癌病的概率0.323 叫做后驗概率,是對先驗概率的校正。
例2 已知某種艾滋病的血液測試呈陽性的概率是95%,由于檢測會有誤差,健康的人檢測為陽性的概率是1%。已知美國約有1/1000 的人患有這種艾滋病。為了預防這種疾病的快速傳播,一些專家們提出建議新婚夫婦將這項檢測加入婚檢中,但是該方案提出后,出現了很多質疑,用貝葉斯公式來解釋原因。
解:記A ={測試的結果呈現陽性反應}, B ={某人被確診成了艾滋病患者},則由題知:
根據全概公式得:
再根據貝葉斯公式可得:
在實際的產品生產過程中,一批產品被生產出來之后,檢驗人員會在出廠前進行一次抽樣檢查,檢查合格后才會被允許發貨,于此同時賣家收到貨之后,還會再進行簡單的驗貨,因此想要保證賣家的驗貨合格,廠家就得對檢驗結果進行分析,作一定的概率計算,這里就可以使用到貝葉斯公式。
例3 某公司有兩種生產方案生產同一型號的產品,已知方案1 生產的占總的40%,方案2 生產的占總的60%,方案1 和方案2 的次品率分別為0.3%和0.1%,從產品中隨機抽取1 件,測試為次品,問此次品是哪種方案生產出來的可能性大?
解:設B={取到次品},A1={取到方案1 生產的產品},A2={取到方案2 生產的產品},則由題可知:
根據貝葉斯公式可得:
因此,方案1 可能性大。
例4 某工廠存在四個車間生產相同的一批完全相同的零件,已知這四個車間的產量依次占總產量的15%,20%,30%和35%,同時已知四個車間生產的次品率分別為0.04、0.03、0.02 和0.01.該工廠規定,若一旦發現了次品就一定會追究相關生產車間的經濟責任。現在從該工廠生產的這批產品中任取一件,結果是次品,但這件次品是由哪個車間生產的代碼已經脫落不見了,那么,此工廠方應該怎樣處理這件次品會比較合理?
解:設B={取到的產品是次品},A1={取到的產品是由第i 個車間生產的},i=1,2,3,4
則由題知:
根據貝葉斯公式,可得:
通過以上計算過程,得到P(A1|B)=P(A2|B)=P(A3|B)>P(A4|B),因此,說明通過抽取得到的次品最有可能是由前三個車間生產的。
目前,手機已經成為大家生活中的必需品了,而我們獲取信息的主要途徑是手機中的微信和短信。但平時手機上常常會出現很多的垃圾信息,好多新款手機可以過濾垃圾信息,只要從手機設置中開通此功能即可。事實上,這個功能的原理就是貝葉斯公式。
例5 若規定信息中含有“a”這個詞,就會被識別為垃圾短信,已知某款手機在一般情況下識別短信為垃圾短信的概率為0.9,信息為垃圾短信時出現“a”的概率為0.9,短信正常時出現“a”的概率為0.9,計算在出現“ox”這個詞的情況下短信是垃圾短信的概率。
解:設A={短信含有“ox”},B1={短信是垃圾短信},B2={短信不是垃圾短信},
則由題知:
根據貝葉斯公式可得:
篩選垃圾郵件常用的方法是統計出每個字符串在眾多垃圾郵件中出現的概率,同時統計出每個字符在正常郵件中出現的概率,就可以根據貝葉斯公式計算出郵件中含某字串則為垃圾郵件的概率。
例6 已知在電子郵件當中,一般有50%的郵件是垃圾郵件,假設在3 000 份垃圾郵件含有中敏感詞的郵件出現了400 次,在300 份正常的郵件中同時出現同樣敏感詞的有5 份郵件,求一份郵件出現這個敏感詞時為垃圾郵件的概率?
解:設A={郵件含有"mortgage"},B1={短信是垃圾短信},B2={短信不是垃圾短信},
則由題知:
根據貝葉斯公式可得:
根據這個假設,我們可以搜集得到一批垃圾郵件和一批正常郵件,通過統計所有郵件中包含關鍵詞的頻率,垃圾郵件的出現頻率和關鍵詞在垃圾郵件中出現的頻率。假設P(A)是垃圾郵件的出現頻率,P(B)是關鍵詞的出現頻率,那么,P(BA)就表示垃圾郵件中的關鍵詞出現的頻率。根據貝葉斯公式就可以推算得出P(A|B),即可得到存在特定關鍵詞時某封郵件是垃圾郵件的概率了。
自從貝葉斯公式提出至今,它的應用就一直非常廣泛,隨著現代社會的迅速發展,貝葉斯公式也將會更好的運用于其他領域和更多新的領域。