丁東洋,劉希陽
(1.南昌大學 公共管理學院,江西 南昌 330031;2.中國人民銀行鷹潭市中心支行,江西 鷹潭 335000)
風險分析指處理由不確定性產生的各種問題的一整套方法,包括風險辨識、風險的估計和風險的控制與管理。風險的概念源于經濟學,不確定性的概念源于統計決策理論。經濟學家奈特定義風險是概率估計的可靠性以及將它作為一種可保險的成本進行處理的可能性,奈特不確定性是指難以通過現有理論或經驗對事件可能的結果進行預測和定量分析(Knight,1921)。風險分析概念中的“不確定性”不僅包括奈特不確定性,而且包括風險。風險分析中的計算問題有三個顯著特征:某些變量缺少經驗數據;采納分析人員的判斷或專家的觀點非常必要;構建的數學模型存在不確定性。
貝葉斯方法本身就是用來考察概率模型中與參數相關的不確定性的理論,被公認為正式使用專家觀點等主觀信息的恰當途徑,因而在處理風險分析問題時具有明顯的優勢。貝葉斯方法對于推斷和決策具有統一的理論,而事實上在其方法內部也存在很大差異。例如,絕大多數貝葉斯主義者用主觀的方法解釋概率并將其作為推斷框架中的基本原理,不過也存在一些反對主觀概率論的“客觀貝葉斯主義者”;多數貝葉斯主義者認為必須簡化參數分布以得到單一數值,但也有部分認為可以使用整個分布表現參數的不確定性;貝葉斯主義者多數認為應該而且能夠有一種精確的概率模型,而提倡穩健貝葉斯方法的人員則推薦使用一系列的概率模型。
標準貝葉斯方法在風險分析與概率不確定性的研究中地位獨特,然而在現實情形違背自身假設的條件下不夠穩健。它要求分析人員可以提供的信息多于缺乏數據的風險分析中正常可以獲得的信息,給出的標準假設由于低估尾部風險而不夠準確。在缺少精確和完全的統計信息時,想要得出可靠的結論需要使用穩健方法。尤其對于風險分析考慮的問題,穩健貝葉斯方法更加適用。本文主要介紹可以應用于風險分析的標準貝葉斯方法與穩健貝葉斯方法。
貝葉斯方法在風險分析中的應用主要有三個途徑,第一個途徑是用來構建決策框架,全面接管分析和決策過程,對推斷和決策提供一套全面的方案;第二個途徑是用來估計風險分布,是整個風險分析問題的核心部分,分析得出的數量和分布特征是進行決策的最重要的資料;第三個途徑是用來參數化模型,估計模型外生變量的分布而非直接得出結論,作為決策分析過程中的技術支持手段(Scott,2004)。
在風險分析中的應用統計學范圍內,普遍關注貝葉斯統計學相對于傳統頻率統計學的優勢。雖然以Fisher,Neyman,Pearson,Gosset等為代表的頻率論統計學派在統計學中仍占據主流地位,但貝葉斯學派在過去的四分之一世紀卻以驚人的速度成長起來。下面重點介紹其優勢的幾個方面,目的在于引起風險分析人員對貝葉斯方法的興趣。
1.有效處理不確定性。貝葉斯理論認為概率是一主觀量,而非傳統的對有限頻率的衡量,從而貝葉斯方法可以計算出一個可信區間①描述參數估計的不確定性。與傳統的Neyman-Pearson置信區間②相比,可信區間更加逼真而且易于處理,且在后期的計算中有可行的微積分。貝葉斯理論對模型中的數據和參數都使用概率分布表示,相比而言,頻率論方法不允許分布作為模型的常量,因而也往往不能用分布來表述模型參數,僅僅只能考察他們選擇的隨機數據的概率。貝葉斯方法在數據累積的過程中持續更新,不需要預先設定樣本的大小,隨時可以停止收集數據,結果的計算和解釋不依賴于開始計劃的實驗設計。這意味著貝葉斯方法有更強的適應性和靈活性,并且對于風險分析問題中可能遇到的極端事件能夠給出更準確的推斷。
2.便于數據挖掘。貝葉斯方法另一個重要的優點是允許事先對數據有一個大致的了解。傳統的Neyman-Pearson學派堅持認為數據挖掘沒有科學性,應該逐步實施統計分析,首先準備方案,然后選取數據集,對單一假設計算P值,最后得出結論。而且對只有極少樣本的數據建模時,模型中參數的數量不應過多,一次不可以估計太多的參數。實際工作中,分析人員不會也不應該被這些責難所束縛,數據往往都是短缺的,而且在收集的過程中,也不可避免看到數據的大概。只有不斷獲得新的數據,才有可能認清問題,隨之模型也變得越來越復雜。在貝葉斯方法中,事先了解數據十分正常,可以一次估計大量的參數,而且不必過于擔心只有少量的數據樣本。
3.完整合理決策。貝葉斯方法十分適合進行決策分析,通過將所有的不確定性用概率的形式表現出來,可以保證決策符合一致性,進而使得分析人員和決策者對風險評估和有效管理構建出一致的策略集。傳統上,頻率論能夠給出的唯一結論就是通過數據集判斷的是否拒絕原假設,并沒有平衡兩類錯誤的成本③,僅僅控制了錯誤的拒絕原假設的第一類錯誤。在實際決策時,要給出理由充分的決策,考慮兩類成本并且平衡它們非常必要。貝葉斯方法作為決策分析中的基本原理與之結合,可以完整地表述風險管理工作的內涵。雖然目前對風險分析人員還沒有要求必須掌握貝葉斯理論,但其從事分析工作的基本知識結構的確是屬于貝葉斯方法的范疇。
4.正確使用主觀信息。貝葉斯方法在一定程度上使直接使用主觀信息得以正式化,創造了一條將主觀信息使用于客觀方程中的途徑,這些信息可能是分析人員的個人判斷也可能是專家的觀點。在風險分析中,分析人員的經驗判斷或咨詢的專家意見非常有用,忽略這些信息對于缺乏資料的風險分析來說極其浪費。頻率論者同樣也使用主觀信息,如在修改模型結構或改變參數選擇時模糊地使用主觀信息,然而無法考察這些信息對計算結果的影響。因此貝葉斯主義者直接地說明主觀信息好于頻率論者模糊地使用這些信息。
風險分析中使用貝葉斯方法也存在一定不足與局限性,主要在于缺少經驗數據使得先驗分布的設定比通常更能影響推斷結論的準確性,同時必須面對有礙于定量分析的計算困難。這些是在風險分析中使用貝葉斯方法必須面對的難題。
1.先驗分布。貝葉斯分析者面對的首要難題就是如何選擇先驗分布,尤其對于事先并不相信的事件,貝葉斯法則也無法得出任何結論。如改變先驗概率,后驗分布也將隨之改變,即通過轉變先驗概率的設定可以得到任何可能的概率。雖然隨著數據的積累很快會克服和消除先驗設定的差異,但是風險分析往往缺少數據。
2.零續存(Zero Preservation)。不論似然函數值多大,也不論出現任何新的數據,先驗概率設為零都會導致后驗概率為零。同樣,不論先驗概率的大小,如果似然函數為零,后驗概率也將為零。這意味著分析人員如果否認了可能發生的事件,那么任何給出相反信息的事件都無法影響結論。
另外,貝葉斯模型忽略了應該區分不確定性和等概率的差別。如使用平均法描述模型的不確定性,用貝葉斯因子作為模型的權重組成混合模型和分布,缺點是要求分析人員能夠列舉出所有可能的模型,這在現實中很難克服。即使列舉出所有可能的模型,還要分析人員對每個模型的權重指定先驗概率,這也是個難題,在風險分析中可能會造成低估風險。
穩健貝葉斯方法,即貝葉斯敏感性分析,用于研究不確定性問題結論的穩健性(Geweke,2005)。結論如果不敏感地依賴于前提假設和計算使用的外生變量,就表明其具有穩健性。穩健貝葉斯方法認為在很多時候很難提出精確的分布作為先驗,用于某一特定問題的似然函數同樣值得懷疑。在穩健貝葉斯方法中,所有可能的先驗分布與似然函數的結合,都使用標準的貝葉斯方法分析,這也就意味著通過將先驗分布與似然函數的兩兩結合,得到一系列的后驗分布。穩健貝葉斯方法還采用類似的策略,將一類概率模型和一類效用函數結合,推斷相應的決策,任何可能的答案都針對最佳的概率模型和效用函數給出不確定性。在上述兩種情況下,如果在每個組合下給出的結論都近似相同,就表明其具有穩健性;如果結論有明顯不同,那么相應范圍表示從分析中能獲得多大程度的信任。在貝葉斯思想中,不確定性使用單一的附加概率度量,個人的態度及價值使用精確的效用函數表述,這些往往都是出于方便的角度設定,主要是由于成本和時間上的約束不允許花費過多的精力探尋精確的測度函數,穩健貝葉斯方法從表面上來看與這些貝葉斯思想并不一致。Walley(1991)認為穩健方法將無把握性看作有別于不確定性的一類,是傳統貝葉斯方法的延伸。
穩健貝葉斯方法涉及來自其他領域一些重要的開創性理念④,這些觀點往往可以不用修改而應用到貝葉斯分析中。構建和操作穩健貝葉斯方法有幾種途徑,包括使用:(1)共軛參數族;(2)非共軛參數族;(3)相對密度(有界密度分布);(4)ε污染、混合及分位數等;(5)累計分布邊界。雖然穩健貝葉斯的計算問題比較高深,但有些特殊情況下,其計算也非常直接,下面介紹幾種情況:
首先定義下面的區間計算公式,其中的x和y代表概率:

如果x或y是準確的實值s,則其區間可以表示為[s,s],以便在上述公式中使用。Gelman(2003)指出對于每個不確定變量僅使用一次的區間表達運算時,會得到較好的結果。然而區間表達中存在重復的情況,如:

該表達式中p(y)和p(x|y)都出現了多次,普通的區間估計無法對此式進行可靠的分析。如果變量數據有不確定性,那么使用沒有重復參數的表達式將是更好的選擇:

該表達式與原例中的算式是等價的,但是當使用的輸入值是區間形式時,會得到更準確的結果。也就是使用沒有重復參數的表達式推出的概率將是盡可能小的區間范圍。
P-boxes指累積分布函數的上限和下限,通過P-boxes可以對先驗分布的不確定性進行定性分析。如果似然函數的不確定性可以通過其積分函數的上下限定性分析,而且限度可以標準化,那么也具有P-boxes形式。在穩健貝葉斯分析中,當先驗分布和似然函數的P-boxes被結合起來時,作為后驗分布的累積分布函數的限度最有可能是一個矩形P-boxes,即先驗分布與似然函數P-boxes的交集。
后驗類退化的原因很好理解,在零續存中,如前所述,無論先驗還是似然函數為0,后驗必定為0。先驗分布的P-boxes允許先驗累積分布在橫坐標一定數值范圍內比較平坦,當先驗與似然函數都是以邊界定性描述的情況下,除了能夠知道后驗分布的邊界外,無法做更多推斷。兩個P-boxes的形狀對推斷沒有任何關系,唯一有用的是它們的交集。
穩健貝葉斯分析定義分布類的另一個途徑是設其服從參變量。假設有兩類分布,一類是方差相同而均值不同,另一類均值相同而方差不同。參數的不同將表示分布的不同,分布族可能是正態的,也可能是由共軛對得出的其他形狀,也有可能不是來自于共軛族。參數類表現了分析人員對于先驗設定的不確定性,參數的不同也就顯示了不確定性。在某種意義上,穩健貝葉斯的參數方法正好存在著與P-boxes中相反的問題,后者是由于類過大而無法對后驗做出重要推斷,而參數方法是類過小而無法代表先驗與似然的不確定性。
使用概率密度代替累積概率也可以綁定先驗及似然函數。從二者的界限乘積可以很容易地得出后驗函數的密度界限。對于任意θ值,總會有不同的區間綁定先驗及似然函數,可以使用區間算法將兩個區間相乘。乘積構成了所有可能的非標準化后驗分布θ值的上限和下限。如果通過P-boxes方法形成的分布類過于松散且范圍過大,參數類形成的分布限定過多且范圍過小,則有界密度方法很可能正好適合于實際穩健貝葉斯分析。
需要注意的是,設定一個先驗與似然函數,在穩健貝葉斯方法中由于使用了分布類而不受數據缺乏約束,但是穩健貝葉斯仍然受到普通貝葉斯方法的部分問題所限制,如零續存問題。
概率論由于開創了把現實世界中的分歧用“概率”表達的途徑,在分析應用中非常成功。基于多元化與普遍性的抵觸,一些貝葉斯主義者把所有的概率拿來為己所用,并在風險分析中展現出很多相比傳統方法的優點。Jaynes(2003)極力主張概率論并非頻率的數學科學,而是關于人們對某些事件相對于另外一些事件的信任程度的計算法,但是風險分析人員并非把信任放在首要位置。為了進行風險分析,需要一門關于頻率的數學科學,一種允許能夠計算分布的計算法,進而直觀解釋所有可能收集到的數據的權重。同時,需要這種計算法能夠利用主觀信息,并在一定程度上不能混淆可變性與不確定性。盡管仍具有對于計算困難的恐懼,穩健貝葉斯方法還是修正了貝葉斯方法中很多使人困擾的難題,這也體現了風險分析中概率數學科學的逐步完善。
近年來,統計專業日趨成熟,貝葉斯學派和頻率論學派的討論變得更加包容,雙方也都認清了自身的優點與不足。但是在統計學的專業之外,風險分析及其他數學或定量分析的領域,爭辯日益激烈,表明了風險分析是一個年輕的蒸蒸日上的領域。分歧的著力點是很難選擇某種方法,不同的思想帶來了不同的觀念,這些可能永遠無法理順,因為這是在沒有完全理解世界上人類決策復雜性的表現。但是隨著混淆被清除、誤解被糾正,不同的觀念會互相補充,從而擴大和深化理解風險,風險分析領域將不斷完善。
[注 釋]
① CredibilityIntervals,根據現有資料能夠推出的概率區間.
② Confidence Intervals,根據置信度推出的概率區間.
③ 兩類成本分別是當原假設為真時拒絕原假設和當原假設為偽時接受原假設的成本.
④ 如耐抗估計量Resistance Estimator,表示估計量的穩健性.
[1] Knight,F.H.Risk Uncertainty and Profit[M].Boston:Houghton Mifflin,1921.
[2] Scott F.Bayesian Methods in Risk Assessment[R].Working Paper.Head ofWaste & Storage Unit,2004.
[3] Geweke,J.Contemporary Bayesian Econometrics and Statistics[M].New York:Wiley,2005.
[4] Walley,P.Statistical Reasoningwith Imprecise Probabilities[M].London:Chapman-Hall,1991.
[5] Gelman.,A.et.al.Bayesian Data Analysis,2nd ed[M].London:Chapman and Hall,2003.
[6] Jaynes,E.T.Probability Theory[M].Cambridge:Cambridge University Press,2003.