屈云利,朱永忠
(河海大學理學院,南京 210098)
目前,用于解決小樣本問題的方法之一就是Bayes方法。利用Bayes方法的關鍵是如何有效地利用先驗信息來合理地確定先驗分布。許多學者對此進行了研究,如:Raiffa和Schlaifer[1]提出了利用共軛先驗分布來確定先驗分布;Jeffreys[2]研究提出了Jeffreys原則;Box和Tiao[3]對無信息先驗分布作了詳細的研究;20世紀50年代以 Robbins[4]為代表提出用經驗 Bayes方法(EB)確定先驗分布。
隨著信息論的產生,Jaynes等[5]利用信息論中熵的概念提出用最大熵法來確定先驗分布,在獲得少量的統計樣本值時就可以獲得它的概率密度函數。這種方法充分利用了樣本中給定的信息,可以做到準確地確定概率密度分布以及相關的各個參數。隨著計算機的發展,對于小樣本問題,常利用一些非參數的統計方法(如Bootstrap[6]方法和S-SMART(sample-smoothing amplification technique)[7]方法確定先驗分布,并取得了較好的應用效果。一些參數方法都是針對大樣本的[8]。研究表明S-SMART方法比Bootstrap方法更穩健,尤其在小樣本的情形下比Bootstrap方法更精確、效果更好[7]。最大熵法也不需要對試驗數據進行假設就能確定先驗分布,它是一種較好地處理不完全先驗信息和盡量避免主觀因素的方法[9]。在先驗樣本數據較多時,可替代經典統計學中通過直方圖確定概率分布的方法,且給出的是連續分布函數,便于利用Bayes公式進行計算。由此本文結合S-SMART方法和最大熵法的特點來進行相關研究,提出應用S-SMART最大熵法可以直接由試驗數據得到未知參數的連續概率密度函數,且幾乎不需要人為假設,完全依賴樣本信息,客觀地得出該樣本的近似分布密度函數。
S-SMART最大熵法的基本思想是:通過 SSMART方法將小樣本問題轉化成大樣本問題后,再利用最大熵法求出其概率密度函數,從而解決小樣本情況下Bayes統計方法中的先驗分布確定問題。
信息論中熵用來表示不確定性的量度。信息熵的定義是
其中:Pi為隨機變量取 xi時的概率;SUM為累加和。
當x為連續型時,熵的定義可以寫成

其中f(x)為隨機變量分布的概率密度函數。
最大熵的實質就是在已知部分知識的前提下,關于未知分布最合理的推斷,就是符合已知知識最不確定或最隨機的推斷,即信息量最大的概率密度函數就是最佳(偏差最小)的概率密度函數。
設θ是連續型隨機變量,p(θ)是 θ的概率密度。

其中mi為隨機變量θ的各階原點矩。
通過構造拉格朗日方程,使熵達到最大值,通過計算可得隨機變量θ的概率密度函數

其中 λ0,λ1,…λm為待定系數[10],可由式(4)、(5)求解。
考慮如下問題:設隨機樣本 X=(x1,x2,…,xn)是來自未知的總體分布F。當n很大時(即大樣本數據),可以采用經驗分布函數法、直方圖法來近似求得總體的概率分布;但當n不大時(即小樣本數據),上述方法的誤差會比較大。現以小樣本問題為例來說明S-SMART最大熵法的實現步驟。
1)對已知的樣本觀測值進行再抽樣得到SSMART樣本。具體的抽樣過程是:首先將原始樣本的2.5% ~97.5%的百分位點概率等分為k份(k為樣本的放大倍數),然后計算相應的分位點和原始樣本的標準差,之后以服從上述步驟中獲得的百分位點為均值,以原始樣本的標準差為標準差的正態分布來模擬產生k組S-SMART子樣,最后將這 k組S-SMART子樣結合起來獲得 SSMART樣本。
2) 記所要考察的未知參數θ^=R(X,F),θ^可以是總體的均值、方差或分布密度函數等分布特征。
3)借助計算機,利用Monte-Carlo方法對步驟1)和步驟2)進行N次模擬,得到估計參數的序列

其中Θ為參數空間。結合以上步驟可獲得p(θ)的表達式,從而可對隨機變量進行相關的假設檢驗。
根據以上步驟并不能得到p(θ)的解析表達式,只能利用數值方法進行求解。一般情況下,m取到3或4即可滿足較高的精度和工程需要,視具體情況而定。本文以m=4為例來進行仿真模擬試驗。
1)以不同的放大倍數和不同的分布為例,設隨機樣本分別來自標準正態分布N(0,1)和參數為10的指數分布,每個含有n個隨機數,n取20,利用S-SMART方法進行10次和50次的再抽樣,應用Matlab[11]中統計工具箱計算各自的各階矩。
圖1~4分別表示運用S-SMART最大熵法放大10倍、50倍的模擬結果與理論的標準正態分布和參數為10的指數分布的比較,其中‘o’是樣本點。由圖1~4可以看出,在小樣本情形下,利用S-SMART最大熵法確定的先驗分布與各理論分布相近,若直接將小樣本進行擬合則與實際結果相差很大。由此可見S-SMART最大熵法是可行、有效的。這表明S-SMART最大熵法根據小樣本數據求取未知參數的先驗分布不需要對分布作假設即可得到連續的概率密度函數,便于進行理論分析。該方法即可有效地擴充樣本數據,同時也能充分利用樣本信息,盡量避免主觀因素的影響,因此得到的先驗分布也更能令人信服。




圖4 放大50倍的S-SMART最大熵法與理論分布的比較
[1]Raiffa H,Schlaifer R.Applied Statistical Decision Theory[M].Boston:Harvard University Press,1961.
[2]JeffreysH.Theory of Probability[M].Oxford:Oxford University Press,1961.
[3]Box C,Tiao G C.BayesianInferenceinStatisticalAnalysis[M].USA:Addision-Wrsley,1973.
[4]Robbines H.The Empirical Bayes Approach to Statistical Decision Problem[J].Ann.Math.Stat.,1964,35:1 -20.
[5]Jaynes E T.Information Theory and Statistical Mechanics[J].Phys.Rev,1957,108(2):171 -190.
[6]Efron B.Bootstrap Method:Another Look At The Jackknife[J].Ann Statist,1979,1:1 - 26.
[7]Haiyan Bai.A New Resampling Method to Improve Quality of Research with Small Samples[D].Cincinnati:University of Cincinnati,2006.
[8]余嘉元.基于神經網絡集成的IRT參數估計[J].江南大學學報,2009(5):505-508.
[9]康文興,谷小松,黃希利.自助最大熵法確定先驗分布及其在導彈命中概率估計中的應用[J].裝備指揮技術學院學報,2007(3):109-113.
[10]張煥珍.基于蒙特卡羅和最大熵法的水泵測試不確定度研究[D].沈陽:沈陽工業大學,2010.
[11]蘇金明,張蓮花,劉波,等.MATLAB工具箱應用[M].北京:電子工業出版社,2004.