李洪明
泊松分布參數(shù)的穩(wěn)健估計
李洪明
呼倫貝爾學(xué)院數(shù)學(xué)科學(xué)學(xué)院,內(nèi)蒙古呼倫貝爾021008
本文主要以非對稱分布中泊松分布為研究對象,探討了其參數(shù)的穩(wěn)健估計方法.作者以截斷似然估計為基礎(chǔ),結(jié)合Cizek的工作,提出了適用于泊松分布參數(shù)的一種穩(wěn)健估計方法.該方法避免了事先選取截斷比例的麻煩,通過數(shù)據(jù)自身的信息給出在平均似然最大準(zhǔn)則下的最優(yōu)截斷比例.在文中的模擬部分,分別就未受污染和受污染的泊松分布數(shù)據(jù)進行了模擬,得到了不錯的效果.
自適應(yīng)極大截斷似然估計;泊松分布;崩潰點;穩(wěn)健估計
對于非對稱分布中的泊松分布而言,其在實際生活中有著十分重要的地位.很多的實際模型都是基于泊松過程提出的,然而在某個確定時刻,泊松過程就相當(dāng)于是一個泊松分布。因此,如何估計泊松分布的參數(shù)在理論和實際中都有著重要意義.理論上,我們可以在估計泊松分布參數(shù)的方法基礎(chǔ)上,考慮其是否適合于其它非對稱分布的位置參數(shù)估計;實際中,較為準(zhǔn)確地估計出泊松分布的參數(shù)對未來情況的預(yù)測有著重要作用。
Cizek在解決廣義線性模型——Binary-Choice回歸模型時,提出了一種通過數(shù)據(jù)自身情況決定截斷比例的方法。本文就是在這個想法的基礎(chǔ)上,通過一定的改進,提出了一種估計泊松分布參數(shù)的方法,并說明了該方法在估計泊松分布參數(shù)時的可行性。
1.1極大似然估計
對于泊松分布而言,其分布律記為 p( x;λ),其中λ為待估的參數(shù)。假設(shè)X1,L,Xn是服從分布p( x;λ)的獨立樣本。稱由(1)式確定的MLE為參的極大似然估計。

因此,在泊松分布中,其參數(shù)的極大似然估計就是統(tǒng)計量x,從該表達式,我們可以發(fā)現(xiàn)當(dāng)數(shù)據(jù)中有一個壞數(shù)據(jù)(即離群值)的時候,該表達式會與真實結(jié)果之間產(chǎn)生較大的偏差。對于泊松分布參數(shù)的極大似然估MLE而言,其方差n。另一方面,由Rao-Cramer不等式可知:對于任何無偏估計而言,其方差的下界為n。因此,在對泊松分布參數(shù)進行估計時,MLE是最有效的估計(即最小方差無偏估計)。進一步,由極大似然估計的近似分布性質(zhì)可知:MLE具有近似分布N,n這也就是為什么在估計泊松分布的參數(shù)時常用極大似然估計的原因。

1.2M估計
對于分布p( x;λ)而言,其中λ為待估的參數(shù)。假設(shè)X1,L,Xn是服從分布p( x;λ)的獨立樣本,在正則條件下,λ的極大似然估計()MLEλ等價于方程(3)的解。

對于泊松分布而言,(3)式即為

令 ¬0 (u) =u,則泊松分布參數(shù)λ的極大似然估計λ(MLE)就是(5)的解。

對于(4)式而言,我們可以發(fā)現(xiàn)大數(shù)據(jù)xi對其影響很大。換而言之,如果數(shù)據(jù)被污染,有離群值在里面的話,那么用(4)式得到的估計會與真實值有較大偏差.我們稱(6)式的解λ(MLE)為M估計。

進一步,考慮到數(shù)據(jù)的尺度問題,將(6)改進為


由M估計的近似分布性質(zhì)可知:ME具有近似分布

Huber建議在(7)中取u和d如下:


1.3極大截斷似然估計
Neykov和Neytchev基于極大似然估計的優(yōu)良性質(zhì),提出通過似然函數(shù)截斷一些可能的壞數(shù)據(jù)后再進行估計的方法,這種方法既保留了似然函數(shù)的部分性質(zhì),又提高了估計量的穩(wěn)健性。
對于分布p( x;λ)而言,其中λ為待估的參數(shù),我們稱(9)所對應(yīng)的估計λ(MLE,h)為參數(shù)λ的極大截斷似然估計。

1.4自適應(yīng)極大截斷似然估計
基于1.3小節(jié)中提到的極大截斷似然估計而言,它有一些不錯的性質(zhì),但是截斷比例h的選取并沒有一致的方法。通常情況下,截斷比例的選取依賴于一些先驗知識。當(dāng)h取得越大,則λ(MLE,h)受壞數(shù)據(jù)的影響越小,但有效性會降低。因此,我們考慮用平均似然達到最大的方法來確定截斷比例h,稱(10)所對應(yīng)的截斷比例h*為最優(yōu)截斷比例[1]。

其中λ(MTLE,h)的定義如(9)所示δλ為對截斷比例上限的限制令λ(AMTLE,h)=λ(MTLE,h*)稱估計量λ(AMTLE)為自適應(yīng)極大截斷似然估計。在實際操作中,我們可以用下面的方法來給出我們首先用樣本的中位數(shù)median{ xi}作為位置參數(shù)λ的估計,記u=median{ xi}然后令我們來解釋為什么這樣選取λδ根據(jù)定理1,我們可以看出受數(shù)據(jù)影響較小的中位數(shù)在樣本量趨于無窮的時候,雖然不是無偏估計,但其和真實值之間的差異并不太大。在樣本量充分大時候,用上面所給的λδ作為截斷上限可以保證得到的估計與λ相差不大[2]。
2.1自適應(yīng)極大截斷似然估計的極限性質(zhì)
根據(jù)(10)關(guān)于自適應(yīng)極大截斷似然估計中最優(yōu)截斷比例的定義,我們可以知道,當(dāng)樣本量n→∞的時候h*會以概率1趨于h0,h0有(11)式確定[3]。


根據(jù)引理1,我們可以得到λ(AMTLE)依概率收斂的極限,即下面的定理。
2.2自適應(yīng)極大截斷似然估計崩潰點
對于一個估計而言,我們常常考慮它受壞數(shù)據(jù)影響的情況。我們稱一個估計是穩(wěn)健的,是指它受壞數(shù)據(jù)影響較小[6],即數(shù)據(jù)集中有壞數(shù)據(jù)和沒有壞數(shù)據(jù)時的估計結(jié)果相差不大。但這種定義只是一個描述性的定義,對問題的分析沒有太大的作用。Müller和Neykov[7]給出了一種描述一個估計穩(wěn)健性的指標(biāo)。在本文中,我們也用這個定義來描述估計的穩(wěn)健性。

在這兩個小節(jié)中,我們考慮的樣本量n分別為100,200和400。對于相同樣本量的數(shù)據(jù),我們分別用極大似然估計,M估計,極大截斷似然估計,自適應(yīng)極大截斷似然估計和中位數(shù)對泊松分布的參數(shù)進行估計。對于某一種估計結(jié)果,我們考慮它的均方誤差MSE和平均偏差EB。這二者的定義如(13)所示。

在實際計算這兩個指標(biāo)時,我們采用Monte Carlo方法,用多次模擬的平均值近似真值。這由大數(shù)定律是可以保證的。為了提高估計的精度,在Monte Carlo方法的基礎(chǔ)上,我們用Hammersley等減少方差的方法對模擬方法進行改進。
3.1未受污染數(shù)據(jù)的模擬

表1 未受污染數(shù)據(jù)的模擬情況Table 1 Unpolluted data simulation

=3.5 =4n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.03530.00260.01770.00250.00870.00010.03980.00200.0202-0.00250.0100-0.0001 ME0.0982-0.0435 0.0683-0.0693 0.0441-0.10170.0485-0.07600.0282-0.08090.0170-0.0794 MTLE(0.1)0.1267-0.1080 0.0976-0.1403 0.0708-0.17160.0455-0.03160.0121-0.01090.0013-0.0015 MTLE(0.2)0.2136-0.2370 0.2192-0.3197 0.2236-0.39680.0738-0.05790.0218-0.02060.0026-0.0026 AMTLE0.0404-0.0707 0.0225-0.0710 0.0138-0.07260.04120.00890.01160.01260.00210.0096 MEDIAN0.2344-0.2668 0.2418-0.3464 0.2466-0.42240.0866-0.08540.0266-0.02890.0034-0.0038估計方法估計方法=21n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.2054-0.00860.10330.00330.05070.00270.20990.00410.1058-0.00140.05250.0040 ME0.26260.05770.14950.05590.10150.05500.26940.07430.12670.04440.06120.0400 MTLE(0.1)0.3396-0.04090.2035-0.05720.1624-0.09280.3463-0.0218 0.1794-0.04940.0758-0.0372 MTLE(0.2)0.3983-0.08580.2412-0.09970.1926-0.13260.4021-0.0629 0.2204-0.08260.1008-0.0510 AMTLE0.2192-0.08290.1110-0.07010.0571-0.07120.2221-0.0683 0.1157-0.07570.0599-0.0709 MEDIAN0.4158-0.17960.2720-0.17800.2452-0.21540.4174-0.1623 0.2474-0.15780.1211-0.1075 =11n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.10530.00330.0514-0.0063 0.02520.00250.11120.00190.0548-0.00310.02680.0006 ME0.16010.04660.10710.02340.09450.02210.13490.04100.05260.02190.02600.0230 MTLE(0.1)0.2092-0.0551 0.1598-0.1044 0.1339-0.14440.1829-0.04090.0842-0.04740.0259-0.0213 MTLE(0.2)0.2488-0.1088 0.2042-0.1650 0.1953-0.22150.2214-0.09160.1134-0.09020.0380-0.0420 AMTLE0.1149-0.0699 0.0594-0.0808 0.0307-0.07120.1213-0.07220.0635-0.07890.0339-0.0752 MEDIAN0.2769-0.1738 0.2424-0.2282 0.2431-0.29740.2434-0.14740.1357-0.11760.0498-0.0515估計方法=10.5 =20.5
從表1中,我們可以發(fā)現(xiàn):當(dāng)數(shù)據(jù)未受污染時,自適應(yīng)極大截斷似然估計的MSE是較其他穩(wěn)健方法而言是最小的,并且EB也不是太大,也就是說在未受污染的情況下,自適應(yīng)極大截斷似然估計有良好的表現(xiàn)。對于中位數(shù)估計而言,當(dāng)位置參數(shù)很小或者非整數(shù)時,其估計效果不佳,比如在0.5λ=的時候,中位數(shù)估計的結(jié)果和零非常的接近,在很多樣本中中位數(shù)就是0,這與實際是不相符合的。從這一點也能看出,自適應(yīng)極大截斷似然估計就中位數(shù)估計而言,有一定的改進作用。
通過上面的分析,我們可以發(fā)現(xiàn),自適應(yīng)極大截斷似然估計在估計泊松分布參數(shù)的時候,具有較好的穩(wěn)健性質(zhì),并且該估計不用事先給定截斷數(shù)據(jù)的比例,在實際運用中較為方便。
[1]涂冬生,成平.非截尾型L統(tǒng)計量的Bootstrap逼近[J].系統(tǒng)科學(xué)與數(shù)學(xué),1989,9(01):14-23
[2]鄭忠國.隨機加權(quán)法[J].應(yīng)用數(shù)學(xué)學(xué)報,1987,10(02):247-253
[3]涂冬生.L統(tǒng)計量的Bootstrap逼近[J].科學(xué)通報,1986(13):965-969
[4]周勇.L統(tǒng)計量的隨機加權(quán)分布逼近及重對數(shù)律[J].湘潭師范學(xué)院學(xué)報,1991,12(6):7-18
[5]劉銀萍,宋立新.Ⅱ型截尾情形下泊松分布參數(shù)的估計[J].吉林大學(xué)學(xué)報,2007,45(6):941-944
[6]宋立新,薛宏旗.一種Sieve極大似然估計的漸近性質(zhì)[J].湘潭大學(xué)學(xué)報,2000,20(03):370-377
[7]Klugman S A,Panjer H H.損失模型從數(shù)據(jù)到?jīng)Q策[M].吳嵐譯.北京:人民郵電出版社,2009:350-370
[8]Biihlmann H.Mathematical Methods in Risk Theor y[M].Berlin:Spring er Verlag,1996:100-120
Robust Estimation of Parameter in Poisson Distribution
LI Hong-ming
Mathematics Institute,Hulunbeier College,Hulunbeier021008,China
This paper,the asymmetrical distribution of the Poisson distribution as an objective,discussed the estimation method of robust parameter.Author truncated likelihood estimation,combining Cizek's work,proposed a robust estimation method applying to Poisson distribution parameters.It avoided the hassle of pre-selected cutoff ratio,and gave their information through the data at an average maximum likelihood ratio criterion optimal truncation.In the analog part of the text,uncontaminated and contaminated Poisson distribution data were respectively simulated to get good results.
Adaptive maximum truncated likelihood estimation;Poisson distribution;collapse;robust estimation
O211.3
A
1000-2324(2014)04-0615-05
2013-01-24
2013-03-02
內(nèi)蒙古自治區(qū)高等學(xué)校科學(xué)研究基金項目(NJZY13319)
李洪明(1962-),男,副教授,河北保定人,研究方向:概率統(tǒng)計、數(shù)學(xué)模型.E-mail:li-h-m@163.com