侯瑞環, 王 沁, 李裕奇
(1. 塔里木大學 信息工程學院, 新疆 阿拉爾 843300; 2. 西南交通大學 數學學院, 四川 成都 610031)
?
含輔助信息的最小非參似然比估計和檢驗
侯瑞環1,2,王沁2,李裕奇2
(1. 塔里木大學 信息工程學院, 新疆 阿拉爾 843300;2. 西南交通大學 數學學院, 四川 成都 610031)
摘要:當前,擬合優度檢驗已經比較完善,但仍存在對總體分布已有信息利用不足或者直接丟掉這部分信息的問題.為了實現對已有信息的充分利用,首先借助經驗似然的思想與最小非參似然比統計量的形式,給出含輔助信息的最小非參似然比統計量;然后利用最小非參似然比估計與檢驗性質的研究方法,得到含輔助信息的最小非參似然比估計量,并考察檢驗統計量的相合性、穩健性,同時得到其在復合零假設下的極限分布.這些結論在一定程度上可以豐富和完善擬合優度檢驗與非參數估計的一些理論.
關鍵詞:經驗似然; 輔助信息; 非參數似然比; 經驗分布
在實際數據處理過程中,通常所抽取的樣本都是來自未知總體,然后再根據所得數據對總體做出推斷.這里面主要有2個問題:估計和推斷.從已知分布入手解決這一問題,是統計學界長期關注與研究的課題之一.然而,要解決這類問題的關鍵要知道這組數據的分布或者分布族,也就是統計中的擬合優度檢驗問題.對于來自未知總體F的獨立同分布樣本X1,…,Xn,擬合優度檢驗一般考慮如下2種問題的檢驗:
(1)
(2)
其中,F0是已知的分布函數,Fθ={Fθ:θ∈Θ}是一個含有未知參數的分布族.
對(1)式的檢驗,當屬KarlPearson在1900年提出的χ2檢驗,經過多年的發展,χ2型檢驗理論已經相當之完善,又因計算簡單,時至今日,χ2型檢驗[1-2]仍然是統計應用中較為廣泛的檢驗之一.但是,χ2型檢驗卻有著“先天”的不足之處,為了彌補這一不足,人們提出了基于經驗分布(EDF)的檢驗,EDF型檢驗主要有20世紀20—30年代提出的CV和KS統計量.到20世紀50年代,Anderson和Darling提出AD統計量及加權CV和KS統計量;20世紀70年代末,由R.H.Berk等[3]提出了似然比統計量;進入21世紀以來,又先后有了EM統計量和修正的BJn統計量BWn.隨后,文獻[4-7]分別從不同研究角度給出了上界型統計量和積分型統計量.對問題(2)的研究主要集中于2種途徑:一是先對未知參數做出相應估計,再利用已有的檢驗方法做檢驗;另一種則是對一些特殊分布,利用充分統計量,給出條件積分變換,由于對分布有一定的要求,以至于在實際應用中不具有普遍性.由前述發現,不論哪種方法,除了檢驗統計量本身好壞之外,參數估計好壞直接影響著檢驗的好壞,經典的參數估計有極大似然估計和最小距離估計,由于常見分布的參數極大似然估計計算容易,故其應用相當廣泛;最小距離估計在上世紀得到了相應的研究,因為其計算較為繁瑣,所得估計收斂速度較慢,但應用并不廣泛,直到進入20世紀,最小距離估計又得到了重視.然而這些統計量都無法更好地滿足人們的研究需求,所以近些年又出現了非參數似然比擬合優度檢驗統計量及最小非參數似然比擬合優度檢驗統計量.在實際應用中抽取樣本時往往會得到一些關于總體分布的輔助信息,為了能夠將這些信息加以有效利用,本文利用這2種統計量研究的思想與方法,給出含輔助信息的最小非參數似然比統計量,并從理論上對其估計和檢驗的相關性質及統計量的極限分布進行研究,得到相應結果.
1預備知識
1.1統計量提出
定義 1.1設X1,X2,…,Xn是來自于未知總體F的獨立同分布樣本,假設已有一些與總體相關的輔助信息,也就是存在r(r≥1)個函數g1(x),g2(x),…,gr(x)使得
EFg(X)=0,
這里g(X)=(g1(x),g2(x),…,gr(x))T.上述以定義的方式給出輔助信息,具體與輔助信息有關內容見文獻[8-10].
定義 1.2假設G為任意分布函數,對應的上界型非參似然比統計量為
(3)
(4)
當G=Fn時,T(G)就是最小非參似然比估計;


1.2存在性證明



則BJG(θ)關于θ∈Θ1連續,且滿足(4)式的T(G)所組成的集合為緊致的非空子集.





由條件(I)和(II)可知結論成立.
2含輔助信息最小非參統計量性質研究
統計量估計的相合性:
可知,當n→∞時有
當且僅當不含輔助信息,即g(Xi)=0時等號成立,

定理 2.1假設T(G)的值唯一,對于任意θ∈Θ1有
統計量估計[14]的穩健性:
定理 2.2假定對任一x∈R,F(x,θ)關于θ的二階導數存在且連續,BJG(θ)關于θ的某個領域內二階可微,并且二階偏導數矩陣連續可逆,則在T(G)處的響應函數為
(5)
其中,θ=T(G)∈Θ1,Δx為在x退化分布,P(G)為BJG(θ)在θ處的二階偏導數矩陣,即
含有輔助信息最小非參似然比檢驗統計量的極限分布:
引理 2.2假設對θ0的每一個鄰域Ω,存在某一正常數C,使得當θ?Ω時,對任意正δ有
成立,且對θ0的每一個鄰域Ω,當n→∞時有
(6)
從而當n→∞時有
(7)
所以有

定理 2.3假設F(x,θ)在θ0處可微,且存在一個常數C,使得任意θ∈Rm(m為參數的維數)有
且
則在引理2.2條件下有
與
有相同的極限分布.由此可知含有輔助信息最小非參似然比檢驗統計量的極限分布存在,可以按兩部分理解:第一部分由于含輔助信息經驗似然分布函數所導致的極限分布;另一部分為參數估計所引起的偏差部分.
3結語
至此,估計量T(G)的解是存在的,并且含輔助信息的最小非參似然比估計弱相合.另外影響估計穩健性的因素是AG(△x):當|AG(△x)|有界時,估計是穩健的;當|AG(△x)|無界時,一般得不到穩健估計.這里的AG(△x)與分布函數有關,因此要想得到穩健的估計,則必須考慮分布族.并從理論上證明了含輔助信息的非參似然比檢驗的極限分布是存在的,并且其與含輔助信息經驗似然分布函數和參數估計所引起偏差兩部分有關.
定理2.1證明由含輔助信息的最小非參似然比估計
在此處,首先得說明
然而
由文獻[15]定理2.15容易得到
再結合定理條件2.1與引理2.1知
這與T(G)的唯一性相互矛盾,因此所有子序列均依概率收斂到.
定理2.2證明因為
所以
其中▽BJG(θ)表示BJG關于θ的一階偏導向量.
假設對于任意ε>0,Gε(t)=(1-ε)G(t)+ε△x(t),故而
綜上可以得到
又因為
其中θ1介于T(Gε)與T(G)之間.
其中,▽2BJG(θ)表示BJG關于θ的二階偏導矩陣,從而T在G處的影響函數為
定理2.3證明因為
對logF(x,θ)在F(x,θ0)處Taylor展開
類似的也可以對log(1-F(x,θ))在F(x,θ0)展開

所以將上述2式代入下式有
又因為有
所以
故而由定理2.3的條件與引理2.2及類似于文獻[16]的結論得到結果.
參考文獻
[1] 陳希孺,方兆本,李國英,等. 非參數統計[M]. 合肥:中國科學技術大學出版社,2012.
[2] 李裕奇,趙聯文,王沁,等. 非參數統計方法[M]. 成都:西南交通大學出版社,2010.
[3] BERK R H, JONES D H. Goodness-of-fit statistics that dominate the Kolmogorov statistics[J]. Z Wahrsch-Verw Gebiete,1979,47:47-59.
[4] ZHANG J. Power full goodness-of-fit tests on the likelihood ratio[J]. J Royal Statistical Society Soc,2002,B64(2):281-294.
[5] 張軍艦,楊振海,程維虎. 擬合優度檢驗[M]. 北京:科學出版社,2010.
[6] 張軍艦,李國英. 上界型擬合優度檢驗[J]. 數學物理學報,2010(2):344-357.
[7] JAGER L, WELLNER J A. A New Goodness of Fit Test:the Reversed Berk-Jones Statistic[M]. Seattle:University of Washington,2004:1-21.
[8] ZHANG B. M-estimation and quantile estimation in the presence of auxiliary information[J]. J Statistical Planning and Inference,1995,44:77-94.
[9] ZHANG B. Confidence intervals for a distribution function in the presence of auxiliary information [J]. Comput Statistics Data Analysis,1996,21:327-342.
[10] FENG L X, LI R. Smoothed empirical likelihood confidence intervals for quantile regression parameters with auxiliary information[J]. Statistical Methodology,2013,15:46-54.
[11] OWEN A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika,1988,75(2):237-249.
[12] OWEN A B. Non parametric Likelihood Confidence Bands for a Distribution Function[J]. J Am Statistical Association,1995,90:516-521.
[13] 林正炎,陸傳榮,蘇中根. 概率極限理論基礎[M]. 北京:高等教育出版社,1999.
[14] 許寶,姜玉秋,藤飛. 一種加權對稱損失函數下一類指數分布模型參數的估計[J]. 四川師范大學學報(自然科學版),2011,34(4):484-487.
[15] 張軍艦. 廣義非參似然比擬合優度檢驗[D]. 北京:中國科學院,2006.
[16] POLLARD D. The minimum distance method of testing[J]. Metrikea,1980,27:43-70.
2010 MSC:62G86
(編輯鄭月蓉)
Minimum Non-Parametric Likelihood Ratio Estimation and Testing in the Presence of Auxiliary Information
HOU Ruihuan1,2,WANG Qin2,LI Yuqi2
(1.CollegeInformationEngineering,TarimUniversity,Alar843300,Xinjiang;2.SchoolofMathematics,SouthwestJiaotongUniversity,Chengdu610031,Sichuan)
Abstract:Currently, though the goodness of fit test is already fairly complete, there are still existing some outstanding problems, which will be lack of existing information or losing partly information directly during estimating the distribution. In order to achieve full utilization of existing information, first of all, with the idea of empirical likelihood and the form of minimum non-parametric likelihood ratio statistic, the paper gives the minimum nonparametric likelihood ratio statistic with the presence of auxiliary information. Then, using a minimum non-parametric likelihood ratio estimation and testing methods, the minimum nonparametric likelihood ratio estimator with the presence of auxiliary information is obtained. At last, the feature of consistency and robustness are studied, at the same time, the limit distribution in composite null hypothesis is got. To some extent, these conclusions can enrich and improve the theories of goodness testing and the nonparametric estimation.
Key words:empirical likelihood; auxiliary information; nonparametric likelihood ratio; empirical distribution
doi:10.3969/j.issn.1001-8395.2016.01.010
中圖分類號:O212.7
文獻標志碼:A
文章編號:1001-8395(2016)01-0059-06
*通信作者簡介:王沁(1973—),女,副教授,主要從事應用、經濟統計、管理科學與工程的研究,E-mail:wangqin@home.swjtu.edu.cn
基金項目:中央高校基本科研業務費專項資金(SWJTU11CX155)
收稿日期:2014-03-24