喻 雪,范永輝
(天津師范大學數學科學學院,天津300387)
設 X1,X2,…,Xn是分布函數為 F(x)的獨立同分布的隨機變量序列,Mn=max{X1,X2,…,Xn},設存在常數列{an>0}和{bn},使得x∈R,此極值分布有3種類型,其中Ⅰ型分布稱為Gumbel分布,Gumbel分布函數的表達式為
其中:μ(-∞ < μ<+∞)為位置參數;σ(σ >0)為尺度參數.位置參數為μ、尺度參數為σ的Gumbel分布記作G(μ,σ),其對應的密度函數為

記 h(x)=exp[-exp(-x)]·exp(-x),則 Gumbel分布的密度函數可記為
Gumbel分布是極值分布的主要類型之一,極值分析的主要目的之一是估計分位數,其在水文、建筑、氣象等領域有廣泛的應用[1-3].對分布函數位置參數和尺度參數估計的優劣直接影響重現水平估計的準確性,因此對Gumbel分布參數的研究具有重大的理論意義和實用價值.
關于Gumbel分布的位置和尺度參數置信區間的確定,相關學者提出了很多方法.文獻[4]利用樣本分位數,構建極值分布參數的線性回歸模型,得到了相關參數的漸近正態無偏估計,給出了相應的漸近置信區間.文獻[5]基于樣本分位數給出了構造置信區間的2個新樞軸量,推導出了樞軸量的概率密度函數表達式,在大樣本場合討論了總體參數的近似置信區間.文獻[6]結合非線性回歸模型和最小絕對偏差給出極值分布參數的一種估計方法.以上文獻都是在大樣本情況下考慮Gumbel分布中位置參數和尺度參數的置信區間,所用樞軸量的分布是當樣本容量趨于無窮時的極限分布,但這些方法不一定適用于小樣本情形,尤其典型的小樣本置信區間在涉及討厭參數統計問題時可能不可用,例如,2個指數分布的均值之間的差異,或兩異方差的正態分布,典型的小樣本推斷不提供最佳的檢驗和置信區間.針對小樣本情形,本文基于參數最小風險同變估計,利用廣義樞軸量,構造了Gumbel分布分位數的廣義置信區間.
定義[7]R=R(X,x,θ)是X、x、θ的函數,其中:θ =(θ1,θ2)為未知參數向量,θ1為感興趣的參數,θ2為討厭參數向量,若R滿足以下條件,則稱R為廣義樞軸量(GPQ).
(1)給定x,R的分布與未知參數無關.
(2)R的觀測值Robs=R(x,x,θ)與討厭參數無關.
設 R=R(X,x,θ)為參數 θ1的廣義樞軸量,則θ1的等尾(1- α)100%的廣義置信區間為[cθ1,α/2(x),cθ1,1-α/2(x)],其中 cθ1,γ(x)滿足

設隨機變量ξ服從G(μ,σ),顯然f(ξ)=aξ+b(a>0,-∞ < b < +∞)服從 G(a μ+b,aσ).μ、σ 的估計也應有類似的性質,即 X=(X1,X2,…,Xn)′是從總體 G(μ,σ)中抽取的樣本分別為 μ 和 σ 的估計,若樣本變為 aX+b1n,其中 1n=(1,…,1)′,則應滿足

引理設 X=(X1,X2,…,Xn)′為來自 Gumbel分布G(μ,σ)的簡單隨機樣本,則在二次誤差損失函數下,位置參數μ的最小風險同變估計(MRE)為


類似文獻[8]可得引理的證明.
首先構造廣義樞軸量.設 X=(X1,X2,…,Xn)′是取自G(μ,σ)的簡單隨機樣本,則在對參數μ和σ的估計為最小風險同變估計的基礎上,分別構造位置參數μ和尺度參數σ的GPQ.位置參數μ的GPQ構造為

尺度參數σ的GPQ構造為


在求得μ和σ以及p分位數的GPQ后,根據式(2)可求得p分位數的廣義置信區間.
令ciL和ciU分別為Ri分布的分位數和100×由式(2)可知μ、σ和p分位數的(1-α)廣義置信區間分別為[c1L,c1U]、[c2L,c2U]和[c3L,c3U].雖然 Ri,i=1、2、3 的分布已知且與未知參數無關,但無法利用樣本確定其分布,故廣義置信區間需要通過計算機抽樣模擬得到.
本節通過計算機抽樣模擬計算廣義置信區間.首先給出算法流程,然后取不同的分位數,以及不同的小樣本容量值,進行計算機模擬.
取給定的μ、σ、n、p值,其中n表示樣本容量.
對于 i=1,…,M,從 Gumbel分布 G(μ,σ)中抽取第 i個容量為 n 的樣本,計算
對于 j=1,…,N,從 Gumbel分布 G(0,1)中抽取第 j個容量為 n 的樣本 yj1,yj2,…,yjn,計算進而得出
{R31,R32,…,R3N}即為廣義樞軸量 R3的一個容量為N的樣本,分別用c1、c2表示該樣本的分位數,總體分位數的廣義置信區間即為[c1,c2],假如c1≤μ≤c2,令 Ki=1,否則 Ki=0.計算得即為分位數的廣義置信區間的實際置信水平(覆蓋率).
令 T=(1-p)-1,則 p=1-T-1,μ 分別取為 0、1,σ分別取為1、2、3.表1給出了樣本容量n分別為5、10、15、20、35、40的情況下,T分別為 100、200、500的分位數0.95廣義置信區間的實際置信水平(confidence level,CL).

表1 T年重現水平的廣義置信區間的置信水平Tab.1 Confidence levels of generalized confidence intervals of return period for T years
由表1數據可見,在樣本容量較小的情況下,當μ、σ以及重現期T取不同的值時,p分位數廣義置信區間的實際置信水平都與0.95非常接近,可見本文構造的廣義樞軸量性能良好.
文獻[9]基于標準極值給出了一種GPQ的構造方式,下面利用本文方法和文獻[9]方法分別計算Gumbel分布分位數廣義置信區間的置信水平.由文獻[9],Gumbel分布 p分位數 μ-σ ln[-ln(p)]的 GPQ 為

不失一般性,這里只比較T=200時的分位數的0.95廣義置信區間的實際置信水平以及平均區間長度(average interval length,AIL),μ分別取為 0、1,σ分別取為 1、2,樣本容量分別取為 5、8、10、15、35、40,計算結果見表2.

表2 2種方法的廣義置信區間的置信水平和平均區間長度(T=200)Tab.2 Confidence levels and average interval lengths of generalized confidence intervals of two methods(T=200)
由表2數據可見,在樣本容量較小的情況下,總體來說,本文方法得到的置信水平略優于文獻[9],而平均區間長度則明顯小于文獻[9]的構造方式,說明本文的構造方法效果較好.
參考文獻:
[1]羅純,王筑娟.Gumbel分布參數估計在水位資料分析中應用[J].應用概率統計,2005,21(2):169-175.LUO C,WANG Z J.The estimates of the parameters of Gumbel distribution and their application to the analysis of the water level data[J].Chinese Journal of Applied Probability and Statistics,2005,21(2):169-175(in Chinese).
[2]張新生,曹乃寧,王小完.Gumbel分布的油氣管道的剩余壽命預測[J].中國安全科學學報,2015,25(9):96-101.ZHANG X S,CAO N N,WANG X W.Residual life prediction of oil and gas pipeline based on Gumbel distribution[J].China Safety Science Journal,2015,25(9):96-101(in Chinese).
[3] 李穎,方偉華.熱帶氣旋降水重現期估算研究[J].自然災害學報,2014,23(6):58-69.LI Y,FANG W H.Estimation on return period of tropical cyclone precipitation[J].Journal of Natural Disasters,2014,23(6):58-69(in Chinese).
[4]程維虎.利用樣本分位數的極值分布的參數估計[J].北京工業大學學報,2002,28(3):326-328.CHENG W H.Parameter estimation for extreme-value distribution based on the pi-th quantiles of samples[J].Journal of Beijing Polytechnic University,2002,28(3):326-328(in Chinese).
[5] 李永飛.極值分布參數基于不完全數據的區間估計[J].統計與決策,2015(433):81-83.LI Y F.Interval estimation of parameters of extreme-value distribution based on in complete data[J].Statistics and Decision,2015(433):81-83(in Chinese).
[6] 吳香華,秦偉良,王新蕾,等.用最小絕對偏差方法(LAD)估計極值分布參數的探討[J].氣象科學,2006,26(3):3260-3264.WU X H,QIN W L,WANG X L,et al.Regressive parameter-estimatingwithleast absolute deviation in extreme value distribution[J].Scientia Meteorologica Sinica,2006,26(3):3260-3264(in Chinese).
[7] TSUI K W,WEERAHANDI S.Generalized p-values in significance testing of hypotheses in the presence of nuisance parameters[J].Journal of the American Statistical Association,1999,84(406):602-607.
[8] NKURUNZIZAS,CHENF.Generalizedconfidenceintervaland p-value in location and scale family[J].Sankhya B,2011,73(2):218-240.
[9] 趙桂梅,崔玉杰.Weibull分布興趣參數的廣義置信區間[M].工程數學學報,2010,27(3):567-570.ZHAO G M,CUI Y J.Generalized confidence intervals for interest parameters of the Weibull distribution[J].Chinese Journal of Engineering Mathematics,2010,27(3):567-570(in Chines).