張 靖,方 睿
(1.香港大學統計與精算學系,香港 999077;2.汕頭大學數學系,廣東 汕頭 515063)
次序統計量在諸如統計推斷、擬合優度、可靠性理論、經濟金融、運籌學、保險精算、拍賣理論等研究領域中具有十分重要的研究價值.記Xi:n表示來自隨機樣本X1,…,Xn的第i小次序統計量,隨機樣本服從某些具體的分布模型,樣本彼此之間相互獨立或者具有某些相依性結構.在過去的三四十年間,國內外多位學者圍繞次序統計量的隨機比較問題進行了深入的研究,其中有大量的工作建立在樣本獨立同分布的假設之上.由于相依或異構型樣本的分布理論較為復雜,文獻中只有為數不多的研究結果.獨立異構型樣本的次序統計量隨機比較研究可參閱文獻[1-4].相依樣本的次序統計量隨機比較研究可參閱文獻[5-7].
近年來已有若干文獻針對不同時期次序統計量隨機比較的研究進行了階段式的回顧綜述,如 Kochar[8],Boland 等[9],Boland 等[10],Khaledi和 Kochar[11],Kochar和 Xu[12]以及Balakrishnan和Zhao[13]分別對1998之前、2002之前、2007之前以及2013年之前的研究工作進行綜述.從2013年之后,得益于分布模型、相依性理論、優化序理論的發展,次序統計量的隨機比較研究進入新的階段,涌現出很多新的成果,也帶來新的挑戰.本文對2013年至今十年間該領域的重要研究結果進行梳理和綜述,并力爭對下一個十年的研究方向做部分展望.
本文的結構編排如下:第一節中對若干重要概念定義進行介紹,第二節主要關注失效率參數的有關研究結果,第三節圍繞反失效率參數的情形進行綜述,第四節回顧了尺度參數的相關研究結果,第五節針對形狀參數進行文獻梳理,最后在第六節中討論了幾個仍未解決的重要問題,展望了未來的研究方向.
本節對一些本文將用到的重要概念進行回顧,包括隨機序、優化序、聯結函數等.約定后文中出現的“遞增”表示單調非減,“遞減”表示單調非增.
定義1.1假設X和Y是兩個非負的隨機變量,其分布函數分別為F,G,分布函數的
右連續逆函數分別為F-1,G-1,生存函數分別為,,密度函數分別為f,g.
(iii)若對 x>0,G(x)/F(x)關于x是遞增的,則稱X依反失效率序小于Y,記做X≤rhY;
(iv)若對0<a≤b<1,F-1(b)-F-1(a)≤G-1(b)-G-1(a),則稱X依色散序小于Y,記做X≤dispY;
(v)若對 x>0,G-1F(x)/x關于x是遞增的,則稱X依星序小于Y,記做X≤*Y;
(vi)若對x∈∪{supp(X),supp(Y)},f(x)/g(x)關于 x 是遞減的,其中 supp(X)={x:f(x)>0}表示隨機變量X的支撐集,則稱X依似然比序小于Y,記做X≤lrY.
更多關于隨機序的內容可參考專著[14-15].
定義 1.2 設 x=(x1,…,xn)∈Rn,y=(y1,…,yn)∈Rn,令 x1:n,…,xn:n是 x 的遞增排序.

其中logx是x取對數后得到的向量.更多關于優化序的內容可參見專著的研究結果[16].
Sklar首次提出聯結函數用于刻畫隨機變量之間相依性結構[17],其定義如下:
定義1.3假設隨機向量X=(X1,…,Xn)的單變量邊際分布函數為F1,…,Fn,邊際生存函數為,則存在函數 C:[0,1]n[0,1]和,使得對 xi,1≤i≤n,X的聯合分布函數可表示為

X的聯合生存函數表示為

C(u1,…,un)和分別稱為 X 的聯結函數和生存聯結函數.
1.3.1 Archimedean聯結函數
聯結函數的族類很多,其中一類具備良好解析性質并且涵蓋眾多常用聯結函數的族為Archimedean聯結函數族[18].
定義 1.4 對 ui∈(0,1),1≤i≤n,若存在 ψ:[0,+∞)(0,1],滿足 ψ(0)=1,ψ(+∞)=0,且(-1)jψ((j)x)≥0,j=0,1,…,n-2,同時(-1)n-2ψ(n-2()x)為遞減凸函數,則

為Archimedean聯結函數,ψ稱為該聯結函數的生成元.
Archimedean聯結函數族包含許多著名的聯結函數,包括獨立(乘積)聯結函數,Clayton聯結函數,Frank聯結函數等.特別地,生成元ψ(t)=e-t對應獨立的情況,相應的Archimedean聯結函數表示為

1.3.2 FGM聯結函數
另一類被廣泛關注和應用的聯結函數族為Farlie-Gumbel-Morgenstern(FGM)聯結函數族[19].
定義1.5含有n個變量的FGM聯結函數的表達式為

其中對 j1,…,jk,-1≤θj1,…,jk≤1.本文中定理結果引用以下簡化版本:

Marshall等[16]詳細回顧探討了優化序在函數不等式等方面的應用,其中重點包含一類與優化序密切相關的函數性質:Schur凸性和Schur凹性.
定義 1.6 設 I是 R 上的開區間,x=(x1,…,xn)∈Rn,y=(y1,…,yn)∈Rn,若存在一個函數?:InR,使得

則稱?是In上的Schur凸(Schur凹)函數.
在涉及次序統計量排序性質的研究中,還有一類具有特殊性質的函數經常被使用.定義1.7 設I是R上的開區間,f為定義在I上的函數.若對 x,y∈I,有f(x+y)≥f(x)+f(y),則稱 f是 I上的超可加函數.
本節主要回顧關于失效率參數對次序統計量排序結果影響的研究.文獻中圍繞失效率參數的研究主要從比例失效率模型入手,具體的:如果隨機變量X1,…,Xn服從比例失效率模型,則對于i=1,…,n,Xi的生存函數可以表示為

2013年之前的研究主要基于獨立的情況討論指數分布、Weibull分布以及一般比例失效率模型相關結果[13].近十年來陸續有文獻圍繞相依的情況展開研究,如Li和Fang[5]假設隨機變量X1,…,Xn服從比例失效率模型,采用Archimedean聯結函數刻畫樣本間的相依性結構,研究了最大次序統計量的隨機比較問題.記隨機樣本為X=(X1,…,Xn),考慮,則 X 的聯合生存函數為其中 ψ為Archimedean聯結函數的生成元.針對最大次序統計量,Li和Fang得到如下通常隨機序的比較結果[5]:
除了上述結果,Li和Fang還給出了使得定理2.1結論成立的其他充分條件,同時也討論了色散序的結果[5].類似地,Fang等討論了最小次序統計量間存在通常隨機序的充分條件[6]:
此外,Fang等還給出了若干最小次序統計量間存在色散序、星序的充分條件,同時也得到了第二小次序統計量隨機比較的結果[6].對于具有FGM聯結函數的比例失效率樣本,Wang和Fang討論了第二小、第二大和最大次序統計量的結果[20]:
定理2.3:假設X1,…,Xn的聯結函數為(1)中所給的參數為θ的FGM聯結函數且Xi~PH(,αi),Y1,…,Yn具有相同的聯結函數且Yi~PH(,βi),其中-1≤θ≤1.若(α1,…,αn)m(β1,…,βn),則有 Xn:n≤rhYn:n.
一些文獻也關注相依情況下特殊分布的隨機比較結果,Barmalzan等針對具有相同相依結構的布爾XII型樣本,討論了失效率參數異構性對最小、最大次序統計量隨機大小比較的影響[21].在獨立的假設下,近十年來一些文獻開始關注失效率參數異構性對Pareto分布和其他分布的隨機比較的相關研究[22-25],同時也有部分文獻進一步補充了指數分布、Weibull分布關于似然比序等隨機序的結果[26-30].
本節主要回顧關于反失效率參數對次序統計量排序結果影響的研究.文獻中圍繞失效率參數的研究主要從比例反失效率模型入手,具體的:如果隨機變量X1,…,Xn服從比例反失效率模型,則對于i=1,…,n,Xi的分布函數可以表示為

其中F(x)是某個隨機變量X的分布函數,記Xi~PRH(F,μi).對于具有形如(3)式的分布函數的隨機變量,我們稱μi為該隨機變量分布的反失效率參數.常見具有反失效率參數的分布有廣義指數分布,其分布函數為(1-exp(-λx))α,其中α為反失效率參數;復合指數型分布族,如指數型伽馬分布,其分布函數為(1-(λx+1)exp(-λx))θ,其中θ為反失效率參數.
2013年以來的研究主要圍繞具有反失效率參數的特殊分布,針對一般反比例失效率模型的研究較為零星分散,Torrado假設獨立隨機變量X1,…,Xn服從比例反失效率模型,針對最小次序統計量,得到如下失效率序的比較結果[31]:
定理3.1:假設 X1,…,Xn相互獨立且 Xi~PRH(F,ai),Y1,…,Yn相互獨立且Yi~PRH(F,bi).若(a1,…,an)W(b1,…,bn),則有X1:n≥hrY1:n.
類似地,Zhao等給出了最大次序統計量間存在反失效率序的充分條件[32]:
定理3.2:假設 X1,…,Xn相互獨立且 Xi~PRH(F,ai),Y1,…,Yn相互獨立且Yi~PRH(F,bi).若(a1,…,an)W(b1,…,bn),則有Xn:n≥rhYn:n.
同樣考慮獨立樣本的情況,Bashkar等將定理3.2中關于反失效率參數的條件弱化后,得到樣本最大次序統計量基于似然比序的結論相似的比較結果[33].
Fang等[6]采用Archimedean聯結函數刻畫樣本間的相依性,研究了比例反失效率模型中反失效率參數的異構性對最大次序統計量的作用.具體的,考慮隨機樣本為X=(X1,…,Xn),X~PRH(F,μ,ψ),則 X 的聯合分布函數為其中ψ為Archimedean聯結函數的生成元.針對最大次序統計量,可以得到如下通常隨機序的比較結果:
定理3.3:假設 X~PRH(F,a,ψ1)和 Y~PRH(F,b,ψ2),(i)若 ψ1或 ψ2為對數凸函數且 ψ1-1ψ2是超可加函數,則由 aWb可得 Xn:n≤stYn:n;(ii)若ψ1或 ψ2為對數凹函數且ψ2-1ψ1是超可加函數,則由aWb可得Xn:n≥stYn:n.
除了上述結果,Fang等還給出了若干最大次序統計量間存在色散序、星序的充分條件,同時也得到了第二大次序統計量隨機比較的結果[6].對于具有FGM聯結函數的比例反失效率樣本,Wang和Fang得到了如下結果[20]:
定理3.4:假設X1,…,Xn的聯結函數為(1)中所給的參數為θ的FGM(生存)聯結函數且Xi~PRH(F,λi),Y1,…,Yn具有相同的(生存)聯結函數且Yi~PRH(F,ηi),其中-1≤θ≤0.若(λ1,…,λn)W(η1,…,ηn),則有Xn:n≥stYn:n(X1:n≥stY1:n).
其他關于反失效率參數異構性對特殊分布隨機比較的研究可以參見[20,31,33-37].
本節主要回顧關于尺度參數對次序統計量排序結果影響的研究.文獻中圍繞尺度參數的研究主要從尺度模型入手,具體的:如果隨機變量X1,…,Xn服從尺度參數模型,則對于i=1,…,n,Xi的分布函數可以表示為

其中F(x)是某個隨機變量的分布函數.對于具有形如(4)式的分布函數的隨機變量,我們稱μi為該隨機變量分布的尺度參數.很多分布的一些參數格式下,某些參數可以同時看做失效率參數或尺度參數,如分布函數為1-exp(-μx)的指數分布;或者反失效率參數或尺度參數,如分布函數為exp(-(μx)-1)的Frechet分布等.這種情況的參數本文中分別歸為失效率參數或反失效率參數.
2013年以來圍繞具有尺度參數的特殊分布的研究不多.Li等[38]假設隨機變量X1,…,Xn服從尺度參數模型,采用Archimedean聯結函數刻畫樣本間的相依性結構,記隨機樣本為 X=(X1,…,Xn),考慮 X~S(F,μ,ψ)和兩種情形,分別對應 X1,…,Xn的聯合分布函數為以及X的聯合生存函數為的情況,其中ψ為Archimedean聯結函數的生成元.分別針對最小、最大次序統計量,獲得了如下通常隨機序的比較結果:
定理4.3:假設 X~S(F,λ,ψ1),Y~S(F,μ,ψ2),ψ1或 ψ2為對數凸函數,ψ1-1ψ2是超可加函數,若有(i)λPμ且F具有遞減比例反失效率;或者(ii)λWμ且F具有遞減反失效率,則有Xn:n≤stYn:n.
除了上述結果,Li等[38]還給出了若干最小次序統計量間存在色散序、星序的充分條件.在獨立的假設下,Wang針對一般尺度模型,討論了最大次序統計量間存在似然比序的充分條件[39];Fang等[40]和Zhang等[41]先后將Li等[38]中的尺度參數模型推廣到同時具有失效率參數或者反失效率參數的尺度參數模型,并討論了尺度參數、失效率參數或反失效率參數的異構性對最小、最大次序統計量隨機大小的影響.
除了前述三種參數(失效率參數、反失效率參數、尺度參數)之外,有些概率分布族還會依賴其它參數,由于這些參數通常對分布族的密度函數及分布函數的形狀具有直接影響,可統稱為形狀參數.如貝塔分布、布爾XII型分布、Dagum分布及推廣的指數分布等均具有形狀參數.由于不同分布族的形狀參數數學性質不同,圍繞形狀參數的研究多假設總體服從某一特定分布.
2013年之前的研究多圍繞貝塔分布開展,近十年來陸續有文獻關注其它分布形狀參數的作用.Dagum分布的分布函數具有形式F(x)=(1+λx-δ)-β,其中δ即為形狀參數,記為Da(λ,δ,β).Fang等考慮總體服從Dagum分布的獨立隨機樣本,在另外兩個參數固定的情況下,得到以下結果[36].
定理5.1:假設 X1,…,Xn相互獨立且 Xi~Da(λ,δi,β),Y1,…,Yn相互獨立且Yi~Da(λ,δ*i,β).若,則有 Xn:n≥stYn:n.
定理5.2:假設X1,…,Xn的生存聯結函數為式(1)中所給的參數為θ的FGM聯結函數且 Xi~Γ(αi,β),Y1,…,Yn具有相同的生存聯結函數且 Yi~Γ(ηi,β),其中α1≥α2≥…≥αn≥1,η1≥η2≥…≥ηn≥1.若(α1,…,αn)m(η1,…,ηn),則有 X1:n≥stY1:n.
除了上述兩個重要結論之外,更多關于形狀參數異構性對最小、最大次序統計量隨機大小影響的最新研究結果可以參見[36,42-43].
本文通過文獻所研究的參數類型,按照失效率、反失效率、尺度以及形狀參數進行分類,系統綜述了異構型樣本次序統計量隨機比較的研究進展.受限于篇幅和筆者水平,主要圍繞單一參數的影響,回顧了比較重要或者考慮半參數總體分布的研究結果.一些分布族往往具有多個參數,相比單一參數,多個參數的異構性之間的交互作用對最小、最大次序統計量隨機大小的影響機制更為復雜,有關多參數異構性作用的研究可以參閱文獻[24-25,31,37,40,44-45].此外,除了本文考慮的4種參數類型外,有為數不多的文獻研究了位置參數的作用[46].受限于分布函數或生存函數表達式的復雜性,除了最小、最大次序統計量外,有關其余次序統計量的結果絕大多數基于獨立樣本的假設下[47],而相依樣本的隨機比較研究結果很少,并且為數不多的結果僅僅討論了第二小、第二大次序統計量,相關結論零星散布于最小、最大次序統計量的文獻中[6,20].此外,隨著聯結函數理論的發展,近年來有越來越多研究將相依性一并納入,但多采用Archimedean聯結函數或FGM聯結函數[20,30,41-42,48-49].對于具有更多相依結構的樣本第二小、第二大及其它次序統計量、以及其它更多類型參數的隨機比較問題,仍有待進一步的研究.