林盼盼, 張鳳月, 王立春
(北京交通大學(xué)理學(xué)院,北京 100044)
線性模型是現(xiàn)代統(tǒng)計(jì)學(xué)中應(yīng)用最為廣泛的模型之一,生物、醫(yī)學(xué)、經(jīng)濟(jì)和管理等領(lǐng)域的眾多現(xiàn)象都可以用線性模型近似描述.目前,關(guān)于其無約束條件下的參數(shù)估計(jì)方法已經(jīng)十分成熟,但在許多情況下,需要對約束條件下的回歸參數(shù)進(jìn)行估計(jì).約束條件可能是真實(shí)的,例如,經(jīng)濟(jì)計(jì)量中支出份額模型要求支出總和等于收入或者成本函數(shù)中投入價(jià)格的總和為常數(shù);約束條件也有可能是假定的,例如,解決復(fù)共線性時(shí)往往會(huì)對參數(shù)施加約束條件.眾所周知,當(dāng)回歸自變量存在著近似線性關(guān)系時(shí),最小二乘估計(jì)表現(xiàn)不理想,有時(shí)某些回歸參數(shù)的估計(jì)的絕對值異常大,有時(shí)回歸參數(shù)的估計(jì)值的符號與問題的實(shí)際意義相違背等.因此,在約束條件下對回歸參數(shù)進(jìn)行估計(jì)具有重要意義.
線性貝葉斯估計(jì)是由Rao[1]首先提出并且持續(xù)受到關(guān)注,相關(guān)的文獻(xiàn)有[2-4].Wei 和Zhang[5]在加權(quán)平方損失下獲得了回歸參數(shù)的線性貝葉斯估計(jì),并且證明了在均方誤差矩陣準(zhǔn)則和Pitman closeness 準(zhǔn)則下線性貝葉斯估計(jì)相對于最小二乘估計(jì)的優(yōu)越性;進(jìn)一步,Zhang 等[6]研究了分塊線性模型中回歸參數(shù)的線性貝葉斯估計(jì)的優(yōu)良性;Qiu 等[7]考察了平衡損失下回歸參數(shù)的線性貝葉斯估計(jì).然而,上述文獻(xiàn)關(guān)注的多是無約束條件下回歸參數(shù)的估計(jì)問題.
本文主要結(jié)合貝葉斯方法討論在約束條件下的回歸參數(shù)的估計(jì)問題,提出了回歸參數(shù)的線性貝葉斯估計(jì)并論證其優(yōu)越性.文章安排如下:第2 節(jié),提出線性貝葉斯估計(jì)的表達(dá)式;第3 節(jié),考察其性質(zhì);第4 節(jié),借用蒙特卡洛模擬和實(shí)際數(shù)例佐證其性質(zhì);第5 節(jié),給出結(jié)論.
考慮下面的約束線性模型

其中rank(X)=p, rank(R)=m <p,σ2為方差參數(shù).
若d ?= 0,設(shè)β0是(2)式的特解,有R(β ?β0) = 0.令β1= β ?β0,上述模型可以轉(zhuǎn)變?yōu)?/p>

這里y1=y ?Xβ0,故(2)式中只考慮d=0 的情形.
將所有滿足約束條件的β 記為集合Gβ={β :Rβ =0},那么,由約束條件可知

這里M(R′)⊥表示R′的列向量張成的子空間M(R′)的正交補(bǔ)空間.因此,可將β 與無約束最小二乘估計(jì)?β =(X′X)?1X′y 建立如下關(guān)系式

由于A 列滿秩,所以τ 的廣義最小二乘估計(jì)為

從而β 的約束最小二乘估計(jì)為



和

將(7)式代入下式,有

此處

為對稱冪等矩陣.定理證畢.
假設(shè)π(β)為參數(shù)β 的先驗(yàn)分布,并滿足下列條件



由(11)式可得b=(I ?B)E(β)=(I ?B)μ,因此

這里H =A[A′(X′X)A]?1A′,且我們利用了下列事實(shí)

和


下面給出線性貝葉斯估計(jì)的性質(zhì):


和

因此,由無偏性的定義有

由協(xié)方差矩陣的定義有

將B =Σ(σ2H +Σ)?1代入上式并化簡得

于是,由(17)和(20)式有

注意到,由σ2H+Σ ≥Σ >0 可推得(σ2H+Σ)?1≤Σ?1,因此,Σ(σ2H+Σ)?1Σ ≤Σ.從而

定理證畢.

證明 由均方誤差矩陣的定義知

和

由(23)式和(24)式知

定理證畢.
本小節(jié)利用蒙特卡洛模擬闡明線性貝葉斯估計(jì)的優(yōu)越性.
設(shè)模型如下

其中rank(X)=p, rank(R)=m <p,σ2為方差常數(shù).


若根均方誤差越小,則說明相對應(yīng)的估計(jì)量對真值近似的效果越好.

其中

由(9)式可獲得剩余參數(shù)βp?m的先驗(yàn)分布π(βp?m),再和樣本似然函數(shù)f(y|βp?m)結(jié)合來獲得βp?m的后驗(yàn)分布f(βp?m|y).為了研究先驗(yàn)分布的類型對估計(jì)量估計(jì)效果的影響,對于β 選取兩種先驗(yàn)分布:正態(tài)先驗(yàn)和均勻先驗(yàn),且為了便于比較,兩種分布在模擬時(shí)選取的均值與協(xié)方差矩陣相等.
情形1由于β 具有正態(tài)先驗(yàn),導(dǎo)出剩余參數(shù)βp?m具有正態(tài)先驗(yàn)Np?m(β0,Σ0),從而βp?m的后驗(yàn)為

此為正態(tài)分布Np?m(β1,Σ1),其中

C1和C2為常數(shù).
情形2由于β 具有均勻先驗(yàn),導(dǎo)出剩余參數(shù)βp?m具有均勻先驗(yàn),即βp?m在區(qū)域D 上服從均勻分布,從而βp?m的后驗(yàn)為

此為截?cái)嗟恼龖B(tài)分布Np?m(β2,Σ2)ID(βp?m),其中ID(βp?m)為示性函數(shù),C3和C4為常數(shù).

注意到二次損失下,βp?m的貝葉斯估計(jì)為后驗(yàn)均值.在表1 至表4 中,我們針對不同的β 維數(shù)和不同約束條件個(gè)數(shù)的組合進(jìn)行了模擬.

表1: p=2 和m=1 時(shí),估計(jì)量的根均方誤差

表2: p=3 和m=1,且剩余參數(shù)的各分量先驗(yàn)獨(dú)立時(shí),估計(jì)量的根均方誤差

表3: p=3 和m=1,且剩余參數(shù)的各分量先驗(yàn)不獨(dú)立時(shí),估計(jì)量的根均方誤差

表4: p=3 和m=2 時(shí),估計(jì)量的根均方誤差
由表1 至表4 可知,當(dāng)β 的維數(shù)、約束條件個(gè)數(shù)和先驗(yàn)分布相同時(shí),三種估計(jì)量與真值β 的距離隨著樣本量的增大均有減小的趨勢,表明隨著樣本信息增多,估計(jì)效果越好;此外,從表1、表2 和表3 中可以發(fā)現(xiàn),正態(tài)先驗(yàn)分布下LBE與BE近似相等,且它們與β 的距離均小于CLS與β 的距離,而均勻先驗(yàn)分布下?βLBE與β 的距離小于CLS和BE與β 的距離.還可以發(fā)現(xiàn),無論βp?m的各分量獨(dú)立與否,LBE均有著良好的近似效果.進(jìn)一步,在表4 中,三種估計(jì)量與真值的距離近似相等且與表2 和表3 對比存在明顯減小,此表明隨著約束條件增多,有關(guān)回歸參數(shù)的信息增加,LBE、CLS和BE的近似差異逐漸減小.總體來看,線性貝葉斯估計(jì)不僅具有顯示表達(dá)式,其在模擬方面也要優(yōu)于約束最小二乘估計(jì)和貝葉斯估計(jì),而且對于先驗(yàn)分布的改變具有一定的穩(wěn)健性.
下面研究當(dāng)先驗(yàn)參數(shù)改變時(shí),估計(jì)量的根均方誤差的變化情況.這里考察正態(tài)先驗(yàn)下的情形,取p = 2 和m = 1,且選取的先驗(yàn)均值相同、相關(guān)系數(shù)相同,但先驗(yàn)的方差不同,如表5 所示.

表5: 正態(tài)先驗(yàn)分布的參數(shù)取值

表6: 正態(tài)先驗(yàn)分布下,?βCLS 和?βLBE 的根均方誤差

圖1: 正態(tài)先驗(yàn)分布下,根均方誤差隨樣本量的變化
下面用硅酸鹽水泥的數(shù)據(jù)來驗(yàn)證我們的結(jié)論.數(shù)據(jù)來自于文獻(xiàn)[8],并且被Hamaker[9],Gorman 和Toman[10]以及Nomura[11]廣泛分析.數(shù)據(jù)主要探究的是硅酸鹽水泥在凝固和硬化過程中產(chǎn)生的熱量與四種化合物所占百分比的關(guān)系.這四種成分是:鋁酸三鈣、硅酸三鈣、鐵鋁酸四鈣和硅酸二鈣,分別記為X1, X2, X3, X4.固化180 天后產(chǎn)生的熱量用每克水泥所含的卡路里來計(jì)算,并用y 表示.Hald 和Friedman[8], Gorman 和Toman[10]以及Daniel 和Wood[12]對該數(shù)據(jù)用非齊次線性回歸模型進(jìn)行擬合,如公式(26),收集數(shù)據(jù)如下

其中矩陣X 是13×5,第一列為常數(shù)列,剩余4 列分別對應(yīng)變量X1, X2, X3, X4,對應(yīng)參數(shù)分別為β0, β1, β2, β3, β4,并且矩陣X′X 的特征值為

X′X 的條件數(shù)為最大特征值與最小特征值之比,即14372006,故可以認(rèn)為矩陣X 存在嚴(yán)重的復(fù)共線性.根據(jù)Ka?ciranlar 等[13]的建議,添加約束條件:β1?β2+β3=0,并且該約束條件在5%的顯著水平下是不被拒絕的.令β3= ?β1+β2,代入(26)式中,化為如下無約束模型

令

故
y =X1θ+ε, ε ~N13(0,σ2I13),

β =(β0,β1,β2,β3,β4)′的先驗(yàn)均值和協(xié)方差陣及相應(yīng)的模擬結(jié)果如下:
這里βp?m各分量獨(dú)立時(shí)計(jì)算所得

βp?m各分量不獨(dú)立時(shí)計(jì)算所得

表7: 正態(tài)先驗(yàn)分布下CLS 及LBE 與BE 的距離

表7: 正態(tài)先驗(yàn)分布下CLS 及LBE 與BE 的距離
β E(β) Cov(β) ‖?βCLS ??βBE‖ ‖?βLBE ??βBE‖βp?m各分量獨(dú)立 01210 4 0 0 0 0 0 9 0 ?8 0 0 0 16 16 0 0 ?8 16 25 0 0 0 0 0 25 141.190 0.024 βp?m各分量不獨(dú)立 01210 4 0 0 0 ?4 0 9 6 ?2 0 0 6 16 10 0 0 ?2 10 13 0?4 0 0 0 25 141.422 0.010
本文主要研究了約束線性模型中回歸參數(shù)的線性貝葉斯估計(jì)的表達(dá)式及其性質(zhì),證明了線性貝葉斯估計(jì)相對于約束最小二乘估計(jì)的優(yōu)越性,并利用蒙特卡洛模擬和數(shù)值實(shí)例驗(yàn)證了相關(guān)理論結(jié)果.