王志忠 鄒航
(中南大學數學與統計學院,長沙,410083)
線性模型在現代統計學中一直受到廣泛關注,其中,參數估計是研究領域中的熱點問題,最早由Legendre和Gauss[1]提出最小二乘估計,并應用到觀測數據中.在實際問題中對變量進行觀測時,得到的觀測數據通常帶有測量誤差,這在早期由R.J Adcock進行了研究[2].在線性回歸模型中,經典的最小二乘法只考慮因變量存在誤差,但實際上模型中自變量同樣存在一定誤差[3].這些誤差帶有不確定性,有時是一個明確的數值,有時在一定的實數區間內變動,有時僅是概念上的模糊數[4],且包含先驗信息.對于不確定性先驗信息,在線性回歸模型中的一種有效解決方法是添加懲罰項,也就是約束條件[5], 合理地將之以等式約束、不等式約束或區間約束的形式融入模型中,以有效改善參數估計結果[6-9].
文獻[10]首先研究了不等式約束的回歸分析.楊婷,楊虎[11]針對設計矩陣的病態問題,考慮了回歸系數的橢球約束,得出了橢球約束下線性模型參數的廣義嶺型估計.劉朝林等[12]討論了線性模型在隨機約束下的參數估計問題,提出了幾乎無偏加權混合嶺估計,并證明了它的優良性質.張二艷等[13]基于廣義逆矩陣理論,推導了矩陣解法,把多個約束條件的參數估計問題轉化為無條件極值問題.
最近有許多學者研究了一種新的不確定性,“未知但有界(unknown-but-bound,UBB)的噪聲”[14-16],這在大地測量領域中受到了廣泛關注.針對UBB噪聲,Fogel 等在提出集員估計方法的基礎上[17],用橢球形式描述參數的可行集,提出了相應的橢球集員估計[18].黃一等[19]提出了一種避免橢球相交計算的最小跡擴展集員估計.基于用橢球集合對有界不確定性進行描述這種思想,宋迎春[20]利用觀測向量和參數的兩個橢球集合的交集來描述不確定性,建立橢球不確定性線性模型,在外接橢球特征矩陣的跡最小化準則下求得最優二乘解,解算過程十分復雜.為了優化解算過程,提高橢球不確定性回歸模型的可靠性,本文采用直接迭代算法求解橢球約束線性回歸模型,得到參數的加權估計,并研究權值分配對參數估計的影響,進一步討論估計的可容許性.
考慮不確定性線性回歸模型:
L=AX+e,e~N(0,P),
(1)
其中,A為m×n(m≥n)維設計矩陣,且列滿秩,L為n維觀測向量,X=(x1,x2,…,xn)T為n維參數向量,e為m維有界觀測誤差.
誤差有界不確定性由橢球約束描述:
E(e)={e:eTP-1e≤1}={X:(L-AX)TP-1(L-AX)≤1}.
(2)
式(2)表示觀測值先驗信息約束,或樣本先驗信息約束[20].觀測值L的先驗均值為E(L)=AX.取X0使得L=AX0,則橢球約束(2)可表示為
E(e)={X:(X-X0)TATP-1A(X-X0)≤1},
(3)
其中,X0=XLS=(ATA)-1ATL.
由文獻[20]知,未知量X的不確定性可由橢球約束描述,即X的先驗信息描述為:
E(c,Q)={X:(X-c)TQ-1(X-c)≤1},
(4)
其中,c為未知量X的先驗均值,Q為X的先驗方差.
文獻[20]中的式(14)給出了帶有橢球不確定性約束的參數估計:
(5)

min (L-AX)TP-1(L-AX),
s.t.X∈E(e)∩E(c,Q).
(6)
對上述帶有橢球約束的參數估計問題,參照文獻[22],引入Lagrange乘子,結合Kuhn-Tucker條件,最小二乘準則(6)可寫為
min(L-AX)TP-1(L-AX)+λ1(X-X0)TATP-1A(X-X0)+
λ2(X-c)TQ-1(X-c),
(7)

與文獻[20]所得式(5)類似,通過對式(7)求解,得到不確定性最小二乘估計的解為
(8)
進一步,對式(8)變換得到
(9)
(10)
其中,X0=XLS=(ATA)-1ATL.

代入式(10)得
將得到的λ1(i+1)和λ2(i+1)代入式(8)得


(11)
其中[20],
(12)
引入Lagrange乘子,結合上述和Kuhn-Tucker條件,不確定性最小二乘準則(6)變為:
(13)
類似可以得到,不確定性最小二乘準則(13)的解為
(14)
(15)


將得到的k(i+1)代入(14)式得

文中出現的三個估計,式(5)利用兩個橢球交集的最小跡外包橢球建立最小二乘準則得到參數估計;式(8)針對帶有兩個橢球約束的線性模型引入Lagrange乘子,結合Kuhn-Tucher條件建立最小二乘準則求得參數估計;式(14)先求得兩個橢球交集的最小跡外包橢球,在該外包橢球的約束下,引入Lagrange乘子,結合Kuhn-Tucher條件得到參數估計;式(8)利用兩個橢球交集的最小跡外包橢球,將兩個橢球約束轉化為一個橢球約束,建立最小二乘準則估計參數得到式(14),這樣能更好地研究估計的性質.
下面來研究不確定性最小二乘估計的容許性.

(16)
均方誤差可分解為
(17)


性質1不確定性廣義嶺估計(14)是有偏的[11][24].
橢球約束E(PU)可寫為
(18)
其中PU-1=ATNA.

(1)C=CA(ATP-1A)-1ATP-1;
(2)CPNPCT+CPCT≤CA(ATP-1A)-1;
(3)tr{PNPCT(CA(ATP-1A)-1)-1CP[P-PCT(CA(ATP-1A)-1)-1CP]-1}≤1.
上述條件中矩陣逆不存在時,用廣義逆替代.
證明為證明不確定性最小二乘估計的可容許性,將估計(14)式化為線性形式
(19)
由(19)知,C=(ATP-1A+kPU-1)-1ATP-1.
(1)將式(19)直接代入條件(1),可知條件(1)成立.
(2)將式(19)代入條件(2)的左邊有
CPNPCT+CPCT=(ATP-1A+kPU-1)-1PU-1(ATP-1A+kPU-1)
+(ATP-1A+kPU-1)-1ATP-1A(ATP-1A+kPU-1)
≤(ATP-1A+kPU-1)-1,
(20)
即
PU-1+ATPA≤ATP-1A+kPU-1,
(21)
化簡得到k≥1.
(3)對于條件(3),利用公式(F-CG-1D)-1=F-1+F-1C(G-DF-1C)-1DF-1可得,條件(3)的左邊=tr{PNA(ATP-1A+kPU-1)-1AT[P-A(ATP-1A+kPU-1)-1AT]-1}=tr{PNA(ATP-1A+kPU-1)-1AT[P-1+P-1A(ATP-1A+kPU-1-ATP-1A)-1ATP-1]}=tr{PU-1(ATP-1A+kPU-1)-1+k-1PU-1(ATP-1A+kPU-1)ATP-1APU}=k-1tr{(ATP-1A+kPU-1)-1(kPU-1+ATPA)}=k-1P≤1,即k≥p.
綜上,當p≤k時,估計(14)是容許估計.

實驗數據來源于文獻[28]的測邊網.在該測邊網中,P1~P10是已知點,坐標如表1所示,k1,k2,k3是未知點,其坐標真值分別為(68,-26,9),(14,41,-11),(0,0,0),3個未知點之間的觀測距離分別為dM1M2=88.3402,dM1M3=73.3551,dM2M3=44.8901,已知點與未知點之間的觀測距離在表1中給出.測邊網如圖1所示.

表1 已知點坐標和觀測距離

圖1 測邊網
已知e~N(0,δ2I),δ=0.01.取e∈[-0.2,0.2],區間關于原點對稱,則e的橢球特征集合為E(e)={e:eTP-1e≤1},其中
P=diag(0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088,0.0088).
對于3個未知點,近似坐標分別為(68.029,-26.010,9.019),(14.040,40.860,-11.009)以及(0.02,-0.01,0.01),近似坐標對應的點位精度分別為(0.029,0.01,0.019),(0.04,0.14,0.009)以及(0.02,0.01,0.01).將2倍點位精度l作為參數下邊界值,3倍點位誤差u作為參數上邊界值,即X∈(l,u),其中l∈(-0.058,-0.02,-0.038,-0.08,-0.28,-0.018,-0.04,-0.02,-0.02)T,u∈(0.087,0.03,0.057,0.12,0.42,0.027,0.06,0.03,0.03)T,則
c=(0.0145,0.0050,0.0095,0.0200,0.0700,0.0045,0.0100,0.0050,0.0050)T,橢球特征矩陣為E(X)={X:(X-c)TQ-1(X-c)≤1},其中
Q=diag(0.0473,0.0056,0.0203,0.0900,1.1025,0.0046,0.0225,0.0056,0.0056).

實驗結果見表2,可以看出,系數矩陣呈現嚴重病態時,普通最小二乘解嚴重失真,對應的M值為7.0327;L曲線(嶺估計法)有效地提高了解的可靠性,M值為0.1069;不等式約束(罰函數法)在經過3次迭代后,得到參數穩定解,M值為0.5493;相對于橢球約束,本文的直接迭代算法同樣利用了點位誤差范圍提供的先驗信息,是嶺估計的一種推廣,在經過10次迭代后,得到了更精確的估計值,M值僅為0.0294.

表2 不同方法參數估計比較結果
(1)系數矩陣A呈現嚴重病態時,本文提出的直接迭代算法求解未知參數的估計和權重系數依然有效,相比處理病態模型的其它算法,如表2中的L曲線(嶺估計法),本文算法精度更高.不等式約束和橢球約束雖然也利用了先驗信息,但計算結果依然不如本文算法.
(2)在嶺估計的表達式中,λ1遠小于λ2,說明橢球不確定性約束先驗信息在參數估計中的作用更大.當模型出現病態時,利用參數先驗信息可以改善病態性.
在線性模型觀測數據的獲取過程中,通常含有隨機誤差,同時未知參數中,也存在難以度量的不確定性,這給參數估計和精度評定帶來了困難.本文基于橢球不確定性線性模型,提出了直接迭代求解算法,解決了觀測樣本信息和先驗信息權重分配問題,從權重計算結果看,參數約束先驗信息在參數估計中的作用更大.當系數矩陣呈現嚴重病態時,有效利用參數先驗信息,可以提高估計的可靠性.最后,本文提出了橢球不確定性最小二乘估計是容許估計的充要條件,研究了估計的統計性質.