黃婷婷, 王惠文, SAPORTA Gilbert
(1. 北京航空航天大學 經濟與管理學院, 北京 100083; 2. 城市運行應急保障模擬技術北京市重點實驗室, 北京 100083;3. 北京航空航天大學 大數據科學與腦機智能高精尖創新中心, 北京 100083;4. 法國國立工藝學院 計算機和通信研究中心, 巴黎 75003)
數據搜集技術的快速發展不僅帶來了海量的數據,也帶來了類型越來越復雜的數據,如函數數據[1-3]、成分數據[4]和符號數據[5-6]等。在這些類型復雜的數據中,成分數據由于關注部分在總體中的占比信息,受到愈來愈廣泛的關注。如Fry等[7]利用住戶開支統計調查結果研究預算分配模型,Pawlowsky-Glahn和Egozcue[8]利用成分數據比較東歐和西歐國家在食物消費結構上的習慣差異,Pawlowsky-Glahn[9]等利用成分數據回歸模型分析了巴西宗教信仰構成的變化。
成分數據分析主要研究活動對象結構變化產生的規律及其對其他對象產生的影響。關于成分數據的理論研究,標志性的成果是1986年Aichison撰寫的《成分數據統計分析》[10],該書詳細闡述了成分數據統計分析方法建立的數學基礎。在成分數據分析中,線性回歸模型是一種常用的分析技術。現有的成分數據線性回歸模型可以分為兩大類:第1類因變量是普通數據[11-12],第2類因變量是成分數據[13-15]。Hron等[12]利用第1類成分數據線性回歸模型研究了GDP組成與預期壽命的關系;而Wang等[14]利用第2類模型研究了地區總產值與就業和投資的關系。本文在因變量是普通數據的成分數據回歸模型基礎上進行研究。在成分數據回歸模型中,通常以樣本之間獨立同分布作為前提。而在實際應用中,獨立同分布的假設往往是不成立的。如何對現有的成分數據線性回歸模型進行改進,使之適應實際應用的需求,是一個值得深入研究的問題。
在空間計量經濟學[16]中,空間自回歸模型通過引入空間依賴項,打破了因變量相互獨立的假設,使得許多與空間地理位置或社交網絡有關的現象得到解釋。利用空間自回歸模型,可以對區域經濟發展的問題[17-18]、溢出性問題[19-20]等進行分析?,F有的空間自回歸模型在普通數據的基礎上已經發展得相對完善,已有的對空間自回歸模型進行估計的方法包括Ord[21]和Lee[22]提出的極大似然估計法、Kelejian、Prucha[23]和Lee[24]提出的廣義矩估計法、Lesage和Pace[25]從貝葉斯的角度提出的馬爾可夫鏈蒙特卡羅方法(Markov chain Monte Carlo method)。
因此,針對經典成分數據線性回歸模型假設樣本間相互獨立的嚴格要求,研究因變量之間具有空間依賴的成分數據回歸模型,通過在普通數據的空間自回歸模型中,引入成分數據的協變量,提出了同時含有成分數據和普通數據的空間自回歸模型。并依據成分數據的特點,給出了混合2種數據的空間自回歸模型的估計方法。提出的新模型比已有的成分數據線性回歸模型具有更強的靈活性,可以處理更加復雜的空間依賴問題。
本節主要介紹成分數據的代數空間——單形空間(simplex)中的基本運算,以及與成分數據聯系緊密的幾種變換,利用這些變換可以將具有約束的成分數據轉化成易于處理的普通數據。
對于含有d個成分的成分數據,對應的單形空間Sd(上標d表示成分數據有d個成分,因此實際是d-1維的)定義為
Sd={x=(x1,x2,…,xd)T,
(1)

現有單形空間Sd中的任意2個成分數據x、y以及實數α,記x=(x1,x2,…,xd)T∈Sd,y=(y1,y2,…,yd)T∈Sd,α∈R,則x和y的加法⊕及α和x數乘運算⊙可分別定義為
x⊕y=C(x1y1,x2y2,…,xdyd)
(2)
(3)
式中:C(·)表示閉合運算,定義為
(4)
不難看出,閉合運算保證了運算結果仍在Sd中?;谶\算⊕和⊙,可以導出x和y的減法運算,

(5)
x和y的內積運算〈x,y〉a定義為
(6)

(7)
(8)
可以證明,含有內積運算的單形空間是一個希爾伯特空間。

ilr(x)=(〈x,e1〉a,〈x,e2〉a,…,〈x,ed-1〉a)T
(9)
Egozcue等[26]證明,ilr變換是保內積的變換,即對于含有d個成分的成分數據x和y,有
〈x,y〉a=〈ilr(x),ilr(y)〉
(10)
下面給出具體的ilr變換過程。

ξi=ilr(Ci)=clr(Ci)ΨT=ln(Ci)ΨT
(11)
式中:
clr(Ci)=
Ψ為(d-1)×d維的矩陣,具體表達式為


Y=ατn+ρWY+〈C,B〉a+XΓ+E
(12)
式中:ατn為截距項,τn為所有元素均為的1的維度為n的向量;ρ為未知的空間自相關參數,取值在區間(-1,1)內;W={wij}n×n為外生的空間矩陣,wij為對象i與j之間的權重;B為待估的成分數據系數,具有p個成分;Γ為普通數據的待估系數;E為獨立于X的誤差項,服從均值為0,方差為σ2In多元正態分布,In為n×n的單位矩陣。
需強調的是,式(12)中C和回歸系數B都為成分數據,〈C,B〉a為一個實數。在Aitchison內積空間中,〈C,B〉a代表X對Y解釋性最強的投影方向。
當ρ=0時,式(12)退化為普通的成分數據線性模型。在這個意義上,式(12)比經典的成分數據線性模型具有更強的靈活性,可以處理更加復雜的數據關系。
為估計模型式(12)中的參數α,ρ,B,Γ,首先需將相互不獨立的成分數據轉化為相互獨立的普通數據,1.2節中已作詳細介紹;其次,要解決因變量yi之間不相互獨立的問題,此處采用極大似然估計法ilr變換后的模型進行估計。
同樣利用1.2節中的ilr變換,可得到成分數據系數B的變換坐標b=ilr(B)。
由于B是需估計的參數,因此變換后的坐標b是未知的。記ξ=(ξ1,ξ2,…,ξn)T,則模型式(12)可寫為
Y=ατn+ρWY+ξb+XΓ+E
(13)
為描述簡便,記:δ=(b,Γ)T,Z=(ξ,X),則式(13)可表示為
Y=ατn+ρWY+Zδ+E
(14)
由于模型式(12)中誤差項服從多元正態分布,因變量Y的似然函數為
(15)

(16)
(Y-ατn-ρWY-Zδ)
(17)

(18)


(19)
至此,所有參數都可以估計出來。
為評估所提出估計方法的統計性質,下面設計了幾組數值模擬實驗檢驗估計量的表現。所有的計算過程都是在R軟件中實現,用到的包有“spdep”和“compositions”。
關于空間自回歸模型的空間網絡結構,采取最常見的“車”相鄰(rook matrix)。假設n個樣本點隨機地散落在一個R行T列的格子棋盤上,每個樣本點占據棋盤上的一個方格,那么在棋盤上共享一條邊的2個樣本點就是相鄰的。在這樣的情況下,處在棋盤中間的任意樣本點都有4個鄰居,處在棋盤邊上的樣本點有3個鄰居,而處在棋盤角上的樣本點只有1個鄰居。分別設置R=10,20,30,T=30,25,30,相應地樣本量n=R×T=300,500,900。為了查看空間依賴的強弱是否對估計量有影響,同樣設計了3組不同的ρ值,ρ=0,0.5,0.8。


(20)
樣本的總方差的計算公式為
(21)

估計結果如圖1~圖3所示??梢缘玫饺缦陆Y論:

圖和的樣本偏差Fig.1 Sample deviation of

圖的標準差及的總方差Fig.2 Standard deviation of and

圖3 n和ρ取不同值時,偏差箱線圖Fig.3 Boxplots of deviation of when n and ρ change


針對普通成分數據線性回歸模型要求樣本間相互獨立的局限性,在空間自回歸模型的基礎上,提出了混合成分數據與普通數據的空間自回歸模型,所提出的模型及估計方法具有如下優點:
1) 新提出的模型不僅能夠同時處理成分數據和普通數據,還能表達數據中因變量之間相互依賴的問題。特別地,新模型可以處理地理空間中的依賴性。
2) 新模型所提出的估計量具有相合性。隨著樣本量的增大,可以發現估計值的標準差在逐漸減小。除此之外,新提出的估計方法操作簡單,可以在R軟件上直接實現。
在實際應用中,新模型可處理社交網絡、地理空間等含有網絡結構的依賴問題。而針對其他情況造成成分數據線性模型樣本之間不相互獨立的問題,則需要分情況進行深入分析。