唐瑩瑩
(廣西師范大學 數學與統計學院,廣西 桂林 541006)
空間計量經濟學是計量經濟學的一個分支,以空間經濟理論和地理空間數據為基礎,以建立、檢驗和運用計量經濟模型為核心,運用經濟活動的空間自相關和空間不均勻性問題進行定量分析,研究空間經濟活動或經濟關系數量規律的一門經濟學學科.
具有空間自回歸的SAR模型是最常用的也是最為基礎的模型,它通過空間加權矩陣將空間因素對經濟現象的影響模式引入到模型中,且在被解釋變量中存在空間相關性,這為模型的估計和檢驗帶來了新的問題.

近年來,空間計量理論快速發展出現了誤差為空間自相關的空間自回歸模型,SARAR模型是一個存在混合的空間聯合模型,同時考慮了被解釋變量和誤差項的空間相關問題:

這個模型因Clif和Ord(1973,1981)的兩篇具有重要影響的文章而名,Anselin和Florax(1995)將其記為空間自相關誤差自相關(spatial autoregressive model with autogressive ditubances,SARAR)模型.當ρ=0時模型變成空間誤差模型(SEM),當λ=0時模型為空間自回歸模型(SAR);當ρ=0且λ=0時,為線性回歸模型.
在進行實際的空間計量模型擬合時,解釋變量之間完全不相關的情況很少見,因為問題本身的復雜性和涉及的因素可能比較多,很難在眾多解釋變量中找出一組互不相關又對被解釋變量有顯著影響的變量,不可避免地會出現所選解釋變量之間相關的情況.雖然多重共線性不影響系數的點估計,但會放大系數估計的方差,從而會導致降低的是參數估計的顯著性,更容易得到不顯著的結果;或者模型系數的符號可能有誤,與實際不符合;或者參數估計值的置信區間也變寬,難于評估各個解釋變量對被解釋變量的影響.在SARAR模型中,由于誤差為空間自相關而且因變量也為空間自回歸,所以自變量之間存在的多重共線性問題還會使得自變量對因變量的解釋產生干擾.
趙宇(2018)運用主成分估計去消除空間自回歸中自變量的多重共線性;[1]曹芳(2012)運用Lasso方法處理多元線性回歸的共線性問題;[2]郭雙(2015)對SAR模型通過ALasso方法篩選出不顯著的變量;[3]張元慶和陶志鵬(2016)對SAC模型變量選擇進行了貝葉斯準則的研究;[4]Lee(2004)闡述了SAR模型的極大似然估計量所具體的性質.
本文將解釋變量進行正交轉換為若干個互不相關的主成分,建立起被解釋變量對k個主成分作為新解釋變量,結合極大似然方法估計出SARAR模型關系,再利用關系式β=Φ1α1將k個主成分的參數轉換成原解釋變量的新參數,去減少在有限樣本中減弱多重共線性對參數估計的影響.
主成分特征提取方法主要是通過降維去除自變量壓縮消除冗余.自變量們進行一個線性變換便得到線性無關的主成分,PCi=h1X1+h2X2+…+hnXn,其中hj是第j維度在第i個PC中的權重.首先找出總方差最大的PC,再找與第1個PC線性無關的而且能解釋最多方差的第2個PC,直到取得所有的n個PC.原先的n個維度通過線性變換,變成了新的n個線性無關的按方差解釋度排序的PC,最后根據累積解釋程度選取所需的PC.
空間計量經濟模型參數的常用估計方法極大似然估計法的基本原理是:假定誤差項服從正態分布,繼而可推導因變量的聯合密度函數,再通過最大化對數似然函數得到模型的估計參數.Ord(1975)對空間滯后模型和空間誤差模型的極大似然估計法進行了概述,而 Anselin(1988)則在 Ord(1975)、Bates和White(1985)研究基礎上,進步推導了空間計量經濟模型極大似然估計法和正則條件.
本文第一節簡單介紹了SARAR模型和在多重共線性的危害下提出所研究的問題,第二節給出了所采用方法的參數估計推導,第三節和第四節同時通過大量的模擬實驗去驗證該方法具有有效性.
設Y為n×1階因變量,X是一個n×p階外生解釋變量矩陣,ε~N(0,σ2In),

其中ρ和λ表示空間因素對其中研究對象的影響程度,β為對應p×1維自變量的參數向量.兩種空間加權矩陣W1和W2是n×n階的外生的空間權重矩陣,兩者可以相同也可以不相同;分別表示空間因素對研究對象的影響,W1Y為空間滯后效應,W2u為空間誤差效應.In為n階單位矩陣.
將SARAR模型(2)做如下變形:

其中,中心化的X的相關系數矩陣為XTX,設其特征根為λ1≥λ2≥…≥λp,XTX的標準化正交特征向量為p×p維的矩陣ΦT=(?1,?2,…?p),ΦΦT=Ip且ΦTXTXΦ=qTq=Λ,其中Λ=diag(λ1,λ2,…,λp);令q=XΦ,α=ΦTβ;由(3)得到:


則可以將原模型可寫成:

假設隨機誤差項ε~N(0,σ2In),參數集為θ=(αT1,ρ,λ,σ2);
模型(4)的對數似然函數為:

將(ρ,λ)和(ρ,λ)代入到lnL n(θ)得到最大化的中心化對數似然函數:

通過Monte carlo模擬在不同的參數和情況下對模擬和效果進行比對.

設定W1和W2為相同的“rook”形式空間權重矩陣;取ρ=0.8,λ=0.5,^σ2=1;對于初始值β分別取三組不同的值:
(1)β1=(3,2.5,0,0,0)';
(2)β2=(3,2.5,10,2.5,3)';
(3)β3=(3,0,10,0,3)';
設定樣本數分別為225,400個,用于探究不同樣本量下的結果;每次情況模擬次數為1000次.其中,采用Box和Muller(1958年)給出了由均勻分布的隨機變量生成正態分布的隨機變量的算法生成標準正態偽隨機數,再用Mc Donald和Galerneau(1975)的自變量生成方法產生具有多重共線性的變量x ij=.再者r的取值為0.99和0.999以保證生成的自變量是存在不同的多重共線性并以研究其在不同共線程度對模型的影響程度.
表中的βML是在原數據構建SARAR模型的基礎上直接應用極大似然估計方法估計出來的參數值,βPAC是對自變量進行主成分特征提取的基礎上利用極大似然估計方法得到的參數值.

表1 r=0.99時所求參數的均方誤差Tab.1 Mean square error of the required parameters when r=0.99

表2 r=0.999時所求參數的均方誤差Tab.2 Mean square error of the required parameters when r=0.999
通過對比表1和表2中呈現的參數均方誤差可以發現,當r=0.99時,EMSE(βML)與EMSE(βPAC)之間的沒有很大的差距;但當r=0.999時,高度的多重共線性使得在直接使用ML方法估計出來的參數值與真實值有很大的誤差,而在自變量進行主成分特征提取后再進行ML方法的參數均方誤差要優于前者.
本數據取自于Harrison和Rubinfeld(1978)收集的波士頓房價數據,并由Gilley和Pace(1996)加以完善.數據中包含506個波士頓普查區的中心數房價以及可以潛在決定房價的20個解釋變量,選取業主自用住宅的價值平均數MEDV為被解釋變量,TAX、LSTAT、PTRATIO、log(CRIM)、RM 為解釋變量;W為506個區之間的“rook”形式空間權重矩陣,現構造如下的SARAR(1,1)模型:

首先對5個解釋變量數據進行中心化處理,并計算相關系數.建立這5個解釋變量的SARAR(1,1)方程,使用一般的極大似然估計的參數結果為βML.觀察到log(CRIM)的系數值為0.0821355且其P值大于0.05,根據直觀診斷法,log(CRIM)的系數可能有誤,與實際不符.在該模型中,由于解釋變量存在多重共線性會導致參數的解讀和顯著性并不理想.下面采用主成分估計對原解釋變量進行轉化.解釋變量的相關系數矩陣如下:

表3 5個變量的相關系數表Tab.3 Correlation coefficient table of five variables
對5個原解釋變量提取相互獨立的主成分,其相關系數矩陣特征根如下:

計算相關系數矩陣的特征向量如下:


圖1 碎石圖Fig.1 Crushed stone diagram
從特征根和碎石圖看,可以取前三個主成分作為新的解釋變量;這三個主成分累積奉獻率為91.04%,并使用極大似然估計方法建立MEDV對前三個主成分的SARAR(1,1)模型,得到的值并利用關系式得到MEDV對原來5個解釋變量的新參數.
在SARAR(1,1)-PCA模型中,log(CRIM)的參數為負值,合理地解釋越低人均犯罪值對應于越高的業主自用住宅的價值平均數,其他參數的數值也發生了變化,表明了各變量對MED的直接影響.在對解釋變量進行主成分變換之后,消除解釋變量之間的多重共線性,使得模型更有意義.

表4 兩種方法求得的參數值Tab.4 Parameter values obtained by two methods
在建立SARAR模型并進行運用時,往往存在一定程度的多重共線性問題,如果解釋變量之間的相關程度不足以影響模型的質量(即各個參數顯著性得到滿足時)就可以忽略;當出現較嚴重的后果又不能增加樣本量時,在不刪減變量下采用主成分特征提取與極大似然估計降低變量之間的相關程度,會使得模型更有效.