甘浩耕,趙培信
(1.重慶工商大學 數學與統計學院;2.經濟社會應用統計重慶市重點實驗室, 重慶400067)
在經濟學和區域地理學中,空間模型發揮著重要作用,其中空間自回歸模型在空間模型中引起了廣泛的關注.關于線性空間自回歸模型的估計理論,目前已有大量的文獻進行了研究,比如Smirnov和Anselin(2001)利用最大似然估計方法研究了空間自回歸模型.[1]Kelejian和Prucha(2010)利用矩估計(MM)和擬最大似然估計(QMLE)Lee(2004)對空間自回歸模型進行了估計推斷.[2]
Paelink和Klaassen(1978)指出在某些實際問題中,它們的空間關系表現的是非線性關系,因此應用線性空間自回歸模型是不合適的.[3]但是由于非參數技術的發展,許多學者發現了非參數和半參數方法在建立非線性經濟關系中的優勢.而半參數模型又結合了非參數回歸的靈活性和線性回歸的簡潔性,比起非參數模型提供了更多的可解釋性.在關于空間問題的半參數統計推斷中,Gress(2004)提出了兩種半參數空間自回歸模型,并與大量的參數空間自回歸模型進行了比較.[4]Su和jin(2009)結合擬似然方法和局部多項式方法對部分線性空間自回歸模型提出一個估計方法.[5]Du等(2018)則利用B樣條近似部分線性空間自回歸模型的非參數部分,并利用工具變量給出了估計方法.[6]關于部分線性空間自回歸模型的更多研究參見文獻羅國旺和吳密霞[7](2020)以及謝琍(2019)等.[8]
本文則研究部分線性空間自回歸模型的變量選擇問題.通過B樣條逼近技術和正交投影方法,對部分線性空間自回歸模型提出了一個基于正交投影的變量選擇方法.所提出的方法利用工具變量調整技術解決了空間數據的內生性,并且結合正交投影技術,消除了非參數部分對參數部分變量選擇的影響,進而保證了變量選擇的有效性和相合性.
投影在線性代數和泛函分析中給出定義:從二維向量空間中的映射投影到自身的一種線性變換,是在日常生活中“平行投影”這個基本概念的具體化和系統化.投影變換本質就是一種映射,[9]其是將整個向量空間映射到它的其中一個子空間,并且投影的過程在這個子空間中是恒等變換的.在內積空間中,正交投影是指像空間U和零空間W相互正交的子空間的投影,也就是說,在任意的u∈U,w∈W下,他們的內積是(u|w)=0.而如果投影是在實向量空間中,那么它對應的投影矩陣是對稱矩陣.本文的研究則基于在實向量空間中,運用矩陣的QR分解,再利用正交矩陣的性質,消除模型非參數部分對模型的影響.
首先給出定義:
在這里,B樣條有n+1個控制點Pi.其中k表示B樣條曲線的階數,k-1表示B樣條的次數.
B樣條基函數是一個非遞減的參數為t的序列所決定的k階分段的多項式.設t是n+1個非遞減數的集合,其中t0≤t1≤t2≤…≤tm.ti稱為節點,集合t稱為節點向量,那么半開區間[ti,ti+1)則是第i個節點區間.假設某個節點出現了k次 (即ti=ti+1=…=ti+k+1), 其中?k>1,ti是一個重復度為k的多重節點,記為ti(k).如果某個節點ti只出現了一次,那么它就是一個簡單節點.而如果節點是等間距的(即ti+1-ti是一個常數,0≤i≤m-1),那么就稱節點向量或節點序列為均勻的,否則它就是非均勻的.本文將應用B樣條基函數處理非線性函數g(·),將其轉變成基函數的線性組合形式.

SACD變量選擇方法由Fan和Li提出的一種基于懲罰的變量選擇方法.[9][10]在眾多變量選擇方法中,該變量選擇方法能夠同時做到選擇重要變量和估計模型系數.SACD罰函數是對稱并且在零點是奇異的,從而能使得懲罰估計產生稀疏解并達到變量選擇的目的.SCAD懲罰函數的一階導數具體形式如下:
其中a為大于2的參數,λ為調整參數,自變量θ滿足大于0.目前,SACD懲罰方法已被推廣到非參數模型及半參數模型的變量選擇中,并具有較好的變量選擇效果.本文將SCAD懲罰方法運用到部分線性空間自回歸模型的變量選擇中,進一步改進和推廣了SCAD變量選擇方法的應用領域.
給出經典的部分線性空間自回歸模型
Yn=ρWnYn+Xnβn+g(zn)+Vn
(1)
其中Yn=(y1,…,yn)T是因變量觀測值的n維向量;ρ是標量自回歸參數;Wn是已知常數的n×n空間加權矩陣;Xn是n×pn線性回歸的觀測矩陣;βn=(βn1,…,βnpn)T是Xn的pn×1未知回歸向量關聯系數.zn是非參數回歸變量的n維向量;g(·)是zn的一個未知函數,Vn=(v1,···,vn)T是獨立同分布的n維模型誤差向量,并且具有零均值和有限方差σ2.
首先將應用多項式樣條來近似非線性函數g(·),通過工具變量法來處理模型中具有內生性的空間滯后項,再構造π(z)=(B1(z),B2(z),···,BLn(z))T作為一個B樣條基函數,其中Ln=kn+l+1,kn為內部節點個數,l為B樣條階數,那么給出擬合公式:
其中α=(α1,···,αLn)T. 設∏=(πT(z1),πT(z2),···πT(zn))T,那么模型(1)可以重寫為:
Yn=ρWnYn+Xnβn+∏α+en+Vn
(2)
結合矩陣Π利用矩陣的QR分解可得:

令Q=(Q1,Q2),其中Q1是n×Ln階矩陣,Q2是n×(n-Ln)階矩陣.


(3)
因此樣條系數向量α的估計為:
(4)
通過引入工具變量,模型1則改寫為:
為了將工具變量的應用有效化,將矩陣Yn回歸得到ρ和α,再通過回歸變量WnYn,Xn,∏構造如下的工具變量:

再給出SCAD罰函數的一階連續導數:
其中a為大于2的參數,λ為調整參數,自變量滿足t大于0,SCAD懲罰進行參數估計和變量選擇時可以同時進行,并能為回歸系數產生稀疏解和無偏估計.
在實際數據分析中,我們不知道Xn中的哪個協變量很重要,于是使用SCAD懲罰對回歸系數進行估計,即定義帶有懲罰項的目標函數L(θ)如下:



假設2:zn的分布是絕對連續的,并且其密度在[0,1]上均勻從零開始.

假設4:矩陣(In-ρWn)是非奇異的且|ρ|>0,(In-ρWn)與Wn的行和列之和的絕對值一直有界.

假設1使得懲罰函數在原點處是奇異的,因此懲罰估計量具有稀疏屬性.假設2使得協變量具有有界條件.假設3限制了協變量的增長速率.假設4是為了更好契合空間自回歸模型的設置.假設5是為了工具變量而設置的.假設6要求所生成的回歸變量Xn偏離其在zn上的非參數投影,并不是漸近多重共線性的.


通過使用泰勒展開式,我們得到:

然后,我們得出:
根據假設1可以得出,n→∞

因此導數的符號完全由βj的符號確定,所以由(5)可知,定理證明完畢.