張輝國
(新疆大學 數學與系統科學學院,新疆 烏魯木齊 830046)
線性回歸模型是分析變量間相依關系的強大統計方法,被廣泛應用于眾多領域。Hastie 和Tibshirani[1]通過設定線性模型的參數為某些協變量的非參數函數,提出了變系數模型(varying coefficient models)用于探索高維數據回歸結構的動態模式。變系數模型極大擴展了經典線性回歸模型,此后近二十年內,變系數模型被深入研究,并被應用于許多學科領域,如環境科學、生態學、計量經濟學、金融學和醫學等[2]。
變系數模型一般形式可表示為:

其中,Y 表示響應變量,而X1,X2,…,Xm和U 表示協變量,誤差ε 滿足E(ε|U,X1,…,Xm)=0 和Var(ε|U,X1,…,Xm)=σ2(U),βj(U)(j=1,2,…,m)是關于U 的一些未知非參數函數。此外,當設定X1=1 時,模型將包含一個變截距項。
變系數模型兼具線性回歸模型良好的解釋性和非參數回歸模型的靈活性,在探索回歸關系動態特征方面是一個強有力工具。變系數模型能夠顯著減少模型設定的偏誤(modeling bias),并且能有效避免“維數災難”[3](curse of dimensionality)。因其良好的適應性和解釋能力,變系數模型被用于分析縱向數據(longitudinal data)、函數型數據(functional data)、生存數據(survival data)以及時間序列(time series data)等。此外,以變系數模型為基礎還發展了一系列有著廣泛應用背景的衍生模型,包括廣義變系數模型和半變系數模型 (semi-varying coefficient models)等。關于變系數模型的統計推斷理論及其在眾多學科領域的實際應用可參見Park 等的綜述[4]。
變系數模型將回歸系數估計的變化特征作為反映解釋變量與響應變量動態關系的主要證據。因此在變系數模型統計推斷的研究中,兩個檢驗問題極其重要:
1)變系數模型中的系數函數是否真的變化?亦即需要檢驗模型系數是否為常數;
2)如果某個系數是變化的,那么它是如何變化的? 亦即需要探索系數函數變化的細部特征,例如函數的單調性、凹凸性、峰值、谷值和拐點等變化特征。
大量研究工作都致力于解決第一個問題,如關于系數估計的逐點置信區間(pointwise confidence intervals)以及邦弗倫尼置信帶(Bonferroni-type confidence bands)的研究以及關于變系數模型和廣義變系數模型系數估計的聯合置信帶(simultaneous confidence band)的研究[5]。此外,還提出了利用擬合優度方法(goodness-of-fit tests)檢驗變系數模型系數是否為常數。若利用以上方法檢驗確認變系數模型的某個系數是顯著變化的,那么進一步探索該系數變化的細部動態特征在應用中是非常重要的。然而,目前鮮見針對此主題,即上述第二個統計推斷問題的研究工作。
由于變系數模型是局部線性模型,因而使用核光滑方法(kernel smoothing method)擬合模型是非常適宜的。在此情形下,上述針對變系數模型的兩個關鍵統計推斷問題都要面臨非參數核光滑方法中重要而困難的問題:如何選擇最優帶寬或合適的光滑水平。帶寬水平會直接影響回歸系數估計和推斷結果,盡管有一些經驗性的準則用于選擇帶寬,但帶寬選擇問題始終沒有滿意的解決方法。例如,交叉驗證方法(cross-validation,CV)、施瓦茲信息信息準則(Schwarz information criterion,SIC)和赤池信息準則[6](AIC)。研究發現,若變系數模型的各個系數具有不同光滑度(degrees of smoothness)時,情況將變得非常復雜,因為要得到不同光滑度系數的有效估計,必須對各個系數選擇不同的帶寬水平,高光滑度系數函數需要較大的帶寬水平,而低光滑度系數則需要較小的擬合帶寬。然而實現這一操作并不容易,主要原因在于缺乏各個系數光滑度的具體信息,因此不得不在多個帶寬水平下,采用分步擬合方法[7]。事實上以系數估計為目的而選擇的最優帶寬水平并一定適合假設檢驗的需要。不同光滑度的系數在不同光滑水平下被分別估計,這使得為每個系數的統計檢驗選擇一個適宜的光滑水平變得更加困難。變系數模型被視為探索變量間回歸關系的重要工具,應用于眾多學科領域,但是變系數模型系數估計和統計推斷卻始終被“最優帶寬選擇”和“系數具有不同光滑度”等問題困擾。此外,前述文獻中所涉及的檢驗方法主要從全局角度檢驗系數是否變化,而不能充分探索那些變化系數函數的細部變化特征。因此,有必要發展新的變系數模型推斷方法用于分析系數函數顯著的動態變化特征,如系數函數的單調性、峰值和谷值等,這在實際應用中是不可或缺的。
另外一個值得關注的問題是變系數模型的穩健推斷方法,若數據集存在異常值,它們會在回歸系數函數估計中創造出虛假的回歸關系特征,這可能會誤導探索高維數據回歸結構的動態模式。許多方法先后被研究用于變系數模型的估計,如核方法,樣條方法,局部多項式方法,局部極大似然方法以及聯合置信帶[5]等。上述方法大都基于均值回歸,使用最小二乘方法得到系數估計。眾所周知,若數據有厚尾特征或數據包含異常值時,系數估計會缺乏穩健性,最小二乘法將不再是適宜的擬合方法,因為異常值會扭曲模型擬合過程,在系數估計中創造出虛假變化結構。盡管一些穩健方法用于變系數模型估計,包括L1 估計,M 估計,分位數回歸,上述研究除了給出系數函數的穩健估計還建立了相應的逐點置信區間,但是這些方法難以滿足實際應用。
在地理、環境、氣象、生態、經濟、金融、人口以及流行病等眾多學科領域的科學研究中,研究對象的觀測數據總是在特定的地理空間位置被搜集整理,形成了具有空間位置屬性的空間數據集,例如某區域內的氣象數據、環境監測數據、流感病例數據或經濟數據等。因其廣泛的應用前景,伴隨著近年計算機運算能力的進步和各領域空間數據生產能力的提升,空間數據統計分析方法正成為統計學新興分支學科--空間統計學研究的前沿熱點,空間數據分析方法與某些學科的交叉甚至產生了諸如空間生態學、空間計量經濟學等一些特色鮮明的交叉學科[8]。
回歸分析是分析變量間相依關系的強大統計方法,然而經典的回歸模型卻無法直接應用于空間變量間相依關系的分析,原因在于時空數據的兩個基本統計特性:空間數據的自相關性和空間數據的非平穩性。空間數據的這些特殊屬性違背了經典回歸分析得以有效應用的重要前提假設。自二十世紀九十年代,對空間數據自相關性和非平穩性建模研究過程中,Fotheringham 等人[9]基于變系數模型提出了如下空間變系數地理加權回歸(geographically weighted regression,GWR)模型

其中,(ui,vi)是研究區域內第i 個位置的空間坐標,(yi;xi1,…,xip)為響應Y 變量和解釋變量X1,X2,…,XP在空間位置(ui,vi)處的觀測值;βj(u,v)(j=1,2,…,p)是待估回歸系數函數;εi(i=1,2,…,n)是相互獨立服從正態分布的隨機誤差,且滿足期望為零,方差為σ2。另外,若假定xi1≡1(i=1,2,…,n),上述模型將包含一個空間變化的截距項。
空間變系數模型克服了全局回歸模型不能有效分析空間數據自相關性及回歸關系空間非平穩性的不足,被廣泛用于分析空間數據非平穩特征,是探索回歸關系空間非平穩性的有效工具,在眾多學科領域中涌現出大量相關應用研究成果。近幾十年來,地理加權回歸不僅在諸如地理學、環境科學、生態學和計量經濟學等眾多領域內有大量應用性結果,同時在統計推斷和理論方法改進方面也不斷涌現新成果。地理加權回歸、混合地理加權回歸的假設檢驗問題、共線性和變量選擇問題以及異方差問題均得到細致的研究。最近的實證研究在地理加權回歸分析框架探討了空間多尺度非平穩性以及回歸關系的尺度依賴性質[10]。
空間變系數模型的系數估計曲面被當作探索和解釋回歸關系的空間非平穩性的主要證據,因此系數估計準確性及其統計檢驗對于得到回歸關系結構的正確結論非常重要。無論地理加權回歸估計還是統計檢驗都面對一個棘手的問題:選擇一個最優帶寬或一個合適的光滑水平。眾所周知,帶寬的水平對于回歸系數的估計和統計推斷有很大的影響,而且到目前為止,地理加權回歸方法中的帶寬選擇問題始終沒有一個滿意的解決方案,盡管有一些諸如交叉驗證以及校正AIC 準則[9]等選擇帶寬的數據驅動方法,但是此類數據驅動方法與響應變量的觀測值密切相關,這使得推導檢驗統計量的精確分布變得非常困難。另一方面,以系數估計為目標選取的帶寬未必適合統計檢驗,因此為了確定帶寬變化對統計檢驗穩健性的影響應當在一個較大帶寬范圍內實施統計檢驗。如果空間變系數模型的系數函數具有不同光滑度,那么就不可能存在某個單一帶寬作為所謂最優帶寬而適合所有系數估計,因為在估計高光滑度系數函數時需要較大帶寬值,而估計 低光滑度系數函數時則需要較小帶寬水平。由此可見,受到帶寬選擇問題的影響,單一帶寬水平下地理加權回歸系數估計所反映的回歸關系的空間變異模式是不可靠的。需要強調的是上述檢驗方法中所使用的檢驗統計量都是全局統計量,根據全局統計量檢驗結果可以推斷回歸系數在整個研究區域內是否變化,但是當系數為常數的原假設被拒絕后卻無法進一步推斷出系數函數在研究區域內變化的細節特征。
空間尺度問題是研究空間變量相依關系過程中必須要考慮的因素。長期的空間數據統計分析研究實踐發現,空間數據統計特征與研究者所限定的空間范圍密切相關,如空間自相關性、非平穩模式和空間數據異常值探測(SOD,spatial outlier detecting)過程會隨數據的空間尺度而變化。空間數據統計特征的尺度相依性(scale dependence)嚴重制約了各種經典統計方法探索分析時空數據的有效性,為時空數據統計分析研究帶來巨大挑戰,指出空間局部模型為分析具有尺度相依性的各種空間數據特征開辟了極具研究價值的新途徑。大量研究結論亦證實回歸關系的空間變異通常與空間尺度相關,即具有尺度相關性。上述研究指出地理加權回歸所使用的核函數中的帶寬參數實質上空間尺度的某種測度。因此,僅使用單一的帶寬值不能準確估計具有不同光滑度的系數函數,并且也不能充分探索回歸關系中具有尺度相依性的空間變異。基于上述原因,有必要轉變傳統的觀點:從選擇某個最優帶寬值用于估計潛在的真實回歸系數的觀點轉向在不同尺度或光滑水平下全面考察回歸關系。
在地理加權回歸分析中,變系數模型的系數估計的變化模式被看作探索回歸關系非平穩特征的主要證據。因此,探索系數估計所具有的空間變化模式并對這些變化特征實施統計顯著性檢驗是得到空間回歸關系非平穩特征的真實結論的先決條件。從非參數回歸擬合方法角度看,傳統的地理加權回歸和局部線性地理加權回歸均以核光滑方法為基礎,它們利用局部加權最小二乘方法估計模型中的回歸系數函數。然而,最小二乘方法對于異常值是不穩健的,地理加權回歸方法也因此會扭曲空間變系數模型的估計過程。事實上,數據集特別是大型數據集中通常都會存在異常值,它們會在系數函數估計中創造出虛假的回歸關系結構特征,這會誤導回歸關系非平穩性的探索結論。由于在地理加權回歸方法中,回歸系數估計為局部估計,最終探測到的異常值也相應為局部異常值,準確探測異常值并不容易。然而局部異常值不一定是全局異常值,并且也不一定是有問題的數據,所以應當謹慎對待異常值,而不是簡單地丟棄它們。因此針對空間變系數模型發展能處理異常值的穩健的擬合與推斷方法是有價值的研究方向。
[1]Hastie TJ,Tibshirani RJ.Varying-coefficient models [J].Journal of the Royal Statistical Society B,1993,55:757-796.
[2]Fan J,Zhang W.Statistical methods with varying coefficient models [J].Statistics and Its Interface,2008,1:179-195.
[3]Fan J,Zhang JT.Functional linear models for longitudinal data [J].Journal of the Royal Statistical Society B,2000,62:303-322.
[4]Park BU,Mammen E,Lee YK,Lee ER.Varying coefficient regression models:a review and new developments[J].International Statistical Review,2014,82:1-19.
[5]Zhang W,Peng H.Simultaneous confidence band and hypothesis test in generalized varying -coefficient models [J].Journal of Multivariate Analysis,2010,101:1656-1680.
[6]Cai Z,Xu X.Nonparametric quantile estimations for dynamic smooth coefficient models [J].Journal of the American Statistical Association,2009,104:371-383.
[7]Fan JQ,Zhang WY.Two-step estimation of functional linear models with applications to longitudinal data [J].Journal of the Royal Statistical Society B,2000,62:303-322.
[8]Nelson TA.Trends in spatial statistics [J].The Professional Geographer,2012,64:83-94.
[9]Fotheringham AS,Brunsdon C,Charlton ME.Geographically Weighted Regression:The Analysis of Spatially Varying Relationships[M].Chichester:Wiley,2002.
[10]Su S,Xiao R,Zhang Y.Multi-scale analysis of spatially varying relationships between agricultural landscape patterns and urbanization using geographically weighted regression [J].Applied Geography,2012,32:360-375.