劉云霞 劉言訓 張冰冰 張洪梅 薛付忠
結核病至今仍是嚴重威脅人類健康的一個全球性重大公共衛生問題[1]。傳染病的發生流行受多種因素的影響,如氣候、地理等自然因素,經濟、人口密度等社會因素[2]。探明結核病發生流行的影響因素,可為其防控措施的制定提供科學依據。現有研究表明,結核病分布呈現明顯的空間分布特征[3-6],這提示不同時間、不同區域的相關影響因素的作用可能具有空間異質性。然而,疾病影響因素研究中多用的傳統回歸模型,如線性回歸模型或logistic回歸模型等,均是假定回歸系數在所研究區域內具有一致性(即為常數),而未考慮空間非平穩性,因此所得結果只是所研究區域內的某種“平均”,其分析結果并不能全面地反映空間數據的真實特征和影響因素作用的空間異質性。因此,本研究擬應用能夠處理空間異質性的地理加權回歸(geographical weighted regression,GWR)模型分析結核病登記率與其影響因素間的空間局域關系。研究結果可為結核病的病因學研究及其有效防控提供思路和依據,也可為其他傳染性疾病研究提供新思路和新方法。
山東省140個縣(區)2005—2008年的結核病登記資料由山東省結核病防治中心提供。本研究選取人口密度、人均GDP、年平均氣溫、年降水量、年日照小時數、每千人擁有病床數、每千人擁有醫生數作為結核病影響因素,數據來源于山東省統計年鑒、山東省衛生統計年鑒和山東省省情資料庫等。
1.結核病及其影響因素的地理信息系統(GIS):以電子化的山東省地形圖為空間結構數據庫,以結核病疫情資料及相關影響因素資料建立屬性數據庫,以ArcGIS 9.0為數據管理和分析平臺,建立結核病及其影響因素的GIS。
2.全局空間自相關分析:采用空間自相關系數Moran’I檢驗區域結核病發病是否存在空間自相關[7]。Moran’s I 統計量取值范圍為(-1,1),I 小于0表示存在空間負相關關系,大于0則為空間正相關關系,I=0代表無空間相關關系。|I|的大小反映空間自相關關系的強弱。
3.GWR模型[8-9]:鑒于空間自相關和空間異質性的存在,不同區域的影響因素對結核病疫情的影響可能不同,其作用方式和強度均可能存在差異,本研究應用SAM v4.0軟件構建GWR模型進行局域估計,以獲得更好的擬合優度和更高的準確率,闡明影響因素作用的空間分異性。
GWR模型是一種非參數局部線性回歸方法,其模型表達式為:

其中(ui,vi)為第i個樣本點的地理位置坐標;βj是隨空間地理位置變化的回歸系數;εi為獨立同分布的誤差項,通常假定其服從N(0,σ2)。該模型是對一般線性回歸模型的擴展,假定其參數(回歸系數)是區域地理位置的函數,并隨地理位置的變化而變化,通過局域參數估計反映樣本對回歸方程貢獻在空間上的變異,因此其回歸結果更加可信。
本研究以結核病登記率為因變量,相關影響因素為自變量,基于加權最小二乘法(weighted least squares,WLS法),通過變化的空間數據窗口估計局部回歸參數,構建GWR模型。估計模型參數時,基于“AIC最小”的原則選擇適宜的空間權重函數[10]。并將GWR模型結果與基于普通最小二乘(ordinary least squares,OLS)估計的全局回歸模型結果相比較,以評價模型的擬合優度。根據Fotheringham等[9]提出的GWR模型評價標準“若GWR模型與OLS模型的赤池信息準則(akaike information criterion,AIC)之差大于3,則表明即使把GWR模型的復雜性考慮在內,其模型擬合效果也比OLS模型好”。同時,本研究借助于ArcGIS9.0將GWR模型分析結果予以圖示,具體分析各影響因素對結核病的影響程度及其空間差異。
山東省2005—2008年登記活動性結核病例數分別為37 706、38 880、41 448和43 208例,各年度各縣(區)活動性結核病登記率分別為12.79/10萬~107.35/10萬、16.01/10 萬 ~86.52/10 萬、17.36/10萬~92.10/10萬和17.86/10萬~114.86/10萬。各縣(區)結核病全局空間自相關分析結果見表1,可見各年度Moran’I統計量均通過0.05水平的統計學檢驗。

表1 山東省縣域結核病空間自相關分析結果(2005—2008)
根據“AIC最小”原則,本研究選用高斯權重函數進行GWR模型的參數估計。GWR模型與OLS模型擬合優度評價見表2,可見本研究GWR模型與OLS模型相比,其AIC值下降均大于3,R2亦有顯著提高。

表2 GWR模型與OLS模型擬合優度比較
本研究2005—2008年GWR模型估計結果差異不大,因篇幅所限在此僅對2008年GWR模型的相關估計結果予以報告。表3列出了GWR模型參數估計值的描述性統計分析結果。
本研究GWR模型估計的R2值介于0.1162~0.3922之間,即該模型最低可解釋結核病登記率總變異的11.62%,最高可解釋39.22%,其平均值為35.37%,較 OLS模型(R2為0.1350)有了顯著提高。不同區域GWR模型的R2差異明顯,如中北部東營市和濱州市以及南部臨沂市的部分縣區的R2均在0.3352以上,即所研究的社會經濟、氣候、衛生資源配置等影響因素至少解釋結核病登記率總變異的33.52%;而中東部的濰坊市、青島市以及西部的臨沂市的部分縣區的R2均在0.1798以下,即研究的影響因素最多解釋結核病登記率總變異的17.98%,表明相比R2較大的區域而言存在更多的相關影響因素未予以考慮(圖1)。

圖1 GWR模型決定系數R2的空間分布
圖2為GWR模型各參數估計值的空間變異情況。①常數項的空間分布圖反映了各影響因素變量取值皆為0時結核病登記率的“基準水平”存在明顯的空間變異,說明除本研究考慮的影響因素之外,還存在其他因素的影響。②年平均氣溫系數估計值的空間分布圖顯示,中北部和南部的大部分縣區的系數估計值為負,表明溫度越低,結核病登記率越高;而中部縣區的系數估計值為正,表明溫度越低,結核病登記率越低。③年降水量系數估計值的空間分布圖顯示,中部大部分區域和北部2個縣區的系數估計值為正,表明降水量越大,結核病登記率越高;而其他縣區的系數估計值為負,即這些區域的降水量越小,結核病登記率越高。④絕大多數區域的年日照時數系數估計值為負,即其日照時間越長,結核病登記率越低。⑤人均GDP的系數估計值均為負,表明縣區經濟水平與結核病登記率呈負相關關系,表明經濟水平越高,結核病防控效果越好。⑥人口密度的系數估計值亦均為負,表明其與結核病登記率呈負向關系,這與既往研究結果不一致,但其系數估計值均很小。⑦每千人擁有病床數的系數估計值均為負,即其與結核病登記率呈負向關系,相對來說中東部區域該因素的影響較大。⑧絕大多數每千人擁有醫生數系數估計值為負,其中中部區域該因素影響較大,這與每千人擁有床位數系數估計值空間分布相似,在一定程度上說明衛生資源配置好有利于結核病防控。
本研究全局空間自相關分析發現山東省2005—2008年各縣區的結核病登記率在空間分布上均具有明顯的空間正相關關系,即結核病患者分布存在空間聚集現象,提示空間非平穩性的存在。這在一定程度上歸因于不同區域影響因素作用的空間異質性。因此,本研究進一步構建了結核病登記率與相關影響因素的GWR模型,定量分析影響因素變量對結核病發病水平影響的空間變異性。各區域GWR模型的參數估計值的大小及符號反映了各影響因素變量對不同區域的結核病登記率的影響程度和方向。基于2008年數據構建的GWR模型參數估計值空間分布圖顯示,各區域影響因素系數估計值存在明顯的空間差異,表明不同區域各影響因素對結核病登記率的影響存在程度和方向上差異,該結果提示應根據各影響因素的空間特征及其與結核病登記率間的局域關系制定區域化的結核病防控規劃和策略,而不能僅根據結核病登記報告結果粗略地制定整體規劃、策略和政策。同時,本研究結果顯示,GWR模型系數估計值的符號有正有負,說明GWR方法比OLS法更能反映空間非平穩性;GWR模型的R2最小值為11.62%,最大值為39.22%,平均值為35.37%,與OLS模型(R2為13.50%)相比,其更好地反映了結核病登記率的空間變異;GWR模型的AIC(1168.838)比 OLS 模 型 的 AIC(1173.541)小 4.7,根 據 Fotheringham等[9]提出的 GWR模型評價標準也進一步說明GWR模型的擬合優度較全局OLS模型有了明顯改善。

表3 GWR模型參數估計值簡單描述
GWR模型是空間變系數模型的一種,其是對一般線性模型的擴展,擴展后模型的參數是區域地理位置的函數,可隨地理位置的變化而變化,即通過空間數據樣本位置的改變來調節空間異質性,進而進行局域參數估計,反映樣本對回歸方程貢獻在空間上的變異,其結果是局域的而不是全局的參數估計,能夠探測空間數據的空間非平穩性,其回歸結果較全局回歸更加可信[10-11]。該方法可深入分析疾病分布空間聚集性的根本原因,為進一步制定適宜的結核病防控策略提供指導依據。
[1]World Health Organization.Global tuberculosis control:epidemiology,strategy,financing.WHO report 2009.Geneva:WHO,2009.
[2]李立明.流行病學.6版.北京:人民衛生出版社,2007:238-258.
[3]Nunes C.Tuberculosis incidence in Portugal:spatiotemporal clustering.Int J Health Geogr,2007,6:30.
[4]Jia ZW,Jia XW,Liu YX,et al.Spatial analysis of tuberculosis cases in migrants and permanent residents,Beijing,2000-2006.Emerg Infect Dis,2008,14(9):1413-1419.
[5]Randremanana RV,Sabatier P,Rakotomanana F,et al.Spatial clustering of pulmonary tuberculosis and impact of the care factors in Antananarivo City.Trop Med Int Health,2009,14(4):429-437.
[6]唐益,龔德華,白麗瓊,等.湖南省2003—2011年活動性肺結核患者登記的空間分析.中國防癆雜志,2012,34(12):764-767.
[7]姜慶五,趙飛.空間自相關分析方法在流行病學中的應用.中華流行病學雜志,2011,32(6):539-546.
[8]Leung Y,Mei CL,Zhang WX.Statistical tests for spatial nonstationarity based on the geographically weighted regression model.Environment and Planning,2000,32(1):9-32.
[9]Fotheringham AS,Brunsdon C,Charlton M.Geographically Weighted Regression:the analysis of spatially varying relationships.West Sussex:John Wiley &Sons Ltd,2002.
[10]蘇方林.中國R&D與經濟增長的空間統計分析.上海:華東師范大學,2005.
[11]王遠飛,何洪林.空間數據分析方法.北京:科學出版社,2007.