徐 麗 方 亞
健康是人們正常生活的基本保障,健康相關研究倍受國內外學者關注。健康變量大多與環境緊密相關,但傳統的健康研究僅僅關注變量屬性本身,忽略了與其相關聯的地理信息,而空間集群檢測方法(spatial clustering detection)能夠同時考慮這兩方面的信息,如今已逐漸成為空間分析的研究熱點之一。空間集群檢測的主要目的是探索變量的空間分布規律,通常將其與GIS結合,從而能夠以可視化的方式呈現檢測結果。它在許多領域均有重要應用,尤其在健康研究方面,如識別高危人群、分析健康服務可及性和評估疫苗保護功效等。本文旨在對應用于健康研究的空間集群檢測的傳統方法及其進展進行梳理,比較各方法的優缺點,為相關研究提供參考。
分別在CNKI核心期刊與ScienceDirect數據庫檢索中英文文獻,檢索過程如圖1所示,檢索結果見表1。

圖1 檢索流程圖

表1 有關空間集群檢測方法的文獻檢索結果
綜合文獻檢索結果發現,國外從20世紀40年代就開始運用空間集群檢測方法且主要集中于農業與生物科學研究,在健康研究中的應用始于60年代;我國從80年代開始應用該方法,且主要集中在經濟管理領域,之后也有應用于健康研究,但其研究規模遠趕不上國外。另外,從研究內容上,我國主要集中在疾病的空間分布,而國外不僅涉及的疾病種類更多而且在健康服務可及性、疫苗功效評估等方面也有不少應用。
傳統上,集群檢測的主要目的在于驗證某個假說,即某地區某種疾病的實際發病率與隨機出現的預期發病率相同,由此找到可能的統計異常值,確定該疾病是呈現一定的集群特征還是隨機分布,主要方法如下:
Geary C 系數(1954)、全局Moran 指數(1948)和全局Getis-Ord G系數(1992)(簡稱G系數)主要從相鄰區域的空間關聯性判斷變量分布是否存在空間集群,被廣泛用于刻畫疾病風險、醫療資源利用與疫苗功效評估[1-6]等的空間分布特征,其中,后兩種方法應用較多。G系數克服了Moran指數不能區分空間數據是高值聚集還是低值聚集的局限,但有研究表明,當估計聚集區域位于研究區域的邊緣時,Moran指數的結果更為可靠[7]。
Knox檢驗(1964)[8]將累計病例對子數與相同的距離和時間間隔內的隨機預期數進行對比,由此判斷疾病時空集群特征[9-11]。該方法能夠有效檢測潛伏期短、發病急但發病率并不高的傳染病的時空交互作用,但其對時空臨界值的選擇較為主觀,詳見表2。

表2 空間集群檢測方法的比較
Cuzick-Edward 檢驗(1990)[12]將觀測到的k階近鄰病例對子數與病例組和對照組均為空間隨機分布情形下的預期數進行比較,若前者明顯大于后者則表明存在明顯的空間集群。它主要用于人群密度不均勻的情形[13,14],其中,階數k與病例對照比的選擇是影響檢測結果的關鍵因素,最佳k的選擇依賴于先驗知識或通過多重檢驗調整得到。
以上所述方法大多是以發病率確定疾病的高危區域,其結果可能受到人口規模與年齡結構的影響。為此,人們又提出一些方法,如核估計、最近鄰估計和空間K/L函數,以消除疾病集群確定過程中的偏差[15]。
核估計(1955)直接從數據本身出發研究數據的分布特征,因此也可用于研究事件的空間集群特征。該方法可定量繪制出疾病分布的二維和三維圖,直觀地刻畫疾病的空間分布特征,包括疾病分布的聚集中心及其程度,但其結果受窗寬大小的影響,其應用相對較少[16-19]。
空間K函數(1977)可檢測達到一個給定距離范圍內的集群或分散特征,其最大優點是能夠在任意尺度下探索空間格局。K函數難以直觀地解釋,因此通常對其進行平方根變化,即用L函數來替代(1981)[20-21]。空間K函數只使用連續距離范圍內點事件數目的計數,在應用時通常需要進行數據匯總而造成信息損失。有研究者通過對英國諾福克道路交通事故和蘭開夏郡肺癌與喉癌兩個案例的分析,認為生存分析可以更好地刻畫事件間的距離分布,對空間格局分析更加深入,且對尺度效應更為敏感,從而可以作為K函數的有益補充[22]。
近年來的研究超越了假設檢驗的思想,對空間集群檢測方法進行了拓展且能夠用于定義風險地形。等值線圖(isopleth map)基于地統計數據,最初主要用于可視化氣溫、降水、地形等的連續變化,尤其適合于幫助查看潛在風險的地理分布,現已成為空間集群檢測的方法之一[15,23-24]。傳統上基于發病率確定空間集群的方法存在無法外推到其他地區的局限,因此,有研究者認為等值線圖可以克服這一局限,且其結果更為穩健[15],但其結果容易受到人工插值的影響,從而產生偏倚[24]。
全局Moran 指數等方法能夠從總體上判斷整個研究區域是否存在集群,但無法對集群的位置進行準確定位,從而存在捕捉人群分布和醫療地點的影響區域不充分等問題,由此產生了Besag-Newell 檢驗、LISA和Getis G*系數等方法。
Besag-Newell 檢驗(1991)[25]考慮了基礎人群密度的異質性,專門用于罕見疾病如血吸蟲病等的局部空間集群檢測[14]。但它基于多重比較的思想容易產生集群的誤檢,且其在實際應用中通常需要同時指定不同的集群規模(只有在不同規模上均通過統計學檢驗才認為存在空間集群),因此傾向于檢測到最高風險區域而忽略其他區域。
Anselin(1995)[26]和Getis(1995)[27]分別基于局域Moran 指數和局域Getis G系數提出LISA和Getis G*系數,它們被廣泛用于識別某種疾病的高發區域及分析衛生和服務的可及性[1,28-33]。大多數情況下,這兩種方法的結果相似,但也有研究者基于模擬的空間區域比較它們的檢測結果,發現后者優于前者[34]。在識別累計發病率低但嚴重程度高的地區時,僅使用年發病率作為集群檢測的唯一指標存在局限性。為此,有研究者利用LISA分析了三種時空指數即病例發生概率、平均每波持續時間和傳輸強度,不僅考慮了疾病發病規模,還考慮到疾病的潛在嚴重程度。通過分析,他認為國家和地方的衛生官員更應將重點放在持續時間長及傳播強度高的疾病風險區域[31]。
總體來說,識別疾病高風險區域的方法較為豐富。然而,許多空間集群檢測方法只能說明整個研究區域是否存在空間集群,而無法揭示出集群地點或組成方面的更多信息,且大多沒有考慮基礎人群異質性可能造成的影響。為此,Kulldorff(1997)[35]提出空間掃描方法,不僅能夠檢測疾病在研究區域是否存在集群,還能夠對集群的大小和位置進行定位,已成為近年空間集群檢測的常用方法。空間掃描統計(簡稱空間掃描)通常根據相對風險找出風險值較高的主要集群,并利用蒙特卡羅方法生成的抽樣分布檢驗集群的顯著性。
掃描窗口與被掃描區域的形狀是否一致是影響檢測結果的關鍵因素。在實際研究中,被掃描區域的形狀可能不是規則的,因此,Kulldorff與Nagarwalla等研究者對掃描窗口進行了研究,其形狀也由最初的圓形、橢圓形發展為任意多邊形[35-37]。空間掃描能夠同時考慮到多個空間尺度上的附近集群,而沒有事先假定集群的大小或位置,避免了常見的選擇偏倚問題且易于根據人口密度或年齡等協變量進行調整,從而能夠消除因構成不一致而引起的偏差[14]。
空間掃描以其良好的統計性能成為近年來疾病群集檢測運用最為廣泛的方法之一,主要用于檢測耶爾森菌鼠疫、血吸蟲病、肝癌、兒童自閉癥等疾病[13,14,38-46]的空間集群特征。其中,Chris Green(2003)[42]利用空間掃描與匯總到現有的行政區域這兩種數據匯總方式進行回歸分析,發現借助空間掃描的方式更為合理,可用于探索慢性病的病因。Zhijie Zhang(2008)[14]則同時利用Besag-Newell 檢驗和空間掃描檢測我國貴池血吸蟲病的局部空間集群,結果發現后者更適合局部集群的檢測,因為它對多重比較進行了校正且對不同區域人口密度的異質性進行了調整。
然而,空間掃描也存在局限性,如該方法在流動人口較多地區或發病數極少的情形下檢出率較低且當分析地點與實際地點不一致時(如疾病發生在工作單位,而由于工作單位對應的地理信息不容易得到,通常會采用家庭地址來代替)會產生統計偏倚[41,47],詳見表2。
另一方面,有研究者認為空間掃描過于關注集群的統計顯著性,可能會忽視那些相對風險適度但規模龐大的高危人群,即忽略了公共衛生的意義[48]。通過對肺癌病例的實證分析,他認為若干預的對象是具體的地點而不是個體時,歸因風險百分比或許是刻畫風險更有用的方法,因為它可以表明對具體哪個地方的干預會使疾病總體負擔得到最大程度的減輕。
時空掃描統計(簡稱時空掃描)最早由Kulldorff等人1998年提出[49],用于洛斯阿拉莫斯國家實驗室腦癌集群預警評估。它是空間掃描的擴展,即加入了時間要素,因此常用的掃描窗口由圓形變為圓柱形,底與高分別對應一定的地理區域和時間長度。相較于空間掃描,時空掃描的優勢在于其充分挖掘和利用了疾病監測數據中的時空信息,且不依賴于人口數據,避免了因人口數據問題產生的統計偏倚,其主要應用于狂犬病、結核病、麻疹、非洲人類錐蟲病(HAT)等[50-53]疾病的時空特征研究。
與空間掃描類似,時空掃描的效能依賴于掃描窗口子區域的大小及時間間隔的設定。若研究子區域相互之間距離過遠或研究對象時間跨度過大,將會影響其檢測結果的可靠性。另一方面,時空掃描假定研究區域內各子區域人口增長速度一致,這與實際情形不一定相符[47],從而可能引起分析誤差。
空間集群檢測方法是空間分析的研究熱點之一,它在許多領域尤其在健康研究方面有重要應用。空間集群檢測主要通過探索變量在空間上的分布規律識別疾病風險異常區域、分析風險地形及健康服務的可及性,識別高危人群或資源供給不足地區,提高人們對疾病成因及其演進規律的認識,加強疾病監測與風險管理,提高健康服務的質量與效率。
總體而言,空間集群檢測方法較為豐富,發展也相對成熟。許多空間集群檢測方法能夠從總體上判斷整個研究區域是否存在集群,但無法對集群的位置進行定位。而空間掃描能夠對集群的大小和位置進行定位且易于對人群異質性進行調整,已成為空間集群檢測的經典方法(關于上述方法的比較詳見表2)。然而,空間集群特征可能較為復雜,單純運用某種方法具有局限性,因此,在實際的健康研究中,研究者通常會結合不同方法來確定事件的空間(或時空)分布特征。
值得注意的是,近年來,許多研究者會借助貝葉斯平滑制圖[54]、趨勢面分析[55]或空間統計模型[56-57]的結果初步判斷是否存在空間集群,然后可據此利用空間集群檢測方法進一步驗證是否存在集群及集群的具體位置,這大大提高了空間集群檢測的效率,研究結果也更為可靠。
參 考 文 獻
1.Lorant V,Thomas I,Deliege D,et al. Deprivation and mortality: the implications of spatial autocorrelation for health resources allocation. Social Science & Medicine,2001,53(12):1711-1719.
2.Joines JD,Hertz-Picciotto I,Carey TS,et al.A spatial analysis of county-level variation in hospitalization rates for low back problems in North Carolina.Social Science & Medicine,2003,56(12):2541-2553.
3.Hsueh Y,Lee J,Beltz L.Spatio-temporal patterns of dengue fever cases in Kaoshiung City,Taiwan,2003-2008.Applied Geography,2012,34:587-594.
4.Ali M,Emch M,Yunus M,et al.Modeling spatial heterogeneity of disease risk and evaluation of the impact of vaccination.Vaccine,2009,27(28):3724-3729.
5.Sridharan S,Tunstall H,Lawder R,et al.An exploratory spatial data analysis approach to understanding the relationship between deprivation and mortality in Scotland.Social Science & Medicine,2007,65(9):1942-1952.
6.Hollands S,Campbell MK,Gilliland J,et al.A spatial analysis of the association between restaurant density and body mass index in Canadian adults.Preventive Medicine,2013,57(4):258-264.
7.張松林,張昆.全局空間自相關 Moran 指數和 G 系數對比研究.中山大學學報(自然科學版),2007,46(4):93-97.
8.Knox EG,Bartlett MS.The detection of space-time interactions.Journal of the Royal Statistical Society.Series C(Applied Statistics),1964,13(1):25-30.
9.陳建國,柳標,姚紅玉,等.啟東縣兒童惡性腫瘤死亡率分析.中國衛生統計,1990,7(2):12-15.
10.Rotela C,Fouque F,Lamfri M,et al.Space-time analysis of the dengue spreading dynamics in the 2004 Tartagal outbreak,Northern Argentina.Acta tropica,2007,103(1):1-13.
11.劉巧蘭,李曉松,馮子健,等.Knox方法在傳染病時空聚集性探測中的應用.中華流行病學雜志,2007,28(8):802-805.
12.Cuzick J,Edwards R.Spatial clustering for inhomogeneous populations.Journal of the Royal Statistical Society.Series B(Methodological),1990:73-104.
13.Hoar BR,Chomel BB,Rolfe DL,et al.Spatial analysis of Yersinia pestis and Bartonella vinsonii subsp.berkhoffii seroprevalence in California coyotes(Canis latrans).Preventive Veterinary Medicine,2003,56(4):299-311.
14.Zhang Z,Carpenter TE,Chen Y,et al.Identifying high-risk regions for schistosomiasis in Guichi,China: A spatial analysis.Acta Tropica,2008,107(3):217-223.
15.Ali M,Emch M,Donnay J P,et al.The spatial epidemiology of cholera in an endemic area of Bangladesh.Social Science & Medicine,2002,55(6):1015-1024.
16.王功軍,駱福添.核估計在小地域分析疾病中的應用.中國醫院統計,2005,12(3):231-233.
17.Xie Z,Yan J.Kernel Density Estimation of traffic accidents in a network space.Computers,Environment and Urban Systems,2008,32(5):396-406.
18.遲文學,王勁峰,李新虎,等.出生缺陷的空間點格局分析.環境與健康雜志,2007,24(4):238-241.
19.Brunsdon C.Estimating probability surfaces for geographical point data: An adaptive kernel algorithm.Computers & Geosciences,1995,21(7):877-894.
20.Ripley BD.Modelling spatial patterns.Journal of the Royal Statistical Society.Series B(Methodological),1977:172-212.
21.Weigand T.Introduction to point pattern analysis with Ripley’s L and O-ring statistic using the Programita Software.Department of Ecological Modelling,UFZ—Centre of Environmental Research,Leipzig,2004:25-26.
22.Reader S.Using survival analysis to study spatial point patterns in geographical epidemiology.Social Science & Medicine,2000,50:985-1000.
23.Boscoe FP,Mclaughlin C,Schymura MJ,et al.Visualization of the spatial scan statistic using nested circles.Health & Place,2003,9(3):273-277.
24.唐芳,薛付忠,王潔貞,等.疾病空間分布的“等值線-面積”多重分形模型及其應用.山東大學學報(醫學版),2006,44(11):1154-1158.
25.Besag J,Newell J.The detection of clusters in rare diseases.Journal of the Royal Statistical Society.Series A(Statistics in Society),1991:143-155.
26.Anselin L.Local indicators of spatial association-LISA.Geographical analysis,1995,27(2):93-115.
27.Ord JK,Getis A.Local spatial autocorrelation statistics: distributional issues and an application.Geographical analysis,1995,27(4):286-306.
28.武繼磊,王勁峰,孟斌,等.2003年北京市SARS疫情空間相關性分析.浙江大學學報(農業與生命科學版),2005,31(1):100-104.
29.馮昕,杜世宏,舒紅.空間權重矩陣對空間自相關的影響分析——以我國腎綜合征出血熱疾病為例.武漢大學學報(信息科學版),2011,36(12):1410-1413.
30.Charreire H,Combier E.Poor prenatal care in an urban area: A geographic analysis.Health & Place,2009,15(2):412-419.
31.Wen T,Lin NH,Chao D,et al.Spatial-temporal patterns of dengue in areas at risk of dengue hemorrhagic fever in Kaohsiung,Taiwan,2002.International Journal of Infectious Diseases,2010,14(4):e334-e343.
32.山珂,徐凌忠,王興洲,等.基于GIS的我國衛生資源配置空間分析.中國衛生統計,2013,30(3):339-342.
33.Archibald ME,Putnam Rankin C.A spatial analysis of community disadvantage and access to healthcare services in the U. S. Social Science & Medicine,2013,90(0):11-23.
34.張松林,張昆.空間自相關局部指標 Moran 指數和 G 系數研究.大地測量與地球動力學,2007,27(3):31-34.
35.Kulldorff M. A spatial scan statistic.Communications in Statistics-Theory and methods,1997,26(6):1481-1496.
36.Kulldorff M,Huang L,Pickle L,et al.An elliptic spatial scan statistic.Statistics in medicine,2006,25(22):3929-3943.
37.Duczmal L,Assuncao R.A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters.Computational Statistics & Data Analysis,2004,45(2):269-286.
38.Forand SP,Talbot TO,Druschel C,et al.Data quality and the spatial analysis of disease rates: congenital malformations in New York State.Health & Place,2002,8(3):191-199.
39.Allepuz A,Lopez-Quilez A,Forte A,et al.Spatial analysis of bovine spongiform encephalopathy in Galicia,Spain(2000-2005).Preventive Veterinary Medicine,2007,79:174-185.
40.唐咸艷,仇小強,黃天壬,等.空間掃描統計在廣西肝癌空間格局中的應用研究.中國衛生統計,2009,26(2):114-116.
41.Messina JP,Emch M,Muwonga J,et al.Spatial and socio-behavioral patterns of HIV prevalence in the Democratic Republic of Congo.Social Science & Medicine,2010,71(8):1428-1435.
42.Green C,Hoppa RD,Young TK,et al.Geographic analysis of diabetes prevalence in an urban area.Social Science & Medicine,2003,57(3):551-560.
43.康萬里,鄭素華.空間掃描統計在中國菌陽結核病分布中的應用.中國衛生統計,2012,29(04):487-489.
44.Bihrmann K,Nielsen SS,Tof N,et al.Spatial differences in occurrence of paratuberculosis in Danish dairy herds and in control programme participation.Preventive Veterinary Medicine,2012,103:112-119.
45.Mazumdar S,Winter A,Liu K,et al.Spatial clusters of autism births and diagnoses point to contextual drivers of?increased prevalence.Social Science & Medicine,2013,95(0):87-96.
46.Adegboye OA,Kotze D.Disease mapping of Leishmaniasis outbreak in Afghanistan: spatial hierarchical Bayesian analysis.Asian Pacific Journal of Tropical Disease,2012,2(4):253-259.
47.王小莉,王全意,欒榮生,等.傳染病疫情早期預警的主要模型.現代預防醫學,2008,35(22):4339-4341.
48.Yiannakoulias N.Using population attributable risk to understand geographic disease clusters.Health & Place,2009,15(4):1142-1148.
49.Kulldorff M,Athas WF,Feurer EJ,et al.Evaluating cluster alarms: a space-time scan statistic and brain cancer in Los Alamos,New Mexico.American journal of public health,1998,88(9):1377-1380.
50.Suzuki K,Pereira J,Lopez R,et al.Descriptive spatial and spatio-temporal analysis of the 2000-2005 canine rabies endemic in Santa Cruz de la Sierra,Bolivia.Acta tropica,2007,103(3):157-162.
51.劉云霞,李士雪,王忠東,等.基于時空重排掃描統計量的結核病聚集性研究.山東大學學報(醫學版),2009,28(12):122-125.
52.彭志行,丁曉艷,陶紅,等.地理信息系統分析技術在麻疹防治中的應用研究.中國衛生統計,2011,28(5):523-526.
53.Berrang-Ford L,Lundine J,Breau S.Conflict and human African trypanosomiasis.Social Science & Medicine,2011,72(3):398-407.
54.Moraga P,Lawson AB.Gaussian component mixtures and CAR models in Bayesian disease mapping.Computational Statistics & Data Analysis,2012,56(6):1417-1433.
55.Li XH,Tian HD,Heiner M,et al.Global occurrence and spread of highly pathogenic avian influenza virus of the subtype H5N1.Avian diseases,2011,55(1):21-28.
56.Alegana VA,Atkinson PM,Wright JA,et al.Estimation of malaria incidence in northern Namibia in 2009 using Bayesian conditional-autoregressive spatial-temporal models.Spatial and spatio-temporal epidemiology,2013,7:25-36.
57.黃秋蘭,唐咸艷,周紅霞,等.四種空間回歸模型在疾病空間數據影響因素篩選中的比較研究.中國衛生統計,2013,30(3):334-338.