孫海泉肖革新郭 瑩于石成△馬家奇△
流行病生態學研究的統計分析方法*
孫海泉1肖革新2郭 瑩3于石成1△馬家奇1△
1.一般情況
流行病學生態學研究(ecological study of epidemiology)[1]是一種描述性研究,它是在群體水平上研究某種暴露因素與疾病之間的關系,以群體為觀察和分析單位,通過描述不同人群中某因素的暴露情況與疾病發生或死亡頻率,分析該暴露因素與疾病之間的關系。
流行病學生態學研究可應用常規資料或現成資料(如數據庫)來進行研究,因而節省時間、人力和物力,可以很快得到結果。生態學研究對病因未明的疾病可提供病因線索,以進行深入研究,這是生態學研究最顯著的優點。當研究的暴露因素在一個人群中變異程度很小,很難測量其與疾病的關系,這種情況下,更適合采用多個人群比較的生態學研究。在疾病監測工作中,可應用生態學研究來估計監測疾病的發展趨勢,為制定疾病預防與控制的策略和措施提供依據。
流行病學生態學研究最主要的缺點是生態學謬誤,它是由于生態學研究以各個不同情況的個體“集合”而成的群體為觀察和分析單位,以及存在的混雜因素等原因而造成研究結果與真實情況不符。生態學研究在進行兩變量之間的相關或回歸分析時采用的觀察單位為群體,暴露水平或疾病測量準確性相對較低,且暴露或疾病因素是非時間趨勢設計的,其時序關系不易確定,故其研究結果不可作為因果關系的有力證據[2]。
2.生態學研究發展概況
生態學(ecology)是研究有機體與其周圍環境相互關系的科學[3]。環境包括非生物和生物環境,前者如溫度、可利用水、風等,而后者包括同種或異種其他有機體。當代生態學研究把人類社會與自然環境的關系包括在其研究范疇之內,用社會-經濟-自然復合生態系統的觀點,研究社會面臨的問題,愈來愈注意與群體相結合,與社會發展和生產實際的需要相結合,并成為政府的決策和行動的基礎。生態學研究在如下幾方面的進展值得我們注意。
(1)研究設施和手段的現代化
生態學研究的手段正在發生新的變化,除了用一些能準確地獲取信息的手段,如遙感、地理信息系統、全球定位系統(3S系統),連續、精密觀測儀器的使用外,還強調應用模擬和模型方法來研究大尺度、多因素的大系統。
(2)研究平臺從分散走向網絡
由于研究對象和任務的變化,生態學的研究是在相對孤立的局部地區研究的基礎上逐步向著區域化和全球化發展并形成網絡進行綜合與對比的。我國在經過SARS之后,已經在全國范圍建立了良好的疾病控制信息系統。這對疾病生態學研究有很大的實質性意義。近幾年,我國學者通過研究發現了SARS的爆發與野生動物的販賣以及當地文化與人類流動之間的相互關系。由證據分析得到SARS可能是從廣東以野生動物為賣點的餐廳中的果子貍上傳播來的[4]。
(3)學科發展與融合
生態學的研究是在相對孤立的局部地區研究的基礎上逐步向著區域化和全球化發展并形成網絡進行綜合與對比的。在此過程中,與數學、化學、物理、流行病學等基礎學科交叉促進了數學生態、化學生態、物理生態及疾病生態學的發展,近幾年,疾病生態學研究在艾滋病的研究中廣泛利用,而且還取得大量的成果。國外學者也出版了疾病生態學研究的專著。另據科學時報2006年11月6日報道“據美國國務院國際信息局消息,美國國家衛生院(NIH)10月27日宣布,美國國家科學基金會(NSF)和NIH將聯合資助8個屬于感染性疾病生態學研究計劃的項目”[5]。從而可以看出,盡管生態學研究有其局限性,但就其應用已有的監測數據和與現代統計方法、空間統計方法的結合,生態學研究在研究疾病危險因素或病因上將起到更重要的作用。
生態學研究分析的數據總量通常比較大,數據分析處理的方式也比較多。統計分析方法主要包括傳統的統計分析方法和空間統計分析方法。
1.傳統的統計分析方法
(1)單因素分析
生態學研究其分析單位為群體,如區縣、市或?。ㄖ陛犑校?,在群體水平上收集或監測發病、患病和死亡,以及危險因素等資料,如空氣污染指標、氣象指標和社會經濟發展指標,構建疾病與危險因素的關聯關系。常用的單因素分析有t檢驗、F檢驗[6]、Mann-Whitney檢驗[7]和相關分析等。黎新宇等[8]在北京市氣象因素與霍亂發病關系的生態學研究中,對北京市1996-2004年各月平均氣溫、氣壓、風速、日照時數、降水量5項氣象因素與霍亂平均月發病率分別做單因素相關分析,結果表明:霍亂發病與氣溫、降水量均呈顯著正相關(P<0.01);與氣壓呈顯著負相關(P<0.05);與風速呈負相關。
(2)多因素分析
①.對應分析(correspondence analysis) 對應分析又稱相應分析,主要用于分析二維數據矩陣中行因素和列因素間的關系。對應分析的基本原理是:對二維數據矩陣進行適當的變換(即對應變換),使變換后的數據的行與列是相對應的,從而可以同時對行和列進行分析,以便發現行列因素間的關系。實際上它是將R-型因子分析與Q-型因子分析相結合,對指標與樣品同時進行分類的一種多元統計分析方法。李寶紅等[9]通過對1982年部分城市男性居民胃癌組死亡率與對應這些城市男性居民的部分食品攝入量之間進行對應分析,發現人們的飲食,特別是南方飲食習慣的男性居民,應適當減少米類特別是精制米類的攝入,而增加面類、植物油的攝入,多吃清淡的食物,減少食鹽的攝人量,從膳食角度預防胃癌的發生,降低胃癌的死亡率。
②.回歸分析(regression analysis) 回歸分析是處理2個及2個以上變量間線性依存關系的統計方法。其中,2個及2個以上自變量對1個因變量的數量變化關系,稱為多重線性回歸分析,表現這一數量關系的數學公式,稱為多重線性回歸模型。多重線性回歸的解釋變量x1,x2,…,xp是確定性變量時,較為普遍,一般用于預測研究;當解釋變量為隨機變量時,一般用于變量之間關系的探索性研究。尤愛國等[10]在氣象因素與發熱伴血小板減少綜合征(FTLS)發病關系的生態學研究中,通過對發熱伴血小板減少綜合征有影響的因素(氣壓、溫度、濕度、風速等)采用逐步回歸法篩選,結果表明,氣溫對FTLS發病有重要影響。揚進等[11]采用Poisson回歸分析對傷寒Vi多糖菌苗接種率與甲型副傷寒爆發的關系進行生態學研究,結果表明,甲型副傷寒爆發只與Vi疫苗接種率有顯著的正相關關系,而與Vi疫苗使用時間無相互關聯。
③.主成分分析(principal components analysis, PCA)主成分分析是將多個變量通過線性變換,選出較少個數的重要變量,以達到壓縮變量的一種方法。又稱主分量分析。它首先是由Karl Pearson從非隨機變量引入的,爾后H霍林特將此方法推廣到隨機向量的情形。在生態學研究中,為了全面分析問題,往往提出很多相關的變量(或因素)。但是,在用統計分析方法研究多變量的問題時,變量個數太多就會增加所研究問題的復雜性。另外,變量之間是有一定的相關性,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映某個問題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些變量在反映問題的信息方面盡可能保持原有的信息。劉桂然等[12]應用主成分分析對高血壓病患者左心房收縮功能影響因素進行分析,結果表明,影響高血壓患者的左心房射血力的各因素之間存在嚴重的多重共線關系,用建立的7個主成分代替原來的19項指標,大大簡化了評價指標。
④.聚類分析(cluster analysis)聚類分析也稱群分析、點群分析,它是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同類的一種多元統計分析方法。進行聚類分析時,所研究的樣品或指標(變量)之間存在程度不同的相異性(親疏關系),聚類分析的原則是同一類中的個體有較大的相似性,不同類中的個體差異很大??梢赃\用一定的方法將相似程度較大的數據或單位劃為一類,劃類時關系密切的聚合為一小類,關系相對疏遠的聚合為一大類,直到把所有的樣品(或指標)聚合完畢,這就是聚類的基本思想。聚類分析根據樣品相似度的不同和聚類原則的差異,聚類方法是多種多樣的,常見的有系統聚類、動態聚類、最優分割法和模糊聚類等。王春曉等[13]根據頸椎病患者的臨床表現設計調查表,收集575例頸椎病患者的癥狀、體征、舌脈等信息,采用聚類分析和主成分分析法對調查表中98個常見癥狀進行聚類分析。提示聚類分析和主成分分析用于中醫證型的分類研究具有一定科學性。
⑤.時間序列分析(time series)
ARIMA模型(autoregressive integrated moving average)又稱Box-Jenkins模型,其思想是將自回歸與時間序列中的移動平均相結合[14]。潘浩等[15]應用SPSS18.0軟件對上海市2005-01/2010-06手足口病月發病率進行ARIMA模型建模擬合,并與實際發病率進行比較。結果表明,ARIMA(1,0,0)(0,1,0)模型能很好地擬合既往時間段的發病序列,對2010-01/06的預測值符合上海市該病的發病率變動趨勢,2011和2012年上海市預測手足口病的發病率分別為235.32/10萬和294.59/10萬。
近年來,廣義相加模型(generalized additive mod-el,GAM)[16]被廣泛應用于氣象因素與健康關系的研究中,其采用非參數擬合模型,并利用可加性原理,對影響溫度等其他因素的混雜因子進行控制,調整長期趨勢、季節趨勢和短期波動等,具有線性模型所不具備的靈活性。李芙蓉[17]等對重慶市疾病預防控制中心提供的2003年1月1日至2007年12月31日的某縣居民每日死亡資料和中國氣象局提供的相應期間氣象監測資料,采用時間序列的Poisson廣義相加模型,在控制長期趨勢、季節趨勢、短期波動及雙休日效應等混雜因素的基礎上,分析氣溫、相對濕度、氣壓、降雨量、風速等氣象因素及空氣污染指數與居民每日死亡的關系。結果表明,氣溫每上升1℃,超額死亡率為12%;其他混雜因子中,相對濕度每下降1%,超額死亡率為4%;空氣污染指數每上升1個單位,超額死亡率為0.6%。
2.空間統計分析方法
傳統統計分析方法是建立在樣本獨立與大樣本兩個基本假設之上的,對于空間數據,這兩個基本假設前提通常都得不到滿足。空間上分布的對象與事件在空間上的相互依賴性普遍存在,這使得大部分空間數據樣本并不獨立,即不滿足傳統統計分析的樣本獨立性前提,因而不適用于傳統統計分析。在傳染病研究中,各種空間統計分析方法的運用為疾病的空間聚集性、影響因素的探索及疾病的預防控制提供了更有力的研究方法和工具。
空間統計分析,即地統計學(geostatistics),亦稱地理統計學,是以區域化變量理論為基礎,以變異函數(variogram)為基本工具,研究分布于空間并呈現出一定的隨機性和結構性的自然現象的科學,是現代計量地理學中一個快速發展的方向和領域。該方法可研究某些變量(或特征)的空間分布特性,并對其進行最優估計。在模擬研究對象的離散性、波動性或其他性質時,也可應用空間統計分析的理論與方法[18]。
(1)空間統計分析方法的統計描述:
由于資料的特殊性,傳統的統計描述指標與圖表不再適用??臻g統計分析方法的統計描述主要包括中心化指標、密度指標、凸殼(convex hull)與標準差橢圓(standard deviation ellipse)等。與傳統的統計描述方法相似,中心化指標分集中和離散趨勢兩部分。集中趨勢的測量指標包括點集分布的平均中心、中位數中心和歐幾里得中心等;離散性的空間測度常用標準距離和相對距離度量;而凸殼與標準差橢圓則類似于傳統統計學中統計圖,能夠直觀顯示病例(或衛生事件)的空間分布狀況。類似于傳統統計學中的統計描述指標,均數中心與標準差距離適用于病例(或衛生事件)橫坐標(x)與縱坐標(y)均呈正態分布的情形;而中位數中心與四分位數間距距離適用于病例(或衛生事件)橫坐標(x)或縱坐標(y)呈偏態分布的情形。調和均數則要求病例(或衛生事件)橫坐標(x)與縱坐標(y)均服從正態分布[19]。
(2)空間統計分析方法的統計推斷:
空間統計分析的方法包括空間自相關分析、空間分類分析(空間聚類分析、空間聚合分析和判別分析)、多變量統計分析(含主成分分析、主因子分析、變量聚類分析和采樣點聚類分析)、空間插值分析、空間結構分析以及空間模擬等,其核心是認識與地理位置相關的統計關系[20]。以下主要介紹在流行病研究中常用的方法。
①空間自相關分析(spatial auto-correlation analysis)
空間自相關是指空間位置上越靠近的事物或現象越相似,即事物或現象具有對空間位置的依賴關系。在度量空間自相關時,需要解決地理空間結構的數學表達,定義空間對象的相互鄰接關系[21]。與經典統計學中的相關相比,空間自相關的差別在于處理的數據資料不同。空間自相關指同一屬性值在不同空間位置上的相互關系;而經典的相關是指兩個或多個屬性變量之間的相互關系及密切程度。計算空間自相關的方法通常分為全局性和局部性兩種類型,最為常用的方法是Moran’s I、Geary’s C、Getis[22]以及半變異圖與空間自相關系數圖等。
a.全局空間自相關分析全局空間自相關(global spatial autocorrelation)主要用于描述整個研究區域的空間對象某一屬性取值的空間分布狀態,以判斷該對象在空間上是否存在聚集性。常用的分析指標包括Moran’sI與Geary’s C統計量[23],用于描述疾病整體分布狀況,并以此來判斷是否存在空間聚集性。Moran’sI統計量的取值在-1~1之間,I>0表示研究對象之間存在空間正相關,I<0表示存在空間負相關。Geary’s C統計量的取值介于0~2之間,其越接近于0表示觀察變量的空間正相關關系越強,越接近于2則表示負空間相關關系越強,越接近于1表示數據越有可能隨機分布,即不具有空間相關性。范新生等[24]運用Moran’sI和Getis統計量對我國2003年爆發的SARS疫情的省級空間分布格局進行了分析,結果表明:SARS疫情的空間分布在疫情發源階段以及新暴發中心形成階段具有很強的空間自相關性。
b.局部空間自相關分析全局空間自相關是對整個研究空間的總體描述,僅對同質的空間過程有效。然而,由于環境和社會因素等外界條件的不同,空間自相關的大小在整個研究空間,特別是在范圍較大的研究空間上并不一定是均勻同質的,其可能隨空間位置的不同有所變化,甚至可能在一些空間位置發現正空間自相關,而在另一些空間位置發現負空間自相關。這種現象稱為空間異質性(spatial heterogeneity),在全局空間自相關分析中是無法發現的,而局部空間自相關統計量則可對其進行識別。局部空間自相關分析的指標主要包括局部Moran’sI統計量、局部空間自相關統計量(local indicators of spatial association,LISA)和局部Getis統計量(local getis)等。斐小琴等[25]采用R、GeoDa等軟件對內蒙古自治區2004-2005年布魯氏菌病資料進行的空間分布模式等分析,其局域系數統計顯示,布魯氏菌病發病率和空間自相關系數大小存在一定的空間統一性和差異性。
②空間插值分析
空間插值分析是指根據一組已知的離散數據或分區數據,按照某種數學關系推求其他未知點或未知區域的數據分析過程,可分為整體插值和局部插值方法兩類。整體插值方法用于研究區所有采樣點的數據,以進行全區特征擬合,主要包括邊界內插值法、趨勢面分析、變換函數插值等。局部插值方法則是用鄰近的數據點來估計未知點的值,能彌補整體插值方法的缺陷,可用于局部異常值,且不受插值表面上其他點的內插值影響。主要包括泰森多邊形、距離倒數插值、樣條函數插值方法及克里格(kriging)插值法[26]等。
Kriging插值法[27]假設任意一個測量值是一個自由函數(或自由過程,或隨機場)的一次實現,并將任何變量的空間變化表示成3個部分:結構分量,空間關聯分量和白噪聲。克里格主要是使用樣點周圍值來進行預報[28]。協和克里格及在此基礎上演化而來的指示克里格、Cokriging等,則提供點在空間區域上的優化插值,用戶可以選擇最恰當的變差模型來進行插值。張治英等[29]運用普通克里格的變異函數對江寧縣江灘釘螺分布的空間自相關性進行了分析,結果顯示2000年江寧縣江灘釘螺分布呈空間自相關性,其變異函數為球型模型,且距離<0.0301時,釘螺空間分布變異與距離有關,并以此為基礎用普通克里格法建立了江寧縣江灘釘螺分布預測圖。
③空間回歸分析
空間回歸分析技術是地理相關性研究及生態學分析的主要方法,其可用于探討估計值的空間關系,而地理學對象中的空間依賴性和空間異質性使得一般回歸方法不宜用于空間分析。其有聯立自回歸模型(simultaneous autoregressive model)、空間移動平均模型(spatial moving average model)和條件自回歸模型(conditional autoregressive model)等三種特殊形式[30]。此分析方法主要從地理(或生態學)的角度研究疾病發病(或患病、死亡等)的空間分布與環境因素(如空氣、水、土壤等)、社會經濟因素間的關系。
④流行病學標點地圖法[19]
a.以密度為基礎的流行病學標點地圖的空間推斷方法。此類方法又稱一階效應,它描述的是某個參數均值的總體變化性,即全局的趨勢。此類方法主要包括病例(或衛生事件)空間分布狀態的統計推斷、空間分布的概率函數和核密度估計法。病例(或衛生事件)空間分布狀態的統計推斷、空間分布的概率函數能夠反應疾病的空間分布狀態,而核密度估計法則通過核密度插值揭示病例(或衛生事件)在整個研究區域內的分布狀況。
b.以距離為基礎的流行病學標點地圖的空間推斷方法。此類方法能夠揭示病例(或衛生事件)的分布是隨機的、聚集的、還是規則的,而且能夠揭示空間點數據在不同空間尺度上的分布特征,描述兩類病例(或衛生事件)分布模式的關系及隨時間的演化規律。此類方法主要包括最鄰近距離指數法、Ripley’s K函數方法及Ripley’s K函數方法的擴展方法(二元模式與空間時間模式)。最鄰近距離指數法能夠從總體上反應疾病(或衛生事件)的分布是否具有空間異質性;而Ripley’s K函數方法能夠分析各種尺度上病例(或衛生事件)的聚集規模,能在更精細的水平上反映病例(或衛生事件)的空間分布特性。
c.以“熱點”分析為基礎的流行病學標點地圖的空間推斷方法,又稱空間聚類分析,是一類發現病例(或衛生事件)高發區域的方法。結合GIS軟件,可以直觀地揭示疾病的空間分布熱點。在流行病學領域,這對于疾病的預防及控制措施的制定具有重要的指導意義。研究空間“熱點”的主要方法有:最鄰近空間系統聚類、調整危險因素的最鄰近空間系統聚類等。最鄰近空間系統聚類分析發現研究區域內病例(或衛生事件)的“熱點”區域;而調整危險因素的最鄰近空間系統聚類分析則能探索去除人口密度等協變量后“真正”的空間分布“熱點”。
目前,傳統統計分析方法在流行病學中的應用已非常成熟,但空間統計分析在流行病研究中的應用主要集中于血吸蟲病、瘧疾等疾病,其他方面尚不深入。究其原因,是由于長期以來在我國的流行病學研究中缺乏相應的空間理論、方法和技術手段,長期以來積累的數據缺乏空間屬性,因而限制了空間統計分析在相關流行病研究中的深入運用。隨著空間信息基礎設施的建設和發展,快速獲取和掌握大量的自然、生態、環境及社會經濟等數據信息已經成為可能;加之一些流行病空間數據庫的構建,這些都從客觀上促進了空間統計分析在流行病學研究的應用,同時也為流行病學理論研究及預防控制提供了有力的工具及技術支持。
1.李立明.流行病學.第6版.北京:人民衛生出版社,2010,51-54.
2.Rothman KJ.Modern Epidem iology Third Edition.Lippincott W illiams&Wilkins,2008.
3.孫儒泳,李慶芬,牛翠娟,等.基礎生態學.高等教育出版社,2003.
4.靈輝,劉于飛,陳秋霞,等.一例與果子貍相關的SARS病例調查研究.中國人獸共患病雜志,2005,21(9):827-828.
5.李文華.我國生態學研究及其對社會發展的貢獻.生態學報,2011,3l(19):5421,5428.
6.郭志榮,蔣國雄,陸啟新.基本消滅血吸蟲病后不同時期的結腸、直腸癌死亡情況的生態學研究.江蘇醫藥,2006,32(8):785-787.
7.徐飚,俞順章,李旭亮,等.乳腺癌與圍產期激素水平的生態學研究.中國公共衛生,2001,17(11):983-985.
8.黎新宇,王全意,賈蕾,等.北京市氣象因素與霍亂發病關系的生態學研究.中國自然醫學雜,2006,8(3):201-202.
9.李寶紅,董時富,孫振球,等.對應分析在生態學研究中的應用.中華流行病雜志,2007,28(9):914-917.
10.尤愛國,康鍇,王海峰,等.氣象因素與發熱伴血小板減少綜合征發病關系的生態學研究.中國人獸共患病學報,2012,28(9):898-901.
11.揚進,董柏省,龔健,等.傷寒Vi多糖菌苗接種率與甲型副傷寒爆發的生態學研究.中國熱帶醫學,2001,8(11):1919-1920.
12.劉桂然,吳長剛,王岳恒,等.高血壓病患者左心房收縮功能影響因素的主成分回歸分析.中國衛生統計,2011,28(5):580-584.
13.王春曉,謝興文,李寧,等.聚類分析與主成分分析在頸椎病中醫證型規范化研究中的應用.中國組織工程研究與臨床康復,2011,15(43):8083-8088.
14.王振龍.時間序列分析.北京:中國統計出版社,2002,181-192.
15.潘浩,鄭楊,吳寰宇,等.ARIMA模型預測上海市手足口病發病趨勢.預防醫學情報雜志,2011,27(6):408-411.
16.Hastie T,Tibshirani RJ.Generalized additivemodels.London:Chapman and Hall,1990.
17.李芙蓉,毛德強,李麗萍.廣義相加模型在氣溫對人群死亡率影響研究中的應用.環境與健康雜志,2009,26(8):704-707.
18.侯景儒.中國地質統計學(空間信息統計學)發展的回顧與前景.地質與勘探,1997,33(1):53-58.
19.高杰.流行病學標點地圖統計分析方法體系的研究.山東大學碩士學位論文,2009.
20.馮益明,唐守正,李增元.空間統計分析在林業中的應用.林業科學,2004,40(3):149-154.
21.張學良.探索性空間數據分析模型研究.當代經濟管理,2007,29(2):26-29.
22.Getis A,Ord JK.The analysis of spatial association by use of distance statistics.Geog Anal,1992,24(3):189-206.
23.Getis A.Reflections on spatial autocorrelation.Reg Sci Urban Econ,2007,37(4):491-496.
24.范新生,應龍根.中國SARS疫情的探索性空間數據分析.地理科學進展,2005,20(3):6-9.
25.蔣敏,李曉松,馮子健,等.四川省HIV/AIDS空間自相關分析.現代預防醫學,2008,35(22):4329-4331.
26.鄔倫,劉瑜,張晶,等.地理信息系統——原理、方法和應用.北京:科學出版社,2000,178-191.
27.Cressie,Noel.The origins of Kriging.Mathematical Geology,1990,22,239-252.
28.Cressie,Noel.Spatial prediction and ordinary kriging.Mathematical Geology,1988,20:405-421.
29.張治英,徐德忠,彭華,等.普通克里格法預測江寧縣江灘釘螺分布.中國寄生蟲學與寄生蟲病雜志,2004,22(3):170-172.
30.Lance AW,Carol AG.Applied spatial statistics for public health data. New Jersey:W iley,2004,274-313.
(責任編輯:劉 壯)
淮河流域癌癥綜合防治項目(基金號:1310800003)
1.中國疾病預防控制中心公共衛生監測與信息服務中心(102206)
2.國家食品安全風險評估中心
3.中國醫學科學院,北京協和醫學院公共衛生學院
△通信作者:于石成,E-mail:shicheng_yu@hotmail.com;馬家奇,E-mail:majq@chinacdc.cn