朱 琦 于石成 郝元濤△
傳染病監測數據的統計分析方法
朱 琦1于石成2郝元濤1△
1.廣州市中山大學公共衛生學院醫學統計與流行病學系(510080)
2.國家疾病預防控制中心(102206)
△ 通訊作者:郝元濤,E-mail:haoyt@mail.sysu.edu.cn
有效的傳染病控制,依賴于有效的傳染病監測〔1〕。傳染病監測是對人群傳染病的發生、流行及影響因素進行有計劃的、系統的長期觀察,以達到控制傳染源,切斷傳播途徑,保護易感人群的目的。以上每一步的實現都需要建立在對監測數據合理分析的基礎上。
在美國,傳染病監測數據每周會匯總發布在美國CDC出版的《患病率及死亡率周報》上,主要是以圖表的形式對各種傳染病的三間分布進行回顧性的描述。在2001年以后,美國CDC不斷將一些新的分析方法整合入傳染病監測數據的分析體系,將監測數據的利用從回顧性簡單描述領域拓展到前瞻性分析領域,嘗試從常規報告數據中發現早期異常,并對傳染病的流行趨勢進行預測〔2〕。
2003年SARS之后,我國在傳染病監測系統的建設上投入大量的資源,目前已經建成了覆蓋全國的傳染病信息報告網絡,能夠收集全國范圍的傳染病監測數據。但收集的數據內容較少,主要是發病的信息,缺少環境、社會人口學等詳細的信息;同時由于存在漏報和重復報告,數據的質量需進一步提高。這些問題為傳染病監測數據的統計分析帶來了挑戰。
我國傳染病監測數據的利用仍停留在簡單描述階段,缺乏傳染病相關危險因素的研究,缺乏利用高級的統計分析方法,前瞻性地預測傳染病未來的流行趨勢。雖然有很多學者利用國外的方法,對傳染病的流行進行前瞻性預測,但是這些研究都是分散的,并沒有整合到傳染病監測數據分析的體系中,同時由于各個國家的疾病監測系統收集的數據內容不同,不能簡單地將國外的統計方法照搬到國內。鑒于我國傳染病監測系統收集的數據內容有限,如何利用有限的數據,挖掘出最大的信息;如何利用其他方面收集的數據(同期社會人口學資料、環境資料),將其與監測數據相結合,擴展分析領域,是一個具有重要現實意義的課題。
本文旨在通過文獻綜述的方式,歸納闡述國內外已經開發的,能夠應用于傳染病監測數據的統計分析方法,包括回顧性的分析方法和前瞻性的分析方法。
傳染病監測系統所收集的數據總量十分龐大,數據分析處理的方式也是多種多樣。對于數據的分析可分為回顧性和前瞻性兩種;按照時間段的不同又分為周分析、月分析和年度分析。各種類型的分析用途不同,欲解決的公共衛生監測問題也是不同的〔3〕。
對于傳染病監測數據的回顧性、描述性的統計分析方法已經較為成熟和模式化,主要是通過一些統計圖表的形式將不同時間、不同地區、不同人群的傳染病發病情況刻畫出來。現階段這一領域的研究熱點是:如何根據現有的監測數據,判斷傳染病的發病是否具有空間和時間聚集性(如何早期識別傳染病的爆發)。
在監測數據的前瞻性研究領域,目前研究較多的,是如何利用現有的傳染病監測數據,對未來傳染病的流行趨勢進行預測。這類分析方法大致可以分為三大類:時間分析方法、空間分析方法、其他分析方法。
此類方法的思想是在考慮了地區人口差異,對人口空間分布進行校正的前提下,檢驗疾病的時空分布是否隨機。根據檢驗目的可以分為焦點聚集性檢驗和一般聚集性檢驗。
焦點聚集性檢驗用于檢驗在一個事先確定的點源附近是否有局部聚集性存在。而一般聚集性檢驗是在沒有任何先驗假設的情況下對聚集性進行定位〔3〕。一般聚集性檢驗又可以分為聚集性探測檢驗和全局聚集性檢驗。聚集性探測檢驗是在沒有先驗假設的情況下對局部聚集性進行定位,并確定其統計學意義。而全局聚集性檢驗是用于確定在整個研究區域是否存在聚集性,并不考慮單個聚集性的統計學意義〔4,5〕。
(1)聚集性探測檢驗
主要的方法有Kulldorff空間掃描統計量、Besag_Newell方法〔3〕、Turnbull 方法〔6〕、最大超額事件檢驗〔7〕。
其中應用較多的是Kulldorff空間掃描統計量,其思想是在地圖上構造一個圓形掃描窗口,并讓其在研究區域內移動,掃描半徑從零連續遞增到預先規定的上限,繼而產生無數個半徑不同的窗口,計算每個窗口內外的似然值,似然值最大的窗口被認為是最不可能因為隨機而造成的 cluster〔8〕。2005年,Toshiro Tango和Kunihiko Takahashi對Kulldorff法進行了改良,將掃描窗口拓展為任意形狀,而不是僅僅限定為圓形〔9〕。
(2)全局聚集性檢驗
主要的方法有 Bonetti-Pagano的 M 統計量〔10〕、Cuzick_Edwards方法〔11〕、Oden 方法和 Ipop 方法〔12,13〕、Mantel方法〔14〕、k 個最鄰近法〔15〕。
其中k個最鄰近法是最新的方法,由Jacquez于1996年提出,其目的是檢驗在空間上相鄰的病例,在時間上也相鄰。Norstorm等應用了此方法研究了挪威牛群急性呼吸道傳染病的時空聚集性〔15〕。
這一類統計學方法用于探測公共衛生監測時間序列數據中的異常。其思想是基于傳染病的歷史水平,制定數學模型并根據模型計算出預期值,然后比較實際值與預期值之間的偏移量,對模型的預測效果做出評價并將模型應用于實際工作中。
(1)歷史極限法〔16〕
將傳染病當前4周的發病數與基線進行比較,這一基線是過去5年相應的前面4周、當前4周和之后4周病例數的平均值。得到前面5年的15個數值后,用當前4周的合計病例數除以15個數值的平均值,得到一個比值,并將這個比值在對數坐標中表現出來,與比值的歷史極限進行比較。比值歷史極限的計算公式為:1±,其中均數μ和標準差σ是通過15個歷史數據計算得到的。
該方法的優點是簡單易用,能夠提供病例每周異常狀況的總結。但同時存在3個缺陷:并未考慮對趨勢的探測;忽略了數據之間的相關性;正態性假設不一定成立,尤其對于罕見疾病。
(2)過程控制圖
過程控制圖的基本思想是:如果某隨機變量獨立并且服從正態分布,可以構造出一個統計量y,當y超過預先確定的控制界限時,就認為研究過程脫離統計控制,即出現統計學失常,提示存在非正常事件〔17〕。適當的控制界限的選擇顯得非常重要〔17〕。常用的控制界限的上下限通常表示為過程的標準差的倍數(如3倍標準差)。常用的過程控制圖包括:Shewhart圖、累積控制圖(累積和法)、移動平均圖、指數加權移動平均圖。
Shewhar圖用于探測過程均數的非隨機偏移,對異常觀察值發出警報。
累積和法是將觀察值與預期值的差值進行累加,若超過了預先確定的閾值則發出警報。
移動平均圖是 Stern and Lightfoot〔18〕于 1999 年提出的一種自動預警系統,并應用于腸道病原體監測數據。移動平均圖的統計量為:

其中m是移動平均中用到的過去觀察值的個數。當|yt|超出控制限時即認為出現統計失常。移動平均圖探測較小變化的能力比較強,其中m是關鍵參數,決定了圖的適用性,適當的m能使控制圖在假陽性率和假陰性率之間取得平衡。
(3)時間序列分析
傳染病監測數據通常表現出相關性和季節性,對疾病未來的發病率進行預測時必須充分考慮到數據的這些特點。時間預測的本質就是利用目標本身的動態時間序列、分析、研究預測目標未來的變化規律。
時間序列分析最早應用于計量經濟學,后來才慢慢延伸到醫學領域。時間序列預測方法主要有:指數平滑預測、移動平均預測、自回歸移動平均模型(ARIMA模型)等〔19-22〕。其中ARIMA模型是最為經典的模型。
ARIMA模型建模過程主要按4個階段進行。序列平穩化:ARIMA的應用需要時間序列符合平穩性的要求。模型的識別:主要是根據ACF圖和PACF圖的特征,提出幾種可能的模型作進一步分析。模型參數估計和模型診斷:對提出的模型進行參數估計和診斷,如模型不恰當,則回到第二階段,重新選定模型。預測應用:將最終建立的恰當的模型,應用于未來傳染病流行趨勢的研究〔20〕。
ARIMA模型被用于包括監測數據的分析在內的很多領域,美國CDC所開發的公共衛生監測統計軟件(SSSI)提供的很多用于分析監測數據的模型中,就包括ARIMA模型。
在ARIMA模型被提出以后,有很多學者針對該模型進行了進一步的完善,例如將過程控制圖與ARIMA模型相結合〔17〕,將小波分析與 ARIMA模型相結合〔23〕。這些完善擴展了ARIMA模型的適用范圍,提高了預測的準確度。
為了研究傳染病的空間變化情況,預測傳染病在各個地區未來的發病趨勢,就需要將傳染病監測與空間技術(用于尋找和描述地圖上的聚集程度)結合起來〔24,25〕。地理信息在傳染病監測中的最早應用可以追溯到1854年John Snow對倫敦寬街爆發的霍亂疫情的流行病學調查。近年來隨著傳染病監測系統的發展和數據收集量的增加,對于傳染病空間聚集性探測的需求也與日俱增。
當監測系統收集到病例時,可以即時對病例進行定位,也可從保存有符合監測條件的患者地理定位的靜態數據庫中調用數據〔24〕。地理編碼最簡單的形式是區號或郵編,也可以通過地理信息系統(GIS)得到詳細的經緯度坐標〔26,27〕。統計學中將這種有地理信息的數據稱為空間數據。
盡管疾病的時間監測方法已經有了很好的發展,但用于空間監測的方法研究并不多??臻g監測統計方法(從空間上探測傳染病的聚集性)已經成為未來研究的熱點。
用于迅速探測空間趨勢的方法主要有以下幾種:
(1)廣義線性模型和廣義線性混合模型
當可以得到局部區域內每一個病例的地理定位時,Kleinman等〔28〕提出了可以采用廣義線性模型進行監測。該方法簡稱為“SMART分值法”(small area regression and testing scores)。其思想是將每一個小區域當作一個個體,并擬合隨機效應來考慮每個區域的重復數據。這一方法允許每個小區域病例的基線發病率存在變異。
SMART分值法可容納時間聚集性、長期趨勢、季節性,并對每一區域居住人群的不同特征進行校正。該模型的結果可以用基于概率的矩陣表示,該結果對協變量和多重比較都進行了校正。目前該模型已經可以由多種軟件實現。
(2)Rogerson空間累積和法
Rogerson在累積和法的基礎上加入了空間統計量,將其應用擴展到傳染病的空間分析領域〔29〕。
Raubertas〔30〕對 Rogerson 空間累積和法進行了完善,提出對多個地區進行監測時,應保留每個地區及其周圍臨近區域的累積和,而不是只保留每個地區的累積和。具體做法是構建每個地理單位的局部統計量,即區域內及其周圍區域的觀察值的加權和,離該區域的距離越遠,權重越小。最后監控這些局部統計量的累積和。
由于累積和法是對實際值和預期值的差值進行累計,因此,采用Rogerson的方法的關鍵就是如何較好地計算預期值〔31〕。如果預期值的計算不準確,最終發出警報的可能是模型的誤差,而與真正疾病發病率的改變無關。
(1)SIR模型
SIR模型是通過研究傳染病的易感者(susceptible)、感染者(infected)以及移出者(removed)隨時間變化的情況,對傳染病未來的流行趨勢和流行規模進行預測,是應用于傳染病預測的經典數學模型〔32〕。
(2)模糊數學理論
模糊數學理論不需要知道輸入量和輸出量之間的函數關系,已經有學者將其中的模糊聚類法和模糊控制模型應用于傳染病的預測領域。向立富應用模糊綜合評判法對1970年至1980年流腦的發病率進行回顧驗證,證明模糊控制模型的回代準確率為81.1%〔33〕。
(3)馬爾科夫鏈
馬爾科夫鏈是應用概率論來研究隨機事件變化趨勢的一種方法,其主要思想是:將時間序列看作一個隨機過程,通過對事物不同的初始狀態來預測未來的情況,其中系統在每個時間所處的狀態是隨機的,從當前時間到下一時間的狀態按一定的概率轉移,而未來狀態僅與現在狀態及其轉移概率有關,而與以前狀態無關,即無后效性。馬爾科夫鏈進行的是區間預測,以區間劃分系統狀態,對于數據量較大的情形預測準確度較高。根據傳染病歷年的發病率資料建立馬爾科夫預測模型,便能夠實現對未來傳染病的發病率進行預測〔34〕。
(4)灰色系統理論
灰色系統理論是我國學者鄧聚龍教授于1982年創立的,在傳染病的預測領域,應用最廣泛的是灰色動態模型?;疑珓討B模型的思想是將無規律的原始數據變成較有規律的生成數據后再建立模型方程,并以此預測未來的發展趨勢。
(5)逐步判別模型
逐步判別模型的原理與判別分析相同,即通過一批分類明確的訓練樣本,制定出判別標準對以后新的樣本進行分類。李時習〔35〕選用近10年湖南省的月均氣溫、降雨量、日照時問等氣象資料和鉤體病發病率資料,構建了判別方程,將鉤體病發病率按高低劃分為若干個等級,利用氣象資料對鉤體病發病率等級進行判別預測,回代符合率為61.53%。
能夠用于傳染病流行趨勢預測的統計學方法很多,但是沒有一種方法能夠適用于所有疾病的監測數據,因為每一種疾病和每一個監測系統都有其獨特的特征〔36〕。相對于對統計模型的依賴,異常的探測更加依賴于監測系統的特征比如數據收集、監測系統的報告機制及其穩定性以及反應機制。因此,在分析系統數據之前,必須熟悉監測系統的結構,選擇最合適的方法。
1.WHO,CSR.WHO recommended surveillance standards.1999.
2.CDC.http://www.cdc.gov/ncphi/disss/nndss/phs/infdis2009.htm.available in 2009/11/05.
3.Besag J,Newell J.The detection of clusters in rare diseases.Journal of the Royal Statistical Society,1991,Series A(154):143-155.
4.Kulldorff M.Statisticalmethods for spatial epidemiology:tests for randomness.GIS and Health,1998:49-62.
5.Tango T.Comparison of general tests for spatial clustering.In:Lawson et al(Eds).Disease Mapping and Risk Assessment for Public Health,1999.
6.Turnbull BW,Iwano EJ,Burnett WS,et al.Monitoring for clusters of disease:Application to leukem ia incidence in upstate New York.American Journal of Epidemiology,1990,132:136-143.
7.Tango T.A test for spatial disease clustering adjusted for multiple testing.Statist.Med,2000,19:191-204.
8.Kulldorff M.A spatial scan statistic.COMMUN.STATIST.-THEORY METH,1997,26(6):1482-1496.
9.Tango T,Takahashi K.A flexibly shaped spatial scan statistic for detecting clusters.International Journal of Health Geographics,2005,4(11).
10.Bonetti M,Pagano M.Proceedings of the Biometrics Section on detecting clustering.American Statistical Association,2001:24-33.
11.Cuzick JR.Edwards.Spatial clustering for inhomogeneous popluations.Journal of the Royal Statistical Society,1990,Series B(52):73-104.
12.Moran PAP.Notes on continuous stochastic phenomena.Biometrika,1950,37:17-23.
13.Oden N.Adjusting Moran's I for population density.Statistics in Medicine,1995,14:17-26.
14.Mantel N.The detection of disease clustering and a generalized regression approach.Cancer Research,1967,27:209-220.
15.Norstrom M,Pfeiffer DU,Jarp J.A space-time cluster investigation of an outbreak of acute respiratory disease in Norwegian cattle herds.Preventative Veterinary Medicine,2000,47:107-119.
16.Stroup DF,W illiamson GD,Herndon JL,et al.Detection of aberrations in the occurrence of notifiable diseases surveillance data.Statistics in Medicine,1989,8:323-329.
17.W illiamson GD,Hudson GW.A monitoring system for detecting aberrations in public health surveillance reports.Statistics in Medicine,1999,18:3283-3298.
18.Stern L,Lightfoot D.Automated outbreak detection:a quantitative retrospective analysis.Epidemiology and Infection,1999,122:103-110.
19.嚴薇榮.傳染病預警指標體系及三種預測模型的研究.華中科技大學博士學位論文,2008.
20.吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發病率預測中的應用.數理醫藥學雜志,2007,20(1):90-92.
21.馮丹,韓曉娜,趙文娟等.中國內地法定報告傳染病預測和監測的ARIMA 模型.疾病控制雜志,2007,11(2):140-142.
22.吳家兵,葉臨湘,尤爾科.時間序列模型在傳染病發病率預測中的應用.中國衛生統計,2006,23(3):276.
23.Goldenberg A,Shmueli G,Caruana RA,et al.Early statistical detection of anthrax outbreaks by tracking over-the-counter medication sales.Proceedings of the National Academy of Sciences,2002,99:5237-5249.
24.Lazarus R,Kleinman K,Dashevsky I,et al.Use of automated ambulatory-care encounter records for detection of acute illness clusters,including potential bioterrorism events.Emerging Infectious Diseases,2002,8:753-760.
25.Leonhard H,Giusi G,Christina F,et al.Joint spatial analysis of gastrointestinal infectious diseases.Statistical Methods in Medical Research,2006,(15):465-480.
26.沈壯,黃若剛,騰仁明.GIS系統在衛生防病應急處理工作中的應用.中國公共衛生管理,2003,19(1):24-25.
27.戚曉鵬,呂繁,何武.地理信息系統在流行病學中的應用及開發.中華流行病學雜志,2004,25(11):997-999.
28.Kleinman K,Lazarus R,Platt R.A generalized linear mixed models approach for detecting incideng clusters of disease in small areas,with an application to biological terrorism.American Journal of Epidemiology,2004,159:217-224.
29.Rogerson P,Yamada I.Monitoring change in spatial patternsof disease:comparing univariate and multivariate cumulative sum approaches.Statistics in Medicine,2004,23:2195-2214.
30.Raubertas RF.An analysis of disease surveillance data that uses geographic locations of the reporting units.Statistics in Medicine,1989,8:267-271.
31.劉巧蘭,李曉松,馮子健,等.Rogerson空間模式監測方法在傳染病實時監測中的應用.中華流行病學雜志,2007,28(11):1133-1137.
32.Altmann M.Susceptible-infected-removed epidemic models with dynamic partnerships.JMath Biol,1995,33(6):661-75.
33.向立富.模糊綜合評判法在流腦預測中的應用.中國衛生統計,1994,11(4):33-34.
34.付長賀,鄧甦.馬爾科夫鏈在傳染病預測中的應用.沈陽師范大學學報(自然科學版),2009,27(1):28-30.
35.李時習.逐步判別對鉤端螺旋體病發病率的擬和與預測.實用預防醫學,1998,5:120-121.
36.胡世雄,邢慧嫻,鄧志紅.我國傳染病的預測預警現狀.中國預防醫學雜志,2007,41(5):407-410.