曹 飛,雷永春,朱小康,林少龍,章志紅,上官致洋,李煒娟 綜述,張潔妤△ 審校
(1.南昌大學撫州醫學院,江西 撫州 344000;2.黎川縣疾病預防控制中心,江西 撫州 344600)
時空掃描法在疾病的暴發監測中被廣泛應用,監測數據集常常是巨大而復雜的,使時空監測分析軟件的實用性變得越來越重要[1-5]。通過應用時空監測分析軟件,時空掃描統計量以不斷變化的動態掃描窗口對不同空間和時間的變量進行掃描,能夠很好地識別變量的時空聚集性。在時空掃描統計中,假設研究區域為一個圓柱形,其高度代表時間區域,對最可能的聚集區域采用蒙特卡洛模擬法進行估計[6-7]。
軟件篩選條件:(1)該程序可以用于處理空間和時間2個維度的問題;(2)該程序的分析方法已經內置在軟件中,不要求編程。最終篩選出4個符合條件的軟件包,即SaTScan、Clusterseer、GeoSurveilance和R-Surveillance。專業的疾病監測系統軟件包括數據采集和常規處理、數據庫整合、系統專題分析及排除可視化模塊[8-9];一般具有很高的等級且普遍在企業水平上應用,對研究者或分析師來說并不容易操作。
2.1SaTScan 要求數據被整理成3種不同格式的文件:(1)存儲空間位置信息的geography文件;(2)存儲病例信息的case文件;(3)存儲每個研究地區人口數據的population文件。所有的SaTScan文件都是基于文本格式的,其導入工具也支持導入公用數據(如CSV、DBF文件)。對于空間數據資料,SaTScan能夠將其按年、月或日進行整合。因此,數據可以最優的空間精度被錄入。當需要嘗試以不同分析參數重新構建數據結果時SaTScan的這項功能相比其他程序更具優勢。
2.2ClusterSeer 要求每一個監測的時空記錄都是唯一的,不能重復。運行時空掃描統計量時也需要有4個項目(位置、數據、病例、人口)的子集及掃描區域內每個時期的所有記錄。而要生成所需要的表格則應采用R-Surveillance軟件中的特定數據重構功能。若將數據以星期的方式進行整合則需要構建出具有52周×掃描區域個數記錄的表格。
2.3GeoSurveillance 要求數據以時間和空間的整合形式存在。病例計數為多邊形幾何和屬性特征文件格式或純文本文件,文件命名必須按順序進行。這一步可通過ArcGIS的常用功能進行自動完成,其將空間鏈接和地址信息結合成新表格文件。與ClusterSeer相類似,GeoSurveillance在空間信息整合方面不是特別靈活。但GeoSurveillance與ClusterSeer卻均能夠讀取多邊形shapefile文件,并自動計算掃描圓心坐標。
2.4R-Surveillance 要求數據以監測的時間為行,空間單元作為列構建矩陣。除SaTScan外,所有的程序對數據輸入格式、時空數據整合都嚴格受限。目前,沒有一款軟件程序能夠在數據不經過任何預處理的情況下導入2種shapefile文件。
3.1SaTScan 可用于諸如空間[10-12]、時間[13-15]、時空[7,16]方面的掃描統計,也有回顧性和前瞻性模式。不同的數據類型可通過包括泊松模型、伯努利模型、時空重排、多項式、指數和常規模型等恰當的模型進行分析。經典的圓形掃描統計研究區域也可以轉換成橢圓形或隨著空間單元關系的變化而自定義形狀。
3.2GeoSurveillance 主要應用累積和控制圖進行時空監測,回顧性模型僅適用于進行球形的空間分析,而前瞻性模型中累積和控制圖則局限于單變量監測。多元累積和控制圖目前尚未在GeoSurveillance中得以應用。
3.3ClusterSeer 在時空分析方法方面種類最多,這使得ClusterSeer更加適用于時空掃描的疾病監測。當應用累積和控制圖進行時空監測時ClusterSeer與GeoSurveillance相似,但其還可用于時空交互作用的檢測[17-19]。因此,ClusterSeer是用于疾病監測數據挖掘的有力工具。一旦數據被構建成適用于ClusterSeer應用的格式,其可進行多種方法的分析。
3.4R-Surveillance 也包含有許多分析方法,如法林頓算法[20]、泊松累積、控制圖法[21]、負二項分布等[22]。其包含的算法主要以構建模型為基礎。盡管在某些時空監測應用時R-Surveillance被用于分析多變量的時間序列問題,但由于缺乏相應的空間信息,其應用也存在一定的局限性。
4種時空監測軟件在運行過程中均會出現各種技術問題。SaTScan能夠處理以“天”為單位的病例數據,進行回顧性時空掃描統計。ClusterSeer則不能夠處理以“天”為單位的數據。起初內存及數據集是ClusterSeer運行的受限因素,然而隨著版本的升級,其也能夠處理并分析以“星期”為單位的數據。盡管這兩款軟件得到的結果相似,但SaTScan分析以“天”為單位的數據所用時間相對而言更長。GeoSurveillance可用于分析以“星期”為單位的數據,但其在處理最大累積和控制圖與地圖間的連接時卻顯得十分緩慢。R-Surveillance也能夠運用累積和控制圖原理進行時空分析,而且對于以“星期”為單位的數據,其分析所耗費的時間和得到的結果與GeoSurveillance相似。
R-Surveillance是一款均能在Windows、Mac、Linux操作系統中運行的軟件。當前,SaTScan有windows、linux運行版本,但mac運行版本尚在研發當中。ClusterSeer、GeoSurveillance僅能在Windows操作系統中運行。所有的分析運行均要求至少3.0 Ghz的奔騰4處理器及2 GB的隨機處理器內存的Windows XP操作系統。但與其他三款軟件相比,SaTScan進行一次完整性的分析所需時間最短。
SaTScan的數據輸出選項局限于文本文件和數據庫文件。數據庫文件能與輸入GIS中的shapefile文件進行連接和進一步的集群檢測。然而,SaTScan的缺陷是沒有數據挖掘功能。
GeoSurveillance的分析結果可被寫成其他軟件容易操作的文本文件,而且GeoSurveillance還能夠提供一個與累積和控制圖相連接的地圖界面,其中累積和控制圖表也可展示整體研究區域或者單個研究區域的累積得分。
ClusterSeer在結果輸出功能方面更勝一籌,如其繪圖功能可以將結果以圖片的形式輸出。其結果也可以與數據一起形成新的文件,用于內部統計學測試或GIS軟件。
R-Surveillance具有廣泛的可視化處理功能和輸出功能,對于具體的研究對象也有默認的創建繪圖功能。當然,這需要操作者對R-Surveillance程序的語法十分熟悉。
隨著電子病案、綜合性數據源及低成本地理傳感器的出現,病例資料越來越多地兼具空間和時間信息。這些新的數據來源可以更加全面地了解疾病分布、疾病危險因素和隨著時間與空間而變化的人口健康問題。監測數據給公共衛生實踐及研究帶來方便的同時也給處理及應用這些新數據集的軟件帶來新的挑戰。采用傳統統計學假設檢驗法或GIS可視化對這些數據進行處理的過程中均存在固有問題,這些問題在很多研究中已被證明[23-24]。因此。需要特定的方法來處理這些數據。本文所綜述的4款軟件均能夠提供不同類型數據的分析功能,但SaTScan是用于自動集群監測中最好且最穩定的軟件包。
在SaTScan掃描統計基礎上希望探求一種以構建模型為處理方式的監測軟件包。此外,對結果的全面方位監測要求軟件兼具繪圖的功能。采用建模方式的原因:(1)獲得更加精確的基于協變量效能估計的預測率;(2)調整疾病發病率的空間異質性;(3)平滑相對危險度。如果有GIS為基礎的系統來輔助數據的探測,ClusterSeer將被更好的應用。除時空方法外,單純空間、時間方法使原始數據探測變得越來越方便。當然ClusterSeer還有一系列的輸出選項。盡管其是二進制文件不能夠配置成遞增參數,但ClusterSeer的項目文件能夠設置成自動運行。不過由于自動監測的局限性,ClusterSeer可能更適合探究性研究而不是前瞻性集群檢測系統。雖然方法(和軟件)已被分類為假設檢驗類或構建模型類,但這些方法是相互補充的而不是相互對立的[25]。
本文中所綜述的4款軟件的程序均需安裝在本地電腦中。雖然這是計算機軟件應用的體系結構,但新計算技術將利用不斷發展的因特網來執行前瞻性、高效能的計算任務[26]。分析型服務項目(如集群分析)的在線傳輸使軟件服務更加集中于某一個服務員手中。這些可以促進不同地區衛生機構疾病監測指標的標準化,增加疾病監測分析的透明度。基于網絡的ClusterSeer及R-Surveillance軟件服務器界面當前處于發展階段,對未來監測系統的完善提供了希望。
新型疾病的威脅和慢性病日益增長的負擔使整合監測方法顯得尤為必要。分析疾病的時空趨勢可以與研究環境中的危險因素進行連接,在自動監測系統中標記異常事件、提供疾病暴發期間的最新信息。充分研究和掌握這些方法才能保證方法的透明性和結果重復性。疾病統計、監測方面大量的文獻是掌握和應用這些方法的基礎,但距離軟件應用的標準化還十分遙遠。時空監測統計分析方法的成熟及發展使相關應用軟件的改善顯得很必要。未來疾病監測軟件發展最理想的情況可能是計算機源代碼的開放,因為不同的統計監測軟件就能夠有效整合在一起。然而當數據需要在不同軟件包中進行分析時數據結構仍然是處理時空數據的重大問題。在R-Surveillance語言或另一種開放源代碼的環境下標準化時空數據可能成為未來一個富有成效的發展領域。