龔華東
WSARE(What’s Strange About Recent Events)的中文譯名叫異常模式探測法。是用于針對生物孔博襲擊與傳染病爆發的監測與早期預警領域[1]。在美國已經被納入美國實時暴發監測系統(RODS system)。該統計模型對于探測傳染病或者是癥候群的聚集性具有很重要的應用價值,但是由于在解決其算法優化和維度的拓展方面存在一定的困難,一種基于歷史數據基線的WSARS算法被應用于賓夕法尼亞州和猶他州的急診病例監控[2]。另一種是基于貝葉斯網絡基線的WSARE算法被美國的公共衛生部門與以色列國家疾病預防控制中心所使用。WSARE作為一種融合了包括規則算法、貝葉斯網絡、隨機化檢驗等多種思想的聚集性探測算法,具有強大的實用性。在2004年我國首次建立了傳染病疫情信息網絡直報系統,本研究旨在探討WSARE算法對我國該系統數據的適用性,及對傳染病暴發早期預警的應用價值。
1.1 基本原理 WSARE算法是基于歷史數據和貝葉斯網絡的基線,兩者的區別在于基線分布的建立,歷史數據基線是以歷史數據選定天數作為基線,而后者是從構建的貝葉斯網絡中抽樣構造基線后,再建立基線分布后,對最近發生的事件進行搜索,用基線和最近數據集尋找最佳得分規則,再隨機檢驗估計最佳規則的P值,從而得到有意義的P值及規則作為預警信號。
1.2 一般資料 對于傳染病的數據來源我們選擇了2010年廣州市番禺區細菌性痢疾患者數據,通過核查,排除干擾性數據與資料記載不完備的數據外,得到的細菌性痢疾數據38例,選擇數據中的性別、年齡、詳細地址、發病日期、職業等作為變量。轉換變量名稱為,時間變量、空間變量、患者性別、年齡、職業。其中,將“發病時間”作為時間變量納入分析,患者住址作為空間變量,年齡經過分層納入分析。
1.3 參數設置與方法 將2008~2009年的細菌性痢疾數據作為歷史基線數據,對2010年進行逐日模擬實時預警分析。采用歷史數據基線的WSARE算法考慮到細菌性痢疾的潛伏期為2周,所以基線的設置時間為每2周,所以基線時間的間隔就確定為2周,而基線時間長度為4周。而采用貝葉斯網絡的基線的WSARE算法中將參數“day-of-week”“season”作為環境變量。
采用基于歷史數據基線的WSARE算法模擬探測結果如表1。隨機化檢驗α=0.05。探測到全年異常增高共19次,其中發現雙特征變量聯合異常增高情況6次,單特征變量異常增高情況13次。見表1。
采用基于貝葉斯網絡基線的WSARE算法模擬探測結果。表2探測到全年異常增高共51次,其中發現雙特征變量聯合異常增高情況27次,單特征變量異常增高情況24次。

表1 歷史數據基線分析表

表2 貝葉斯網絡基線的WSARE算法模擬探測結果
兩種方法均發出預警信號的天數共7次,其中有4次預警信號的特征變量值相同。由此可見對于異常增加較為明顯的狀況下,即便采用基線選取的方法不同,依然能夠發現存在的明顯差異,同時也說明這類預警信號通常具有較強的現實意義。
作為一種早期預警系統,對于算法的正確性的要求是高的。WSARE算法是通過對“最近事件”與基線分布的區隔是否有顯著的差異,來探查發病的異常增高,并及時的發出預警信號。但是預警信號不等同于流行病學意義上的“暴發”[3],因此對于預警信號需要進一步的現場調查與確認和在流行病學上的評估分析。
根據本研究的結果顯示,預警信號與實際存在差距需要引進預警信號的分級辦法,對于不同意義的預警信號,編列強度等級,并做好相關的預案。用“藍、黃、紅、黑”四個等級強度表示在流行病學上相對應的級別[4]。對于高級別的預警信號,當采取立即核實名排除誤報的可能,組織專業的流行病學專家到現場調查與實驗室檢測,對存在真實的傳染病暴發地應立即啟動傳染病應急預案,進行干預防治工作。
在變量的選擇方面,可以根據研究方向的側重點與病種的特性進行技術性的調整。在貝葉斯網絡基線的算法中在去除作為探測因素的反映變量還可以將環境變量作為反映變量的變異納入分析中,在本研究中,環境變量參數設置上納入有星期數、季節、氣候、食品與水環境、藥物可及性等[5]。但是由于變量的增加會導致基線所需要的數據量與運算時間的增加。這就要求在數據的真實性與運算耗時的選擇上,根據研究課題的方向性做取舍。
在對于WSARE運算的應用角度來看,Wong等人在通過模擬數據研究發現,WSARE算法在多元分類資料異常情況探測中,對于單因素方法上更為有效,他的優勢在于能識別不同特征變量組合所構成的異常組群,無需對特定組合進行監測。在時效性與精確性方面的優勢也是明顯對于監測傳染病的網絡直報系統中對于數據的檢測與預警具有良好的前瞻性應用前景。而貝葉斯網絡基線的算法是以長期的歷史數據構造貝葉斯網絡,他的特點是納入環境屬性,考慮了季節等時間趨勢因素,在對于長期監測預警,如對法定傳染病、慢性疾病監測等,采用該算法具有明顯優勢。根據本研究結果顯示,對于實時監測預警可結合兩種算法的結果,以綜合考慮長期和短期的波動異常。
[1]Stoto MA,Schonlau,M,Mariano LT.Syndromic surveillance:Is it worth the effort[J].Chance,2008,18(2):21-24.
[2]Reingold A.If syndromic surveillance is the answer.what is the question[J].Biosecur Bioterror,2009,10(8):79-83.
[3]Kulldorff M.Prospective time-periodic geographical disease surveillance using a scan statistic[J].J R Stat Soc A Stat Soc,2009,172(11):69-71.
[4]Kulldorff M.Syndromic surveillance without denominator data:the spacetime permutation scan statistic for disease outbreak detection[J].PLOS Med,2009,2:219-223.
[5]殷菲,馮子健,李曉松,等.前瞻性時空掃描統計量在傳染病早期預警中的應用[J].中華預防醫學雜志,2009,41(2):121-123.