朱紅 徐州醫學院醫學信息學院,江蘇徐州 221000
時空預測在流行病預警中的應用研究
朱紅 徐州醫學院醫學信息學院,江蘇徐州 221000
流行病的流行規律有明顯的隨時間和空間變化的特性,論文討論了當前流行病預警中常用的時間預測模型、空間預測模型以及時空集成預測模型,對流行病預測的發展趨勢做了展望。
流行病;時空預測
流行病指可以感染眾多人口的傳染病,如流行性感冒、腦膜炎、霍亂等。它可以只是在某地區發生,亦可以是全球性的大流行,其特點是在適宜的環境下能在較短的時間內廣泛蔓延,與其他傳染病相比,時空特性更為明顯。流行性疾病影響面廣,危害大,損失嚴重,和人民群眾的身體健康和生命安全密切相關。因此對流行病發病率、流行趨勢、危害程度等方面進行預測,了解流行病的時空傳播與流行規律,作出準確預警,有著非常重要的意義[1]。
流行病預測就是根據流行病的發生、發展規律及有關因素,用分析判斷和數學模型等方法對可能發生的流行病的發生、發展和流行趨勢作出的預測,是制定預防和控制傳染病的長遠或近期應對策略的前提。自預測技術引入到醫學領域后,流行病預測便成了研究熱點,并在流行病預警中起到重要作用。流行病的流行規律有明顯的隨時間和空間變化的特性,在預測方面有時間預測模型和空間預測模型以及時空集成預測模型。
時間預測模型假設預測對象的變化僅與時間有關,根據它的變化特征,以慣性原理推測其未來狀態。時間預測模型主要包括回歸分析模型、B-J模型、馬爾科夫鏈模型、灰色動態模型、基于控制圖的預測模型、神經網絡等。此類統計模型的特點在于,根據過去一段時間監測變量值的大小,利用上述統計模型預測未來該變量值的大小,按時間資料的分布特點確定備選預警閾值,并結合實際情況,調整預警閾值的大小。當實際水平超過閾值,則發出警訊。
1.1 回歸分析模型[2]
回歸分析是定量研究應變量對自變量的依賴程度、分析變量之間的關聯性并進行預測、預報的基本方法,分為一元線性回歸方法和多元回歸方法。一元線性回歸是應變量與自變量之間存在線性關系;多元回歸是應變量與兩個或兩個以上自變量之間存在線性關系。也可以進一步采用量化相關誤差項的線性回歸模型,用于長時間收集的數據分析上。
1.2 Box - Jenkins 模型
Box- Jenkins 模型簡稱B-J模型,是經典的時間序列預測模型,也是精確度較高的短期預測模型之一[3]。其中自回歸滑動平均混合模型ARIMA 是最重要的時間序列分析預測模型,它將預測對象隨時間變化形成的序列,看作是一個隨機序列,并呈現一定的規律性,可以用數學模型近似描述。此統計模型最大的特點在于模式僅以過去觀測值進行分析與預測,不需考慮其他外部數據,以時間t綜合替代各種影響因素。但計算較為復雜,對數據的要求較高。但是正是由于未考慮影響被預測變量的相關因素,因此時間序列分析只適合于受被預測變量的相關因素影響較小的試點[4]。
1.3 馬爾科夫鏈預測模型
隨機過程是隨機現象變化的過程。當參數集合為非整數集時,隨機過程又稱隨機序列。馬爾可夫鏈就是一類特殊的隨機序列。馬爾可夫鏈的特點是系統未來時刻的情況只與現在有關,而與過去的歷史無直接關系。馬爾可夫鏈模型預測方法必須建立在準確完整的疫情報告的基礎上,該模型近期預測結果較好。此外,方法在疾病的流行環節和預防控制措施沒有發生根本變化的前提下是行之有效的。
1.4 灰色動態模型
灰色動態模型是我國學者鄧聚龍教授于1982年創立的,是一種微分方程的時間連續模型,它只需一個數列即可建模,以顏色的深淺代表系統信息的完備程度,我國的疾病監測工作者也在嘗試將灰色系統理論引入到傳染病的預測中,灰色動態模型對樣本容量和概率分布沒有嚴格要求,模型簡單,預測效果好適合于對流行因素較穩定的疾病進行短期預測。
1.5 基于控制圖的預警模型
控制圖是一種將顯著性統計原理應用于控制生產過程的圖形方法,由休哈特博士于1 9 2 4年首先提出,最早用于質量控制。目前應用較為普遍的控制圖法有移動平均法、指數權重移動平均法和累計和控制圖。
1.6 神經網絡
人工神經網絡具有獨特的信息存儲方式、良好的容錯性、大規模的非線性并行處理方式以及強大的自學習和自適應能力,從神經網絡擬合模型的擬合值與實際值比較圖來看,擬合程度比較高,而且神經網絡的確能以任意精度逼近任意函數;再者其具有綜合能力強、對數據要求不高等優點。
空間預警模型利用病例的空間地理信息,如行政區域名稱、家庭住址、工作單位等發現病例的地理聚集程度,及早識別傳染病的異常情況。目前廣泛使用的一種空間預警模型有廣義線性混合模型、小區域回歸分析檢驗法空間掃描統計等模型。
2.1 廣義線性混合模型
廣義線性混合模型由Kleinman等人提出,該模型是一種基于Logistic回歸估算各區域內監測對象的日發病率的統計方法。由于各區域觀察人數不斷變化,簡單Logistic回歸模型引入了收縮估計來計算各區域的人群密度。該模型可以用來量化同一對象在不同空間點上觀察值之間的相關性。
2.2 小區域回歸分析檢驗法
小區域回歸分析檢驗法是基于廣義線性混合模型的改良模型。考慮了季節效應、周末效應、社會趨勢、以及假期等因素。此模型中,廣義線性模型用于計算各郵政區域內的日期望發病數。病例數的分布根據多重檢驗的郵政編碼重新定義。一項研究表明SMART的統計效能略次于空間掃描統計。
2.3 空間掃描及其相關的統計方法
空間掃描統計由Kulldorff于1997年提出, 其主要原理是將一個地區劃分為一些較小的子區域,也即掃描窗口,不斷調整窗口的大小和位置,通過似然比檢驗判別疾病病例的聚集程度,以此來判別該病發病數是否存在異常情況。此方法優點在于其事先對聚集性的規模和位置沒有規定,能有效避免選擇偏倚,且易于根據人口密度或年齡等協變量進行調整,消除因構成不一致而引起的偏差。
時空預測技術從單獨的空間預測或時間預測發展而來,由于它在處理既要考慮空間特征又要考慮時間特征的復雜數據時的良好性能,而在許多領域起到越來越重要的作用。時空預測研究大多是基于時間序列分析、空間統計分析等成熟的分析工具,然后將這些成熟工具分別擴展到空間方面或時間方面。
時空集成預警模型通過綜合利用病例的發病時間、持續時間長短以及發病的地理信息等因素對流行病進行預測。目前使用較為普遍的有:WSARE、PANDA、時空掃描統計、基于遙感與地理信息系統的時空預測模型等。
3.1 WSARE
WSARE 采用貝葉斯網絡推導出基線數據的分布情況,分析數據的時間趨勢。WSARE的變量為多維,包括病例的時間、空間、地理等信息。采用基于關聯規則的技術,將近期的病例數與基線數據進行比較,通過檢驗,從近期數據中識別出有顯著性差異的亞組。一旦“異常”訊號發生時便會通過警示系統,自動通知公共衛生與醫療相關人員。
3.2 時空掃描統計
時空掃描統計是空間掃描統計的擴展。其基本思想同空間掃描統計,考慮了時間和空間兩個因素,其掃描窗口相應地變為圓柱形,圓柱形的底對應一定地理區域,而高對應一定的時間長度。圓柱形掃描窗口的大小和位置也是不斷變化的,因此時空掃描能夠對疾病發病的時間、地點及其規模進行深入的分析,有利于早期識別暴發。時空掃描統計可以利用歷史數據進行回顧性分析,也可以每天、每周或每月重復進行時間周期的前瞻性研究。時空掃描統計比單純時間或空間掃描統計的優勢在于其不依賴人口數據。
3.3 基于遙感與地理信息系統的時空預測模型[5]
基于遙感與地理信息系統的時空預測模型利用遙感與地理信息系統技術,分層次、分類型建立流行病地區的監測體系,在不同的空間尺度和連續的時間序列上進行監測和制圖,建立基于遙感、地理信息系統、全球定位系統和時間空間統計學為一體的探測活躍傳播點的框架模型。
通過時間、空間和時空集成預測模型對流行病發病率、流行趨勢、危害程度等方面進行預測,了解流行病的時空傳播與流行規律,作出準確預警,有著非常重要的意義。在實際運用中更多地采用定性預測與定量預測相結合的方法。這種方法常常是將專家們評議的意見集中起來綜合評價、建模和分析, 考慮時間、空間等各種因素采用兩種以上的預測模型對傳染病進行綜合預測,克服了過去預測方法的單一性、籠統性,提高了預測結果的準確性。綜合預測是現代統計預測方法本身發展的必然結果。
[1]聶紹發,黃淑瓊.傳染病預測預警體系建設現狀研究[J].公共衛生與預防醫學.2010,21(4):1-3
[2]孫振球,徐勇勇.醫學統計學[M].北京:人民衛生出版社.2002
[3]丁守鑾,康家琦.ARIMA模型在發病率預測中的應用[J].中國醫院統計.2003,10 (1):23-26
[4]董選軍,賈偉娜.ARIMA時間序列和BP神經網絡在傳染病預測中的比較[J].現代實用醫學.2010,22(2):142-143
[5]方立群,馬家奇,周曉農,等.國家自然科學基金重大項目“基于現代信息技術研究傳染病時空傳播與流行規律”研究成果綜述[J].中國科學基金.2011,(01):21-25
10.3969/j.issn.1001-8972.2011.10.153
朱紅(1970-)女,副教授,研究方向:機器學習。