趙 堅 徐小衛 楊亞洲 虞 瑩 趙 玉
(南通市疾病預防控制中心 南通 226007) (南通市第一人民醫院 南通 226001)
傳染病一般指由各種病原體引起的疾病,此類疾病通常在人之間、動物之間或人與動物之間進行傳播[1],具有危害大、傳播迅速、早期隱蔽性強等特點[2]。近年來傳染病防控工作不斷推進,但仍然存在一些問題,如信息系統敏感度有待提高、各傳染病監測主體之間存在信息壁壘、業務協同度低、現場調查處置手段效率不高等。因此通過大數據、5G、人工智能等新興信息技術實現傳染病實時監測、早期預警、精準處置在區域化傳染病防控中具有重要意義[3-4]。
近年來信息技術高速發展,相關學者利用大數據、人工智能等技術進行了多種傳染病監測預警方法實踐[5-6]。目前,國家疾病預防控制中心在全國范圍使用傳染病疫情和突發公共衛生事件網絡直報系統進行監測數據的采集、自動分析、時空聚集性實時識別、預警信號發送,實現對法定傳染病的早期自動預警,以及對全國各地傳染病監測報告數據的分析與利用。該系統在法定傳染病監測預警方面取得一定效果,數據僅來自全國各級醫療衛生機構直報,且在病例已確診屬于39種法定傳染病之后才會上報,針對新發傳染病監測預警的敏感性和時效性有待提高[7]。因此建設一套標準化全閉環的區域化傳染病智能預警處置系統作為補充顯得尤為重要[8]。
經過對系統的功能、性能、安全性等進行全方位評估,南通市傳染病智能預警處置系統最終以公衛數據中心為基礎,采用瀏覽器/服務器方式搭建,通過政務外網互聯,既滿足系統建設需求,又在保證數據安全的同時具備一定可擴展性。
系統整體架構包括安全基礎層、設備層、數據層、應用支撐層和應用系統層5層,見圖1。其中安全基礎層通過通信加密、身份認證、安全審計等底層安全策略確保系統數據環境可信安全。設備層從底層硬件出發為系統搭建可靠的運行環境。數據層為系統提供數據基礎并對采集數據進行治理及質控。應用支撐層主要為應用系統提供決策支持,其中預警模型主要為傳染病監測預警應用提供支持;身份識別信息、5G通信模組、視頻監控數據等主要為突發公共衛生事件的研判和處置提供支持。應用系統層為該系統提供監測預警、應急響應、智慧流調等主要功能。

圖1 傳染病智能預警處置系統架構
基于上述架構,系統可以采用熱力圖、動態指標、預警消息等可視化展示形式,結合地理信息系統 (geographic information system,GIS)[9-10]監控公共衛生事件風險因素發展情況。同時,通過構建風險預測預警模型進行區域化傳染病監測預警,在接收到預警信號后根據不同內容和風險指標詳細研判分析,實現風險精準定位和全流程閉環處置。南通市公衛數據中心內還配備高速服務器集群等高性能計算資源,在移動端設備中采用5G通信技術,進一步提升系統的可靠性和安全性。
本系統主要采集電子病歷、傳染病直報系統、公共衛生、交通出行、學校缺課、重點場所和重點貨物及食品和藥品監測、環境監測等多渠道數據資源。采集數據主要來自南通市全民健康平臺、國家疾病預防控制信息系統、南通市食品藥品監督管理系統、南通市出入境人員管理系統等。系統自2021年試運行以來,已采集各類數據3.12億條,重點監測全市47類重點人群,共計180余萬人,以及學校、醫院等400余個重點場所。
針對不同數據來源,執行國衛辦醫函〔2018〕1079號《關于印發電子病歷系統應用水平分級評價管理辦法(試行)及評價標準(試行)的通知》、蘇衛辦醫〔2011〕92號《江蘇省醫院電子病歷系統評價標準與細則(試行)》等衛生健康數據標準規范,確保系統兼容性[11]。建立規范統一的主數據索引,運用Hash函數對原始數據進行脫敏,從數據的完整性、一致性、規范性、邏輯性等方面分析質量評估需求并制定評估規則,對采集數據進行質量分析與控制?;贖adoop技術架構對系統采集到的數據進行分布式處理,為半結構化及非結構化臨床數據提供分布式數據存儲資源,并為自然語言處理模型算法提供分布式計算資源。對多源異構數據進行匯聚,利用大數據、自然語言處理技術對數據進行結構化、標準化治理,形成高可用的傳染病監測預警數據庫[12],見圖2。

圖2 多元異構數據采集治理流程
首先綜合多種算法,解析傳染病時空聚集特征;其次通過回顧性研究,分析傳染病傳播的風險因子;再次構建一個模型超市,采用仲裁組合策略加權整合候選模型;最后通過測試和自適應學習,進一步提升模型性能[13]。目前該模型已經實現對肺結核、流行性感冒、手足口病、流行性腮腺炎等法定傳染病的監測預警,并在試運行中取得預期效果。
采用時間聚集模式挖掘方法如聚類分析、集中度和圓分布法等[14],分析突發傳染病的時間聚集性分布特征,包括年際發病特征和季節性發病特征,以實現預警前移;采用空間聚集模式挖掘方法如核密度估計和最近鄰指數法等[15],分析突發傳染病的空間聚集性分布特征;采用時空聚集模式挖掘方法如層級聚類法、時空掃描等[16],分析突發傳染病的時空聚集性分布特征。
采用貝葉斯時空模型從時間和時空層面探討傳染病發病影響因素:假設區域i在時間t的某疾病發病或死亡人數為yit,當發病或死亡率較低時,通常認為yit服從泊松分布;當發病或死亡率較高時,則認為yit服從二項分布,那么:
E(yit)=eitθit
(1)
其中E代表期望值,eit是i區域在t時間的疾病期望發病或死亡人數;θit是i區域在t時間疾病實際發病或死亡人數與期望發病或死亡人數的比值,也就是疾病發病或死亡的相對危險程度。連接函數采用θit的log函數,則貝葉斯時空模型公式如下:
log(θit)=α0+βXit+C
(2)
其中α0為截距,β為相關因素的回歸系數,Xit為i區域在t時間的相關因素。C為擬合的時空效應,可為互相獨立效應或交互效應。貝葉斯時空模型的計算可以基于馬爾科夫鏈蒙特卡羅算法,模型擬合優度可采用離差信息準則,該值越小表示模型擬合效果越好。
基于模型超市思想,針對不同傳染病在不同應用場景下構建多組模型,采用組合策略根據誤差大小進行加權組合,對不同階段個體環境暴露水平進行估計,基于仲裁組合策略的加權思想進行模型整合,見圖3。

圖3 基于仲裁組合策略的加權整合設計
其中,Mi表示各候選模型;Yi為各候選模型的預測值,i∈{1,...m};m為候選模型個數,在不同環境暴露因素中可進行刪減;εi為各候選模型預測誤差;Wi為經激活函數softmax計算輸出的權重,取值為0~1。首先,對各類基礎模型Mi進行離線訓練,即針對不同傳染病在不同場景下訓練多種不同模型,作為最終預測結果Yi的一組基礎學習器。訓練后,返回訓練好的所有模型集合M,在訓練過程中,各模型不只輸出其預測值Yi,也持續輸出各候選模型預測誤差εi。誤差度量針對不同場景的選擇將有所不同,常用的選擇是平均絕對百分比誤差,因為此度量是相對度量,并且將誤差歸一化為百分比值。具體表達形式為:
(3)
當數據量較少時,常用均方根誤差作為損失函數,即絕對誤差,并且保留實際值的大小。具體計算方法為:
(4)
加權策略:加入softmax以獲得各模型權重。softmax將這些誤差估計值的負數(對應的權重將更小)作為輸入并返回概率分布。softmax生成的各模型權重之和為1,其具體形式如下:
(5)
通過softmax函數可以將多分類的輸出值轉換為范圍在[0,1]和為1的概率分布,即各模型i的權重Wi。最終,在仲裁組合策略生成各模型權重后,對各模型Mi輸出結果進行加權,獲得整合后的模型輸出Y:
(6)
時空預警是以南通市各區縣為時空對象,針對特定傳染病,取該病種在南通市各區縣過去5年同一時期的計數值組成集合St,用當前模型預測的病例數Yt對比St的均值K及標準差σ,判定當前區域內發生傳染病風險:當Yt>K+2σ時判定為高風險,產生紅色預警信號;當K+2σ≥Yt≥K+σ時判定為中風險,產生橙色預警信號;當K+σ>Yt≥K時判定為低風險,產生黃色預警信號。
固定閾值預警是指系統通過實時采集數據,當達到一定閾值時發出警報,再通過模型自適應功能對閾值進行動態優化調整,從而提高預警的準確性和及時性。
以南通市2017—2022年間傳染病數據為測試集對模型進行測試評估,模型預測準確率超過70%,生成預警信號的有效時間窗口覆蓋率超過80%,靈敏度超過98%,特異度超過70%。以2021年某小學一起手足口病事件為例,模型預測自7月22日起發展趨勢,預計8月23日前后日新增確診數小于1,病例預測準確率為79.5%。
為了進一步提升模型性能,通過對模型日常預測、預警工作的反饋(如漏報、誤報等),采用自適應梯度算法、最陡下降算法等更新模型參數。定期對傳染病進行時空聚集模型挖掘分析,利用最新數據定量更新傳染病影響因素,優化、改良模型結構和參數,不斷提高預測、預警的敏感性、準確性和及時性。
南通市衛生應急指揮中心通過大屏對南通市傳染病情況進行實時監測,在收到系統發出的預警信號后,南通市衛生應急指揮中心值守工作人員立即核實,并通過區域化傳染病聯防聯控機制上報,依據預警事件風險等級啟動應急處置流程,由衛生防疫部門立即派出流調小組進行流行病學現場調查和溯源工作。系統通過連接現場的移動5G視頻終端將高清視頻信號實時傳輸至南通市衛生應急指揮中心大屏,領導和專家可通過觀看大屏對現場情況進行實時掌控和指揮調度。
系統基于5G網絡高速率、低時延的特性,將流調現場數據和南通市衛生應急指揮中心無縫對接,利用5G單兵設備內置音頻軟件,將現場錄音識別為文字,經過簡單人工確認和格式調整后可以即時傳輸至南通市衛生應急控制中心供指揮者參考,也可以納入現場調查和處置報告中,有效減少手工記錄工作量。5G單兵設備還具備衛星定位功能,可以通過GIS直觀顯示該起突發公共衛生事件所處的位置環境、應急處置隊伍分布等情況,并通過5G單兵設備將現場情況實時傳輸至南通市衛生應急指揮中心,便于領導和專家掌握事態發展和制定方案。
系統通過命名實體識別,結合基于規則的正則表達式技術和基于大規模語料深度學習的模型,采用結構化規則和深度學習兩種技術路線,通過對特征的提取和識別智能生成流調報告,解決傳統流調報告效率低,需要多人、多次進行信息補充及完善的問題[17-19]。
系統自2021年6月起試運行,預計于2023年6月正式上線。截至2023年2月底,系統已采集有效數據3.12億條,處置各類預警信號52 000多個,根據南通市委市政府相關文件精神,目前模型已將出入境人員、發熱門診患者等47類傳染病重點監測人群共約180萬人及醫院、學校、機場、車站等400余處重點監測場所納入重點監測范圍。以重點場所監測預警為例,系統通過多算法解析傳染病時空聚集特征分析風險時段和風險區域,使用貝葉斯時空模型分析風險傳播因子,采用加權整合生成的預警模型進行實時監測預警。在2021年6月1日—9月30日期間南通市共產生學校熱點預警信號221次,涉及病例698例,已核實流感病例512例、手足口病例118例、肺結核病例2例,其中4起預警較國家傳染病自動預警提前4~7天,實際發生3起,基本達到預期目標。
截至2023年2月底已處置各類突發公共衛生事件30余起,智能生成流調報告2 700余條,確保各環節時間節點有據可查,不但有利于事后復盤,還能夠進一步優化工作流程,極大地提升疫情應急處置效率。
本系統采用安全基礎層、設備層、數據層、應用支撐層和應用系統層5層架構,通過整合醫療、疾病預防控制等多元異構數據資源,結合多算法和貝葉斯時空模型建立智能監測預警模型,實現風險預警關口前移,提升傳染病早期監測預警能力,實現監測預警事件的全流程跟蹤及處置。針對疫情處置方面存在的問題,建設數字化智能流調系統,提升疫情應急處置效率,達到早研判、早處置、早阻斷目標。該研究方法也可供其他同類地區、單位參考,作為進一步優化區域傳染病防控的管理方法和手段。
在系統建設過程中遇到部分機構提供的數據質量不高、數據接口對接難度大等問題,通過加大政府行政推動力度、優化數據采集技術、增加數據采集頻率、調整數據采集流程等方法加以解決。在系統正式上線后將從實際需求出發,繼續拓展傳染病監測種類和監測數據來源,結合新技術對系統進行定期升級維護,進一步提升系統使用效能和實用性。