趙煜 盛莉莉 全詩文
1. 中國聯通江蘇分公司;2. 中國聯通南京分公司
從2002年的SARS到2019年的Covid-19,近年來多個疫情呈現出爆發時間短且傳播迅速的特征,給全世界人民帶來了災難性的影響,對各國政府、衛生機構及防疫部門提出了嚴峻的挑戰。
面對重大突發公共衛生事件,以往缺乏大數據的支撐,通過跟蹤跨城市人口流動的情況來判斷疫情的傳播路徑,通常需要在道路卡口,挨個詢問車輛的去向,或是入戶做社區調查,最后逐級上報匯總數據。運用此方法得到的數據嚴重滯后,疫情防控效果差。
電信大數據來源于公眾通信網絡中的基礎數據,通過對信令數據的統一采集和實時處理,本地用戶和外省地區間漫游數據的融合,更全面地了解全國涉疫人員流動信息,實現全軌跡鏈的還原分析,可以較為準確地統計分析全國各省市以及重點區域人員流動情況。借助電信數據實名制并與自然人強關聯特征,大大提高了防疫數據時效性。通過結合衛生防疫等其他部門數據,可以進一步對確診、疑似患者和密切接觸者等重點人群的分布等進行分析研判。有了以上數據,通過多種算法,實現感染者來源追溯、疑似病例監控與擴散預警、疫情趨勢預測、疫情分析與通報等應用,面對重大突發公共衛生事件,發揮信息時代的數據和技術在防疫中的重要作用。
疫情防控的關鍵在于疫情早期的及時發現、疫情爆發后的傳染鏈隔斷以及疫苗和特效藥的研發。
本研究主要關注疫情爆發后的傳染鏈隔斷,這一點通常通過幾種方式共同實施來實現:
(1)依據感染方式的不同,通過物理隔離等方式減少病毒或病菌在人和人之間的傳播;
(2)盡早發現并隔離已被感染的人(通常在人傳染傳染病后一段時間內不具有傳染性);
(3)通過對已確診者接觸的人群進行追蹤,通過試劑等手段進行檢測確認,隔斷其中可能存在的被感染者再傳播的幾率。
在這三點中,后兩點都需要能夠對確診者是何時、如何被傳染的進行判斷,同時有對確診者所接觸的人群有追蹤確認的能力。在這方面,運營商的大數據,尤其是MR數據以其用戶級、包含位置信息的特點,可以提供準確而及時的輔助作用。傳染病的爆發多是指數型特征,在與病毒或病菌爭搶時間的過程中,將運營商MR數據充分運用,引入疫情防控的體系中,可以極大提升疫情防控的反應速度和能力。
本研究通過基于神經網絡的MR定位、國際移動用戶識別碼(International Mobile Subscriber Identity,IMSI)回填及場景識別、密切接觸者回溯與識別四種關鍵技術,實現了確診者的軌跡跟蹤,并對確診者從潛伏期到隔離期間的密切接觸者進行識別,有效協助衛生防疫部門迅速斬斷傳播鏈。同時通過場景識別和軌跡跟蹤,對確診者所處的空間類型,到達場所進行識別,有助于衛生防疫部門及時采取消殺措施,對于確診者所到達的室內密集區域,通過運營商數據對進出人員進行快速識別。
本方案的核心在于對確診用戶的行動軌跡進行跟蹤,因此需要對用戶終端上報的MR進行定位。雖然目前的4G終端具備最小化路測(Minimization Drive Test,MDT)功能,可以直接上報用戶位置信息,但是目前由于受限于終端,全網MDT的上報率僅有3%左右,在疫情情況下,僅靠MDT數據無法滿足防控工作的需求,因此需要對MR數據進行定位處理。
傳統的MR定位采用基于時間提前量和來波方向進行定位的方法或者三角場強定位算法,定位精度低,對于分析結果影響非常大。本研究通過路測(Drive Test,DT)/MDT/基于開放互聯網的各種視頻及數據服務業務(Over The Top,OTT)數據進行特征庫訓練,形成指紋庫,并通過指紋庫對傳播模型進行校驗,通常,指紋庫訓練采用DT、MDT、OTT數據之一,但是由于這三種數據都有一定的局限性,DT數據僅涉及一些主干道,MDT目前并非所有的終端都支持,OTT數據存在加密問題,因此,江蘇聯通采用了基于DT,MDT,OTT的多維指紋庫定位,形成豐富的指紋訓練樣本。
指紋庫建立后,需要將每個MR采樣點與指紋庫進行匹配,由于MR數據量大,需要能夠快速進行特征匹配,這就像在幾張照片中尋找一個熟人的面孔,對人腦而言,幾秒鐘便可完成,但如用計算機來處理,以現有的技術,是不可能在短時間內完成的。在MR指紋庫匹配算法中,借鑒了大腦這種并行模糊式工作原理,采用了神經網絡算法代替傳統的模式匹配的標準算法,比如KNN算法。概率神經網絡是徑向基網絡的一種變化形式,在程序微觀內部結構上模仿人腦的神經進行并行分布系統處理的工作模式:它具有結構簡單,訓練快捷等特點,應用非常廣泛,特別適合于模式分類問題的解決。在模式分類中,它的優勢在于可以利用線性學習算法來完成以往非線性算法所做的工作,同時又可以保持非線性算法高精度的特性,用于指紋庫匹配,取得了非常好的效果。
利用已有數據(DT數據/MDT數據/OTT數據)進行概率神經網絡的權值訓練,輸入數據包括:RSRP場強,輸出經緯度信息,這樣可以得到一個神經網絡的模型,當新的MR數據輸入時,使用該模型進行計算,得到概率最大的計算結果,即是經緯度數值。
用戶終端上報的MR數據不包含IMSI信息,因此無法通過確診用戶的號碼信息對用戶進行跟蹤。而用戶話單(x Detailed Record,xDR)數據中含有用戶的IMSI信息,需要通過對xDR和MR數據的關聯,對MR數據進行IMSI的回填,從而使所有的MR數據帶有用戶的IMIS號,進而可以根據用戶的號碼來對用戶的運動軌跡進行識別。利用MR與xDR中的關鍵字段進行關聯,如表1所示,完成IMSI回填。

表1 MR和xDR關聯的關鍵字段
室內密閉區域,人流量密集區域,容易引發病毒的快速傳播,尤其是室內封閉區域,攜帶病毒人員進入后,容易引起病毒在室內物品表面和空氣中駐留,因此需要對確診人員駐留的場景進行識別,判斷室內外類型、人流密度,從而確定不同的防控等級,采取不同的防控措施。
場景信息自動識別主要利用互聯網手段,通過高德地圖,百度地圖等獲取興趣點(Point of Interest,POI)信息。POI信息有兩部分,一部分POI的info信息部分,一部分是POI的場景邊框數據部分,兩種數據均需要用于后續的場景數據處理。
場景信息獲取過程如圖1所示:
(1)場景數據獲取方式:利用開源/FME軟件,結合高德API接口,抓取口碑場景的POI信息、場景電子邊框信息;
(2)場景準確性核查:通過圖層GIS呈現,核查解決場景邊框圖層有誤偏移、亂序交錯問題;
(3)形成閉合曲線:將獲取的場景邊界經緯度信息在GIS上進行連線,形成封閉的場景邊框。

圖1 場景信息獲取過程
通過以上方法獲取的場景電子圍欄可以在GIS上呈現,并與用戶MR數據疊加,從而獲知確診者行蹤所涉及的室內外場景類型,并且可以根據場景內的MR采樣點的數量,判斷該場景人流量的情況。通過場景的識別和用戶軌跡的跟蹤,可以判斷確診者是否在大型商超、火車站、醫院等人流密集的區域駐留。根據確診者駐留的不同場景的不同人流密度情況,防疫部門可以制定不同等級的防疫處置措施。如對于確診者所到達的大型商超,可以根據回填IMSI后的MR數據,反向識別在指定時間內出入同一場所的用戶號碼。
在疫情控制的過程中,如果能夠準確判斷疑似患者或新確診者與已知確診者是否有接觸、在什么情況下轉觸,即判斷新增疑似或確診者是在何時何地被感染的,對于確定疫情的傳播模型、傳播方式、未知確診者存在規模等的判斷,都能起到很大幫助。
運營商的MR數據包含了用戶級位置信息,以及用戶的移動軌跡信息。結合了上述提到的基于神經網絡的用戶MR定位、IMSI回填及場景識別算法,為推斷新增疑似或確診者與已知確診者的接觸史;以及通過所有已知確診者的移動軌跡,跟蹤確定其他可能的密切接觸者、可能有傳染接觸的區域風險等級,提供了有力的數據依據。
密切接觸者與已確診者的接觸史回溯方法如圖2所示:
(1)獲得已確認的感染者電話號碼清單,反向匹配到用戶IMSI,同時標注每個感染者的確診時間;
(2)獲得所有新增疑似或確診者電話號碼清單,反向匹配到用戶IMSI,同時標注每個新增疑似或確診的確診時間;
(3)在整個MR記錄中查詢,新增和已確診者在MR記錄中是否存在MR記錄時間差在time_thresh(單位為秒)以內,以及經緯度定位距離在distance_thresh以內(單位為米)的交叉歷史,如果有,這個交叉歷史的MR時間戳必須在新增感染者的確診時間之前;存在交叉關系的新增和已確診者,已確診者的確診時間必須在新增之前;同時這個交叉歷史的MR時間戳距離新增的確診時間之間的差距必須小于一個最大潛伏期閾值;
(4)對存在交叉的新增及已確診者的軌跡進行可視化呈現。

圖2 密切接觸者與已確診者的接觸史回溯過程
本研究對用戶個人信息、隱私信息進行了相應處理,確保用戶信息不被泄露。采用加密、數據置換、偏移量處理,
通過MR用戶軌跡對已知確診者和新增確診者進行接觸點回溯分析,對發生接觸的已知確診者和新增確診者的軌跡在地圖上呈現,同時對接觸點進行標亮。對不同用戶進行分色彩渲染,紅色柵格為A類用戶,即前期已確診者,藍色柵格為B類用戶,即新增確診者,場景人流密度如圖3所示,場景人流密度越高,感染風險越大。
以A類用戶做樣例呈現,用戶號碼為9a3065e00af3f1c8daf1086a47c30ad6(用戶號碼已做加密處理)。用戶軌跡如圖4所示。對用戶號碼、位置等信息進行脫敏,數據分級審核管理,內網運行,并全程在中國聯通大數據安全體系內實施,保障數據安全。

圖3 場景人流密度
與A相交的B類用戶的相遇位置如圖5所示。

圖4 A類用戶軌跡呈現

圖5 A類與B類用戶相遇位置呈現
相遇點放大呈現及周邊場景人流密度情況如圖6所示。

圖6 相遇點放大呈現及周邊場景人流密度情況
對所有確診者軌跡進行分析,對周邊場景進行感染風險度評估和渲染。
本研究通過基于神經網絡的用戶MR定位、IMSI回填及場景識別、密切接觸者回溯與識別四種關鍵技術,實現了確診者的軌跡跟蹤,并對確診者從潛伏期到隔離期間的密切接觸者進行識別及進行地理化呈現,對于各個區域的感染風險等級也進行了分析和地理化呈現。本研究所述方法有助于衛生防疫部門及時采取防控措施,對于確診者所到達的高風險室內密集區域及時采取消殺措施,通過運營商數據對進出人員進行快速識別,及時遏制感染的擴散。后期還可以利用電信業務實名制特性,結合公安數據,社交軟件等數據,對確診者的社會關系進行識別,及時進行預警信息的傳送,避免后期的接觸。