沈 騰
(徐州市人力資源和社會保障信息中心,江蘇 徐州 221000)
大數據技術在此次“新冠”肺炎疫情防控中發揮了重要作用。宏觀上,我們利用地區采集的病例數據以及個體跨區域軌跡,通過對新增數量及區域分布情況的分析,對全國各地進行危險級別評估,進而采取不同的管理防控措施;微觀上,個體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險等級高的區域,這為防疫后期的復工復產提供了便利。
然而,此次疫情我們也應該看出我們對疫情大數據的利用還不夠充分,賦能效果還亟待提升。特別是在疫情初期發展傳播過程中,對發病情況的掌握、所需醫療資源的預判、床位和設備的消耗情況、未來可能的調配策略等等,疫情初發地的武漢等地區并不能較充分的了解。假如有關部門建立了以大數據為基礎的處理流程和解決方案,就可以更好地處理應對類似突發事件。
“大數據”(big data)的有關概念出現較晚,直到2008年左右才開始在互聯網流行,大數據就是海量的數據[1]。2012年維克托·邁爾-舍恩伯格在《大數據時代》一書中較為前瞻性的提出,大數據開啟了一次重大的時代轉型,并分別從思維、商業、管理3個維度的變革進行了闡述。大數據技術就是從海量數據庫中通過一定的算法挖掘推導出對某領域有價值的信息。
OODA循環模型,是觀察(Observe)、判斷(Orient)、決策(Decide)以及行動(Act)的英文縮寫,起初是美國空軍提出的一個信息戰略模型,后來常被應用于大數據技術中,主要通過信息采集、分析、決策和應對四個階段處理數據[2]。OODA 循環模型可以輔助我們認清數據信息的運行軌跡。
疫情數據采集的初期主要是依據醫療衛生部門上報的感染者或疑似感染者信息,到了中后期由于需要出入小區,各地開始要求提供健康碼,這時社區居民開始自主從網上填報個人數據,主要分為本地常住人口和外來人口信息填報。除此之外,在復工復產準備時期還有一些醫院、商場等公共場所在出入時進行網上登記,作為個體在公共場所活動軌跡的數據采集。
在上述疫情數據的采集中,主要存在幾點問題:一是數據的準確性無法保證。絕大多數數據依賴于個體本身的填寫,個體本身受到填報時間、重視程度、自我判斷能力和填報誠信等多重因素影響,數據本身的準確性得不到保證,短時間內也沒有數據校驗的功能。二是數據的完備程度不高。各個組織根據自身需要設計數據采集表單數據項,而這些選項大多數都是個體的基本居住信息,個體的活動軌跡無法采集,因此獲得的數據不夠完備。三是數據的共享程度較低。部分地區可以將采集的數據與當地公安部門戶籍數據相關聯比對,但和醫保、就診、交通、住房等數據沒有共享,多個數據庫沒有提供接口,缺少一個行之有效的數據處理系統。
疫情數據的分析目前主要還是簡單的統計分析。按照時間軸統計,可以分析出整個疫情的發展變化,包括感染者和疑似感染者的數量、增長率等,按照空間區域統計,可以分析各區域疫情的嚴重程度。但是,這些大數據的分析僅僅停留在一般統計學的范疇,分析層次較淺。
如果想進行稍微復雜一些的分析,通常使用流行病學調查就可以發現一些疫情傳播的端倪,筆者提供了一些數據分析的功能設想如下:一是可以對確診患者的活動軌跡進行分析,進而進行疫情傳播預防,幫助發現疑似感染者;二是可以聯動醫療資源數據,協助更合理地調度各地醫療資源;三是可以對患者年齡、身體情況等關鍵指標進行分析,進而研究易感染者的共性及疾病特征;四是可以對患者的治療方案及用藥反應進行分析,進而研究適合多數群體的治療方案;五是可以對正常人群的活動軌跡進行分析,進而開放低風險或無風險活動區域。因為目前對大數據的分析層次還停留在顯性可視的層面,如果要完成上述設想,還需要借助機器學習、知識推理等專門算法。在數據分析中還要考慮到數據隱私和安全性,數據提取和分析等過程保密,即系統后臺利用相關算法推導結論,人員不直接接觸原始數據庫。
由于缺乏行之有效的專門算法,無法在某些領域內數據建模,目前疫情大數據決策還很不成熟。國內外在醫學領域有一些利用數據建模開發的仿真應用或是輔助診斷應用的案例,但目前來看前景并不明朗,主要涉及以下幾個因素:一是個體差異性。在某些領域海量數據影響決策中,我們可以推導預判某種可能概率增大,但每一個個體都具備與眾不同的可能;二是數據代表性。原始數據庫缺少足夠的龐大而精確,我們選取的數據項也并非絕對科學可信;三是算法合理性。每個領域的專門算法、模型需要大量實驗驗證,如何建立一個科學有效的專門算法,這是大數據決策的難點;其他還有機器決策合法性等人文因素制約著大數據決策的發展。在大數據產生決策方面,我們還有很長的路要走。
在疫情防控中我們開發了幾個簡單的大數據應用,例如“健康碼”。個體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險等級高的區域,這為防疫后期的復工復產提供了一些便利。健康碼是根據個體輸入的數據,根據過去的行程與官方對各地的風險評級,生成一個表示危險性的健康碼,在一定程度上提高了社區治理的效率。問題是這種應用目前缺少校驗,在應用中可靠性較低;并且風險區域“一刀切”較為粗獷,在實際操作中過于武斷,也影響到一些群眾的生活出行。除此以外,大數據應用的成熟案例還較少,專業領域的開發瓶頸難以突破。
一是數據采集來源優化。數據信息應以公安部門戶籍數據為基礎,加入手機關聯信息,從被動采集轉變為主動采集;二是數據采集形式優化。開發基于北斗導航系統定位的軌跡記錄數據系統,在法律允許的范圍內采集不同精度的活動軌跡數據。三是數據共享優化。將醫保、就診、交通、住房等多個數據庫數據共享,并進行數據校驗與清洗。
數據分析過程的優化主要是建立公式,尋找規律。例如對確診患者的活動軌跡進行分析,對同時段的活動軌跡進行篩選,可以發現疑似感染人群。可以對每個移動終端的移動軌跡進行時間軸的記錄后,去發現同一時間相同軌跡交點的號碼,這個發現的過程就是一個較為簡單的數據分析。再如在調度醫療資源中,對各醫療機構床位、醫護人員、醫療設備和藥品等數據與感染人群分布數據建立一個算法,可以幫助科學選擇。
活動軌跡數據分析最大的問題是數據安全問題以及采集個人隱私的法律風險。在相關法律尚未明確的情況下,可以采取被動采集的方式,即在一些重要的公共場所設置掃碼登記,登記前由個人線上同意相關協議,再進行入場登記,用來記錄進入該場所的人群數據,從而被動推導個人的活動軌跡。
數據分析后,如何輔助產生出科學的決策,這要求建立一個模型和專門算法。比如可以通過對搜索關鍵字和網上購物數據的分析推導出某個人的購物偏好,甚至對其年齡、生活狀態、工作情況、個人喜好進行推測,進而自動向其推送相關的產品,這就是一個最簡單的數據決策產生的過程。大數據決策過程,是基于數據分析模型而產生可能結果的推導,是對某一領域大概率結論的預測。在疫情大數據決策過程優化中,首先要確定目標,然后通過大量的數據實驗優化模型。以疫情傳染防治為例,可以建立一個類似的模型,這個模型可以分為不同的幾個階段。第一個階段是發現可能感染者。根據公共場所的入場登記數據,分析活動軌跡重合的個體,一旦出現確診者,決策者可以向其推送相關信息,這種結論并不一定能推導出感染人群,但是可以確定出可能會感染的人群;第二個階段是確定疑似感染者。例如已有一個14天無癥狀即可排除的經驗,可以利用這個經驗對第一個階段出現的個體進行居家隔離14天,但是這并非絕對,假如可能人群想要排除疑慮,則可能選擇去做進一步的核酸檢測。在這個階段大數據可以智能的提供給可能感染者不同的選擇應對方式,進一步去確認疑似感染者;第三個階段是確診。這個可以結合醫學診斷指標進行確診模型的建立。在實際就診中,醫生往往也是根據某些檢測的指標及患者出現的癥狀進行判斷,之所以難以建立模型是因為個體差異和相似疾病的種類較多,但是如果是排除某種疾病或是建立某個專門疾病的確診因素,則是有可能實現的。第四個階段是輔助治療。此部分內容可以試圖整理相似個體的最佳治療方案,進而為醫生提供一些參考,同時在醫療資源特別緊張時可以作為公共衛生緊急處理辦法。
大數據應用過程的優化就是要使應用更加人性化,使用戶有更好的體驗。例如“健康碼”就可以從以下幾個方面優化,一是提高準確性,目前是以城市為單位的危險評級,可以進一步提高范圍的精度;二是增加兼容性,對于沒有智能手機的群體,除了委托通過他人的支付寶微信賬戶添加以外,還可以考慮采用另一些終端,如健康手環、智能手表等形式;三是注重便捷性,健康碼的使用應更加智能,減少個人操作環節,甚至可以在社區、公共場所設置某些終端設備,出入的人員通過身份證或者人臉識別就可以自動驗證。
不斷完善對大數據采集、分析、決策、使用過程,更好地實現數據賦能,對社會民生保障具有現實意義。本文以疫情大數據運行情況為例提出了大數據賦能效果的提升思路,由于缺乏實踐層面經驗,還存在諸多不足之處。大數據應用應加強理論研究和實踐研究的結合,推動多學科性研究的融合,拓寬研究主題,促進研究內容的多維深化,從而為公眾提供更為科學、高效的社會服務。