許文秀 翁莉雯 楊宇平 王婷婷



摘要:大數據技術是我們戰勝疫情的有力武器。本文基于追蹤傳播路徑、構建疫情發展模型、助力資源配置三大方面分析了疫情信息共享視域下大數據技術的應用,并致力于探討大數據技術在應用中存在的數據采集共享受阻、隱私泄露和發展不平衡的問題,且為推進大數據技術在疫情中應用和發展提出了相關的建議。
關鍵詞:大數據 信息共享 疫情
1 大數據技術在疫情中的應用
就目前情況而言,大數據技術在疫情中的應用方向主要包括追蹤傳播路徑、大數據構建疫情發展模型、大數據助力資源配置三大方面。
1.1 追蹤傳播路徑
利用大數據技術不僅可梳理感染者生活軌跡,追蹤人群接觸史,繼而鎖定感染源及密切接觸人群;還可以根據移動軌跡,建立個體關系圖譜,為疫情防控提供寶貴信息。
通過交通部門、運營商以及各大科技公司收集數據,將不同時間段的授權位置數據進行縱向串聯,能夠有效繪制出手機持有者的移動軌跡。其中的移動電話網絡大數據CDR能實時追蹤用戶的位置,然后提取有可能與被感染者接觸或路過感染地區的人。這類個體數據可用于追蹤被感染者的疾病傳播路徑、定位感染源,配合關系圖譜更可鎖定被感染者曾經接觸過的人群。
這類數據能及時配合地方政府及各級防控機構提供確診病人密切接觸者信息,但是由于有些遷徙群體中的高風險人群自身信息較多,會存在信息的時間差及信息不對稱等問題。
將出行數據集合形成的群體數據,則能夠清晰顯示出重要疫區的人員流出方向、動態以及規模。對上億條數據處理,并且通過可視化技術,繪制出了一張精準的“疫情態勢圖”,不僅能夠清晰的展現出特定時點曾經到過疫情高風險地區的人群,還可據此監測人群密度及動向。
通過電信大數據用戶位置軌跡數據多元場景分析,能夠統計全國特別是湖北等重點地區的人員流動情況。此外還有以SEIR、SIR傳染病模型為基礎,采集醫療數據,模擬新型冠狀病毒傳染路徑。這些數據有利于定位疫情輸出的主要區域、預測地區疫情發展態勢、預測地區潛在染病人群,為疾病防控部門及地區政府分類指定春運返程計劃、有針對性的出臺交通管制措施等提供決策支撐,也為復工復產提供科學參考。
1.2 構建疫情發展模型
面對新型冠狀病毒肺炎確診人數的持續增長,大眾密切關注疫情的傳播態勢,而借助大數據可實現預測疫情的發展態勢,且趨勢研判將“更敏銳”。結合疫情新增確診、疑似、死亡、治愈的病例數以及地方防疫決策等等,利用經典的傳染病SIR模型、動態感染模型、回歸模型等大數據模型和技術,不僅有效加強了疫情發展趨勢的動態監測,還可以預測疫情峰值拐點等重要信息。
在疫情發展模型的建立中,數據是模型重要的地基,大數據在海量數據中分析提煉出精確有效的數據源,同時可實現上萬量級的影響因子建模,將極大地豐富了疫情發展模型的分析維度,最終在不斷更新的海量數據中持續優化迭代后實現模型的建立。
現階段,像百度聯通以及各大科研院校等也在利用大數據技術進行相關的人流監測和研究。聯通大數據通過融入基于運營商信令數據分析得出的城市人口職住分布、 城市活躍指數、城市復工指數等實際數據指標,對經典傳染病SIR模型中的傳染率、恢復率等關鍵指標進行了優化提升,構建了城市疫情傳播趨勢仿真模型。南開團隊利用國家衛健委公布的確診病例總數數據鏈,以應用傳播動力學為方法,普適SEIR模型作為模型理論,分析新冠病毒肺炎疫情有關數據,并將分析結果生成可視化網頁,開展疫情發展回顧、確診病例數時序區間預測等相關工作,對疫情發展情況及疫情防控效率作出研判。
1.3 大數據助力資源配置
基于大數據分析的資源配置決策,可以使資源配置(包括醫療物資、生活物資及信息資源等)思路和方法表現出前所未有的動態性和全局性。并且根據不同行業、地區、領域的發展狀況,借助大數據對不同行業、地區和領域的資源配置進行關聯分析,挖掘出配置過程中存在的問題,進而形成針對性很強的個性化措施。
在醫療和生活物資等多維度資源短缺的疫情期間,社會各界依托大數據+互聯網等技術手段,構建相關平臺,提升了資源調配機構及捐贈者的信息獲取速度,提高了資源配置效率。例如基于數據爬取等大數據技術建立的資源對接平臺,可根據醫院、城市、類別等維度對醫療資源需求進行分類顯示,并顯示所需物資的名稱和數量、聯系方式及物資運輸方式等信息,且支持信息查詢,同時在后臺統計總體需求數據,時時更新。而針對歷史短缺數據的收集分類以及資源對接的及時性的統計分析,也可幫助相關部門預測未來的資源需求狀況,并科學籌劃資源供應和部署的下一階段。
基于數據挖掘等大數據技術在物資分配中的應用,構建應急物資信息系統結構圖如下:
2 大數據在疫情應用中存在的問題
2.1數據采集共享存在阻礙
此次疫情大數據技術的運用中,數據采集、數據互通共享難的現實問題擺在行業及社會面前,獲取多維度信息有一定的阻礙。
信息互通存在短板,多維度數據流通共享難,需要各方面信息的打通。跨部門跨省市數據共享意愿不強、信息交互手段不足,導致公共服務數據來源單一,數據分析不準確,區域聯防能力較弱。此外嚴格的規定和審批流程,以及不健全的法律法規也給信息互通增加了難度。
醫學數據收集無統一的數據中臺。各級疾控中心所涉及的包括疾病監測、預防接種、衛生應急管理等工作,目前還未能建立起成熟的上下聯通的信息系統。盡管各地都在投入建立大數據平臺,但有些地區推出的國家全民健康基礎信息系統與疾控機構信息系統南轅北轍。無論在基礎信息收集、錄入、標準使用及管理部門等均分離推進,更未建成統一高效的公共衛生平臺信息。
在農村地區,疫情期間人員、物資等關鍵信息獲取主要靠人工采集數據。人工采集數據存在效率問題,縱向上報多采用層層匯報方式,報送時間較長且數據內容重復;橫向發布無特定平臺入口,傳播途徑亂且數據來源混雜。這有一定的滯后性,導致信息不對稱,增加疫情防控的風險,直接影響全國統籌開展疫情防控和救治工作。
2.2 隱私安全問題
疫情當前,大數據的應用短暫爆發,疾病防控大數據涉及大量個人隱私信息以及醫療數據等,更加暴露了數據流轉過程中隱私泄露存在的風險。
數據采集環節成為影響決策分析的新風險點。在數據采集過程中,大數據容量大、種類多、來源復雜的特征給數據的真實性和完整性的驗證帶來了困難。目前,尚無嚴格的數據真實性和可信度鑒別和監控手段,無法識別和消除虛假甚至惡意的數據信息。若黑客使用網絡攻擊將臟數據注入到數據采集端,則會破壞數據的真實性,并故意將數據分析的結果引向預設的方向,進而操縱分析結果。
疫情中相關平臺網站的安全保護措施不足,致使數據安全風險突出。部分應用在緊急上線情況下缺乏或簡化安全評估流程,導致數據安全保障能力不足,存在非加密訪問、明文傳輸私人敏感信息、敏感端口開放等情況,致使數據存儲存在較大隱患。
出于疫情防控的需要,采集數據越多越便于開展工作,但是數據共享得越多,越增大了信息泄露的可能性,因此如何保證數據高效共享的同時確保信息安全在疫情中尤為重要,而信息安全問題也是大數據時代下面臨的一個重要問題。
2.3 大數據區域發展不平衡
隨著疫情應對的深入,也暴露出我國大數據發展存在的一些短板。一是各地的大數據基礎設施水平不一。利用大數據實現精準排查,其相關部門不僅需要有大數據分析硬件設備和軟件平臺,也要有大量的技術人員。但目前我國各地區的大數據基礎設施建設還落實不到位,全國各省市大數據發展水平存在明顯的差異性,特別是中部地區和東北地區發展還相對滯后。二是各地的大數據治理體系和能力差別較大,在數據信息采集、開放、共享、協作、融合等方面都有體現。更重要的是,若當地政府不具備大數據應用能力,缺乏大數據思維,也很難想到利用大數據技術開展疫情防控工作。
以社區排查防控工作為例,它是遏制疫情擴散的重要舉措之一。然而在一些信息基礎設施薄弱的偏遠地區,存在沒有完善的用戶體系、無原始數據積累,缺乏技術人才等局限條件,導致臨時智能防控平臺難以搭建、推廣,甚至根本無法利用大數據,使得基層不得不采用原始方式防控,搞人海戰術,這不僅加大了基層人員的感染風險,也無法保證數據的真實性。
3 推進大數據技術應用建設應做好的工作
為促進防疫抗疫,充分發揮大數據技術對醫療、社會經濟等方面的價值,驅動大數據技術應用,本文提出以下幾點建議。
3.1 加強數據共享
數據廣泛使用時,需要明確取向,做到“善用智用”,更大程度釋放數據的力量。
(1)政府部門首先要改變傳統的行政思維、加強對互聯網思維和數據共享等方面認知,通過統一技術標準和加強統一規劃等,拆除一些舊有的“數字壁壘”、“數字煙囪”,繼續加強全國各地的“數字政府”及“智慧城市”的建設。不斷加強完善大數據醫療的建設,建立一個全國公認且靈活全面的醫學圖譜和標準的數據中臺。
(2)搭建跨區域、跨層次的在線政務服務平臺以及數據共享平臺,加強互聯互通,提高業務協同能力,更好地便民利企,實現數據共享,解決個別地方政府的信息溝通不及時的問題。
(3)應強化各個行業數據集交叉的應用,使交通、公安、通信等各個數據集有效貫通。另外,建議打造統一的數字平臺,實現統籌調度精準防控。
(4)數據共享與制度建設應同步開展。進一步加強頂層設計,健全數據法律法規,強化監督管理和安全保障,給公安、民政等職能部門減輕壓力,提高共享數據的積極性。
3.2數據安全保護策略
(1)數據最小化及個人信息安全提交
在數據采集時,堅持“最小化原則”和“隱私保護原則”,盡量少采集用戶個人數據,原則上只收集確診者、疑似者、密切接觸者等高危人群的接觸人員及活動軌跡,為疫情追蹤、預防和傳播提供有效數據,同時做好公眾知情與用戶隱私的平衡。在配合疫情防控工作相關方提交隱私信息時,應確定對方是有權獲取數據的機構或個人,并采取加密傳輸的措施。
(2)數據存儲保護
一方面可采用格式保留加密和匿名技術。格式保留加密是一類特殊的對稱加密算法,可以保證加密后的密文格式與加密前的明文格式完全相同,不必更改數據庫范式,并且對上層應用程序是透明的。此外,密鑰與加密數據應該分開存放。采用的匿名技術既要能夠保護隱私信息,同時又要保證在挖掘算法中的數據可用性。另一方面是數據脫敏。數據脫敏是指對數據中包含的隱私信息(如個人身份識別信息、商業機密數據等)進行數據變形處理,使得竊取信息者無法直接從脫敏化的數據中獲取敏感信息,從而實現對機密和隱私的防護。
(3)加強法律建設
政府應建立健全與個人隱私保護、數據安全、數據跨境流動等方面相關的法律法規,從而在國家層面上保證個人隱私信息得到切實保護,并有效打擊竊取他人重要隱私信息的不法分子。其次,建議將各個大數據疫情防控應用單位納入社會信用體系并聯合獎懲鼓勵其支持戰“疫”工作并依法辦事。此外,可成立國家、省、市級“關鍵數據安全委員會”,對醫療數據如何開放共享,如何判定隱私泄露責任權屬以及新技術的應用等問題起到關鍵作用。
3.3 促進大數據全面發展
針對疫情爆發大數據區域應用水平不一的現象,主要存在部分地區大數據基礎設施薄弱、數據平臺缺少、專業人才匱乏、思想認識不足和運用能力較差等困境。對此在這從三個方面給予建議:(1)推動政府和社會資本合作(PPP)模式,用靈活手段支持政府和企業共同合作,并鼓勵有能力的民間人士進行私人投資,共同完善大數據基礎設施建設。同時規劃統一有效的大數據產業空間布局,加強各省間的空間相關性,依托行政單元建立不同層級的數據庫,形成以省、市、鎮為信息交換結點的大數據信息收集中心,將基礎設施建設相關任務逐級分解到各個行政單元空間上,并建立專業的大數據產業示范園,在周邊區域起以點帶面的輻射效應,推動大數據全面落地。(2)寬帶網絡作為大數據發展的基礎設施之一,加強網絡支撐能力建設至關重要。要抓好通信基站、互聯網寬帶等基礎設施建設,加快5G等新一代信息基礎設施建設,加快提升信息網絡覆蓋率。進一步完善國家互聯網骨干直聯點建設,積極協調爭取三大運營商支持,降低寬帶資費,減輕大數據企業經營成本壓力。(3)各地政府應打造高水平的智庫隊伍,特別要鼓勵具備大數據宏觀發展思維的領導型人才、管理型人才、高端技術型人才加入。加快構建平臺攬才、赴外招才、活動引才、項目聚才的立體引才網絡,還可以給予獎金、住房、科研、職稱評定等方面的優惠政策聚集人才。
4 結語
大數據技術是全國疫情防控戰中強而有力的“科技彈藥”,它已經滲透入日常生活的方方面面,在各行業領域的深入應用已是大勢所趨。因此,我們更要重視大數據技術在生活中的應用與意義,不斷克服大數據技術在應用中存在的問題,促進大數據技術的應用發展,從而更好地服務于人們的生產和生活。
參考文獻
[1]中國聯通大數據.預測疫情走勢,聯通大數據疫情傳播趨勢仿真模型助力復工復產[EB/OL]. https://www.sohu.com/a/374588192_770797.
[2]中新網.南開團隊大數據預測疫情傳播[EB/OL]. http://mil.chinanews.com/sh/2020/02-17/9094095.shtml.
[3]謝從晉,楊柳,畢孝儒.大數據環境中資源優化配置策略研究[J].中國商論,2019(16).
[4]東方財富網.肺炎疫情防控背后,有多少“大數據”在支撐?[EB/OL].http://guba.eastmoney.com/news,cfhpl,900600855.html.
[5]謝紅.基于數據挖掘技術的大型應急物資調度系統的設計與實現[J].現代電子技術,2017(08):57-60+64.
[6]中共中央網絡安全和信息化委員會辦公室.大數據助力疫情防控|更多亮眼表現,還得加快補短板[EB/OL]. http://www.cac.gov.cn/2020-02/16/c_1583402309787609.htm.
[7]新華網.數據共享平臺如何用得更好[EB/OL]. http://www.xinhuanet.com/info/2020-03/09/c_138857068.htm.
[8]孫茗珅,韋韜.大數據時代下的隱私保護[J]. 中國教育網絡,2017(10).
[9]馬玥.我國大數據基礎設施構成、問題及對策建議[J].中國經貿導刊,2017(13).