湛黃涵,譚豪,馬少聰,唐明輝
(南華大學計算機學院,湖南衡陽,421001)
關鍵字:傳染病;數據可視化;數據分析;風險評估;增長態勢
傳染病,是指由病原體導致的能夠在生物之間相互傳播的疾病。傳染病對人類有著極大的危害,2001年“非典”、埃博拉病毒疫情、禽流感等,均給人類社會造成了巨大的損失。
而在現代社會,科技技術高速發展,隨著互聯網技術在醫學領域的廣泛運用,許多傳染病的傳播特點、傳播周期等均被人們所捕捉。通過大數據技術對傳染病疫情進行分析和預測,能夠更加精準地了解各類傳染病的特性,與此同時,也能夠讓政府和群眾在傳染病疫情到來之際,作出預防措施。
本文根本傳染病的一般特性,設計并實現了一套傳染病數據分析與可視化系統。通過對傳染病相關數據進行多維的分析,分析出存在有利用價值的數據和信息,供用戶參考。
在“十四五”規劃中已經明確提到“要加快建設國家政府數據統一開放平臺,推動政府信息系統和公共數據互聯開放共享”。組織建設現代化經濟體系離不開大數據發展和應用。推動實施國家大數據戰略,加快建設數字,更好地服務于經濟社會發展和人民生活改善。運用大數據促進保障和改善用戶體驗,要堅持以用戶為中心的發展思想,強化服務,彌補短板,推進緊急突發事件如傳染病、災難等領域大數據普及應用,深度開發各類便民應用。
因此對傳染病大數據的可視化分析,極大地契合了“推進大數據普及應用”的相關政策,也能夠針對我國未來的突發疫情事件提供良好的基礎和經驗,因此具有良好的政策支持。
互聯網與大數據技術等新興信息技術的快速發展,深刻地影響著制造過程,改變了制造過程中人與人、人與組織、人與資源等交互方式,呈現出過程協同化、方式個性化、資源全球化、數據多元化、產品服務化等特點。因此,良好的大數據應用能夠大幅度的較少人力物力,提高生產生活效率,節約資源等,對經濟發展有著不可估量的意義。
情信息分析領域,傳染病大數據分析可視化能夠將傳染病數據以圖表的方式直觀地展現 ,使得衛健委部門能夠根據圖表獲取傳染病的發展特征,并根據分析結果提前做出應對措施,能夠有效緩解各種大型感染事故的發生,減少人力物力。
傳染病信息領域大數據的普及和應用,人們出行能夠有選擇性的選擇出行時間和地點、避開傳染病疫情較為嚴重的地區和時間節點等方式來大幅度減少出行所需要遇到的風險、選擇更加科學等,極大的增加了居民的安全感。
傳染病數據分析共分為全國傳染病數據分析、州傳染病疫情數據分析、縣傳染病疫情數據分析三大模塊。
全國傳染病數據分析: 該模塊主要從數據庫中調取國家的整體傳染病疫情相關數據,然后對數據進行拆選、清洗從而生成各個數據庫,系統可以通過各種數據庫來對整體的用戶情況進行分析,能夠方便地計算分析各種功能展示所需要的數據集合,從而根據數據經計算得出我們想要展示的圖表,幫助廣大用戶針對出行進行分析決策。
州傳染病疫情數據分析:該模塊對指定國家各洲傳染病疫情數據進行詳細分析,通過確診率、病死率、死亡率等數據分析傳染病疫情發展趨勢,通過檢測情況、治愈情況分析各州傳染病應對水平等。
縣傳染病疫情數據分析:該模塊對指定國家各縣傳染病疫情數據進行詳細分析,使用基于經緯度-確診人數傳染病疫情風險評估模型對指定縣區周圍地區的 風險進行評估。通過累計確診人數、累計死亡人數、現有確診人數等數據分析傳染病疫情發展趨勢。
三大模塊邏輯關系如圖1所示。

圖1 三大功能模塊邏輯關系圖
由全國整體的感染人數、死亡人數、治愈人數分別計算得出全國截止日期的感染率、死亡率、治愈率,分別以餅狀圖形式展現,其中:

計算、獲取全國截止日期近30天內每日的新增確診人數、新增死亡人數,并分別以柱狀圖、曲線圖的形式進行展現。從圖中可以觀察到全國近一個月傳染病疫情的發展趨勢、了解全國傳染病的嚴重程度。

圖2 全國整體傳染病感染數據比例圖

圖3 全國單月數據趨勢圖
從前端可視化界面中選擇某一州,獲取該州所有確診患者的治療情況,分為治愈、死亡、治療中三種情況,通過餅狀圖的方式展現該州的治愈人數占比和死亡人數占比,直觀體現各州應對傳染病疫情之類的緊急事件的醫療水平。

圖4 指定州治療情況比例圖
從前端可視化界面中選擇某一州,獲取該州近段時間確診率、死亡率、重癥率,以曲線圖形式展現。通過三種不同數據的時間變換,用戶能夠了解該州感染情況是否惡化或改善。
本文通過增長因子評估指定傳染病疫情的增長趨勢,其中增長因子GF計算公為為:

其中,?Cn為第n天新增確診的人數(第n天確診人數-第n-1天確診人數),增長情況分類如下:

圖5 指定州感染數據時間變化圖

GC=1代表“爆發”增長態勢,GC=-1代表“停滯”增長態勢,GC=0代表“波動”增長態勢。(使用論文)

圖6 指定州增長態勢識別圖
通過使用基于經緯度-確診人數的風險評估模型,對指定縣周圍縣區的風險程度進行評估,當風險程度越高,周邊縣區所代表的圓圈則會越大,并且會顯示具體的風險程度數據。

圖7 指定縣周圍地區風險圖
6.1.1 模型概述
為獲取指定地區周邊地區的傳染病疫情狀況,本文提出了基于經緯度-確診人數的傳染病風險評估模型。該模型通過檢索指定城市一定范圍內的城市,獲取范圍內城市的經緯度坐標,通過經緯度坐標計算出指定城市到各個城市的距離,并獲取各個城市的確診人數,對各個城市的確診人數和各城市到指定城市的距離進行線性變化和加權,最終得到傳染病風險指數。
6.1.2 計算方法
獲取指定城市經緯度A(WA,JA),同時獲取該城市一定范圍內的所有城市,計算各個城市B(WB,JB)到該城市的距離,計算公式如下:

從數據庫中讀取指定城市和各個城市的確診人數R。
使用計算獲得的距離和確證人數,進行線性變換和加權,得到各個城市的傳染病疫情風險指數Pn:

從前端可視化界面中選擇指定州的指定縣,獲取該縣近段時間累計確診人數、現有確診人數、累計確診人數,以曲線圖形式展現。通過三種不同數據的時間變換,用戶能夠了解該縣感染情況。
隨著現代科學技術的發展,信息數據的急速擴增,人工智能時代的來臨,數據就是價值的觀念逐漸得到認可,大數據分析技術更是飛速發展。傳染病數據的分析通過對傳染病疫情期間各個地區的感染數據進行計算與可視化,使用了批處理技術,并且滿足實時性要求,能做到秒級更新數據,具體頁面可視化效果好。同時,使用了增長態勢識別技術和基于經緯度-確診人數的傳染病風險評估模型對傳染病疫情數據進行更為精準、直觀的呈現。