李瑩瑩
(天津工業大學 天津 300387)
近些年,各種突發事件頻繁發生。2008年的四川大地震,2015年天津塘沽大爆炸,2019年四川涼山發生森林大火,導致31人遇難,以及2019年12月在武漢發生的公共衛生突發事件,與其他突發事件不同,其存在更大的傳染性,蔓延速度快,這次疫情目前已經在全球207個國家擴散,而且有持續發展的趨勢。針對此次疫情,國內人民積極響應政府號召,自行在家隔離,同時各級政府部門以及媒體對疫情狀態進行實時更新報道,做到了信息公開,情報通暢,將應急情報體系融入到了公共衛生突發的全程。
2015年3月5日,中華人民共和國第十二屆全國人民代表大會第三次會議開幕,國務院總理李克強作政府工作報告,李總理著重強調了大數據、云計算和物聯網等與現代制造業結合等概念。隨著疫情的發展,積累了大量與病毒相關的數據,滿足大數據特點,本文利用大數據技術構建新型的應急決策情報體系,以提高應對突發事件的科學性和高效性。
大數據是一個抽象概念,一般指超出常規數據庫軟件工具所能捕獲、儲存、管理和分析的超大規模數據集。大數據技術是一種大規模的分布式模型,通過網絡將抽象的、可伸縮的、便于管理的數據能源、服務、存儲方式等傳遞給終端用戶,是一種新型高效快速獲取有效信息的能力。目前大數據技術得到廣泛的使用,例如將大數據儲存技術運用到煤礦應急管理中,成功地提高了煤礦企業現有信息系統構架的海量數據存儲及處理性能;此外,將大數據技術成功運用到智能電網中,將模糊的電網數據清晰化,對數據進行降維,并根據數據項彼此之間的關聯性有選擇地向業務部門或用戶提供有效信息,提高了智能電網的運作速率。
公共衛生突發事件指由于感染新型呼吸道病毒而引發的大規模的、具有傳染性的、需要緊急采取措施應對的事件。目前已經具有全球大流行的特征。2020年1月20日鐘南山做出判斷,該病毒具有人傳人的特性。2020年1月30日世界衛生組織將新型呼吸道病毒疫情列為突發公共衛生事件。
全球著名管理咨詢公司將大數據定義為:無法在一定時間內使用傳統數據庫軟件工具對其內容進行獲取、管理和處理的數據集合。從技術方面來看,大數據技術在處理數據方面包括五個步驟:數據采集、數據預處理、數據分布存儲、數據分析和數據應用。新冠肺炎突發事件應急情報體系的建立需要從這五個方面出發進行建立,每個步驟都涉及到相應的大數據技術。
大數據采集技術就是對數據進行ETL操作,通過對數據進行提取、轉換、加載,最終挖掘數據的潛在價值,然后提供給用戶解決方案或者決策參考。大數據采集通常利用以下三個系統:(1)系統日志采集系統。對公司的業務平臺每天產生的大量的日志數據進行采集、收集,常用的日志收集系統有Flume和Scribe,然后進行數據分析,挖掘公司業務平臺日志數據中的潛在價值。(2)網絡數據采集系統。本文是通過爬蟲技術從網站上獲取數據。(3)數據庫采集系統。可以使用傳統的關系型數據庫MySQL和Oracle等來存儲數據;也可以使用Redis和MongoDB進行數據采集。
主要完成對已接收數據的辨析、抽取、清洗等操作。(1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。(2)清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。本文基于新冠肺炎突發事件特點,采用Wrapper技術,由一個中間件和多個包裝器組成,每個數據源對應一個包裝器,包裝器對特定數據源進行了封裝,將其數據模型轉換為系統所采用的通用模型,并提供一致的訪問機制。
大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。本文考慮到突發事件的緊急性和嚴重性,采用Ha-doop的分布式文件系統(HDFS),它能有效的優化存儲、計算融入存儲。
大數據技術能夠將隱藏于海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。本文采用可視化技術進行數據應用,數據可視化無論對于普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓民眾了解到事件帶來的直接結果,更利于事件向好的方向發展。在我國,大數據將重點應用于以下三大領域:商業智能、政府決策、公共服務。在此次的新冠肺炎事件中,該項技術得到很好的應用。
隨著事件的發生,利用爬蟲技術進行信息采集,主要得到以下四個信息。首先是基本信息,關于事件的基本情況,其次是歷史數據和實時數據,從數據庫查看是否有類似的事件,患者數量,傳染率在數據上是否有相同之處。最后及時統計現場信息,患者的狀況,醫生給出的診斷進行匯總。
利用信息資源層,將收集到的信息采用Wrapper技術進行抽取凈化,以獲得有效數據。該層被稱為數據的凈化工廠。Wrapper技術可以將每一個數據源進行識別,通過篩選除去重復多余、內容無關的信息,填補格式殘缺的數據,將形成的文字、聲音、視頻數據模型轉化為計算機系統識別的通用模型,同時將同類型的二維碼數據源對應包裝器進行封裝形成數據塊,傳遞給數據儲存層。
經過數據轉化層,利用HDFS儲存的數據分為三類:突發事件數據庫、應急決策信息庫和實時監測數據庫。突發事件數據庫用于儲存突發事件發生時產生的信息數據,主要指突發事件發生時處于事件突發現場的患者及正常人員通過五官感受以及相關專業人員診斷進行的數據收集,可為視頻、文字、聲音等內容。應急決策信息庫主要提供決策指揮的基本判斷模型和風險等級識別計算方法。實時監測數據庫該數據庫每天隨時進行更新,更新內容包括安全系統監測數據、監控系統監測數據、設備設施產生的數據、全國各省每天的確診及疑似數據。
決策構建層在整個應急決策情報體系構建中十分重要,通過前面數據的收集、處理和存儲得到的有效數據,利用先進的Map Reduce數據挖掘技術,分析出風險潛在的發生概率、風險潛在的破壞程度兩個方面信息。另一種是發生突發事件的特殊情況,通過MapReduce技術在短時間內進行風險識別并提供風險評估和提供應急救援參考意見,其中應急救援參考意見包括現場預計傷亡人數及財產損失、相關專家人員、可采用的救援應急物資料、相關負責部門機構等應急救援基本情況。在此次新冠肺炎事件中,專家們及時做出武漢封城的決策極大的降低了病毒的傳播和財產損失。
利用可視化技術及時進行有效信息的傳遞以及采取措施應對。有效信息傳遞主要指將風險識別等級數據、風險評價程度數據通過大數據可視化技術的人機交互界面,以圖像文字的形式出現在計算機顯示屏上,給決策構建層領導人提供決策參考;并根據現場反饋信息進行實時更新,便于制定最合理的應急救援方案。這一過程極大的提高了決策的有效率以及應對措施的準確性。
經過此次疫情,我國的國際地位得到認可,各國在得到中國幫助的同時充分感受到了中國強大的危機管理能力。但是隨著社會的發展,國際合作也會越發頻繁,因此應對突發事件的應急決策情報體系將面臨更大的挑戰。通過一系列的突發事件應急處置過程的效果可看出,目前的應急決策情報體系存在諸多問題,尋找新型高效的應急情報體系迫在眉睫。本文根據新型冠狀肺炎突發事件特點,基于當下大數據背景環境,以大數據技術為基礎,構建了一套全新高效的應急決策情報理念體系,解決了目前臨時性決策情報體系的不足。該應急決策情報體系具有以下特點:
(1)從各類醫療網絡資源,醫學數據庫中收集各類已發生的公共突發事件的特征,利用大數據技術,科學準確地判斷出事故風險等級并將最優應急預案提供給決策者。
(2)將各類突發事件的信息,尤其和醫學相關的各種病癥錄入計算機系統,從而改善信息傳遞過程中的不穩定以及不準確的情況。計算機和人直接匹配,例如,當醫院出現大量此類病例時,計算機可以及時進行統計給出數據,方便醫生采取正確高效的應對措施。
(3)利用大數據技術的高效收集與分析能力,避免了應急情報信息收集不完整、不準確的情況。當下大數據發展迅速,我國已經進入大數據時代,利用大數據技術進行應急決策情報體系的建立,可以為應急決策情報軟件系統的開發提供理論參考依據,同時更能為整個應急管理工作尋找到新的方向與思路,使得我國應急管理工作上新臺階。