999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的COVID-19分析

2021-07-06 11:28:38王秀友韋斯羽代雅婷彭亮高統朋
赤峰學院學報·自然科學版 2021年1期
關鍵詞:可視化疫情分析

王秀友 韋斯羽 代雅婷 彭亮 高統朋

摘 要:本文以大數據技術為基礎,對COVID-19疫情期間除湖北外其他地區的疫情數據進行采集、預處理、可視化和分析。結果顯示在疫情中,接觸性傳播為主要傳播方式,疫情的主要癥狀為發熱,為疫情防控提供科學的理論依據和重要輔助服務。

關鍵詞:COVID-19;疫情;大數據;數據爬取;數據分析

中圖分類號:TP393? 文獻標識碼:A? 文章編號:1673-260X(2021)01-0029-04

0 引言

隨著大數據技術的飛速發展,其在各個領域得到廣泛應用。特別在醫學領域,由于醫學領域的問題往往數據量巨大且數據來源廣泛,對數據實時性和實用性要求較高,大數據處理技術的發展為醫學領域特別是傳染病預測帶來了巨大改變[1,2]。2020年發生的COVID-19疫情爆發后,快速在大范圍內傳染開來,感染了大量人群。大數據技術可以為疫情提供必要的技術處理手段。疫情中,眾多專家學者對武漢和湖北省的數據樣本進行分析,對湖北省外的其他省市病例樣本信息分析較少[3]。本文利用大數據相關技術,通過爬取疫情爆發初期至2020年4月5日湖北省外的其他省市確診病例的詳細資料,針對具體的病例描述數據,將紛亂無序的數據匯集到一起,進行全面的數據處理和數據分析,以直觀形式展示疫情相關數據分析[4],預測疫情發展的動態及走勢,為疫情防控的高效決策、快速決策乃至智能決策提供了有力的基礎。

2 方案設計

本文利用爬蟲技術爬取今日頭條抗擊肺炎專題中的實時病例數據,利用大數據處理技術進行數據預處理,針對處理后的數據提供數據可視化分析。

2.1 數據爬取

本文對湖北省外全國人員的病例詳情進行數據爬取,病例樣本如圖1所示。

對數據源進行爬取時,主要流程是對請求的數據進行分析,然后對數據進行異步請求,抓取相關數據包后對抓取到的數據進行存儲,具體描述如下。

(1)數據分析:找到數據的url_base和對應的json文件url_json。對病例人員信息的url進行分析,發現url中id參數決定了爬取的城市。以安徽省合肥市某一url地址為例https://xxx.html?local_id=340100其中url中的id=340100表示合肥。

(2)請求數據:利用工具fiddler抓包確定請求類型,進行異步請求,實現一次性自動化爬取省級內各個城市數據。通過抓包獲取涉及全國疫情信息的js接口和城市id。

(3)解析網頁:利用request庫實現全國省市的封裝解析。部分地區僅有市的數據,沒有內部區的統計,導致不能實現全國一次性自動爬取。本文將爬取封裝成兩個過程,一是輸入id爬取市級數據;二是輸入省級名稱爬取全省數據。

(4)數據存儲:將對應的數據存入文本文檔中,實現自動存儲生成文本文檔。

2.2 數據預處理

由數據分析對預處理的需求,將數據需求分為三種,一是提取癥狀、性別、年齡、武漢居住史字段的相關數據;二是密切接觸人數、聚餐情況;三是發病日期、確診日期。

在數據預處理過程中,分為兩類進行處理。一是提取日期類的數據,采用時間序列技術,進行時間序列的預處理;去除無關特殊符號及字符,進行日期時間序列類的數據提取和集成規約。二是處理文本類特征字段,采用NLP處理方式;對特征字段采用Jieba分詞統計、清洗,利用N-gram語言模型進行特征提取,數據預處理流程如圖2所示。

對需求一采用表達式自動搜索特征字段,對需求二遍歷數據文本,以正則表達式中的split()模塊進行按照標點符號分割。對需求三數據的預處理則分為以下幾步。

2.2.1 數據格式預處理

將文件格式進行轉換并篩選日期,用列表推導式進行關鍵字段提取,得到每一行中存在癥狀的關鍵字段,結果如圖3所示。

2.2.2 數據錯誤修正

對預處理的數據重新排序并統計滿足需求的數據,將數據轉成csv格式。由于每行的字段數不確定,在上一個文件中設置表頭最大化,從而使數據可用pandas讀取,然后進行重新排序,缺失的值用空值填充,結果如圖4所示。

2.2.3 數據內容預處理

使用正則表達式提取癥狀或者發病、確診時間。使用split()將字段切分,定義函數提取純日期,利用map函數多次執行,結果如圖5所示。

2.2.4 數據標準化

對預處理后的數據,刪除每行空數據以及癥狀時間,使每行數據只剩下發病時間和確診時間。按行遍歷數據,通過split()和strip()函數以空格分割,再以英文逗號進行連接保存,去除多余逗號,結果如圖6所示。

在對數據進行分析時,較少的樣本量對結果分析容易產生較大誤差。本文對樣本量較少的數據進行了剔除,保留處理除湖北省數據量前十的省市數據。源病例數據量為5665條,預處理200條,實用病例5465條,具體數據如表1所示。

2.3 可視化分析

對于處理后的病例數據,本文用直觀的表格和圖片輔助數據分析,分為三個方面。

2.3.1 針對癥狀、年齡、性別、武漢居住史字段進行分析

根據不同癥狀占比情況的統計表(表2)可以看出,發熱為主要癥狀之一,占源數據的45.61%,將近一半,因此發熱可以作為判斷是否為疑似病例的一個依據。其次,患者病例中有癥狀者占比98.50%,無癥狀者占比1.50%。

根據不同年齡段占比情況的表3可以看出,年齡段在41歲至51歲的患者人數最多,占源數據的33.83%,占比率最高。

本研究針對5465例病例進行性別比例分析,發現其中男性患者的人數為2900,占比53.06%,女性患者的人數為2565,占比46.94%,說明COVID-19傳染與性別無關。

針對每個省的病例中含有長期居住、有居住史、在武漢工作、生活于武漢、路徑有武漢等含有武漢居住史的字段進行分析得出,共有2984名患者具有武漢旅居史。從中可以看出,由武漢傳播出來的病例人數普遍居多,占各省病例人數居高。

2.3.2 針對密切接觸與聚餐情況進行分析

對每個省的病例中含有與確診或高度疑似病例有直接居住生活在一起分析得出,共有2399名患者與確診或高度疑似病例有直接居住生活在一起的成員進行密切接觸行為,占總病例人數的43.89%,說明人傳人現象較為明顯。

對聚餐情況分析時,本次提取聚餐字段的關鍵詞有聚會、聚餐、有共餐史、相聚就餐等。從表6可以看出聚餐導致的病例數占各自地區總病例的比例。從圖8聚餐人數日期可以看出,疫情發生前期至1月26日聚餐情況較多,聚會、聚餐是造成COVID-19疫情傳播的重要因素。

2.3.3 疫情波動分析

本文以確診病例中患者發病日期與確診日期作為綜合評判依據,選取前十個省的疫情新增數據進行抽樣預測分析。選取全國疫情新增數據進行整體研究分析,研究真實的監測數據。

圖8是除湖北省外前十個省市新增發病人數與確診人數的折線圖,反映了疫情確診人數數據與發病人數數據隨時間的波動情況。爆發前期至2月5日是波動幅度較小的持續性增加,2月5日確診人數達到了最高333例,2月5日至2月25日是波動幅度較小持續性減少,2月25日以后是趨于平穩;發病人數的波動情況是,爆發前期至1月29日持續性增加,1月29日至2月7日是波動幅度較小的趨于平穩,但仍持續爆發,人數最高為259例,2月7日至2月25日是持續性減少,2月25日以后是趨于平穩。

圖9中的全國新增發病人數和確診人數反映了同個時間內發病人數與確診人數之間的比較情況。可見全國疫情的波動基本一致。圖中新增確診數據來自國家衛健委,新增發病數據來自今日頭條的全國病例。

2.4 可視化部署實現

基于echarts的網頁可視化展示,利用jQuery中的echarts網頁模板,將本次研究方向的圖形進行統一展示。網頁圖形主要展示了數據分析的三個方向,一是各個省市武漢居住史的病例情況和患者癥狀分析情況;二是各個省受聚餐影響占比;三是新增發病和新增確診人數雙折線圖。

3 結語

本文研究疫情爆發期間各項數據的具體情況,預測疫情高峰和持續時間,通過可視化展示疫情的動態數據及結果。隨著數據處理技術日新月異的發展,大數據在醫療方面的應用必將帶來巨大變革,利用大數據技術對重大公共衛生突發事件進行群防群控,是未來疫情防控的關鍵手段和重要支撐。

——————————

參考文獻:

〔1〕王延玲,溫明鋒,李迎新.大數據時代對醫療系統信息化發展的研究[J].當代醫學,2020,26(10):114-11.

〔2〕王秋蓉,吳亞楠,肖瀟,杜娟.人工智能:發揮抗擊疫情科技支撐的骨干作用[J].可持續發展經濟導刊,2020,38(04):18-20.

〔3〕閆雨蒙,李博,李澤宇,連博,蘇祥飛,王天園,李萍,王強,程金蓮,楊忠奇.新型冠狀病毒肺炎臨床研究和專家意見數據分析的思考與建議[J].中國中藥雜志,2020,45(07):1526-1530.

〔4〕鄔賀銓.大數據助力疫情防控[J].大數據時代,2020,36(03):26-33.

猜你喜歡
可視化疫情分析
基于CiteSpace的足三里穴研究可視化分析
戰疫情
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
隱蔽失效適航要求符合性驗證分析
抗疫情 顯擔當
人大建設(2020年5期)2020-09-25 08:56:22
疫情中的我
基于CGAL和OpenGL的海底地形三維可視化
疫情期在家帶娃日?!?/a>
37°女人(2020年5期)2020-05-11 05:58:52
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
主站蜘蛛池模板: 欧美日一级片| 国产成+人+综合+亚洲欧美| 浮力影院国产第一页| 久久99国产综合精品女同| 全裸无码专区| 在线永久免费观看的毛片| 久久香蕉国产线看观看亚洲片| 国产一区在线观看无码| 91国内外精品自在线播放| 9久久伊人精品综合| 这里只有精品免费视频| 欧美性猛交一区二区三区| 成人精品区| 亚洲av无码久久无遮挡| 国产swag在线观看| 日韩美一区二区| 国产爽妇精品| 免费av一区二区三区在线| 97se亚洲综合| 亚洲经典在线中文字幕| 成人无码区免费视频网站蜜臀| 大香网伊人久久综合网2020| 欧美影院久久| 亚洲国产日韩一区| 国产成人亚洲欧美激情| 国产美女自慰在线观看| 国产精品xxx| 久草视频中文| 女人18毛片一级毛片在线 | 男人天堂伊人网| 亚洲男人天堂久久| 欧美激情综合| 黄片在线永久| 欧美中日韩在线| 亚洲免费福利视频| 尤物亚洲最大AV无码网站| 成人精品亚洲| 亚洲最黄视频| 中文字幕第4页| 91系列在线观看| 毛片在线看网站| 国产真实乱人视频| 玖玖精品在线| 国产剧情一区二区| 一级做a爰片久久免费| 香蕉综合在线视频91| 99re热精品视频国产免费| av大片在线无码免费| 国产欧美日韩专区发布| 日韩第八页| 久久频这里精品99香蕉久网址| 99久久国产综合精品2023| 日本欧美成人免费| 999国产精品| 亚洲—日韩aV在线| 四虎永久免费网站| 欧洲极品无码一区二区三区| 精品少妇三级亚洲| 日韩成人高清无码| 97在线免费| 国产成人免费高清AⅤ| 亚洲成人免费在线| 国产精品一区二区无码免费看片| 国产精品专区第1页| 国产在线视频欧美亚综合| 国产日韩av在线播放| 亚洲精品爱草草视频在线| 婷婷综合色| 国产精品网址在线观看你懂的| 亚洲日本www| 色135综合网| 天堂av综合网| 久久精品欧美一区二区| 91美女视频在线| 1024你懂的国产精品| 青青草原国产免费av观看| 午夜无码一区二区三区在线app| 国产美女视频黄a视频全免费网站| 黄色网站不卡无码| 国产女人在线视频| 最新加勒比隔壁人妻| 91蜜芽尤物福利在线观看|