林仁華,徐文品,李涵通,徐 卉
(南京審計大學 金審學院,江蘇 南京 210023)
2020 年,歐洲和美國的新冠肺炎疫情暴發。 由于這些國家采取了消極的抗擊疫情政策——自然免疫法,病毒傳播速度極快,導致疫情在這些國家大規模暴發。 截至2020 年11 月27 日,美國新冠肺炎累計確診病例超過1 300 萬例,累計死亡264 624 例,是全球累計確診病例數和累計死亡病例數最多的國家。 隨著國際新冠病毒感染人數不斷增加,國內防疫壓力不斷增大,并且隨著秋冬季節的來臨,國內不斷有地區也出現或零星或聚集性病例。 目前查找密接人員的工作主要還是靠大數據篩查和各單位登記篩查。
本系統以美國新冠肺炎疫情發展為研究對象,分析美國各地區疫情病例發展現狀,并通過Logistic 模型建模,分析預測美國新冠肺炎發展趨勢[1]。
隨著2019 年國內疫情暴發到全球大規模暴發,國內和國外許多學者都進行了預測分析。 匡征凌、匡遠鳳等人通過構建傳染病動力學SEIR 模型對日韓新型冠狀病毒肺炎疫情預測分析出日韓當前疫情發展情況和拐點日期。 陳茜茜等[2]用試驗試件鈉膜厚度與試驗試件表面粘鈉量、350℃鈉密度、試驗試件粘鈉表面積對意大利新型冠狀病毒肺炎疫情進行多次擬合預測分析。 王志心等[3]采用數學建模,通過機器學習,對國內各省預測分析,能夠準確預計各省最終確診人數所占比例。 丁中興等[4]考慮隔離措施之后構建SEIAQR 模型動力學模型對湖北省武漢市的發病人數及死亡人數進行預測分析,能夠準確地預測疫情趨勢。
本系統所用數據來源于中國軟件杯a10 賽題提供的測試數據,將其經過一定規則的大數據清洗后存入數據庫中以供調用。
Logistic 函數是一種常見的S 型曲線函數式。

本系統利用Logistic 函數建立美國新冠病毒感染人群的發展趨勢模型[5]。 如公式(1):t 表示時間;P0表示初始確診人數;K 表示疫情峰值,即疫情最高峰累計確診人數;r 表示增長率。 在傳統Logistic 函數曲線中,r 值可以衡量曲線變化的快慢,針對新冠疫情,該函數曲線中的r 值表示疫情到達峰值的速度。 如果r 值較大,疫情將很快到達峰值,表示一個國家在疫情期間采取強力有效的措施,比如醫院收治迅速、集中隔離等;反之,疫情到達峰值的時間較長。 因此,r 值的大小可以衡量一個國家面對疫情采取措施的效率,社會面對疫情的整體能力,群眾面對疫情的態度。 通過分析一段給定時間的美國某地疫情數據,得到一系列日期所對應的感染人數,以Logistic 模型為基準擬合出一條曲線,通過sklearn 的誤差計算,調整參數來使擬合度提至最高,即得到一條最符合預測預期的疫情發展曲線。在曲線上通過Numpy 包計算出增長率開始降低的唯一點,確定其為拐點并提取拐點相關數據。
2.3.1 系統具體設計
系統流程如圖1 所示。 本網頁搭建主要基于Python 語言的Django 框架,Django 是一個開放源代碼的Web 應用框架,由Python 寫成。 采用了MTV 的框架模式,即模型M,視圖V 和模板T。 其最初是用于管理勞倫斯出版集團旗下一些以新聞內容為主的網站,即CMS(內容管理系統)軟件。 系統主頁面如圖2所示。

圖1 系統流程

圖2 系統主頁面
2.3.2 大數據清洗
本文所使用的大數據清洗技術為Pandas。 Pandas是一個開放源碼,BSD 許可的庫,提供高性能、易于使用的數據結構和數據分析工具。 Pandas 名字衍生自術語“panel data”(面板數據)和“Python data analysis”(Python 數據分析)。 一個強大的分析結構化數據的工具集,基礎是Numpy(提供高性能的矩陣運算)。 可以從CSV,JSON,SQL,Microsoft Excel 等各種文件格式導入數據;可以對各種數據進行運算操作,比如歸并、再成形、選擇等,還有數據清洗和數據加工特征。
詳細清洗規則如圖3 所示:(1)用戶選擇具體日期,系統反饋出該日美國的整體疫情信息數據以及數據分析。 (2)用戶選擇地圖類型,系統反饋出其所選的美國疫情地圖信息。 (3)用戶選擇美國具體城市,系統反饋出該地點的疫情信息及預測疫情走向。

圖3 清洗規則
查詢結果如圖4 所示,根據預測結果可以看出,對紐約疫情的確診人數數據預測大致與實際相同。 確診人數大致呈上升趨勢,自2020 年3 月1 日至5 月18 日紐約疫情確診人數在4 月11 日達到拐點,并在此日之后上升曲線開始趨于平緩,但還是在不斷上升。 在疫情暴發的25 天后,預測曲線逐漸與現有確診人數重合,說明Logistic 回歸函數適合對于該疫情的合理預測,而在5 月18 日紐約疫情達到峰值,有將近2.1 萬人確診新冠病毒。

圖4 查詢結果
本預測系統在疫情暴發初期能有很好的預測分析能力,通過擬合累計確診病例和累計死亡人數,能夠得到較好的擬合結果。 為了方便觀察美國各地疫情信息,本系統將各個地區的人數疫情信息和預測數據分別展現出來。 實際工作過程中,因部分感染者不能被及時發現、上報等各種因素會導致預測誤差,所以預測結果會呈現“先高后低”的現象。 這也反映出美國政府措施不夠落實到位,美國人民對待疫情的不夠重視。為了預防疫情的進一步暴發,我們應該提前做好防疫措施,正視疫情。