張 喆 楊 松 王 寧 崔 涵 肖春濤 柯惠新
自2019年底新冠肺炎(COVID-19)疫情爆發以來,持續時間長,波及范圍廣,對全世界的政治經濟形勢以及人民生產生活造成了巨大影響,并將持續下去,時間也難以預測,影響深遠。根據世界衛生組織(World Health Organization)官方網站(https://www.who.int/emergencies/diseases/novel-coronavirus-2019)公布的數據,截至2020年6月10日,已有216個國家和地區報告確診病例,全球累計確診病例達到7145539例,累計死亡病例達到408025例。多國政府都高度重視疫情防控,采取了不同類型的防控措施,多國科研人員利用 SIR(Susceptible Infected Recovered Model)等傳染病動力學模型,對疫情發展趨勢進行模擬和預測,對理論研究和疫情防控具有重要意義,并起到了積極作用。各項防控政策的頒布和疫情趨勢模型的擬合仿真都離不開實時和準確的數據支撐,因此本文梳理和匯總與疫情相關的數據發布平臺,根據各平臺的優勢和不足,提出了與疫情相關的數據集成共享的平臺搭建設想并付諸實踐,目的是給全社會提供時效性強、便于使用又獨具特色的數據倉庫。
關于疫情數據,從數據發布來源和數據指標選取兩個角度來梳理。對我國而言,主要數據來源是中華人民共和國國家衛生健康委員會和各省、直轄市、自治區的衛生健康委員會,各級機構每日都會定時在“疫情通報”中發布前一日的“新型冠狀病毒肺炎疫情最新情況”,提供全國、省(直轄市、自治區)和市(區)三級疫情數據。數據源為官方機構,數據嚴謹,具有權威性,發布的指標有累計值和新增值,指標選取包括確診病例、疑似病例、重癥病例、死亡病例、治愈病例、醫學觀察病例(密切接觸者)和追蹤密切接觸者。隨著疫情防控形勢的變化,從2020年3月4日起,還公布境外輸入性病例的確診、疑似、重癥、死亡和治愈的情況;從2020年2月6日起,增加現有確診病例指標,計算公式為:現有確診人數=累計確診人數-累計治愈人數-累計死亡人數。從3月31日起,開始公布無癥狀感染者接受醫學觀察的情況。
在國家衛健委每日發布的“新型冠狀病毒肺炎疫情最新情況”中,還包含香港特別行政區、澳門特別行政區和臺灣地區的確診、出院和死亡病例數據。1月22日開始,港澳臺各有1例確診病例。國家衛生健康委員會和各省、直轄市、自治區的衛生健康委員會通常都是以新聞稿的形式發布,截圖如圖1—圖4(選取重慶、甘肅和內蒙古為代表):

圖1 國家衛生健康委員會新冠肺炎疫情通報截圖

圖2 內蒙古自治區新冠肺炎疫情通報截圖

圖3 重慶市新冠肺炎疫情通報截圖

圖4 海南省新冠肺炎疫情通報截圖
對世界其他國家和地區,主要數據來源是世界衛生組織(World Health Organization)官方網站,其中包括全球已報告有確診病例國家和地區的疫情數據。截至2020年6月10日,已有216個國家和地區發現確診病例。官網數據每日更新,包含指標有累計確診和死亡病例、每日新增確診和死亡病例,共計四項,同時在官網上有對數據可視化展示圖。世界衛生組織還會根據疫情防控需要,不定時發布通報,指導各國政府更新現有搜集的數據指標,例如世衛組織總干事于2020年5月15日在COVID-19疫情媒體通報會上指出,在記錄病例時,收集按年齡和性別分類的數據。世界衛生組織網站信息截圖如圖5:

圖5 世界衛生組織數據發布平臺截圖
從上面梳理的數據來源可以看出兩個基本問題:第一,數據發布機構分層級。對中國而言,既有國家衛生健康委員會公布的全國匯總數據,也有各地區衛生健康委員會發布的數據;對于世界各國或地區而言,從世界衛生組織獲取的數據更多是基礎性數據,公布的數據指標相對簡單,想要獲得更詳細的數據,還需要從各國或地區的疾病預防控制中心(Centers for Disease Control and Prevention簡稱CDC)獲得。第二,數據差異和不合理現象。國際疫情形勢變化很快,對于同一指標,通過對比來看可能由于發布時間和發布機構的不同,或者指標口徑的不同,會出現數據差異較大的現象,同時由于各國核增核減、重報誤報,還存在數據不合理等現象。因此需要整合現有數據來源,根據疫情變化和研究需要構建科學的數據資源平臺,現將已有的數據平臺匯總如下:
國內主流媒體每日會根據已有的疫情數據,采用不同的展現形式向外界報告疫情變化情況,影響力較大的有人民日報和新華社的疫情發布平臺。
人民日報公眾號會在早上9點左右發布我國最新疫情信息,在晚上6點左右發布全球疫情情況。對我國疫情信息的發布,數據來源主要是國家衛生健康委員會,人民日報發布特色是重點突出兩項數據,分別是新增確診病例和新增無癥狀感染者(截圖見圖6、圖7);對全球疫情的發布,數據主要來源于世界衛生組織,數據綜合度強,有一定的權威性,通過比較可以看出數據比較合理。其特色是采用花瓣圖形式展現各國確診和死亡病例的情況,通過顏色和排序形象反映各國疫情情況(如圖8)。

圖6 人民日報公眾號報道國內新增確診病例

圖7 人民日報公眾號報道國內新增無癥狀感染者
新華社早上9點左右會在其公眾號發布我國最新疫情信息,在中午12點左右發布全球疫情情況。對我國疫情信息的發布,直接引用國家衛生健康委員會信息;對全球疫情的發布,數據來源于世界衛生組織,其特色是采用直方圖的形式反映各國疫情情況,通過顏色和矩形長度形象反映各國疫情情況(如圖9)。

圖8 人民日報公眾號花瓣圖

圖9 新華社公眾號直方圖
國內部分互聯網公司借助其自身優勢,建立疫情實時大數據平臺,例如百度、網易、騰訊等,數據庫包含國內疫情、國外疫情、實時播報、權威發布等欄目,可以快速獲取國內各地區的累計確診、累計死亡、累計治愈、現有確診、無癥狀感染者等情況,同時自動呈現可視化走勢圖,其優勢在于能夠及時公布防控最新動態和相關新聞,同時發布一些防護知識(如圖10—圖12)。

圖10 百度疫情實時大數據界面截圖

圖11 騰訊疫情實時追蹤界面截圖

圖12 網易疫情實時動態播報界面截圖
3.相關機構數據平臺
目前有醫療領域的企業和海外留學機構,借助其行業優勢,建立疫情數據信息平臺,例如丁香園和一畝三分地。這兩家數據平臺都包含國內和國外疫情的基本統計數據,丁香園信息平臺的特色是發揮醫療優勢,開辟辟謠與防護、疾病知識欄目,從中可以了解一些傳言的真假,同時獲取病毒防治方面的指導。一畝三分地信息平臺的優勢在于借助海外資源,發布美國關于檢測數據和檢測地點方面的信息以及住院總人數的信息(如圖13—圖14)。

圖13 丁香園疫情實時動態播報界面截圖

圖14 一畝三分地疫情實時動態播報界面截圖
約翰斯·霍普金斯大學(Johns Hopkins University)系統科學與工程中心,借助ArcGIS在線交互地圖技術,制作COVID-19動態地圖。由于上線時間早、數據更新速度快等原因,其影響力較大。優勢在于數據更新及時,且非常完整(各國,中美兩國的各省或各州),數據指標多(有住院人數和檢測人數);數據平臺界面設計友好,數據模塊大致分為三部分:第一部分是各國的累計確診病例數,按照病例數降序排列,還可查看各國省(州)的對應數據;第二部分是各國的累計死亡和治愈病例數,也按照病例數降序排列;第三部分是美國的累計檢測和住院總人數。界面中間為可視化地圖信息,點擊地圖中的不同國家,可以顯示該地區的疫情數據情況,數據存儲在GitHub(https://github.com/CSSEGISandData/COVID-19)(如圖 15)。

圖15 約翰斯·霍普金斯大學疫情信息發布截圖
關于疫情數據的分析平臺,有研究團隊建立網站或者利用GitHub平臺發布數據和分析代碼。加州大學伯克利分校郁彬教授團隊建立了預測美國各縣和醫院疫情嚴重程度的數據平臺,網站域名為https://covidseverity.com/,這個網站以交互可視化的形式提供預測數據。在GitHub上有JoachimGassen主頁中的tidycovid19數據倉庫,借助R軟件的操作包Tidyverse,tidycovid19,zoo等,完成疫情數據的可視化操作(如圖16—圖 17)。

圖16 郁彬教授團隊疫情數據分析界面截圖

圖17 Joachim Gassen疫情信息GitHub界面
從前面的分析中可以看出我國目前數據發布平臺大多基于網頁版界面呈現,包括含有數據的大段文字,圖片型原始數據和可視化圖表。由于國內學者大多使用EXCEL、R語言、STATA等分析軟件,基于國內現有的數據平臺只有采用“網絡爬蟲”,甚至經過圖像文字識別才能及時獲取,這大大增加了研究人員的工作負擔,不利于研究人員使用數據,勢必造成大量的重復工作。平臺展現可視化圖相對簡單,缺乏深層次的數據發掘工作,數據信息利用率低,沒有發揮更多的數據價值,造成數據嚴重浪費,同時數據質量是否可信也沒有統一的核驗標準,在數據分析中經常出現數據“打架”等不合理現象,例如某國累計確診病例小于前日累計確診病例數。因此,盡快搭建和完善適合我國研究人員使用的新冠肺炎疫情數據平臺,不僅意義重大而且時間緊迫。
搭建適合我國的數據平臺需要兼顧數據及時性、可靠性和統計分析職能,以下是我們“六人團隊”的一些具體做法。
在數據及時性和可靠性方面,平臺需要包含專門欄目發布數據,利用國家衛生健康委員會以及各省、直轄市、自治區衛生健康委員會每日發布的動態數據作為國內數據的發布基礎,利用人民日報公眾號花瓣圖數據和約翰斯·霍普金斯大學數據作為國外數據的主要來源。為了將國內數據與國外數據統一比較,通常選取每天18:30左右更新的數據。
數據的統計分析職能,可以通過增加新指標和指標排序等方法來發掘各國疫情的基本特征。增加死亡率、治愈率、每百萬人確診數、每百萬人死亡數、累計確診病例日增和日增速、累計死亡病例日增和日增速等。其中死亡率=累計死亡病例/累計確診病例,治愈率=累計治愈病例/累計確診病例,每百萬人確診數=(累計確診病例/總人口數據)106,每百萬人死亡數=(累計死亡病例/總人口數據)106。為保證統計意義,對于累計確診病例數低于50的國家,不做死亡率和治愈率的計算;在每百萬人確診數和每百萬人死亡數計算中,國家(地區)人口數不足百萬人時,暫不進行計算和排序,其中日增速的計算公式為(Xt-Xt-1)/Xt-1。為保證統計意義,對于累計確診數低于50的國家,不做累計確診病例日增速計算;對于累計死亡病例數低于50的國家,也不做累計死亡病例的日增速計算。同時可選取全球確診超過兩千例的國家,根據其疫情數據對累計確診病例、確診病例最大日增、累計死亡病例、死亡病例最大日增、確診病例死亡率、每百萬人死亡數和每百萬人確診數進行排序,從而發現全球和各國疫情形勢的發展規律、防控措施取得效果以及對未來疫情走勢進行預測。
增加動態可視化疫情走勢圖和指數分析圖,其中動態可視化圖可以形象地看出數據的走勢和變化;指數圖不僅能對病例增速起到警示作用,還能比較各國之間的病例增速,以及分析各國的病例增速隨時間產生變化的情況。
疫情數據集成共享平臺還要包含數據核驗功能,對疫情數據指標進行動態比較,如果出現數據問題,要能夠及時反饋原因并進行提示預警。一方面保留原始數據,真實展現,另一方面采用注解和標注“?”的方式,引起數據使用者的重視。例如2020年5月27日法國累計確診病例數發生錯誤,小于前一日的數值;又如2020年4月17日武漢市發布的數據,截至4月16日24時,確診病例核增325例,確診病例的死亡數核增1290例,這些錯誤或者變化要第一時間告知數據使用者。
搭建數據平臺需要穩定的載體,根據國內受眾的偏好可以選擇建立微信公眾號或者GitHub平臺等模式;原始數據的后臺數據庫、存儲和分析平臺可以選擇百度云盤或者騰訊微云等云端平臺。數據發布平臺載體的選擇可以按照數據規模、受眾人群和影響程度分批次推進,開始階段可以利用微信群發送數據匯總EXCEL表的方式提升數據影響度;隨著數據量增加和受眾人群增加,關注度和影響力直線上升,對數據的要求越來越高,要求時效性強、便利簡單易取,甚至要求對數據文件定時必有,隨開隨用,此時須建立疫情數據微信公眾號,兼顧數據搭載和數據分析。由于微信公眾號受到審核制度等限制,有時會出現不穩定現象,因此可選擇GitHub作為數據倉庫用來數據備份和分析代碼分享的平臺,同時方便海外學者下載使用。數據存儲使用CSV格式,且表格格式盡量固定,可提升研究人員建模使用效率。
根據前文梳理的平臺搭建邏輯,遵循為研究者深入分析提供最完整的數據、為公眾快速清晰了解疫情提供便利,讓數據說話,用數據科學防控、讓數據產生研究價值的初衷,我們從疫情開始就展開數據收集、整理、分析和發布共享工作,經歷了數據指標不斷優化、展示內容不斷豐富、展示形式逐步美化和數據發布平臺不斷改良的過程。到目前我們選擇的數據集成共享模式為微信公眾號(“六人團隊”微信號:gh_ca4218923bda)推送和 Github(https://github.com/zhestat/Covid-19-data)備份存儲的模式,微信公眾號帶更新日期的標題和全球疫情關鍵數據,包含內容有全球疫情數據、新冠疫情數據可視化、人民日報新媒體全球疫情每日花瓣圖發布數據和全國疫情每日數據等核心板塊,充分利用統計圖表的形式進行展示,每日中午12點之前對外發布前一日的疫情變動情況。
第一部分是全球疫情數據。基于約翰斯·霍普金斯大學發布的世界188個國家(地區)郵輪疫情數據,從累計確診、累計死亡和累計治愈三個指標展現疫情基礎數據情況,數據按照累計確診病例數降序排列,同時還包含我國各地區的累計確診、累計死亡數據和現有確診病例數據,美國各州的累計確診、累計死亡數據,美國累計檢測和住院總人數。數據分析層面包含死亡率、治愈率和每百萬人確診數,累計確診病例日增和日增速排名前20名的國家,累計死亡病例日增和日增速排名前20名的國家,以便了解每日疫情變動情況。數據庫中數據截圖如圖18和圖19(由于篇幅原因,只截取部分數據):

圖18 全球疫情數據庫基礎數據構成界面截圖

圖19 全球疫情數據庫分析數據構成界面
第二部分是疫情數據可視化展示。一是根據第一部分搜集整理的基礎數據,利用動態條形圖Racing bar展示從2020年3月20日開始到報告日的全球累計病例前十名國家的演變情況,讓數據直接、形象地呈現(如圖20);二是累計確診病例增速比較的指數圖①考慮到有些用戶可能對指數圖不太熟悉,在指數圖發布的前期,我們也提供有關指數圖的科普文音,并將當日數據分別做出指數圖和非指數圖作比較,解釋指數圖的功用,輔助用戶解讀每日發布的指數圖。。我們每天會把世界上的國家和地區按照每百萬人確診數從多到少分成五類,然后從每類中抽取1個國家制圖(如圖21)。除此以外,我們還為使用平臺的研究者提供點播定制服務,以增加研究者之間的交流探討,每日會根據研究人員在平臺發布的做圖需求留言點播,挑選出若干組國家繪制指數圖(如圖22)。為了輔助理解,指數圖中提供虛線輔助線,直觀地表現出確診病例每幾天翻倍一次,以揭示病情爆發的激烈程度。

圖20 累計確診病例數前十名動態圖界面

圖21 累計確診病例增速比較的指數圖界面

圖22 研究者點播樣式圖
第三部分是人民日報新媒體全球疫情每日發布數據。選取人民日報新媒體的花瓣圖作為圖形展示,根據人民日報海外版網站等信息源匯總世界各地有關疫情方面的新聞,根據數據匯總全球確診超過2000例國家的疫情特征信息,截圖如圖23(由于篇幅原因,只截取部分數據)。從數據表可以看出,確診病例死亡率全球平均6.11%,有15個國家大于平均值,可部分說明確診后治療狀況不佳;每百萬人口確診數全球平均約775人,有43個國家大于平均值,可部分說明防控措施不到位;每百萬人口死亡數全球平均約47人,有30個國家大于平均值,可部分說明疫情綜合程度嚴重。

圖23 全球確診超過2000例國家的疫情信息界面
第四部分是全國疫情每日數據,根據國家衛健委的全國疫情日報匯總全國31個省(自治區、直轄市)和新疆生產建設兵團疫情數據,制成表格,用于計算死亡率、治愈率和每百萬人確診數。值得一提的是,作為對從官方渠道直接收集整理信息的補充和輔助,同時為豐富平臺數據,我們也慎重選擇了一些社會機構數據發布平臺,比如百度疫情實時大數據報告,將其國內數據整理出來,并制作成表格,用來比對和研究。數據庫中數據截圖如圖24(由于篇幅原因,只截取部分數據)。

圖24 我國各地區疫情信息界面
目前該平臺數據的發布采取雙重審核制,數據整理過程中利用數據判定函數對數據基本特征進行檢查,在匯總數據庫整理好后,由平臺主管再次核實驗證,從而使數據質量得到保證。該平臺已經被中國人民大學、首都經貿大學、中國民航大學、中國傳媒大學、華東師范大學、湖南商學院、河南財經政法大學、江蘇海洋大學、西華師范大學等高校的老師和學生作為科研和授課的基礎數據來源,同時得到來自中日友好醫院和武漢大視野、河南君友商務咨詢等業界研究人員的關注。平臺日活躍人數超過500人,關注人數已超過千人,且還在持續增加。公眾號的閱讀量和咨詢留言數據不斷提升,可見其已經成為有一定影響力的數據集成共享平臺。今后,平臺除了每日數據更新之外,還會加強數據分析的深度,從預測和可視化圖方面增加研究內容,以發揮更大的數據價值。