彭丹妮

杜鴻儒(左)與董恩盛(右)
一張黑底、紅點,左右兩側列著各國新冠肺炎確診、死亡和恢復病例的地圖,成為近來一些國際新聞的背景圖片。美國副總統彭斯去衛生部視察時,美國衛生部就用這張地圖監測全國病例,意大利總理、德國內閣開會時,身后電子屏幕也正在依靠這張地圖展示疫情實時情況。
這個數據地圖由美國約翰·霍普金斯大學系統科學與工程中心(CSSE)一年級博士生董恩盛等人發起并維護。最初,他只是想要通過追蹤數據來觀察一場疫情從生到死的整個過程,用這些數據作為他研究疾病的工具,如今,這個每日點擊量超過10億的網站,已經成為多國政府高層、公共衛生學者和主流媒體引用最多的疫情數據來源,更新和運營這個網站成了董恩盛的“主業”。
1月21日寒假過后,在一次博士生組會上,董恩盛的導師、系統科學與工程中心副教授勞倫.力口德納和大家聊起新學期的計劃,聽說中國的新冠肺炎很嚴重,便問董要不要做個數據儀表板?
董恩盛的研究方向是疾病模型,也就是用數學模型和計算機代碼來解釋一些流行病學、公共健康方面的問題,對全球流行病的發展趨勢做基本的判斷和推測。當時他已經在搜集數據準備做這個事情了,兩人一拍即合,七八個小時后,第一版疫情可視化地圖就做好了,1月22日,這個網站便正式面世了。
去年五六月份的時候,董恩盛與勞倫·加德納便在另一個流行病風險性分析項目中做了一個類似的數據可視化地圖,當時引來一些美國主流媒體的報道。所以,他說技術思路上是比較成熟的,很快就能調試上線;另一方面,由于他的中文優勢,去中國國家衛健委上面抓取數據即可,所以早期團隊在中國疫情上比全球其他一些數據來源更及時。
起初幾天,數據都靠他手動整理,每天最多能保持4-5次更新。2月1日之后,這種方式變得不可持續,于是項目轉為半自動化更新:中國的疫情數據來自丁香園的自動更新,而其他國家的數據依然需要人工審核。為了發現各國新增病例,他們的監測渠道包括世界衛生組織(WHO)、推特、新聞報道、地方衛生部門提供的數據等等。這一階段,另一個博士生杜鴻儒也加入到數據收集和圖表的制作中來。
到了3月初,這個數據小組將美國疫情信息具體到縣一級層面。“因為美國郡縣大概有3000多個,再加上世界上有200多個國家和地區,人工完成非常吃力。”董恩盛說,于是小組招募了一些志愿者,把人員分了很多組,有的組負責國外,有的組負責美國國內不同地區,然后24小時不間斷地發布最新數據。
2月19日,董恩盛、杜鴻儒與勞倫·加德納發表在《柳葉刀》雜志上的文章介紹了這項工作。文章對比了約翰·霍普金斯大學系統科學與工程中心、WHO和中國疾控中心的數據報告。結果發現,他們的病例數據與后二者報告一致,而且他們在捕獲新國家或地區中首次報告的COVID-19(新冠肺炎病毒)病例上更加及時。
這個過程中還有很多具體的困難。比如,2月中旬部分“鉆石公主號”郵輪旅客撤回到美國。由于患者具體位置不明,他們就選擇了將點標記在美國相對的地理中心——堪薩斯州。但有些美國人放大地圖,最后發現這個點落在他們小區上,以為自己小區竟然有病例,便層層上報,后來學校讓他們趕緊調整一下,于是標記點暫時放回了日本橫濱港。
如何統一好數據的定義也是個問題。雖然用戶看到的是“確診病例”“死亡人數”這些標簽,但團隊實際面對的卻是各國甚至同一國家對于這些概念不同的定義。

萋國副總統彭斯到衛生部視察時.背后的大屏幕就是文中的疫情圖
在線科技出版物Digital Trends3月28日發表文章《最可靠的新冠肺炎疫情儀表板》,其中提到六種可視化疫情數據通報平臺,約翰·霍普金斯的這套系統獲得最高評價。原因是該平臺“可視化設計最好,導航明晰、閱讀方便,且是六個平臺中更新最頻繁的。”
美國疾控中心(CDC)也是其中一個平臺。不過,該網站標注:該頁面從周一中午至周五定期更新,顯示的數據為截至前一天下午4時的統計結果。另外還有文字提示:CDC與各州和地方的公共衛生部門報告的病例存在差異,各州通報的病例為最新數據。董恩盛說,疫情早期CDC的數據精度比較低,它只是報告每個州病例數量范圍。這樣的運作模式使得CDC的數據可視化不如約翰·霍普金斯大學的這個數據項目受歡迎。
在3月6日于華盛頓國會山舉行的一場簡介會上,勞倫.力口德納介紹,這個儀表板受到關注有一段時間了,現在平均每天點擊量為10億,最高峰一天點擊量達20億。其間有過幾次高峰,例如,當意大利疫情暴發時,許多意大利民眾涌入網站,意大利用戶數超過了美國。
由牛津大學創立的“用數據看世界”網站解釋,他們在監測全球各國新冠肺炎疫情數據時,最初參照3個數據源:世衛組織、歐洲疾病預防控制中心(ECDC)以及霍普金斯大學。目前他們已經放棄從世衛組織獲取數據,一方面是因為世衛在3月18日修改了每日統計截止時間,另一方面在于其數據庫曾出現過錯誤。
“誰在使用這個儀表板?據我所知,幾乎每個人都在使用。它幾乎在所有的社交媒體渠道上走紅,一直火到美國地方政府、州、聯邦政府、公共衛生機構。”勞倫.力口德納說,這說明人們對于可靠的、值得信賴的、客觀的信息有巨大需求,所以她認為,非常重要的是看到這種(需求與滿足之間的)差距,并且支持這類數據可視化工具走向公眾。
約翰·霍普金斯大學是美國的一所研究性大學,也是全美最近連續33年來科研經費開支最高的大學,其公共衛生學院多年來排名全美第一。
美國對外關系委員會全球衛生高級研究員黃嚴忠說,美國信息渠道很豐富,既有官方的CDC和各州公共衛生部門數據,也有民間機構、高校和媒體的數據更新,這樣多元的數據渠道使得疫情更加透明。而約翰·霍普金斯大學的數據地圖便是其中一個出色的例子。
復旦大學公共衛生學院原院長、中華預防醫學會新冠肺炎防控專家組成員姜慶五說,在疫情中,任何數據都要公開、透明,保證真實性,否則流行病學家、數學家無法做出判斷,也就不能為決策提供可靠的指導。
霍普金斯團隊較高質量的數據成為諸多研究團隊進行學術研究的基礎,是科學界了解新冠肺炎疫情的重要信息來源。董恩盛說,每天他們都會在固定時間發布準確的數據,全世界的學者都可以看到,這方便學者們進行基于時間序列的疫情分析,“而時間序列分析在流行病學,尤其是對于疾病的預測方面有非常關鍵的作用。”
現在,該數據地圖的自動化程度越來越高了,而且學校也給予了很多技術和人力支持。接下來董恩盛希望配合他的導師。利用這些數據研究一下哪些地方比較容易受到新冠肺炎病毒的攻擊,疫情什么時候會出現拐點等等。
(李響薦自《中國新聞周刊》)