劉郝

數據,在疫情應對中隨處可見。從疫情初期開始,最受公眾關注的信息之一就是疫情數據實時動態。經過可視化處理,疫情數據變成圖片,形成玫瑰花瓣圖等靜態圖片,或者以時間為軸的動態圖片。經由模型分析,疫情數據幫助預測疫情發展態勢,成為決策的重要參考依據。
真實準確的疫情數據,是全球所有國家的共同追求。呈現基礎數據,預測疫情趨勢,形成疫情圖形,這些工作的關鍵都在于統計學。而實際上,現代統計學的起源之一就是對疾病的記錄與分析。《南風窗》記者專訪復旦大學管理學院統計學系副系主任、復旦大學復雜決策分析中心副主任肖志國教授。他認為,統計學對疫情數據的收集、描述和分析,顯著提升了全球疫情防控的凝聚力和共識。
南風窗:中國和世界范圍內的疫情統計工作是何時起步的?
肖志國:廣義的疫情統計,在我國歷史很早就有。
20世紀初,我國的現代疫情統計開始發展。伍連德醫生被公認為中國疫情統計事業開創者,他在1911年1-4月間領導撲滅了發生在東北的肺鼠疫大疫情。
世界范圍內,對疫情的系統統計和流行病學調查,大約起源于19世紀50年代,差不多是一個半世紀以前。主要發源是在克里米亞戰爭時期,南丁格爾對英國士兵傷亡原因的統計分析,以及斯諾醫生在同時間對倫敦霍亂的調查統計。南丁格爾在此后開創了現代的醫護體系,而斯諾醫生也被廣泛認為是現代流行病學的創始人。
這次的新冠肺炎疫情統計工作,相比非典時期,我們又有一個質的飛躍,這不僅是因為技術本身的提高,也是因為客觀上此次新冠病毒的傳染性更強,就要求我們建立一個更強大的疫情監控和統計體系。
南風窗:我們已經進入大數據時代,統計學在新冠肺炎這種突發重大新型疫情面前,可以提供哪些幫助?
肖志國:統計學是一門以數據分析為基礎提出解決方案的學科。黨的十九屆四中全會提出數據是社會生產的基本要素之一。這一次,我們同樣要用統計學來開發和利用好各種疫情數據。
首先,統計學可以幫助社會準確客觀地判斷疫情現狀。這里講到的現狀是多方面的,最基本是與疫情直接相關的統計數字。進一步講,也可以利用統計學作出對于疾病機理的一些核心判斷,比如病毒潛伏期有多長,各種傳播方式的可能性等等。一定意義上說,流行病學家的工作就是在對疫情數據進行統計分析,找出疫情傳播的核心特征和規律。所以流行病學家可以看作是研究疾病規律的統計學家。我的博士論文兩位導師之一就是一位流行病學家。
第二點體現在對疫情未來發展趨勢的判斷上。比如,疫情什么時候出現拐點,何時結束,最終會有多少感染人數和死亡人數等。這不是隨便猜出來的,而是經過科學系統的統計學模型判斷出來的。這一點,不僅是全球公眾的關心所在,也是各國決策機構的重要參考依據。
最后一點,可能一般公眾未必了解,那就是藥物和疫苗研發非常依賴統計學。事實上,一直以來,醫藥行業是統計學人才的主流就業去向之一。無論是治療藥物還是疫苗,在不同個體身上的效果都可能存在較大差異,為了弄清楚藥物或者疫苗是否有效,就要考慮所有可能會影響到療效的因素。這時候,我們就要通過試驗來作判斷。統計學有一門課程叫作臨床試驗,講的就是這個問題。任何藥物和疫苗,它的顯著性最終都必須經過統計學的實證分析。
南風窗:總體來說,國內統計學科研團隊對此次疫情作了哪些方面的研究分析?國內第三方獨立從事疫情數據收集和分析的研究機構數量如何?
肖志國:在我的印象中,疫情早期,就有一些研究機構在預測疫情走勢,影響較大的團隊是香港大學醫學院研究團隊。
現在,在疫情預測方面,北京大學多個團隊都對病毒的潛伏期及未來走勢提出了很多新穎的判斷。復旦大學包括張文宏醫生所在的華山醫院感染科在內,也有很多團隊在做這方面的研究。3月15日,5000余名統計學專家學者舉辦了“科學抗疫,統計擔當”的全國線上會議,圍繞疫情監控、疫情傳播規律挖掘、防控信息統計和經濟運行等話題展開研討。
人的行為,尤其是實施管制之后,人們對規則的遵守情況,是很難準確刻畫的,這是導致預測出現問題的一個主要因素。這也是為什么在世界范圍內,模型預測都受到實際工作者質疑和批評的一個原因。
從歷史上來看,國內做疫情歷史數據整理和分析的機構是很多的。不過我的感受是,因為近年來大規模高烈度的傳染病疫情越來越少,這方面的研究人員和研究機構也隨之減少了。所以張文宏醫生也說他大部分時間在坐冷板凳。
南風窗:疫情初期,國外不少研究機構對中國疫情發展作出預測,現在則主要在預測全球疫情發展態勢,影響這種預測準確性的因素是什么?
肖志國:所有的預測都是基于某種模型。簡單來講,模型就是研究者所假定的疫情傳播的原理,它們的參數需要通過歷史數據來進行估算。
影響預測準確性的因素首先是模型假設的合理性。任何模型都是對現實的一個簡化,而且很可能是過度的簡化。而這當中,人的行為,尤其是實施管制之后,人們對規則的遵守情況,是很難準確刻畫的,這是導致預測出現問題的一個主要因素。這也是為什么在世界范圍內,模型預測都受到實際工作者質疑和批評的一個原因。包括美國政府現在決策所主要依賴的IHME模型,最近也受到廣泛的批評,理由就是它顯著低估了疫情的嚴重程度。一個悖論在于,模型必須要簡化現實才能夠產生,但它遭受批評也是因為簡化現實。
影響預測準確性的另一個因素是數據的準確性。對任何一個國家而言,在有限的時間內進行大規模的病毒檢測,同時要保證檢測結果的準確性,這都是一件非常難的事情。哥倫比亞大學新冠病毒預測模型的作者沙曼教授對此作了很精煉的總結:“預測的困難在于,疫情局勢變化極其迅速,而我們可用的信息又是悲催的不完整。”
更關鍵的是,疫情局勢時刻千變萬化,這就導致模型很難跟得上現實的腳步,數據和信息很難準確完整。所以我認為,模型是重要的參考依據,但它的準確性不是百分之百的。實際所能預測到的通常也只能是近期相對較短的一段時間,比如也就是幾天之內的情況。推測時間越遠,可靠性就越要打折扣。
南風窗:讓人感到新穎的是,此次疫情期間,國內外相關機構都對疫情數據做出了一系列可視化呈現,它們的生產和傳播過程是怎樣的?
肖志國:海量信息面前,要提升公眾對疫情的認知,不僅需要準確及時的疫情數據統計,還應該有新穎的數據描述方式。一個簡潔明了而且結論清晰的圖形,尤其是當它的呈現形式相當特別的時候,就很容易受到廣泛傳播而形成防控共識。
比如,在國內,丁香醫生網站的疫情數據實時動態,迄今為止已經有超過40億次的瀏覽量。人民日報推出的一系列新型玫瑰花瓣圖也受到廣泛關注,這是南丁格爾圖形的現代版。
在全球疫情數據呈現方面,美國約翰·霍普金斯大學開發的數據以及疫情分布圖,現在平均每天點擊次數近10億次,它的核心圖形也是斯諾的霍亂分布地圖的現代版。
在這個過程中,第三方研究機構往往不可或缺,而媒體則是一個關鍵的傳播平臺。現在,公眾能夠接觸到的疫情數據平臺非常多。無論是人民日報、丁香醫生,或者是支付寶、微信和主流新聞網站,這些平臺都是可信的,因為大體上的數據來源都是一致的。
南風窗:在目前的疫情發展態勢下,疫情數據的統計分析應該去關注哪些方面的問題?
肖志國:當前階段,國內的疫情已經得到有效控制,但國際上還在迅速蔓延,截至4月28日11時,全球確診病例已經突破306萬。我們現在要對未來做好充分準備。
未來疫情數據分析的重點,是對此次疫情一些根本問題的準確判斷。比如說,這個病毒的傳播系數(R0)是多少,病毒的潛伏期服從何種分布,無癥狀感染者的比例是多少,感染者中的死亡比例是多少等等,以及這些因素是否會隨其他因素(比如說年齡、性別、氣溫等等)變化而變化,這些都是很關鍵的問題。我們已經積累了幾百萬病例的數據,但可惜的是,國際社會目前對這些問題還沒有得到一致可信的結論。希望后期的研究分析能夠對這些問題有更加科學的回答。
南風窗:在疫情數據收集中,互聯網技術、大數據手段等科技提供了哪些幫助?這些手段和個人隱私權是否會形成一定沖突?
肖志國:舉個例子。我們打開支付寶等軟件,幾乎不需要回答任何問題,就可以查到自己的健康碼狀態。這大大方便了公眾在疫情期間的出行。這說明,一些技術平臺對公眾的健康狀態是非常清楚的。如果是作為疫情防控等公共利益的需要,那么我們就應該理解,通過技術手段收集私人信息不應該和個人隱私保護對立起來。當然,前提是這些技術行為都是得到公眾授權的,并且雙方明確它的使用途徑和目的。實際上,我認為通過技術手段收集任何信息,首先都必須獲得用戶的知情和授權。
我們已經積累了幾百萬病例的數據,但可惜的是,國際社會目前對這些問題還沒有得到一致可信的結論。希望后期的研究分析能夠對這些問題有更加科學的回答。
南風窗:你認為,在各類型的疫情數據統計工作中,公眾應當樹立哪些意識?可以做哪些工作?
肖志國:首先,任何公眾都要積極配合疫情的統計,包括相關流行病學的調查和檢測等工作。應該意識到,真實準確的數據信息是一個公共產品,對全社會都有好處。當前,疫情在我國的傳播已經得到了有效的控制,但無論是境外輸入還是本地傳播,在局部地區還偶有發生。因此對于已發病例的流行病學調查,以及在重點地區的人群中進行一定比例的隨機抽樣調查,都很有必要。這需要每個人的積極配合。
其次,當自身出現較高概率的被傳染風險時,要及時就醫,并將相關情況如實匯報給疫情數據統計部門。同時,每個人都要繼續保持良好的衛生習慣,做好防護措施,并對任何信息保持客觀理性的判斷。
南風窗:武漢市4 月17 日訂正新冠肺炎確診病例數、確診病例死亡數,在疫情數據統計中,我們怎樣才能做到更加真實準確?
肖志國:回過頭來看,這是一個前所未有的疫情,全世界對它的準備和應對都存在很多可以改進的地方。典型的問題之一是在初期低估了它的嚴重性。只有在疫情真正可防可控的早期或者晚期階段,準確的數據統計才是有可能實現的。為什么這么說呢?因為根本的辦法是進行大規模人群的動態抽樣檢測和追蹤。但整個疫情是迅速傳播開來的態勢,由于傳播途徑的復雜性,癥狀表現形式的多樣性,以及檢測手段的不完善等問題,這時再想進行準確的統計,成本就極其高昂。我們獲得嚴格意義上的真實準確數據幾乎是不可能的。
要想實現疫情數據的更加真實準確,首先要防止各種原因的瞞報。其次流行病學調查要迅速,在最快時間內找到病毒傳播路徑和密切接觸者。在這些顯性案例之外,還要注意篩查各種隱形案例,例如注意復工復學人群的檢測以及隨機的抽樣檢測等工作。
總的來說,這需要各個部門的通力合作,尤其要發揮我們網格化管理的力量。所有的病例都有他的物理落腳點,包括社區、交通工具、出入境場所等公共場所以及醫院和醫學隔離觀察點等。做好疫情監控和數據統計,在理論上我們需要所有關鍵節點單位的通力合作,尤其是社區居委會、檢測機構、隔離場所和醫院的密切合作。