文/高孟緒 石蕾 徐波 馬俊才 鮑一明 周偉
三年來,新型冠狀病毒引發了一場肆虐全球的疫情危機,直接威脅著全球衛生安全。世界衛生組織于2020年3月11日宣布,新型冠狀病毒肺炎(COVID-19)疫情具備“大流行”特征。疫情發生后,中國公共衛生和科研機構與病毒“全速賽跑”,中國定期向世界衛生組織、有關國家和地區等及時主動通報疫情信息并共享科研數據。
抗擊疫情是一場人類社會與病毒的賽跑,科學數據是助力抗擊疫情的重要“武器”。利用國家科學數據平臺,及時公布和共享科學數據,是發揮科學數據價值、匯聚全球科研力量共同抗擊病毒的重要舉措。為服務全球科技抗疫的重大需求,國家微生物科學數據中心和中國疾病預防控制中心聯合發布了新型冠狀病毒國家科技資源服務系統,國家基因組科學數據中心建立了2019新型冠狀病毒信息庫,國家人口健康科學數據中心發布新型冠狀病毒肺炎數據共享系統。國家科學數據中心發揮在數據匯交管理與共享、信息分析、資源建設等方面的優勢,致力于全球COVID-19開放數據的發現與共享,在后疫情時代為全球重大新發、突發傳染病防控和科研工作提供重要支撐。
國家微生物科學數據中心和中國疾病預防控制中心于2020年1月24日聯合發布了新型冠狀病毒國家科技資源服務系統(https://nmdc.cn/nCoV)。該系統第一時間權威發布新型冠狀病毒電鏡照片、核酸序列和引物設計建議等信息,為全球COVID-19疫情防控和科研工作提供重要數據支撐。系統整合國內外相關數據,迅速建立了大規模參考數據庫,用以及時對突發的疫情進行病毒溯源及變異研究,形成了針對疫情的快速響應機制。目前系統總訪問量達到2135萬,訪客數量達到58.4萬,其中境外訪問439.8萬,訪客數量超過14萬,數據下載次數超過2900萬次,下載文件總量約50TB,為全球新冠病毒防控科技攻關作出了積極貢獻。
新型冠狀病毒基因組在流行過程中持續發生變異,隨著對變異研究的深入,變異造成的功能影響日漸成為關注的焦點。新型冠狀病毒國家科技資源服務系統在對科學數據資源進行管理和發布的基礎上,進一步發揮在微生物領域長期的大數據積累和分析模型開發經驗的優勢,加強對微生物數據分析與挖掘的支撐。從基因組學和結構生物學角度入手,建立了新型冠狀病毒國家科技資源服務系統2.0——新型冠狀病毒變異評估和預警系統(VarEPS,https://nmdc.cn/ncovn/),并在Nucleic Acids Research上在線發表,是全球首個對SARS-CoV-2基因組已知變異及虛擬變異進行多維度風險評估和預警的系統。
該系統不僅可以作為全球病毒變異監測和追蹤的工具,還可以基于虛擬變異和風險評估模型,為針對新型變異毒株的精準防控和抗體疫苗設計提供有效的參考信息。目前基于該系統的分析結果為精準高效應對SARS-CoV-2突發疫情提供了重要的決策依據,同時也為應對其他突發傳染性公共衛生事件提供了技術儲備。
在國際交流合作方面,國家微生物科學數據中心主持的“SARS-CoV-2基因組測序及COVID-19流行病學和數學建模研究”項目,與金磚國家進行合作,旨在根據基因組數據和流行病學數據對SARSCoV-2基因突變、傳播和系統發育進行測序和基因組數據分析,并依據已有大數據進行流行病學和數學建模,揭示病毒演化和遺傳變異對病毒空間擴散的影響,探討在金磚五國不同國家中流行和傳播的優勢病毒,幫助識別病毒流行和傳播的高風險區域。
新型冠狀病毒國家科技資源服務系統數據對外發布后,引起國內外廣泛關注。系統通過發布基因組序列數據、蛋白質晶體結構數據支持我國科學家在《自然》《科學》《柳葉刀》等國際著名期刊上發表文章。國務院聯防聯控四次發布會和中國政府《抗擊新冠肺炎疫情的中國行動》白皮書都介紹了新型冠狀病毒國家科技資源服務系統的工作。2020年,該系統入選烏鎮世界互聯網大會全球15項世界互聯網領先科技成果,2021年,該成果入選國家“十三五”科技創新成就展,2022年1月,國家微生物科學數據中心被授予“全國科技系統抗擊新冠肺炎疫情先進集體”榮譽稱號,在新冠肺炎疫情期間為國家疫情防控和預警工作提供重要數據支撐,為科技抗疫、精準防控作出貢獻。

2020年,新型冠狀病毒國家科技資源服務系統入選世界互聯網領先科技成果
2019新型冠狀病毒信息庫(RCoV19,https://ngdc.cncb.ac.cn/ncov/)是全球第一個公開發布的新冠病毒綜合性信息庫,也是目前國際上規模最大、資源最豐富的新冠病毒研究公共平臺之一。該平臺主要涵蓋以下內容:基于標準的數據審編與分析流程,持續收集整合國內外各主要數據平臺的新冠病毒基因組序列和元數據信息;提供實時快速的新冠病毒基因組序列變異分析,建立針對突變的時空動態演化監測及追蹤平臺;系統審編并提供已有實驗證據證明的感染力、傳播力、免疫逃逸等突變功能知識;開發在線智能分析平臺,提供基因組拼接與注釋、變異鑒定和功能注釋、單體型網絡構建等全流程在線分析服務;開發千萬數量級基因組單體型網絡快速構建算法和基于人工智能的新冠病毒高風險變體預警體系。
RCoV19為全球新冠肺炎疫情防控提供科學數據支撐,截至2022年11月5日,收錄并共享全球范圍內產出的共計約1412萬條非冗余新冠病毒基因組序列信息,為全球181個國家和地區36萬多名訪客提供百余萬次在線服務,數據下載近95億條,其中國際用戶占比高達60%以上。
在國際交流合作方面,國家基因組科學數據中心與巴基斯坦國立衛生研究所、真納大學開展聯合研究,對巴基斯坦早期新冠病毒序列變異及傳播演化展開系統分析,為巴基斯坦精準疫情防控提供國際抗疫科技援助;與美國國家生物技術信息中心建立了新冠病毒基因組數據同步共享機制;為世界衛生組織—中國開展的新冠病毒溯源聯合研究提供數據支撐,相關結論寫入聯合研究報告;參與了金磚五國新冠病毒基因組變異監測項目,聯合發表了奧密克戎變異株監測文章;受邀在美國微生物學會公共衛生數據共享研討會等國際會議上介紹RCoV19數據庫,并舉辦國際培訓促進新冠病毒信息國際共享與合作。
RCoV19獲得全球高度認可,作為亮點工作寫入《“一帶一路”創新發展報告2021》,被美國國立衛生研究院、愛思唯爾(Elsevier)國際出版集團、韓國國家生物信息中心等20多家國際專業機構推薦使用,顯著提升中國在該領域的國際影響力。
國家人口健康科學數據中心發布新型冠狀病毒肺炎數據共享系統(https://www.ncmi.cn/covid-19/),致力于全球新冠肺炎開放數據的發現與共享。該系統以科學數據為基礎,以官方報告為外延,主要功能模塊包括數據注冊、數據匯交、數據審核、數據瀏覽、數據檢索、數據統計分析、數據可視化、疫情動態、內容管理、數據分級分類管理、數據訪問控制、動態展示等,結合可視化技術進行全球和國內疫情分析播報。目前已收集整合新冠病毒相關研究文獻數據庫、臨床試驗數據庫、疫情報告數據庫、疫苗數據庫、病毒序列數據庫、藥物數據庫、防護指南數據庫、標準規范數據庫、政策法規數據庫、媒體資源數據庫、防護知識數據庫等多重數據資源,協同推進新型冠狀病毒相關科技資源與信息開放與共享。
該系統上線后,《中國科學報》《科技導報》《中國工程院院刊》、新浪網等多個媒體平臺進行了報道。
國家人口健康科學數據中心建立新冠病毒肺炎專題數據庫,包括新冠肺炎病案首頁數據、新冠肺炎臨床病例數據和發熱癥候群數據,收集不同來源新型冠狀病毒肺炎臨床病例數據60000份、新型冠狀病毒肺炎病案首頁數據81000份和20873名發熱癥候群病人的病歷數據。依據《新型冠狀病毒肺炎臨床數據元》《新型冠狀病毒肺炎數據安全指南》等規范,完成結構化、標準化處理,形成專題數據庫,根據國家法律法規和政策指導使用。該中心支持建設的新冠肺炎病毒數據庫,收集整理了包括新冠病毒在內的598633個冠狀病毒基因組數據;主要國家檢測引物和探針序列以及新冠病毒相關的電鏡照片。該中心支持建設的重要疫源生物相關病毒數據資源平臺ZOVER,構建了國際上首個綜合性疫源生物相關病毒數據資源中心和分析系統,為未來潛在的動物源性新發病毒性傳染病的預警、鑒定、檢測和溯源提供了整合的數據信息和綜合的分析平臺。
國家人口健康科學數據中心還陸續發布了《冠狀病毒傳染病本體》《新型冠狀病毒肺炎術語集》《國產醫用外科口罩注冊信息》《國產醫用防護口罩注冊信息》《國產呼吸機注冊信息》《國產紅外體溫計注冊信息》《國產醫用防護服注冊信息》《國產一次性使用醫用口罩注冊信息》《國產新型冠狀病毒檢測試劑注冊信息》《全國新型冠狀病毒感染的肺炎定點救治醫療機構和發熱門診匯總數據集(第一版和第二版)》《全國新型冠狀病毒肺炎疫情心理援助熱線數據集》等多個數據集,為新型冠狀病毒肺炎防疫物資、救治機構和康復后心理援助機構的選擇、救助物資發放、疫情數據采集標準化等工作提供基礎數據支持;組織制定撰寫《新型冠狀病毒肺炎臨床數據元》《新型冠狀病毒肺炎數據安全指南》和《新型冠狀病毒肺炎數據共享系統基本功能規范》等技術規范,為新冠肺炎數據的安全管理、開放共享提供了及時有效的支撐與參考。
下一步,為持續增強我國重大疫情防控科技支撐保障能力,為同類科技支撐活動積累長周期科學數據,增強科學數據支撐保障能力,建議進一步加強對新型冠狀病毒資源和數據的有序管理,建立健全相關法規制度。充分發揮各個團隊在數據分析方面的優勢,高效、準確地支持國家決策和科學研究,形成以突變為核心的知識庫;發展快速預警新系統,實時監控輸入病例病毒序列特征,研判世界疫情形勢,提供防疫決策支撐數據。