關鍵詞:人類基因組數據,標準體系,數據管理,共享利用,標準化
DOI編碼:10.3969/j.issn.1002-5944.2024.013.006
0 引言
隨著高通量測序技術和信息技術的發展,基因檢測成本降低、時間縮短,基因組數據正在以PB(1PB=1 024 TB)到EB(1 EB=1 024 PB)的數量級累進,而目前全球每年產生的基因組學數據已接近EB級別[1]。由此,人類進入基因大數據時代,尤其是在精準醫療研究領域,如何通過人工智能、大數據等技術推進數據的管理、匯聚、分析、流通、共享,釋放和挖掘數據價值,以及數據安全和隱私保護等問題,實現基因組數據的管理和安全利用,成為目前面臨的挑戰。
標準化作為經濟和社會發展的重要基礎和支撐,開展人類基因組數據標準化研究是將標準化手段引入基因組數據的全生命周期管理中,運用標準化手段厘清各個環節的問題以及數據質量的作用和影響,規范數據處理過程,提高人類基因組數據的準確性、可用性和安全性,對推動人類基因組數據相關產業標準化、規范化發展具有重要意義。
1 人類基因組數據相關政策法規
在生物產業方面,《“十四五”生物經濟發展規劃》提出推動基因檢測、生物遺傳等先進技術與疾病預防深度融合,開展重大疾病早期篩查,為個體化治療提供精準解決方案和決策支持[2];《中華人民共和國生物安全法》提出制定和完善生物安全領域相關標準的要求。
在數據管理方面,《中華人民共和國人類遺傳資源管理條例》第十三條提出加快標準化、規范化的人類遺傳資源保藏基礎平臺和人類遺傳資源大數據建設,為開展相關研究開發活動提供支撐;《科學數據管理辦法》規定了科學數據采集、匯交與保存,共享與利用,保密與安全等方面的要求。
在數據安全方面,《中華人民共和國數據安全法》則鼓勵數據的開發利用和流動,要求行業組織制定數據安全行為規范和團體標準,積極參與數據安全相關國際規則和標準的制定。《中華人民共和國個人信息保護法》明確了生物信息屬于敏感個人信息的范疇,要求推進制定個人信息保護具體規則、標準的工作?!敦瀼貙嵤磭覙藴驶l展綱要〉行動計劃(2024—2025年)》中要求在集成電路、半導體材料、生物技術等關鍵領域強化關鍵技術領域標準攻關;加快研制物聯網、大數據、云計算等新興技術與傳統產業融合相關標準,健全標準體系。
2 人類基因組數據應用面臨的問題
基因組數據包括生物體基因中的分子序列等信息,還包括每個基因的功能、控制基因表達的調節元素以及不同基因和蛋白質之間的相互作用,與人類的遺傳、健康、表型和血緣關系密切相連[3],具有唯一性和穩定性的特點?;蚪M數據已經被廣泛應用于科學研究、醫療服務、法律與取證和直接面向消費者服務[3],例如全基因組關聯研究、藥物基因組學、個性化醫療、身份檢測、親子鑒定等。消費級服務機構通過對基因檢測結果的解讀也可提供營養健康服務、運動能力評估、遺傳缺陷分析、溯源分析等服務。
基因組數據不僅是個人敏感信息,還是人類遺傳資源信息,與國家安全相關,使得基因組數據的管理和使用更具挑戰性。隨著基因組數據的重要性及其呈指數級的數量積累,國內外已經在國家層面實現了對基因數據的統一管理。20世紀80年代,以美國、英國、日本為代表的發達國家已經建立了基因數據存儲平臺,并逐漸形成了壟斷全球生物醫學大數據的國際三大生物信息數據中心[4]。我國于2016年依托中國科學院北京基因組研究所建立了國家基因組科學數據中心,旨在面向我國人口健康和社會可持續發展的重大戰略需求,建立生命與健康大數據匯交存儲、安全管理、開放共享與整合挖掘研究體系,研發大數據前沿交叉與轉化應用的新方法和新技術,建成支撐我國生命科學發展、國際領先的基因組科學數據中心[5]。
由于基因組數據的敏感特性,國家層面已實現對基因組科學數據的嚴格管理,然而,基因組數據應用領域廣泛、近年來消費性服務機構的激增,導致數據存儲分散、集成困難、數據處理質量堪憂[6],缺乏有效的挖掘技術和安全保護技術,有效管理和共享利用基因組數據資源還面臨諸多挑戰[4]。
3 人類基因組數據標準化現狀
目前,人類基因組數據的研究涉及多個領域的標準化技術組織(見表1)。全國生化檢測標準化技術委員會(SAC/TC 387)、全國生物樣本標準化技術委員會(SAC/TC 559)制定的標準側重于生物技術方面,發布了國家標準8項,涵蓋生物樣本質量、測序方法、基因芯片、數據格式等內容;全國醫用臨床檢驗實驗室和體外診斷系統標準化技術委員會(SAC/TC 136)制定的國家標準《人全基因組高通量測序數據質量評價方法》(20230028-T-464)正在征求意見。全國刑事技術標準化技術委員會(SAC/TC 179)聚焦法庭科學場景下基因組數據的應用,發布了4項國家標準、1項行業標準,涉及數據庫建設、數據結構、親子鑒定等內容。
在信息技術方面,全國信息技術標準化技術委員會生物特征識別分技術委員會(SAC/TC 28/SC37)于2018年成立基因組識別工作組,發布DNA數據交換格式、高通量測序基因分型系統相關的國家標準2項;隨著我國對生物信息安全的重視以及法律法規的完善,全國信息安全標準化技術委員會(SAC/TC 260)發布基因識別數據安全要求、健康醫療數據安全國家標準2項。
從標準的數量及發布渠道來看,目前人類基因組數據相關的標準還是以國家標準為主。已發布的行業標準和地方標準數量較少,包括DB32 /T 4007—2021《腫瘤高通量基因測序技術規范》、DB4403/T 126—2020《基因身份證技術規程》、DB51/ T 2989 —2023《四川省健康醫療大數據應用指南》等。隨著行業應用對基因組數據管理、流通、共享需求的增加,近幾年團體標準數量呈上升趨勢。通過全國團體標準信息平臺進行查詢,目前已發布的相關團體標準如表2所示。
國際標準化組織ISO/TC 215健康信息學委員會于2019年成立了基因組信息學委員會分會(SC1),負責開展用于組學(包括但不限于基因組學、物質體學和蛋白質組學)的計算數據、信息和知識(包括相應的表示和元數據)的標準化工作,以支持人類健康和臨床研究,已發布國際標準12項,在研2項,主要涵蓋標記語言、質量控制、可靠性評估、臨床數據報告和共享等內容。
目前,國內外標準化技術組織已制定多項基因組數據的標準,從數據的采集到共享應用均有覆蓋。ISO標準重點關注臨床基因組數據,我國在基因組數據的采集階段發布的標準較多,且近幾年側重數據的分析、應用、安全等方向。
總體而言,我國人類基因組數據標準化研究處于起步階段,盡管有些標準化技術組織制定了基因組數據的相關標準,但主要是基于各自的總體行業領域需求出發制定標準,缺乏針對基因組數據與信息技術融合的標準。隨著大數據、區塊鏈、人工智能等新一代信息技術在基因組數據應用領域的持續深耕,基因組數據具有了“大數據”的特征,體量大、匯總雜、分析難,基因組產品、服務層出不窮,亟需基因組數據標準體系的宏觀認識和頂層設計,為各個重點領域建設提供指導和建議。
4 人類基因組數據標準體系構建
4.1 總體框架
圍繞人類基因組數據全生命周期活動過程,結合我國基因組數據管理和應用的業務需求,構建了人類基因組數據標準體系框架(見圖1),包括基礎標準、數據標準、數據技術標準、管理標準、安全標準和數據應用標準等研究內容。
4.2 基礎標準
基礎標準定義了人類基因組數據標準的基礎性、通用性標準,為其他標準提供支持和總體指導,包括術語定義、分類分級、標準化指南標準。術語定義主要規范生物信息、信息技術等領域涉及的通用術語、專用術語等內容;分類分級主要是明確人類基因組數據的類別和安全等級;標準化指南主要是指導如何構建和利用人類基因組數據標準的指導性文件,規定了人類基因組數據標準體系各項標準的應用領域、使用場景和方法。
4.3 數據標準
數據標準主要規定了人類基因組數據的描述規則和要求,服務數據的存儲、檢索和共享,包括元數據、數據代碼、數據格式、數據質量標準。元數據規定了人類基因組數據的描述方法,以提高不同平臺之間的語義互操作性;數據代碼規定了人類基因組數據的唯一標識符;數據格式規定了人類基因組數據的格式和結構;數據質量規定了滿足人類基因組數據應用準確性、完整性、可用性的數據指標要求。
4.4 數據技術標準
數據技術標準包括數據采集、數據存儲、變異分析、數據處理、數據匯交、數據共享、數據交換、數據建模標準。數據采集規定了人類基因組數據的測序方法、生物樣本質量等內容;數據存儲規定了數據在存儲介質中的存儲需求、方法和技術;變異分析規定了對人類基因組數據進行基因注釋、關聯性分析、變異解讀的方法和要求;數據處理規定了人類基因組數據預處理、標準化處理的要求和數據質量控制原則;數據匯交規定了人類基因組數據匯交的內容及流程;數據共享規定了人類基因組數據的開放共享程度、流程、方式等內容;數據交換規定了不同數據平臺之間以及不同環節之間數據交互的格式與通信協議;數據建模規定了人類基因組數據的抽象組織結構,確定數據庫中數據范圍、組織形式等。
4.5 管理標準
管理標準包括數據管理、平臺管理和項目管理標準。數據管理規定了對人類基因組數據生命周期處理活動、數據交接的管理;平臺管理規定了人類基因組數據平臺運營環境,包括各種軟硬件設施管理;項目管理規定了立項、實施、驗收、運維管理等內容。
4.6 數據應用標準
數據應用標準涵蓋利用人類基因組數據進行身份檢測、譜系分析、親子鑒定、醫療健康以及其他未列出的應用場景使用的標準。身份檢測規定了對個人身份鑒定的技術標準;譜系分析規定了用于確定家族各成員相互關系的標準;親子鑒定規定了用于確定是否具有親子關系的標準;醫療健康規定了在醫療健康領域基因檢測產品、服務標準以及基因關聯性分析等技術標準。
4.7 安全標準
安全標準包括通用安全、數據脫敏、隱私保護和數據使用安全標準。通用安全規定了使用人類基因組數據的系統或平臺的物理安全、系統安全、網絡安全的保護措施;數據脫敏規定了數據脫敏的技術和測試方法;隱私保護標準規定了對數據主體的隱私信息和敏感信息的保護措施;數據使用安全規定了不同應用場景下的數據訪問控制機制。
5 結語
人類基因組數據具有敏感屬性及“大數據”特征,需要標準在頂層和各個應用領域提供指導和建議,以進一步促進和規范人類基因組數據創新應用,激發數據要素價值。本文圍繞人類基因組數據應用面臨的問題,分析和探討了人類基因組數據標準化現狀和需求,建立了包含基礎標準、數據標準、數據技術標準、管理標準、安全標準和數據應用標準的人類基因組數據標準體系,為人類基因組數據的有效管理和共享利用提供了重要的基礎支撐。
作者簡介
任程,碩士研究生,工程師,主要從事標準化研究工作。
許俊,碩士研究生,高級工程師,主要從事標準化研究工作。
王萍萍,碩士研究生,工程師,主要從事標準化研究工作。
丁國徽,通信作者,博士研究生,研究員,主要從事生物信息學、生物醫學數據安全研究工作。
(責任編輯:袁文靜)