編譯 莫莊非

過去20年間,基因組學在生物醫學研究和醫療保健方面發揮了越發重要的作用?;蚪M數據已被用于高級診斷,也能幫助決策者制定關于患者分層及篩查的新策略,還可作為確定新靶點和開發個性化療法的依據。共享基因組數據的意愿,以及維護這一共享原則的地方和全球倡議,在迄今取得的成功中發揮了至關重要的作用。在COVID-19大流行早期階段,我們快速共享基因組數據,進而在創紀錄的最短用時內開發出疫苗和療法——這就是一個成功范例。
基因組數據不僅日益凸顯重要性,其體量也以驚人速度增長。在21世紀之初,僅有兩個人的基因組被測序。到2020年,據估計全球將有超過3 000萬人可訪問自己的基因組數據,每年產生的新數據量達到20億~400億字節。不過即便如此,要真正將基因組研究成果轉化為可廣泛應用的療法,還需克服一些困難,因為可用的基因組數據大多來自歐洲血統人群,尚未覆蓋全球大多數人口。鑒于可用數據量巨大,研究界和監管機構面臨著平衡雙重需求的難題,即允許研究人員訪問數據,同時保護研究參與者和患者的隱私——這絕非尋常挑戰。

調查數據確實表明,對個人隱私的重視和對潛在數據濫用的擔憂,是影響公眾參與基因組研究的主要障礙之一。這些擔憂嚴重阻礙社區參與研究,進而影響了所收集數據的多樣性,也傷害了全球基因組研究的利益。對數據安全的擔憂并非沒有根據,泄露基因組隱私數據可能會暴露敏感信息,并可能引起醫療保險損失、歧視和污名化等一系列問題,或損害家庭關系。另一個擔憂是,數據如果未受到恰當保護,最終可能會被用于違背參與者最初意愿的應用程序。
已有一些技術手段可用于規避重新識別問題,包括數據匿名化、去識別化和數據聚合??杉幢闳绱耍院茈y實現真正的數據匿名。在一項概念驗證研究中,工作人員分析個體層面的數據,根據來自參與者Y染色體上的短串聯重復序列推斷其姓氏,重識別其身份。他們還發現來自全基因組關聯研究的匯總統計數據并非完全不受隱私泄露問題的影響。如果某人參與了全基因組關聯研究,分入潛在敏感的特定組別,此事件是有可能被技術人員分析推斷出來的。
盡管以上案例比較罕見,但有理由相信基因數據隱私問題只會變得更復雜。我們都與親屬共享我們的一部分基因,越多人進行DNA測序——無論是作為研究的一部分還是直接面向消費者的商業服務——重新識別的風險就越高。更大規模的可用基因組數據,再加上越發強大的人工智能應用,可能令現有的隱私保護愈加脆弱,引發新的社會問題。眼下被認為“安全”的東西未來可能就不安全了。
另一方面,隨著計算方法變得更加復雜,我們有望利用新興技術提出更周全的基因組數據保護的方法。最近提出的解決方案來自信息學和經濟學領域,包括諸如同態加密的加密方法,同態加密技術支持在無需解密基因組數據的情況下對統計數據做計算。其他解決方案包括數據訪問控制——例如,英國國家醫療服務體系(NHS)不久前宣布,他們正在過渡到“可信賴研究環境”模式,全世界的可信賴研究人員能在臨時虛擬環境中訪問和處理數據,而無需下載數據。類似的概念已被全球基因組學與健康聯盟(GA4GH)采用。
基因組研究的不斷發展,也對監管和審查機構的工作——審批與監督那些收集并使用遺傳信息的研究——提出了新的挑戰。在大多數國家,有權批準此類研究的審查機構,例如機構審查委員會或研究倫理委員會,往往是多學科交叉的綜合性團體,負責對科研項目做倫理監督。不過這些團體通常不會強制要求納入數據安全等方面的特定專業意見。
在大型基因組聯盟中,負責數據保護的團隊越來越多,專職數據訪問工作的獨立委員會也越發完善。不過最近的報告顯示,機構審查委員會仍欠缺大數據處理方面的專業知識,這些專業包括計算科學、人工智能、數據倫理和隱私等。缺乏專業知識會帶來兩方面問題:一方面,它可能導致忽視數據保護方面的潛在威脅和漏洞;另一方面,缺少專家建議可能意味著不合理的整改要求,甚至導致項目無法獲批。這兩種情況都將阻礙科學進步。
基因組數據在促進人類健康方面的潛力巨大,但只有每個人都感覺安全,它才可發揮作用。因此,現在正是這個領域的從業者開始思考數據共享和保護問題的時候——如何以最佳方式處理基因組研究的大數據,保證數據的安全和隱私。解決問題的關鍵在于吸納不同領域專家的專業意見及建議,這些專家可能來自信息、倫理和法律等專業。此外,讓患者和公眾參與其中討論也非常重要。
資料來源 Nature