馬 婷 陳清財
近年來,醫療人工智能(artificial intelligence,AI)技術的快速發展使得醫療數據的匯聚和標注越來越凸顯其重要性與必要性,與此同時,伴隨著醫療信息化和數字化進程,醫療大數據急劇增長,尤其醫學影像數據這種大容量數據的介入,使得醫療大數據的體量呈現指數級增長趨勢[1]。我國由于患者眾多,使得醫療大數據具有規模宏大、多模態的特點。然而,相比于醫療大數據開放較早的西方國家,我國海量的臨床醫療數據卻在醫療AI技術的支持方面并沒有表現出應有的價值。其中,多層級醫療數據壁壘所帶來的個體數據不完整,并且可利用數據的規模小,以及由于規范化、標準化工作開展較晚,診療過程中產生的各種臨床數據廣泛存在醫療概念表述不一致、數據對齊困難等問題,大大弱化了大數據在醫療智能化中的支撐應用。同時,大數據應用與AI技術帶來的倫理問題也是醫療大數據使用備受關注的話題[2]。這里的倫理問題,既包括數據隱私、數據歸屬問題,也包括AI技術與醫療專家協同過程中的決策權與責任劃定問題,技術脆弱性、不透明性帶來的意外問題等。因而我們希望能夠在AI引入健康醫療領域的研發過程中,建立一種新型的數據平臺機制,在平臺的自動化統一后臺的協助下,能夠從海量醫療數據中產生統一標準的大數據,形成具有廣泛共識的大規模醫療知識,從而支撐更魯棒、更透明可控的醫療AI技術的開發與驗證,使得研發技術能夠得以順利進行臨床轉化,并在研發過程中建立完整的數據隱私保護機制,融入倫理人文關懷。
早期的醫療大數據主要以針對單一臨床問題,匯集單模態、單時間點的數據為主。例如,針對肺癌的影像數據。經過脫敏分門別類地打包放到網站上,供研究者查找或下載,形成了最早的開放式醫療數據庫。這類數據庫的特點是所面向的問題相對簡單,如針對腫瘤的影像識別問題,數據庫的建立圍繞不同癌癥的影像數據提供醫生的手動標注,利用該類數據庫的技術研發也相對單一,即以醫生手動標注為標準訓練AI模型替代手動標注。這類數據庫的公開實現了數據資源共享,為不同地區的研究者提供了統一的數據源,是通用醫療AI技術的最早數據支持。然而,早期的數據收集缺乏一致性標準,手動標注多為有科研興趣醫生的貢獻,缺乏數據標注的標準,在后期的醫療AI技術研發中所需要的數據準備階段尚需巨大工作量(數據梳理、數據清洗),使得醫療AI技術的功能相對單一,在臨床流程的輔助價值未能凸顯出來。
隨著科研需求的不斷更新,開放醫療數據庫的模式也在發生改變,早期單一數據集不能滿足臨床對疾病研究的需求,從而推動產生了目前最流行的隊列型共享數據庫,即平臺上的醫療數據都以隊列為基本檢索方式。這類數據庫以臨床研究的問題為導向,數據的收集以覆蓋臨床決策為標準,圍繞臨床流程收集多模態的臨床數據,以疾病隊列為基本索引為研究者提供數據共享,這類醫療大數據的建立與共享提升了科研效率和醫療AI技術的產出,其中最為出名的當屬UK Biobank[3]。UK Biobank是由英國政府發起的,旨在研究“遺傳和環境因素共同作用對患病風險影響”的大規模生物醫學數據庫。自開放到現在,UK Biobank已經對外開放了上百萬例的醫療數據,它以隊列的形式供人們查閱下載,這對于科研來說有了更直接的切入點,提升了疾病研究的進程,大量的AI技術開發者利用該數據庫進行技術研發,使得醫療AI技術可以得到規模化的生產和場景應用的測試。在專病系統中也有類似的隊列研究,例如,DIAN(Dominantly Inherited Alzheimer Network,DIAN)[4]是一個全球性的針對遺傳性老年癡呆的大隊列研究,同樣是通過隊列設計這種標準的數據收集方式,使得科研人員可以更好地產出科研成果,進而為探索攻克疾病的方法提供良好的數據支持。
隊列型醫療大數據平臺如何加速醫療技術的進步呢?以ADNI (Alzheimer's disease neuroimaging initiative,ADNI) 為例可見一斑。ADNI是全球最大的針對阿爾茨海默病 (Alzheimer's disease, AD) 的開放影像學數據平臺,數據庫包含臨床量表、基因、外周血標記物、多模態磁共振和分子影像數據。數據庫由美國國立衛生研究院(National Institutes of Health,NIH)所資助的相關研究數據積累而成,并且持續更新,目前已擁有AD研究隊列數據1 900余例,一些已發表文章對此數據庫進行了專門的說明[5-6]。基于ADNI數據發表的研究持續改變了人類對AD的認識,尤其在診斷和評估方法上提供了很多新的科學依據和臨床證據[7]。例如,AD是不斷進展的一種慢性病,ADNI的數據庫幾乎覆蓋了AD疾病譜系整個進程,針對AD早期的研究提升了我們對早期標志物的認識,從而能夠將診斷節點提前到了臨床前期[8],這對于疾病的預防和控制具有重要意義。同時,由于眾多研究者都以ADNI的數據作為基準,因此其數據的采集也逐漸成為了眾多其他研究團隊的標準,進一步使得全球多中心的數據可以進行橫向的比對,更加有利于研究成果的驗證。有了這樣一個專家公認的標準數據庫,不同地區的研究成果可以平等地在ADNI數據庫上進行融匯和比較[9],這便進一步影響AD的診斷標準指南的發布。AD協會每年都會發布疾病“白皮書”,對基于ADNI數據庫的不同科研產出進行總結[10-11],有關AD診療指南更新有相當一部分也是依據ADNI數據庫產生的成果來確定的。到目前為止,ADNI數據庫已經產出了超過1 500篇重要的論文,對于整個疾病的認識和診療有巨大貢獻。
由此可見,標準醫療大數據的搭建能夠產生新的醫學知識和臨床方法,形成不同研究的對話平臺,最終影響臨床流程,達到推動醫療發展的效果。在這個過程中,隊列型醫療大數據以其高度聚焦某類疾病和數據標準化顯示出了良好的支撐作用。同時不難發現,除了UK Biobank,其他數據庫基本都是科研隊列經過脫敏之后的數據匯聚,這類數據庫的建設周期和投入都比較大,以專病作為建設對象比較合理,一旦面向全醫療領域,所涉及的數據之龐大很難用統一架構的數據平臺支撐。
雖然隊列型醫療大數據能夠為我們提供良好的科研支持,但在醫療AI技術研發的支持方面仍存在一定問題。主要原因在于,第一,隊列數據具有較為嚴格的篩選機制和篩選條件,這就決定了隊列數據本身的多樣性和復雜性受到約束,真實世界的多樣性與不確定性,分布的多樣性和非均衡性等或多或少都會被掩蓋,這對于面向真實世界的復雜臨床決策技術的訓練來說,具有很大局限性;第二,由于不同隊列往往針對特定的研究目標來制定篩選條件,數據標準的主觀性使得AI技術的可用性和普適性還在受到爭議;第三,隊列型醫療大數據平臺雖然數據開放,但是沒有個性化的數據管理工具和統一的數據分析平臺,導致不同研究的數據分析方法缺乏一致性比較,因此很多科研成果的橫向比較依然存在一致性問題。
基于以上分析,筆者在隊列型醫療大數據平臺經驗基礎上,探索一種全新的面向醫療AI技術發展的數據平臺模式,即能夠實現醫工融合、多方參與的醫療大數據平臺3.0版本。首先,平臺允許不同權限的數據開放形式,讓更多的數據可以被整合和利用;其次,數據從收集、清洗到利用是多方監管和鑒定的,提升數據的一致性和臨床適配性;最后,在醫療AI技術的研發過程中,可以在中間環節得到數據監管,保護數據權限以及規范使用倫理,讓科學家、臨床專家和倫理專家都能參與到AI的生產流程。這樣不僅平臺數據可以不同的形式共享,并且所有數據分析工具也是共享的,從而實現研究、開發和轉化在同一個平臺上進行。在這樣一個統一的生態環境下,多背景的專家可以同臺作業,如倫理專家、臨床專家們雖然對AI技術不了解,但是他們可以為AI的生產提供知識輔助和倫理支持,最后由工程師把帶有共識的技術開發為在線的軟件和AI產品,產品測試可以直接由同臺作業的臨床和倫理專家進行,實現從數據到醫療應用轉化一體化流程的醫療大數據平臺。
基于這樣的理念,筆者所在團隊提出并建立了“素問系統”,于2020年12月進行了公開發布。素問系統初步實現了多方同臺作業、封閉式項目管理、分等級開放的新型醫療大數據平臺。考慮到數據倫理問題,針對沒有授權對外開放的數據僅限平臺上同一項目的參與方之間共享,并由數據貢獻方主導數據的使用權限,通過將數據鎖在平臺上達到數據利用與安全。此外,邀請各方專家和技術人員共同參與,為平臺提供知識和技術支持,完善平臺維護。這種允許多方同臺作業的全方位開放模式使得科學家、臨床專家和倫理專家可以參與到AI技術的整個生成流程中。通過平臺直接可視化中間結果,各方專家可以與AI技術專家共同探討結果的可行性、可用性,從而技術專家可以及時調整技術路線使其更加符合臨床需求。這種數據平臺模式改變了跨學科交流的方式,從而能夠更快地做成真正適用于臨床的AI技術,實現AI到醫療應用的技術轉化。
考慮到未來醫院的應用場景,筆者所在團隊進一步設計了基于全國產AI服務器的計算集群和開發環境,初步形成了可以在線研發新AI技術的系統,目前素問系統已經收集到超過200T的開源數據,并且已經在平臺面向公眾全開放了3T的影像數據,供用戶免費下載。此外,還面向不同需求開發了第一批AI工具,包括醫學知識圖譜、腦齡預測算法等,注冊用戶可以免費使用這些平臺AI工具進行初步的數據挖掘和探索,為他們的進一步探索提供線索。考慮到醫療AI的研發少不了大量的數據標注,素問平臺還包含了一個能夠多方同臺在線標注的系統,使得以項目為統籌單位的AI研發可以流水線般地順利進行。
這里以醫學知識圖譜為例介紹如何與臨床醫生一起共創未來醫療AI技術。目前,醫療存儲最普遍的數據是電子病歷,臨床應用中產生了對電子病歷結構化處理與輔助決策的技術需求。電子病歷的AI分析、理解,需要以標準醫學知識體系作為藍本,而醫學知識圖譜可以看成是復雜的醫學知識體系的一個易于計算機進行理解與處理的、相對簡化的版本。然而,目前在中國還沒有一個標準的、官方的、能夠覆蓋全病種的醫學知識圖譜,已知的電子病歷數據的利用多由公司主導的軟件提供服務,背后均是自建醫學知識圖譜,由于不公開,其有效性、可用性均不能被臨床權威考察,“各自為政”的開發方式也大大限制了知識的規模和覆蓋范圍,使得當前的電子病歷數據還無法很好地支持臨床輔助決策。此外,現有的醫學知識圖譜大多沒有開源,僅以產品形式置入醫院信息化系統,無法進行知識的更新迭代,使得醫院對AI產品的可用性依然存疑。因此,針對醫療文本類的數據利用,筆者所在團隊在素問平臺建立了開源、開放的醫學知識圖譜,該體系以疾病為中心,涵蓋了部位、檢查、癥狀、藥物等11種實體類別和治療、副作用等共43種關系類別,并提供了醫學概念檢索、知識檢索等一系列應用程序接口(application program interface,API),使得知識圖譜的審查與基本應用可以在線完成。
這個圖譜自發布以來受到廣泛關注,很多醫院和企業與平臺聯系希望進一步應用。在應用的過程中發現不同醫療方對知識圖譜中的醫學概念命名和關系、屬性的定義存在不同,而這些不同存在于臨床標準的執行中,這就產生了如何讓知識圖譜中的概念、屬性和關系能得到普遍共識的問題。經過思考,筆者所在團隊對知識圖譜網頁版的呈現形式進行了可交互的設計,并建立了一種和專病醫生進行知識共建的模式,讓臨床專家可以對知識進行修改,像wiki百科全書那樣以開放的方式讓盡可能多的臨床專家都來在醫學概念和關系邏輯上進行考量和修正,通過不斷的迭代最終形成具有規范化和廣泛共識的醫學知識圖譜。筆者所在團隊在素問系統研發一周年之際再次發布醫學知識圖譜的wiki版本(https://suwen.pcl.ac.cn/graph/wiki),此次發布的知識圖譜實體數170萬左右,三元組總量接近400萬,是國內已知最大的開源中文醫學知識圖譜。更新后的版本在可用性和交互性上有了較大提升,使得用戶活躍度明顯上升,例如,wiki版本前端知識的產生和修訂可能來源于任何一位用戶,而知識圖譜的更新上需要在該圖譜分支領域的負責編輯單位進行審核和最后的審定,每一個細分領域的圖譜負責編輯都是該領域在全國排名前三的權威醫院團隊。由此,AI專家負責圖譜迭代和生成的技術,所產生的知識及其邏輯關系由大眾臨床專家查看、修改,最終由權威團隊負責審定,真正實現了眾多不同背景、不同地域的專家流水線式地同臺作業。而知識圖譜在不斷更新迭代的過程也是臨床共識產生的過程,由于圖譜是全免費開放,降低了使用門檻,這樣的開放模式為匯聚專家思維、形成共識提供了平臺基礎。
該醫學知識圖譜wiki版本發布一個月以來,發現注冊用戶主體已經從過去的企業轉變為現在的企業、科研機構和醫院共同參與,說明方便的交互機制讓醫生能更好地參與到AI技術的研發中,并且他們也有足夠的參與意愿。wiki版本的發布更加完善了在線編輯機制,可以通過不同的權限使得大眾參與、專家討論,最終形成共識。只有經過審定后的標準知識圖譜才能進入臨床應用,筆者期待在不遠的將來基于素問醫學知識圖譜的臨床輔助決策能為臨床提供更多幫助。
在素問系統的整個搭建和探索過程中,筆者所在團隊深刻意識到跨領域合作的難度,這里的挑戰包括幾部分:(1)原始數據共享的挑戰:在隱私保護政策明晰、數據所有權益和數據倫理問題得到解決之前,打破數據壁壘、推進數據共享之路還很漫長;(2)數據規范化、一致性問題:在區域化的數據采集逐漸推廣、數據規模與日俱增的情況下,數據本身的規范性、診療標準的一致性等也是基于大數據的AI技術發展而產生的,因此是必須要克服的一個重要障礙。前者隨著自然語言處理等技術的發展,可以基于技術手段來部分解決,后者則需要隨著診療水平的提升、分級診療制度的完善來逐漸改善。顯然,相比于數據的直接共享,隨著當前大規模預訓練模型、多中心聯邦學習技術的發展,共享在數據之上獲得的模型以及基于臨床數據來總結的知識,所遇到的挑戰會更小一些,同時對加快醫療決策智能化的發展,也具有非常現實的價值。要獲得真正有價值的知識,仍然還會面臨另一個挑戰:面向醫生的醫療領域知識與面向AI的領域知識之間的巨大差異,如診療指南可以給醫生提供決策的依據,但AI系統卻很難依賴診療指南來進行準確決策;同時,醫療數據所蘊含的核心知識是由無數個醫生來構建的,由于長期以來,缺乏嚴格規范的標準,導致每個醫生、每個醫療機構的背景、規模、水平皆有不同,這種差異的消除,單靠嚴格的規范要求和專業的教育,在相當長的時間內都難以達成共識。
為了避免這種差異化隨著時間的發展進一步擴大,繼續阻礙AI技術的發展,目前最可行的方法是通過平臺能夠自動迭代不同人、不同時間的輸入,再由權威機構和專家進行審定,最終形成可用的知識標準,未來有大量的醫療AI技術等待著標準臨床知識作為藍圖,而對于醫學龐大的知識體系,筆者所在團隊嘗試以完全開源、開放技術成果的方式換取臨床共識,希望技術應用的動力能讓更多的專家參與到標準知識的構建中,同時,借助這一平臺,訓練出能夠自動彌補差異、達成共識的系統,最終讓技術迭代到匹配臨床需求的水平。
當然,在開放與共識方面的探索也只是剛剛開始,經驗尚且不足,還有大量的工作等待我們去完善,最終的目標是希望AI技術的落地應用能推動醫學的發展,能讓更多的患者受益。
筆者希望,未來的醫療AI不僅僅是在生產力方面提高醫療效率,而是能夠回歸醫學初衷,和醫生一起面向患者,給予患者關懷。這需要我們以開放換取共識,真正達到在AI技術的生產、復制和應用環節當中的有效監管,讓AI成為大眾的選擇,而不只是技術者的選擇。