井 杰, 王蓓蕾, 劉善榮
(海軍軍醫大學第一附屬醫院實驗診斷科,上海 200433)
人工智能(artificial intelligence,AI)是利用計算機程序模擬、延伸和擴展人類智能應用的先進科學技術[1]。近年來,“醫療+AI”模式在影像智能判讀[2]、手術機器人[3]、新藥研發[4]等領域已有廣泛研究。然而,多數AI具有“黑箱”特點,其行為高度不透明[5],醫生無法了解機器的決策機制、發生錯誤的原因以及避免錯誤的方法,限制了其臨床應用。近年來,有學者提出可解釋人工智能(explainable artificial intelligence,XAI)的概念,即將可解釋性作為額外的設計驅動因素來構建AI系統,用可理解的方式向用戶解釋或呈現其行為[6]。檢驗醫學是臨床輔助診療的重要組成[7],具有廣泛的臨床可解釋性,長期以來通過提供客觀數據來協助臨床決策。因此,通過XAI技術對檢驗數據進行集成和分析,深度挖掘其內在價值,開發可解釋的檢驗AI工具,必將顯著提高檢驗數據的臨床應用價值,為智慧醫療的跨越式發展提供重要支撐。本文立足于檢驗醫學的研究現狀,結合XAI的基本概念、重要性及實現方法,重點探討基于檢驗知識圖譜的檢驗XAI的研究思路,展望其未來應用前景,探討其面臨的挑戰和應用局限性。
檢驗醫學是現代醫學的重要組成部分,臨床決策所需信息的70%來自檢驗[7]。實驗室檢查涵蓋臨床化學、血液學、免疫學、微生物學在內的2 000多項指標,為臨床醫生提供大量客觀數據以輔助臨床決策[8]。在急診室,超過41%的疾病需要通過實驗室數據確診[9]。癌癥、內分泌、感染性和遺傳性等疾病需要通過實驗室數據確診或協助確診[10]。檢驗數據也支持循證醫學實踐指南的發展,在1 230個針對23種疾病的臨床實踐指南中,有37%涉及實驗室檢查[11]。由此可見,檢驗醫學可以為臨床實踐提供大量顯性或隱性的專業知識。
眾所周知,實驗室儀器自動化的發展產生了大量的結構化或半結構化的檢驗數據[12-13]。近年來,檢驗醫學在方法和結果的標準化、歸一化方面取得了重大進展[10,14],國際臨床實驗室結果協調聯盟組織統一和標準化臨床實驗室檢測過程和參考區間,實現了臨床實驗室檢測結果和實驗過程優化的一致性,極大改善了臨床實驗室的標準化。由此可見,檢驗醫學可以為臨床實踐提供海量高質量、標準化、歸一化的檢驗數據。
然而,目前臨床醫生對檢驗數據的解讀能力仍然存在不足。首先,檢驗項目越來越多,其臨床意義持續更新,不同疾病、不同病程對應的檢驗結果更是復雜多變,很多醫生無法及時更新相關知識;其次,臨床專科化發展趨勢不可避免,多數醫生只熟悉自己專科常用的檢驗項目,對其他專科的檢驗項目并不熟悉,很容易忽視超出其專科知識范圍的關鍵結果和重要參數;第三,疾病影響著機體的整體狀態,當眾多檢驗指標發生異常時,綜合分析檢驗數據的相互關聯難度極大,即使是經驗豐富的醫生也很容易忽視其內在關系[15],從而造成疾病的漏診或誤診。因此,通過XAI技術對檢驗數據進行集成和分析,深度挖掘檢驗數據中的隱藏價值,開發基于實驗室數據的檢驗XAI工具,為提高實驗室診斷價值展示了巨大的應用前景。基于此,檢驗醫學與XAI的融合勢在必行。
XAI是指基于一些AI原則所創建的有效和能被用戶所理解的AI系統,其主要目的是通過提供可解釋的細節或理由讓用戶更容易理解模型運行的復雜行為[16]。不同研究者開發了多種檢驗AI系統[17-18],但由于缺乏可解釋性,尚無檢驗AI產品被應用于臨床。由此可見,加強檢驗XAI的研究具有重大意義。一方面,當使用可解釋模型時,用戶可以通過提取數據之間的因果關系獲得臨床檢驗相關知識,從而增強對模型的理解和信任;另一方面,XAI所提供的解釋可以幫助AI研發人員更好地理解模型存在的數據偏差,及可能失敗的原因,解決模型的內部缺陷,提高系統的性能和安全性。
近年來,AI專家從模型內外2個角度對XAI模型的可解釋問題提出了兩大解決方案,包括“模型自身可解釋”和“模型以外可解釋”。前者是通過直接設計具有內在可解釋性的算法實現模型的可解釋功能[15],包括線性回歸、邏輯回歸在內的廣義線性模型,以及梯度增強機、隨機森林、極端梯度提升在內的樹集成模型;后者將模型預測與解釋分開,主要包括可視化解釋、影響方法、基于實例的解釋、基于知識的解釋4種技術類型。
2.2.1 可視化解釋 可視化解釋是探尋深度神經網絡等復雜模型內部工作機制最直接的途徑,其技術方法主要包括:代理模型、部分依賴圖(partial dependence plot,PDP)和個體條件期望(individual conditional expectation,ICE)。代理模型即用來解釋復雜模型的簡單模型,雖然計算量小,但其計算結果和高精度模型的計算分析結果相近[19]。PDP是一種圖形表示,有助于可視化特定特征對機器學習(machine learning,ML)模型預測結果的平均邊際影響[20]。ICE是一種與PDP類似的圖形表示,能深入到單個樣本,分析某一特征變化對單個樣本的影響,并給出每個樣本的預測值[21]。
2.2.2 影響方法 影響方法通過更改模型輸入或內部參數來評估特征的重要性或相關性,并記錄特征更改對模型性能的影響程度,以解釋模型決策。影響方法主要有敏感性分析、層級相關性傳播和特征重要性3種。敏感性分析通過使每個特征在可能的范圍內變動來預測這些特征的變化對模型輸出值的影響程度[22]。層級相關性傳播[23-24]將模型決策的重要性信號從模型的輸出層神經元逐層傳播到模型的輸入層,使模型的決策結果可在特征上找到解釋,得到每個特征參與分類決策的貢獻大小。特征重要性則是通過改變特征值,計算模型預測誤差的變化,從而量化每個輸入變量對模型預測結果的貢獻[25]。
2.2.3 基于實例的解釋 基于實例的解釋技術通過選擇數據集的特定實例來解釋AI模型的行為,包括原型和批評解釋,以及反事實解釋。原型是指從數據集中選擇的具有代表性的實例,數據集中的實例關系是由與原型的相似性決定的[26]。為了避免過度泛化,數據集也需要展示批評點,即不能被一組原型有效代表的實例。模型可預測原型和批評的結果,以解釋模型決策,并發現模型算法的弱點。反事實解釋描述了一種因果關系,即“如果沒有輸入特征X,則預測結果Y不會發生”,通過對原始實例的輸入特征進行最小條件的更改,以獲得不同預定輸出結果的新實例,從而解釋模型的決策行為[27]。
2.2.4 知識提取的解釋 基于知識的解釋主要包括提取內部知識和引入外部知識的解釋方法。前者指提取原數據集中已有的知識建立解釋模型;后者指利用外部輸入的知識,如常識、概念、語料庫等固有概念,建立解釋模型。目前,基于知識提取的方法主要包括知識蒸餾和知識圖譜。知識蒸餾是一種降低模型復雜度的模型壓縮方法,可將信息從深層網絡傳遞到淺層網絡[28]。知識圖譜是由多個三元組組成的語義網絡,主要用于描述現實世界中的實體、概念及事件間的客觀關系。知識圖譜可以將數據集或者知識庫中的任一元素看作是一個實體,通過描述相鄰實體之間的不同關系,以及實體與實體之間存在的路徑,共同構成以實體、關系和路徑為支撐的知識網絡。
目前,與其他可解釋方法相比,知識圖譜具有的海量規模、語義豐富、結構友好、質量精良的知識是其關鍵優點,為機器理解語言提供了重要的背景知識。由于目前XAI的可解釋方法大都面向各領域專家,專業術語難以被普通用戶理解,因此基于容易理解的檢驗知識圖譜的XAI技術來構建檢驗XAI,具有更廣闊的應用前景。
檢驗知識圖譜的構建主要包括概念層設計、實例層學習和知識圖譜應用3個方面[29]。首先,將醫學檢驗相關文獻和實驗室信息系統(laboratory information system,LIS)中存儲的有效數據作為知識庫,并對知識庫進行概念層設計。檢驗知識圖譜的概念層設計包含4級實體概念,第1級是醫學檢驗實體,第2級是患者基本信息實體、檢驗實體和診斷實體,第3級是檢驗項目實體,第4級是具體的檢驗指標實體。同時,定義不同實體之間的相互關系,即實驗室檢查中不同實體之間所發生的醫療事實聯系,如檢驗指標實體和檢驗項目實體共同構成檢驗實體。然后,根據規定的知識提取規則,從大量的醫學檢驗相關文獻和LIS存儲的數據中提取與概念層相匹配的醫學檢驗事實,構造出實例層。最后,將醫學檢驗實體、醫學檢驗實體關系和醫學檢驗事實以三元組的形式存儲,得到醫學檢驗知識圖譜。知識圖譜的應用是根據輸入的實體,通過圖數據庫的搜索機制,實現對知識圖譜三元組中任一要素及相關信息的搜索。
迄今為止,AI共經歷了2代發展[30-31]。第1代AI是基于知識驅動AI模型,其推理過程是完全基于人類專家定義的規則;第2代AI是以深度學習算法為代表的數據驅動AI模型,該模型利用統計方法將模型的輸入數據轉換為輸出結果。因此,近幾年相關學者提出了全新的“第3代AI”的概念[30]。大體說來,是通過結合知識驅動和數據驅動方法,構建一個更強大、兼具可解釋性和魯棒性的AI系統,推動AI的創新應用。基于此,基于知識圖譜的檢驗XAI的研究思路為:(1)單純知識驅動檢驗XAI。檢驗金標準即可診斷。如根據乙型肝炎血清學標志物檢測結果診斷乙型肝炎。疾病預測是完全基于已有檢驗知識的推理,其顯著優勢是輸出結果具有可解釋性和容易理解,缺陷是只限于確定性推理方法來解決特定問題。(2)“知識+數據”雙驅動的檢驗XAI。疾病的預測既有知識的推理也有模型算法的統計分析,其工作流程見圖1。首先,檢驗XAI自動提取患者所有實驗室檢測數據,輸入檢驗知識圖譜,構建異常指標與疾病的關系網;如圖1中“某患者”有35項指標異常,經檢驗知識圖譜過濾,發現與包括胰腺癌、感染及阻塞性黃疸等在內的157種疾病有關,然后自動調取所對應的單病種ML算法模型,自動計算患病風險概率值[32]。值得注意的是,上述單病種ML算法模型,即基于大量歷史患者檢驗數據所構建而成的數據驅動模型,優點是具有大數據處理優勢,可自動搜索和處理大量變量,從而可靠地對結果進行分類和預測[32],但輸出結果缺乏可解釋性是其面臨的主要問題。然后,檢驗XAI按照患病概率、嚴重程度對預測疾病進行排序;如檢驗XAI對圖1中“某患者”預測的胰腺癌、感染及阻塞性黃疸等疾病,按照患病概率進行降序排序。同時,檢驗XAI以一種可視化方式展示模型算法的“可解釋性”,即不同異常檢測指標在所預測疾病中的權重分析。此外,檢驗XAI還可依據檢驗知識圖譜提供異常指標的臨床意義。最后,檢驗XAI以高風險疾病(如胰腺癌)、中風險疾病(如感染)及低風險疾病(如阻塞性黃疸)的方式輸出相應的實驗室診斷。

圖1 檢驗XAI的工作流程圖
檢驗知識圖譜和ML算法在“知識+數據”雙驅動檢驗XAI疾病預測過程中的作用是相輔相成的。一方面,檢驗知識圖譜的作用在于檢驗醫學常識的推理,不僅為檢驗XAI初步確定了ML的疾病診斷范圍,還提供了疾病診斷過程所需的臨床證據;另一方面,ML使檢驗XAI具有更好的疾病預測能力,可發現疾病新的風險因 素,并驅動檢驗知識圖譜的更新迭代。
目前,臨床上大多數輔助檢查(包括影像和病理)都是以診斷報告的形式提供給臨床醫生。長期以來,檢驗醫學僅有檢驗數據,卻不能為臨床提供客觀的診斷報告,主要是由于個體化檢驗數據變化大,每位患者不同疾病、不同病程、不同治療情況的檢驗數據復雜多變;不同異常檢驗指標對應的臨床意義不同,聯合意義更多、更廣,難以分析。因此,通過檢驗XAI對檢驗大數據進行集成和分析,挖掘檢驗數據隱藏的診斷價值,成為輔助臨床醫生解讀復雜檢驗數據的突破口[33-34]。檢驗XAI的主要功能是根據異常檢驗數據及時生成基于算法的疾病診斷預測或推薦。智能化的檢驗報告側重于檢驗AI預測結果的可解釋性。未來,檢驗XAI可為臨床醫生提供與輔助診療相關的智能化檢驗報告,包括疾病預測、異常檢驗指標分析、異常指標與預測疾病的對應關系分析等[35]。除此之外,智能化的檢驗報告可提示臨床醫生該患者需進一步完善的檢驗項目,及患者檢驗指標變化趨勢等。
檢驗XAI在疾病診療領域具有廣闊的應用前景,但其產品研發仍面臨挑戰,臨床應用存在一定局限性。首先,數據質量問題是檢驗XAI研發面臨的主要挑戰。一方面,醫院內不同醫療數據庫之間缺少有效的協同機制,數據采集和存儲標準不一,結構化程度低,質量不統一,影響了檢驗大數據的應用;另一方面,不同醫院之間缺乏統一的標準和規范,不同企業承建的醫院信息系統,受限于企業之間的技術壁壘,數據共享和互通程度較低,存在“數據孤島”現象[36]。使得檢驗XAI研發所用的數據只能來自有限的公開數據集或自備數據庫,存在著數據量過小、質量欠佳以及標注不規范等問題,勢必影響其疾病預測的準確性和應用的普適性。此外,僅依靠檢驗科,無法獨立完成檢驗XAI的建立,需要病理、影像、手術及用藥等相關數據的佐證和支撐,因此臨床科室的參與度是很重要的因素[37]。在臨床實際運用過程中,檢驗XAI僅依據檢驗數據提供相應的診斷結果相對片面,臨床醫生可基于檢驗XAI的疾病推薦,也可綜合患者的病史、影像和病理等結果,以及自身臨床經驗進行綜合判斷,最終給出相應診斷和臨床決策指導(如預約其他輔助檢查、手術、隨訪等)。
檢驗醫學是臨床輔助診療的重要支撐。隨著AI與醫學領域的深度融合,檢驗醫學與AI的結合作為一種新的醫療模式正在快速發展。為了避免AI模型的“黑箱”預測,基于知識圖譜的檢驗XAI通過對檢驗大數據的集成和分析,可為臨床醫生提供及時、準確的輔診信息,改變傳統檢驗醫學的運用模式,從而推動檢驗醫學由被動性醫學向主動性醫學轉化。