艾 超,冀召帥,張雅鑫,劉 岸,周學思,陳忠昊,吳 及#(.清華大學附屬北京清華長庚醫院/清華大學臨床醫學院藥學部,北京 08;.清華大學電子工程系,北京 00084)
藥物性肝損傷(drug-induced liver injury,DILI)是臨床常見的藥物不良反應之一;嚴重的DILI可進展至急性肝衰竭,甚至發生死亡[1],是藥物研發失敗、增加警示和撤市的重要原因,受到醫藥行業的高度重視[2—3]。據2019 年的一項國內多中心研究顯示,我國DILI 的發生率為23.80/10 萬[4],且近年來呈上漲趨勢,漏診、誤診對患者原疾病治療和預后均會帶來多種不良影響。早期肝損傷信號主動預警、精準診斷、及時停用懷疑藥物并采取干預措施,是DILI診治的關鍵[5]。隨著人工智能技術的發展,自然語言處理技術能夠模仿人類理解病歷中的語義知識從而解決病歷文本數據識別處理難題[6—7]。本研究利用自然語言處理技術結合Roussel Uclaf因果關系評價法(Roussel Uclaf causality assessment method,RUCAM)[8]建立藥物性肝損傷自動監測與評估系統(drug-induced liver injury surveillance and assessment system,DILI-SAS),對臨床全部住院病歷開展主動性監測,以期提升DILI的監測與評價效率。
DILI-SAS是利用自然語言處理技術結合DILI評價方法,實現對全部住院病歷數據(實驗室檢查等數值型、病程記錄/護理記錄等文本型數據)的有效信息挖掘和利用,通過設定肝損傷信號識別條件,當滿足判斷條件的肝損傷信號被識別時,啟動目標藥物判斷、肝損傷類型判斷以及關聯性評估等。圖1 為本系統開展DILI 信號監測及因果關系評估技術路線圖。

圖1 DILI-SAS技術路線設計流程圖
DILI-SAS 系統實現自動評分的技術步驟包括2 個步驟。步驟1——全部住院病歷信息挖掘和利用。主要包括3個部分內容:(1)重要指征類,基于自然語言處理技術對全部住院病歷資料解析及判斷患者有無某體征,基于通用中文語料進行預訓練,然后在此基礎上,針對重要指征匹配任務構建新的數據集,對預訓練模型進行微調,得到適應該任務的相似度計算模型,尤其是實現對別名、簡寫、口語等情況的有效識別;(2)用藥序列,提取目標藥囑并合并為連續用藥序列;(3)檢驗序列插值與趨勢分析,提取檢驗項并基于插值補全患者住院期間檢驗數據,基于循環神經網絡進行趨勢分析。步驟2——DILI 分析。以步驟1 結果作為自變量,采用RUCAM 量化評分表為依據,從服藥至發病時間、病程、危險因素、伴隨用藥、非藥物性肝損傷因素、藥物既往肝損傷毒性、再用藥反應7個維度點評用藥與肝損傷之間的關聯性,匯總各個角度分數并按照可能性排序,判斷DILI可能性及懷疑藥物。
肝損傷識別信號的設定是啟動本系統初始環節,需同時兼顧結果的準確率、靈敏度等方面。本研究經過多次的測試,暫定肝損傷識別信號條件見表1。

表1 肝損傷信號識別條件
參照《藥物性肝損傷基層診療指南(2019 年)》[9],根據R值對DILI 的損傷類型進行劃分,R=[ALT/ULN]÷[ALP/ULN]。肝細胞損傷型:ALT≥3 ULN,且R≥5;膽汁淤積型:ALP≥2 ULN,且R≤2;混合型:ALT≥3 ULN,ALP≥2 ULN,且2<R<5。根據DILI國內外多項指南推薦[9—10],本研究采用RUCAM 量化評分表對藥物與DILI 的因果關系進行判斷。根據總分,將DILI 的可能性分為排除(<1 分)、不太可能(1~2 分)、可能(3~5分)、很可能(6~8分)或極有可能(>8分)。
參照中國藥物性肝損傷專業網Hepatox(http://www.hepatox.org/enTypeDrug)、美國藥物性肝損傷專業網Livertox(http://livertox.nih.gov/)以及藥品說明書和文獻報道等建立DILI藥品目錄。根據證據來源不同,按照證據來源對藥品進行風險分級,并與RUCAM量化評分表中“伴隨用藥”和“藥物既往肝損傷”2項評分標準進行比照及賦分。DILI 風險分級標準及RUCAM 評分如表2所示。

表2 DILI風險分級標準及RUCAM評分
為了驗證和評價該系統在真實醫療環境中的應用效果,本研究調取了清華大學附屬北京清華長庚醫院(以下稱為我院)2022 年8 月—2023 年1 月期間出院的19 445 份住院病歷數據。先使用DILI-SAS 對全部病歷進行測試,篩選出全部DILI病歷再經過臨床藥師人工復評(假設人工點評的結果均為100% 正確),收集RUCAM 評分≥3 分的所有病例,如同一病例被檢出僅有1 種懷疑藥物則記為1 例DILI 事件,如果同一病例存在2 種懷疑藥物(各藥物的RUCAM 評分≥3)時按照2例DILI 事件處理,以此類推。記錄每個DILI 事件的基本資料、懷疑藥物、發生時間、肝損傷類型、肝損傷評分等資料。以RUCAM評分大小來確定第一懷疑藥物,當RUCAM 評分一致時以藥物風險級別、用藥療程結合人工評價來判定第一懷疑藥物。
2.2.1 評價指標定義
從準確度和召回率2 個指標對系統的性能進行評價;準確度定義為A(系統正確檢出的DILI 例數)/B(系統檢出的DILI總例數)×100%;召回率定義為A/C(真實世界DILI總例數)×100%。其中需要特別說明:真實世界DILI的總例數確定相對比較困難,需要人工對全部病歷均開展評估后獲得,本研究在執行時采用了一種近似評估的模式,即將系統正確檢出的DILI例數和系統未檢出的DILI例數按照10%進行抽樣,由5名臨床藥師開展人工評估后檢出的DILI 總例數來估算全部住院病歷的漏檢例數,兩者取總數。
2.2.2 性能測試
使用DILI-SAS 對19 445 份病歷數據進行監測,共檢出DILI 病例75 例,發生率為385.70/10 萬人;共發現DILI事件149例;再經過人工復核后正確檢出DILI事件為137 例,真實世界檢出的DILI 事件為147 例。系統整體準確率為91.95%,召回率為93.20%;RUCAM>8分的準確率和召回率均為100%,具體見表3。

表3 系統性能驗證分析結果
2.2.3 時效性分析
采用人機耦合的方式對19 445 份病歷進行篩選和評估,即先使用本系統進行全部住院病歷篩選和評估,篩選149 例DILI 事件再由5 名臨床藥師復核,耗時4.91 h,平均每份病歷耗時0.075 min;而同期5名臨床藥師對100 份隨機抽取的病歷開展純人工評分時,共耗時1.55 h,測算開展全部住院病歷(19 445 例)數據需耗用301.40 h。基于本系統采用人機耦合的方式開展DILI監測的效率比人工監測提升約60倍。
75 例發生DILI 患者中男性46 人(61.33%);60 歲以上年齡患者42 人(56.00%);肝細胞損傷型52 例,占比69.33%,詳見表4。按照《中國醫師藥師臨床用藥指南》對第一懷疑藥物進行藥理分類,其中發生頻次大于2例的藥理分類有14 種,主要為二氫吡啶類7 例、羥甲基戊二酸單酰輔酶A(HMG CoA)還原酶抑制劑6例、質子泵抑制劑6 例;從具體藥物來看,主要為阿托伐他汀6 例、奧美拉唑6例、頭孢曲松5例、甲硝唑5例,具體見表5。

表4 75例DILI患者基本資料

表5 75例DILI第一懷疑藥物藥理分布
無特異性生物標志物和低發病率是導致DILI 診斷困難的主要原因,臨床診斷DILI 時通常需要根據既往史、病程、功能化驗、肝臟相關檢查排除其他可能的肝損傷原因以及結合用藥史等因素綜合評判。目前可用于DILI的診斷方法主要有《中草藥相關肝損傷臨床診療指南》[11]推薦的整合證據鏈(integrated evidence chain,IEC)、RUCAM和美國胃腸病學會指南推薦的結構化專家 觀 點 程 序(structured expert opinion procedure,SEOP)[12]。其中RUCAM 因其客觀性、診斷準確性以及易操作性[13—14],被國內外指南和研究推薦使用。RUCAM量表分為服藥至發病時間、病程、危險因素、伴隨用藥、非藥物性肝損傷因素、藥物既往肝損傷毒性、再用藥反應7項,其中服藥至發病時間、伴隨用藥2項評分數據來源相對簡單、客觀,但其他5項評分的開展均需要對全部住院病歷數據資料進行檢索,且存在遺漏和主觀判斷差異,最終影響RUCAM 的客觀性和準確率。此外,人工利用RUCAM 開展DILI 的監測工作,也面臨著時效性差和人力成本高的問題,這也制約著臨床DILI的早期診斷和治療。
本研究利用自然語言處理技術及醫學/藥學知識庫技術,實現對全部住院病歷數據挖掘和利用,基于RUCAM 開發首套DILI-SAS。本研究采用人機耦合的方式對19 445例住院病歷進行監測和系統性能驗證,準確率為91.95%,召回率為93.20%。按照RUCAM 評分進行分層后,發現系統共監測出4 例RUCAM>8 分的DILI事件,準確率和召回率均為100%,表明系統對于臨床證據確切、干擾因素較少的DILI事件的監測和評估能力與人工一致,但目前只有4例,數據量較少,有待后續驗證及完善。此外,采用人機耦合的方式開展全部住院病歷監測的效率僅為0.075 min/(份·人),較人工獨立評審的效率提升約60倍。這是因為住院病歷內容復雜,人工獨立評審需要查閱所有病歷資料再進行逐項評判,其工作量巨大;而相反,如果先通過系統預先評審,再由藥師有目的地進行問題確認,其工作相對而言會簡化很多,可以極大提高審核效率。采用人機耦合的方式開展全部住院病歷DILI 的監測工作,在保證準確率、召回率的基礎上,同時也提升了時效性,有助于DILI 的早期確診和干預。
19 445 例住院病歷共檢出DILI 病例75 例,DILI 的發生率為385.70/10 萬人,而據2019 年的一項多中心研究結果顯示,我國DILI 的發生率為23.80/10 萬人[4]。兩者差異較大,分析原因可能為:(1)人工監測通常是在肝損傷中后期才會發現,而本系統可以對全部住院病歷數據進行主動監測,尤其是對肝損傷早期的信號識別更及時,提升了DILI早期診斷率;(2)通過制定高風險藥品目錄,系統可以同時對目錄內全部藥物開展DILI的評價并進行對比;(3)目前藥物不良反應包括DILI 的上報主要以醫師/護士主動上報為主,存在人為漏報的可能性。
75例DILI患者中,以男性為主(61.33%);60歲以上年齡患者多見(56.00%);臨床分型以肝細胞損傷型為主(69.33%),其次為膽汁淤積型(28.00%),混合型相對少見(2.67%);潛伏期主要集中在5~90 d(62.67%),<5 d次之(36.00%),>90 d 僅有1 例。RUCAM 評分在3~5分 之 間 的 最 多(66.67%),6~8 分 之 間 的 次 之(28.00%),>8 分僅有4 例(5.33%)。75 例DILI 中第一懷疑藥物的藥理分類主要為二氫吡啶類、HMG CoA 還原酶抑制劑、質子泵抑制劑等,主要藥物有阿托伐他汀、奧美拉唑、頭孢曲松、甲硝唑等,這提醒醫師/臨床藥師使用此類藥物時應關注DILI的發生,及早發現、及早干預。
本研究也有一定的局限性,比如系統早期的肝損傷信號識別主要靠轉氨酶等指標異常提升來響應,而對于肝功能檢查、臨床癥狀表現上已存在肝損傷表現的病例的識別存在一定的延遲;此外本系統目前的數據主要來源于同一家醫院6個月的住院病歷,尚未開展多中心數據的測試。以上問題,本研究團隊會繼續完善并積極開展多中心測試,期望協助臨床進行DILI 的早監測、早診斷、早干預。
DILI是臨床常見的藥物不良反應之一,但缺乏特異性標志物以及開展人工獨立監測效率低等因素是導致臨床DILI 診斷困難的主要原因。通過醫學自然語言技術開發DILI 監測與評價系統,以人機耦合的方式開展DILI的監測和藥物關聯性評價,有助于發掘真實世界下的DILI 事件,在保障準確率和召回率的基礎上,同時提升了工作效率。DILI-SAS的研發為臨床DILI的早期識別、診斷、評價提供了解決方案。