盧京川,郭代紅,高 奧,伏 安,李 超,郭海麗,王天琳,石廷永(.解放軍總醫院醫療保障中心藥劑科,北京 0085;2.重慶醫科大學藥學院,重慶 40006;.北京康聯達軟件有限公司,北京 00028)
癲癇發作是腦部異常的神經元過度化或同步化活動引起的發作性事件。全球超過5000萬人受癲癇困擾,癲癇發作給患者造成巨大的生理及心理傷害,嚴重影響患者及其家庭的生活質量[1]。隨著現代計算技術的發展,大數據技術已廣泛應用于癲癇發作的診斷、預測及遺傳學等臨床研究[2]。醫院信息系統(hospital information system,HIS)中包含大量與癲癇發作相關的數據,包括癥狀描述、腦電圖檢查、神經影像檢查、抗癲癇藥物用藥記錄等可供研究的臨床信息。但由于數據類型多樣,提取難度大,國內鮮有對癲癇發作的大樣本真實世界研究[3]。本研究基于團隊自主研發的“臨床ADE主動監測與智能評估警示系統-Ⅱ[4](adverse drug events active surveillance and assessment system-Ⅱ,ADE-ASAS-Ⅱ)”構建住院患者癲癇發作自動監測模塊,旨為住院人群癲癇發作的大樣本真實世界研究提供高效、全面、可靠的研究工具。
數據來源于某三甲醫院HIS數據庫,監測對象為有醫囑記錄的住院患者。收集信息包括患者人口學資料、診斷記錄、病程記錄、醫囑信息等。
參照中國抗癲癇協會編著的《臨床診療指南癲癇病分冊》(2015修訂版)[5]中各類癲癇發作的典型臨床表現及發作特點,評估住院患者的發作表現及癥狀持續時間是否符合癲癇發作短暫性、刻板性、重復性的特點。符合癲癇發作特點的患者若滿足以下任意一條納入標準,則判定為陽性病例。納入標準:①經醫生診斷為“癲癇發作”或“癲癇持續狀態”;②使用抗癲癇藥物;③腦電圖檢查顯示有癲癇樣放電。排除標準:電子病歷信息不全的患者。
自動監測模塊評價指標:陽性預測值(positive predictive value,PPV):報警病例中的真陽性病例數占報警病例總數的比值;召回率(recall rate,R):報警病例中的真陽性病例數占陽性病例總數的百分比。
首先建立癲癇發作相關的初始關鍵詞集,依托ADE-ASAS-Ⅱ的文本分類技術高效識別HIS電子病歷中的上述詞集[6],開展預實驗。將初始關鍵詞集篩分為不同屬性的關鍵詞集,作為決策樹各分支的分類標準。通過ADE-ASAS-Ⅱ中的文本分類技術和決策樹的分類功能將癲癇發作病例與其他病例進行拆分,從而得到目標病例。利用ADE-ASAS-Ⅱ自定義功能和標題屏蔽功能對模塊的報警規則進行優化,確定能夠獲得相對理想PPV和R的模塊最佳設置;再擴大監測樣本量,驗證模塊的穩定性,具體流程見圖1。

圖1 癲癇發作模塊建立流程圖A – 初始關鍵詞集,B – 決策樹報警關鍵詞設置示意圖Fig 1 Flowchart of the seizure module establishmentA – initial keywords, B – diagram of decision tree with arm keyword setting
采用SPSS 22.0軟件對癲癇發作人口學特征、發作類型及發作原因進行統計描述,使用單向K-S檢驗確定連續變量的分布模式,符合正態分布的連續變量采用均值±標準差描述,非正態分布數據采用中位數和四分位數描述,計數資料采用頻數及百分比描述;癲癇發作病因采用MedDRA 24.0首選術語(preferred term,PT)進行整理,癲癇發作類型按照2017國際抗癲癇聯盟提出的方法進行分類[7]。當同一患者多次入院時,分別計算例次;入院后多次發作,以首次發作為準。
參考國內外指南共識、自發報告數據庫、期刊文獻等,收集到90個初始關鍵詞(圖1),利用ADEASAS-Ⅱ的文本分類功能提取2021年11月2日3357例住院患者病歷中包含上述關鍵詞的電子病歷,得到報警病例1428例,經人工逐例評估,得到癲癇發作陽性病例38例。
根據38例陽性病例電子病歷中與癲癇發作相關的診斷記錄、癥狀描述、腦電圖檢查報告及抗癲癇藥物使用記錄,對初始關鍵詞進行初篩,刪除出現頻率低、納入出現頻率高的詞語。將初篩后的關鍵詞分類歸納為4個不同屬性的子詞集:①藥物關鍵詞集;②診斷關鍵詞集;③癥狀關鍵詞集;④腦電圖關鍵詞集。詳見表1。

表1 決策樹各分支報警關鍵詞初始設置Tab 1 Initial setting of alarm keywords in each branch of decision tree
模塊報警規則主要基于文本分類技術與決策樹模型,將不同詞集作為各分支監測單元的報警關鍵詞,分支1設置藥物關鍵詞集;分支2設置診斷關鍵詞集;分支3與分支4分別設置癥狀關鍵詞集和腦電圖關鍵詞集,決策樹結構見圖1。自動掃描各分支監測單元,若出現報警關鍵詞,即報警。決策樹各分支關鍵詞初始設置及監測單元可見表1。
為更有效地檢驗關鍵詞集的敏感性,研究選擇不同時段的住院人群進行模塊建立、優化和驗證實驗。對2021年8月1日 – 7日期間的5557例住院患者病歷逐一進行人工審閱,最終得到陽性病例51例。以此作為模塊報警規則優化的測試數據,計算PPV和R評估模塊報警規則的準確性[8]。
2.2.1 藥物關鍵詞集優化方案參考癲癇診療相關指南[5],結合醫院實際用藥情況,將左乙拉西坦等10種抗癲癇藥物作為藥物關鍵詞設置的初始方案。將是否納入咪達唑侖注射液、卡馬西平、苯妥英鈉作為三種優化方案,詳見表2。結果顯示,在刪除上述三種藥物后,陽性病例未丟失,報警人數減少59例,陽性預測值從6.39%提升至6.90%,詳見表3。

表2 藥物關鍵詞集設置方案Tab 2 Drug keywords setting scheme

表3 藥物關鍵詞集優化測試結果Tab 3 Optimization test results of drug keywords setting
2.2.2 診斷關鍵詞集優化方案由于癲癇發作類型多樣,故將不同的診斷關鍵詞集作為優化測試方案。由于決策樹結構特點,被藥物關鍵詞識別的陽性病例,不會進入分支2的診斷關鍵詞識別,故需統計各方案中僅由診斷關鍵詞可識別的陽性病例數,以此評估診斷關鍵詞集的適用性,各方案設置詳見表4。結果顯示,方案D報警人數為739例,可識別45例陽性病例;與方案D相比,方案E報警人數636例,但僅可識別27例陽性病例;方案F報警人數698例,可識別34例陽性患者,詳見表5。

表4 診斷關鍵詞集設置方案Tab 4 Diagnosis keywords setting scheme

表5 診斷關鍵詞集優化方案測試結果Tab 5 Optimization test results of diagnostic keywords setting
2.2.3 電子病歷標題屏蔽設置電子病歷包含部分結構化文本,如知情同意書等,存在大量假陽性報警信息。借助ADE-ASAS-Ⅱ的標題屏蔽功能,屏蔽以下文件中包含的關鍵詞報警,各方案設置可見表6,屏蔽后測試結果見表7。

表6 標題屏蔽設置方案Tab 6 Title shielding setting scheme

表7 標題屏蔽關鍵詞設置測試結果Tab 7 Test results of title shielding keywords setting
經過預實驗和各關鍵詞集的優化以及標題屏蔽設置,模塊PPV從2.66%提升至13.86%,R均為100.00%。最終確定7個藥物關鍵詞、13個癲癇關鍵詞、9個癥狀關鍵詞、8個腦電圖關鍵詞以及屏蔽12個標題關鍵詞為模塊最佳設置,詳見表8。

表8 模塊最佳設置條件Tab 8 Module optimal setting conditions
利用優化后的模塊,監測某院2021年5月共14 549例住院患者,共報警617人,經人工甄別得到癲癇發作患者90例,其中急性癥狀性癲癇發作53例,其人口學特點及發作類型分布見表9。發作病因包括神經系統腫瘤手術、卒中后癲癇發作、自身免疫性腦炎及藥品不良反應等,詳見表10。

表9 癲癇發作病例的人口學特點及發作類型分布. n = 90Tab 9 Demographic characteristics and distribution of seizure types. n = 90

表10 急性癥狀性癲癇發作病因分布. n = 53Tab 10 Causes distribution of acute symptomatic seizures. n = 53
模塊的報警規則是利用文本分類技術結合決策樹實現的,可同時監測醫囑信息、電子病程、檢查記錄,通過決策樹迭代劃分,逐層挖掘目標病例[9]。首先將住院人群中出現癲癇發作的人群按照是否使用抗癲癇藥物分類,使用抗癲癇藥物的人群可通過決策樹分支1設置的藥物關鍵詞識別;對于未使用抗癲癇藥物的癲癇發作人群,如代謝紊亂或藥物導致的癲癇發作,臨床可能通過糾正電解質紊亂或停用可疑藥物處理,此類人群可通過分支2設置的診斷關鍵詞集識別;若患者僅出現疑似癲癇發作的癥狀,則需結合腦電圖檢查做出判斷[10],故分支3與分支4的關鍵詞設置可同時檢測其癥狀表現與腦電圖信號,從而實現此類人群的監測。使用決策樹設置報警關鍵詞可從癲癇發作的解救藥物、診斷評估、臨床癥狀以及腦電圖表現等多角度全方位監測疑似癲癇發作的人群,經過多層篩選分類,最大程度避免了陽性病例的丟失。
模塊的優化思路是在盡量保證其敏感性的前提下,降低假陽性報警例數。由于苯妥英鈉目前臨床使用率普遍較低;卡馬西平有多種臨床適應證;咪達唑侖注射液是癲癇持續狀態的一線解救藥物[11],但在臨床更多用于手術前用藥[12],故將這三種藥物刪除。診斷關鍵詞測試實驗中,需考慮癲癇發作類型與病歷書寫習慣的多樣性,故增加“突發癲癇”等病歷中常見的癲癇發作同義詞作為最終設置。模塊通過藥物關鍵詞與診斷關鍵詞可挖掘98%以上的陽性病例,癥狀關鍵詞與腦電圖關鍵詞設置可根據實際情況靈活增減,旨在查漏補缺,保證模塊敏感性。此外,通過ADE-ASAS-Ⅱ的標題屏蔽功能,實現對部分結構化文件的屏蔽,降低假陽性報警例數。最終,模塊的PPV從預實驗的2.66%上升至優化后的13.86%,顯著降低了工作量,提升了監測效率。
目前,國內外學者對癲癇相關的大數據研究多利用腦電圖或神經影像相關數據[13],此類數據結構化程度較高,獲取相對容易。本研究利用文本分類技術開展對住院人群癲癇發作的主動監測,其優勢在于,可以全面、靈活的挖掘癲癇發作病例信息,更貼合臨床實際。因在臨床實踐中,并非所有癲癇發作的患者都會被診斷為癲癇癥[14],尤其對于急性癥狀性癲癇發作的患者,在糾正繼發性病因或應用抗癲癇藥物后好轉。研究[15]顯示,僅45%的繼發性癲癇發作患者在首次腦電圖檢查中檢測出癲癇樣放電,故此類人群的電子病歷中的文本信息對癲癇發作的評估尤為重要。但其劣勢在于電子病歷中的自由文本屬于非結構化數據,采集利用耗時耗力[16]。為克服這一缺陷,本研究首次采用決策樹將報警關鍵詞分類預設,對目標人群分層預警,高效全面挖掘目標人群。癲癇發作自動監測模塊目前作為單中心的研究成果,有待在不同醫療機構驗證,而ADE-ASA-Ⅱ自定義功能與靈活的決策樹設置可為癲癇發作多中心真實世界研究提供有利條件[17]。
在90例癲癇發作病例中,患者年齡分布呈兩極化,多見于男性,這與Hauser等[18]的研究類似。隨著腦電圖及神經影像技術的發展,部分癲癇發作的病因得以明確[19]。急性癥狀性癲癇發作是指在全身性損害時發生的或明確與腦損傷有密切時間關聯的癲癇發作[20],本研究53例急性癥狀性癲癇發作病例中,神經系統腫瘤術后、卒中后癲癇及自身免疫性腦炎是最常見的致病因素,與國內相關研究基本一致[21]。隨著人口老齡化,老年人共患疾病增多,藥物聯用頻率增加,藥物所致癲癇發作日益增加,應引起重視[22]。研究表明,急性癥狀性癲癇發作發生率為0.03% ~0.04%[18],明顯低于本研究中的0.36%,可能是本研究的研究對象為住院患者,多合并基礎疾病,癲癇發作的風險因素更多。鑒于本研究監測樣本量較小,住院人群癲癇發作的發生率及風險因素仍需進一步的大樣本真實世界研究驗證。
本研究借助ADE-ASAS-Ⅱ建立的癲癇發作自動監測模塊,能夠高效、全面、快捷的挖掘住院人群中的癲癇發作病例,模塊的PPV在13.86% ~ 14.59%,R可達到100.00%,雖仍需人工甄別報警病例中的癲癇發作患者,但應用此模塊可剔除95%以上的無關病例,極大程度上提高了工作效率,可為癲癇發作的大樣本真實世界研究提供有力的技術支撐。