張 曄 張 晗 趙玉虹
(中國醫科大學醫學信息學院 沈陽 110122) (中國醫科大學附屬盛京醫院 沈陽 110004)
?
電子病歷輔助臨床決策
張 曄 張 晗 趙玉虹
(中國醫科大學醫學信息學院 沈陽 110122) (中國醫科大學附屬盛京醫院 沈陽 110004)
簡要介紹電子病歷的概念及其發展歷程,闡述電子病歷信息提取及輔助臨床決策的方法,包括機器學習、統計學習、規則歸納法等,描述電子病歷輔助臨床決策在診斷標準識別和臨床診療活動中的應用,體現電子病歷輔助臨床決策之循證意義。
電子病歷;信息提取;臨床決策
病歷是病人在醫院診斷冶療全過程的原始記錄,是醫院最基本的醫療信息載體。隨著信息技術的不斷進步和醫療信息化的發展,傳統的以紙質為載體的病歷逐漸轉變為依托信息技術的電子病歷[1]。電子病歷(Electronic Medical Records,EMR)也稱計算機化的病案系統或基于計算機的病人記錄(Computer-based Patient Records,CPR),是用電子設備(計算機、健康卡等)保存、管理、傳輸和重現的數字化病人的醫療記錄,主要涵蓋如下元素:以滿足臨床診療需求為目的;依附于計算機軟件平臺;具備信息的完整性、及時性和可交換性等特征;貫穿于病人的醫療過程中;輔助醫生進行臨床決策[2]。縱觀國內外電子病歷的發展歷程,大體可分為4個階段:萌芽階段——紙病歷的圖像掃描,文本編輯器;初級階段——結構化病歷;成熟階段——帶有臨床決策支持的電子病歷;高級階段——病歷高度共享[3]。目前國內的電子病歷發展,基本處于初級階段向成熟階段的過渡期,即結構化病歷向可供臨床決策支持的電子病歷發展階段。電子病歷的核心價值應當體現在成熟階段的智能化、知識化的臨床決策支持功能上,不僅表現在電子化、結構化帶來的價值(病歷書寫更為規范和方便高效,病歷信息資源在有限范圍內能夠共享;提高科研和教學效率、質量,病歷質量的自動化監控和管理等),而且表現在智能化、知識化帶來的價值:面向醫生工作流中的信息需求;提供在線循證醫學知識庫;無縫整合醫學診療常規;診療活動現場的實時決策支持;減少決策中的失誤,減少醫療差錯等[3]。由此可以看出,只有整合了臨床決策支持的電子病歷系統,才能有效地防止醫療差錯,從而提高醫療質量。應用信息提取技術,提取相關特征信息是電子病歷體現其決策價值的前提。本文介紹電子病歷信息提取及常用的輔助臨床決策方法,通過實例描述電子病歷輔助臨床決策在診斷標準識別和臨床診療活動中的應用,闡明電子病歷臨床決策價值及其循證意義。
2.1 概述
電子病歷可通過自然語言處理技術(Natural Language Processing,NLP)和數據挖掘技術(Data Mining)來獲取、完善臨床決策知識。信息提取(Information Extraction,IE)作為自然語言處理技術的分支,其目的是將非結構化數據經處理得到結構化數據。相關概念包括命名實體、模板元素、模板關系、場景模板、實體探測與識別、關系探測與識別、事件探測與識別等。常見信息提取系統有MedEx、MEDLEE、MENELAS、MedSynDi KaTe等。信息提取一般借助上下文模型規則、命名實體及其關系識別、統計學方法、標點符號或關鍵詞等觸發詞完成。
2.2 文本分詞
2.2.1 文本分詞的含義 自然語言處理作為人工智能的一個子領域,目前已解決垃圾郵件檢測、演講角色標記、命名實體識別等問題,而情感分析、指代消解、詞義消歧、機器翻譯、信息提取等問題正在解決之中。作為自然語言處理研究的子分支,分詞技術是信息提取的前提。文本分詞是指將一文本序列按照一定的規則切分成一系列有實際意義的單獨的詞。在英語中,單詞之間以空格作為自然分界符;而漢語是以字為基本的書寫單位,詞語之間并沒有明顯的區分標志,并且漢語中多義詞、同義詞較多,這為漢語文本分詞增添了難題。漢語文本分詞關鍵在于詞語共指消解、歧義消除、否定詞和未登陸詞識別。
2.2.2 典型文本分詞系統 ICTCLAS2015漢語分詞系統[4],又名自然語言處理與信息檢索共享平臺(Natural Language Processing and Information Retrieval,NLPIR),由中國科學院自然語言處理研究所研發,其主要功能包括中文分詞、英文分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取、支持用戶專業詞典與微博分析等,是目前應用較多的漢語文本分詞系統。NLPIR系統支持多種編碼、操作系統、開發語言與平臺,可根據其提供的開放接口,實現基本的漢語文本分詞、詞性標注和關鍵詞提取。通過系統提供的用戶詞典功能,用戶可根據自身需求擴展詞典,提高分詞準確率;也可設定關鍵詞,強行提取某些特征信息;同時還可通過二次開放接口進一步擴展其針對各行業特點的分詞功能。涉及電子病歷分詞的文獻中,多采用ICTCLAS漢語分詞系統。如李俊杰[5]利用現有的自動分詞研究成果,采用ICTCLAS漢語分詞系統作為基礎工具對消化科內窺鏡檢查報告進行初步分詞,然后對初步分詞結果調整,利用專業詞典識別MST標準詞匯(歐洲消化科內窺鏡檢查報告標準術語集),以及能夠轉化成標準MST詞匯的非標準MST詞匯;同時,對分詞結果進行文本解析,從而輸出結構化內容。陳鶯鶯[6]在現有分詞系統NLPIR的基礎上,提出了一套相對完整的信息提取方法,實現了既往史中病癥相關信息的提取。
2.3 常用工具
2.3.1 條件隨機場(Conditional Random Field,CRF) Lafferty[7]于2001年在最大模型和馬爾可夫模型的基礎上提出的一種類別式概率無向圖學習模型,是一種用于標注和切分有序數據的條件概率模型。CRF用于中文分詞和詞性標注等詞法分析中,具有表達長距離依賴性和交疊性特征的能力,能夠較好地解決標注(分類)偏置等問題,而且所有特征可以進行全局歸一化,能夠求得全局的最優解。周小甲[8]為實現病歷文本中時間信息自動提取,建立醫療事件與時間信息的關聯,提出了一種基于CRF的時間關系自動提取算法。陳鶯鶯[6]在電子病歷命名實體識別中,選用基于詞典與規則和基于詞典與機器學習兩種方法,后者采用CRF模型,基于特征集選取和語料標注進行訓練學習,找尋最佳模板。Doan等[9]提出采用基于規則、支持向量機和條件隨機場3個獨立的分類器系統進行命名實體識別,結果條件隨機場識別性能最高,同時集成分類器識別性能比單一分類器要好。
2.3.2 GATE 英國謝菲爾德大學研究開發的Java開源項目,為用戶提供了圖形化的開發環境,被許多自然語言處理項目尤其是信息提取的項目采用,常利用其進行相關主題的中文信息提取和統計分析。如李毅等[10]在EMR文檔集的構建和預處理基礎上,建立了命名實體規則、分類詞表和領域本體,根據用戶需要,利用GATE對相關主題的中文EMR進行了信息提取和統計分析,從而實現了對EMR文檔集自動語義標注及人工語義標注,得到了患者年齡和性別的分布情況和腦梗死治療用藥的一般性規律。
2.4 過程
信息提取一般包括文本劃分與標注、句法分析、提取、指代合并、模板生成等過程。陳鶯鶯[5]在對既往史中病癥相關信息進行提取時,首先基于詞典與規則和基于詞典與機器學習方法進行命名實體識別,而后基于詞類的語義標注、淺層句法分析、常見句型模式提取規則,經模式匹配實現了實體屬性、實體間關系的提取,從而得到了結構化數據,完成了模板提取和填充。信息提取結束后一般需對其結果進行性能評價,通常評價指標包括精確率、召回率和F值,即從準度和全度兩方面綜合考量結果的可靠性。
2.5 提取位置
電子病歷應用于臨床信息研究不是全病歷研究,具體信息提取位置,見圖1。

圖1 電子病歷信息提取位置
3.1 機器學習
3.1.1 支持向量機(Support Vector Machine,SVM) 由Vapnik及其合作者共同提出的一種模式識別技術,是尋找穩健分類模型的一種代表性算法。該算法的一個重要特征就是嵌入核函數,在解決非線性問題時,可將低維空間映射到高維空間,在高維空間構造線性邊界,再還原到低維空間,從而解決非線性邊界問題[11]。支持向量機主要應用于文本分類、圖像識別、手寫數字識別和生物信息學(蛋白質同源檢測、基因表達等)中[12]。常用支持向量機軟件有臺灣大學林智仁教授等開發設計的LIBSVM工具箱以及R package。
3.1.2 人工神經網絡(Artificial Neural Network,ANN) 一種基于腦與神經系統的仿真模型,是模擬人的神經結構思維并行計算方式形成的一種信息描述和信息處理的數學模型[11]。人工神經網絡具有自學習和自適應能力,可以通過預先提供的成對的輸入-輸出數據,分析掌握二者之間的潛在規律,而后根據這些規律,用新的輸入數據來推算輸出結果,從而用于推估、預測、決策或診斷。
3.2 統計學習
即處理大數據的常用方法之一。大數據具有海量化、多樣化、價值化、快速化和動態化特點,與傳統統計分析相比,大數據統計分析必然依托于計算機技術,且側重研究數據的統計規律,也就是對數據本質特征的提取和模式發現。目前臨床決策中應用較多的統計學習方法為回歸分析,它是研究一個或多個變量的變動對另一個變量的變動的影響程度的方法,根據已知的資料或數據,通過求得變量之間的關系式,用解釋變量的已知值推測因變量的值或范圍,包括線性回歸、非線性回歸、邏輯回歸、Cox回歸等。處理電子病歷數據過程中,對于連續型因變量,通常采用線性回歸方法;對于離散型(如二值型)因變量,通常采用Logistic回歸分析。其具有速度快、涉及范圍廣等特點,可用于早期疾病預警模型提出、分析健康與社會關聯或衛生政策評估等。Cox回歸分析常用于疾病轉歸等方面預測。統計學習中另一常用方法為受試者工作特征曲線,即ROC曲線,常同機器學習方法一起使用,可視化變量決策性能。
3.3 規則歸納法
除以上常用的機器學習、統計學習方法外,另一常用的臨床決策方法為規則歸納法(Rule Induction),即由專家或研究者制定規則,待分析數據以規則形式給出,基于規則對數據集進行分類或描述數據間的潛在關聯,發現知識。規則常用IF 函數描述。
4.1 臨床診斷標準自動識別
診斷標準是由政府組織或衛生行業相關權威學術機構制定、對臨床診療活動進行規范化的標準集,用于指導衛生相關從業人員工作。不同地區針對不同人群制定的疾病診斷標準基本一致,但隨著科學技術的發展,人們對于疾病的進一步認知,診斷標準也會隨之更新。從臨床實踐中自動識別某疾病診斷標準,不僅有助于金標準的選擇,而且還可以輔助臨床決策。Byrd等[13]以Framingham心力衰竭標準為參考注釋集,經自然語言處理工具處理EMR數據后進行文本解析,而后反復注釋精煉標準參考集得出心力衰竭診斷的金標準。
4.2 藥物給藥劑量和不良反應風險預警
4.2.1 需預警的情況 藥物治療是醫療事件中最常見的治療方法,但藥品種類不斷增多,使得藥物不良反應事件以及因不合理用藥造成的損害日趨嚴重。醫療過程中保障患者的用藥安全和有效性極其重要,故基于電子病歷中記錄的患者用藥信息設計開發的合理用藥及藥物不良反應風險預警系統越來越受到重視。彭德榮等[14]指出藥物不良反應信息預警監測系統主要對6種情況進行預警:(1)可能的藥物拮抗。(2)藥物禁忌。(3)不合理的藥物劑量和用法。(4)藥物過敏。(5)藥物適應證。(6)重復用藥。通過該預警系統,可以對不良用藥及時提醒,維護患者用藥安全。
4.2.2 典型研究案例 Kirkendall等[15]基于Web應用程序設計了一個電子觸發器,基于靈敏度、特異度、陽性和陰性預測值創建自動化報告,從而建立了腎毒性藥物相關性急性腎損傷發生前的風險預判分級系統。Kirkendall等[16]還收集某兒童醫院EMR中用藥信息,基于訓練集構建了給藥次序和預警劑量值數據集,將此數據集嵌入到電子病歷系統測試版中,測試給藥劑量過大或極大前提下給藥次序和預警劑量值是如何得到的,從而建立新型過度用藥預警分析系統,提高預警性能。
4.3 臨床診療決策
4.3.1 急性胰腺炎(Acute Pancreatitis,AP) 其嚴重程度的準確分級與治療方法的選擇,對于臨床實踐和研究十分重要。預測急性胰腺炎嚴重程度可幫助識別并發癥發病和死亡風險增高的患者,從而有助于將這些患者適當地早期分診至重癥監護病房,為其選擇特定的干預措施。TAPER(The AP Early Response)-CDS-Tool[17]是由美國密歇根大學醫學院基于《急性胰腺炎臨床指南》設計開發的,該臨床決策工具旨在優化醫生診療行為,縮短患者住院天數。TAPER包括兩部分:一是早期自動尋呼系統,用于提示診斷。二是直觀的基于Web的床邊監護系統——PancMap,該系統可用于建立急性胰腺炎診斷、嚴重程度危險因素分析及治療方案選擇(轉診ICU、液體復蘇等)。
4.3.2 阿爾茨海默病(Alzheimer′s Disease,AD) 一種老年慢性進展性中樞神經系統退行性疾病,以認知障礙為主要臨床表現。目前,該病已成為嚴重危害人類健康的幾大疾病之一,嚴重影響老年人的身心健康與生命質量。輕度認知障礙(Mild Cognitive Impairment, MCI)是介于正常衰老和阿爾茨海默病之間的一種認知損傷狀態,患者存在輕度記憶或認知功能障礙,但日常生活能力未受到明顯影響。正確診斷和識別輕度認知障礙,對早期預防阿爾茨海默病的發生有著重要意義。Ye等[18]基于阿爾茨海默病神經影像協會中輕度認知障礙患者基線數據,應用稀疏性學習和穩定選擇模型方法預測輕度認知障礙轉至阿爾茨海默病的進展情況。
4.3.3 心肺驟停或死亡事件 心肺驟停在臨床上主要表現為意識突然喪失、心音消失、呼吸停止、大動脈搏動消失等,一定時間即會威脅生命。心肺驟停患者數小時前一般存在生理指標惡化現象,故早期預警對于搶救生命有著重要意義。Alvarez等[19]基于電子病歷數據對非ICU患者心肺驟停或死亡事件發生進行預測,通過統計學方法建立預測指標模型。該模型的最終價值在于其是否可以實時使用、是否可以改變高危患者的臨床管理以及改善預后、減少醫療人員監管負擔,其性能還需進一步實踐驗證。
4.3.4 傳染病 癥狀監測是指持續、系統地采集患者臨床確診前出現的信息,通過分析這些信息的波動提示疾病異常的發生。美國、歐洲、日本等地已經建立了較為成熟的癥狀監測系統,在應對公共危機、新發傳染病預警和重點傳染病爆發探測等方面發揮了重大作用。
5.1 信息提取
5.1.1 存在的問題 信息提取作為快速獲取重要信息的自動化工具被應用于多個領域。在醫學領域,隨著電子病歷和臨床決策支持系統的不斷發展,如何從電子病歷中高準確率地自動提取信息并服務于臨床決策,是當前醫療衛生信息化亟需解決的問題之一。目前我國對電子病歷信息提取研究較少。究其原因主要是中文醫學信息的提取更加困難:從語言類型上看,中文醫學信息有自己的語言特色,不能完全照搬國外的信息提取方法,而要結合漢語的特殊性進行信息提取;從現有研究案例上看,中文醫學信息提取既缺乏豐富的中文醫學語言知識庫資源,又缺乏統計學方法所必備的語料庫資源;具體到電子病歷信息,電子病歷種類繁多和內容的復雜性更是增加了信息提取的難度。
5.1.2 發展方向 結構化電子病歷是實現電子病歷質量控制、科研分析等的前提[20],同時也可以建立數據倉庫支持信息提取[21],因此未來一是需要建立大規模病歷語料庫,為應用數據挖掘方法提供必備的語料基礎,同時尚需進一步豐富和優化醫學術語庫、規則庫,并且可針對不同科室病歷建立相應語料子庫,注重臨床語言的語法特點,為精確分析語法提供支撐;二是可發展基于本體的信息提取技術,如參照現有的SNOMED等,建立大型中文醫學本體庫,根據概念描述和概念間關系進行信息提取;三是需要提出一種可實現完整病歷信息提取的方法,不單單提取病癥名、時間詞或藥物名,以期用于結構化病歷、構建臨床路徑和臨床數據倉庫等,為電子病歷輔助臨床決策提供基礎支持。
5.2 輔助決策
5.2.1 存在的問題 臨床決策具有不確定性,需要進行風險值判斷,決策時需要將疾病治療和手術等歷史數據同對風險值的判斷和其他信息結合起來分析。電子病歷具有異構性,需要處理其數據映射關系,使其具有通用性,即決策之前,需要對電子病歷文本型或數值型數據進行組織、轉換、整合加之語義的連接,構成模型庫或知識庫,將數據標準化、結構化、數據庫化。同時,還需考慮如何對缺失數據進行預處理[22]。臨床路徑、Up-to-data臨床顧問循證數據庫、臨床診斷系統、藥物預警系統等逐漸涌現,而臨床決策的實時性仍是未來發展的挑戰。大多數電子病歷中的臨床信息存儲于自由文本中,使得其較難應用于臨床決策支持系統或自動監護系統中。
5.2.2 發展方向 電子病歷未來功能主要體現在臨床路徑、臨床指南、數據挖掘3方面,可包括臨床決策支持、診療過程追蹤和指南差異性跟蹤。突出其臨床決策應用價值,關系到患者的切實利益。未來基于電子病歷大數據可為慢性病患者提供遠程數據分析和服務,同時可為公共衛生機構提供及時的統計分析。通過建立完善的疾病早期預警或診斷干預輔助決策系統,方便患者就醫,輔助臨床工作者決策,突出基于電子病歷大數據輔助臨床決策的循證意義。
電子病歷輔助臨床決策的發展不僅依賴于信息提取技術、決策方法的完善以及決策系統的開發,而且依賴于臨床工作實踐中的需求。未來在電子病歷更加結構化的基礎上,如何基于其大數據輔助臨床決策,覆蓋更多病種,惠及更多人群,仍是計算機信息人員及臨床工作者共同的挑戰。
1 孫沂振,沈云學,唐鶴云.電子病歷概述[J].醫學信息學雜志,2009,30(3):1-5.
2 李國壘,陳先來,夏冬.面對臨床決策的電子病歷系統概述[J].中國數學醫學,2014,9(12):30-32,36.
3 雷健波.電子病歷的核心價值與臨床決策支持[J].中國數字醫學,2008,3(3):26-30
4 NLP-ICTCLAS2014分詞系統開發手冊2015版[EB/OL].[2015-01-10].http://ictclas.nlpir.org/
5 李俊杰.基于自然語言處理技術的消化科內窺鏡檢查報告的結構化[D].杭州:浙江大學,2007.
6 陳鶯鶯.病歷信息提取方法的研究與實現[D].杭州:浙江工業大學,2010.
7 Lafferty J, McCallum A, Pereira F. Conditional Random Flilds:probabilistic models for segmenting and labeling sequence data[C].Proc 18th International Comf.on Machine Learning,2001:282-289.
8 周小甲.中文病歷文本的時間信息提取研究[D].杭州:浙江大學,2011.
9 Doan S, Collier N, Xu H, et al. Recognition of Medication Information from Discharge Summaries Using Ensembles of Classifiers[J]. BMC Med Inform Decis Mak, 2012,(12):36.
10 李毅,保鵬飛,薛萬國. 中文電子病歷的信息抽取研究[J]. 生物醫學工程學雜志,2010,27(4):757-762.
11 王星.大數據分析:方法與應用[M].北京:清華大學出版社,2013:68-90.
12 李國正,王猛,曾華軍.支持向量機導論[M].北京:電子工業出版社,2004:82.
13 Byrd RJ, Steinhubl SR, Sun J, et al. Automatic Identification of Heart Failure Diagnostic Criteria, Using Text Analysis of Clinical Notes from Electronic Health Records[J]. Int J Med Inform, 2014,83(12):983-992.
14 彭德榮,趙新平,武桂英,等. 藥物不良反應信息預警監測系統應用研究[J]. 中國衛生資源,2011,14(4):234-235.
15 Kirkendall ES, Spires WL, Mottes TA, et al. Development and Performance of Electronic Acute Kidney Injury Triggers to Identify Pediatric Patients at Risk for Nephrotoxic Medication-associated Harm[J]. Appl Clin Inform, 2014,5(2): 313-333.
16 Kirkendall ES, Kouril M, Minich T, et al. Analysis of Electronic Medication Orders with Large Overdoses[J]. Appl Clin Inform, 2014,5(1): 25-45.
17 Dimagno MJ, Wamsteker EJ, Rizk RS, et al. A Combined Paging Alert and Web-based Instrument Alters Clinician Behavior and Shortens Hospital Length of Stay in Acute Pancreatitis[J]. Am J Gastroenterol , 2014,109(3): 306-315.
18 Ye J, Farnum M, Yang E, et al. Sparse Learning and Stability Selection for Predicting MCI to AD Conversion Using Baseline ADNI Data[J]. BMC Neurol, 2012,(12):46-58.
19 Alvarez CA, Clark CA, Zhang S, et al. Predicting out of Intensive Care Unit Cardiopulmonary Arrest or Death Using Electronic Medical Record Data[J]. BMC Med Inform Decis Mak,2013, (13):28-39.
20 王晟.實施結構化電子病歷系統對策探討[J].醫學信息學雜志,2012,33(8):24-27.
21 王春雨,王立準,魏瑜帥,等.數據挖掘在結構化電子病歷中的應用[J].醫學信息學雜志,2014,35(3):31-33.
22 吳煒,楊梅瑰,唐飛岳,等.基于數據挖掘技術的輔助醫療診斷研究[J].醫學信息學雜志,2010,31(12):22-26
Electronic Medical Records Assisting Clinical Decision
ZHANGYe,ZHANGHan,
DepartmentofMedicalInformatics,ChinaMedicalUniversity,Shenyang110122,China;ZHAOYu-hong,ShengjingHospitalofChinaMedicalUniversity,Shenyang110004,China
The paper briefly introduces the concept and development process of Electronic Medical Records(EMR), elaborates information extraction of EMR as well as the methods assisting clinical decision, including machine learning, statistical learning and rule induction, etc. It describes the application of EMR assisting clinical decision in diagnostic criteria identification and clinical diagnosis activities, reflects its evidence-based significance.
Electronic Medical Records(EMR); Information extraction; Clinical decision
2015-04-18
張曄,在讀碩士研究生,發表論文2篇;張晗,副教授;通訊作者:趙玉虹,教授,博士生導師。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.06.002