——王 怡 白 雪 崔勝男 任慧玲 張 湛 劉振宇 范陽華 郭進京馮 銘
電子病歷 (Electronic Medical Record, EMR) 是指醫務人員在醫療活動過程中使用醫療機構信息系統生成的文字、符號、圖表、圖形、數據、影像等數字化信息, 并能實現存儲、管理、傳輸和重現的醫療記錄[1]。隨著《國務院關于印發新一代人工智能發展規劃的通知》[2]、《國務院辦公廳關于促進“互聯網+醫療健康”發展的意見》[3]的發布,以及機器學習、深度學習等人工智能手段的應用,使得長期制約電子病歷應用的瓶頸-對自由文本進行自然語言處理難題得到有效解決,也使得通過對電子病歷進行分詞、挖掘建立臨床醫學命名實體數據庫成為可能。在此基礎上,開發人工智能輔助臨床決策支持系統,將極大地提升基層醫療機構的臨床診斷決策能力。但在臨床醫學命名實體數據庫建設過程中,電子病歷本身的質量將直接影響數據庫質量。本研究就臨床醫學命名實體數據庫中如何篩選符合條件的電子病歷進行探討,以期為后續工作開展提供參考。
電子病歷包含大量重要的臨床信息資源,運用分詞、命名實體識別等自然語言處理技術識別這些信息,并用于構建臨床輔助診斷決策支持系統,可打破醫生在知識上的局限,減少人為疏忽。同時,可改變醫生收集科研數據時依賴閱讀病歷、手工抄錄數據的傳統做法,為科研數據收集和臨床數據庫建立提供全新手段。
命名實體識別(Named Entitiy Recognition, NER)是指識別文本中具有特定意義的主體,包括人、地名、機構名、專有名詞等[4]。命名實體本質上是詞,具有獨立、完整的意義,一般包括3大類(實體類、時間類、數字類)和7小類(人名、地名、機構名、時間、日期、貨幣、百分比)。命名實體識別最常用的方法有3種:(1)基于規則、基于詞典的有監督機器學習法;(2)基于少量的標注語料,對未標注語料自動標注擴充模型的半監督學習法;(3)通過深度學習自動提取未標注語料的統計特征,利用其產生分詞結果的無監督分詞法。
臨床醫學命名實體識別的主要任務是從電子病歷文本中識別出具有獨立、完整意義的醫療領域的命名實體。這些命名實體主要涉及與患者接受醫療診治相關的實體,包括癥狀、體征、疾病診斷名稱、手術操作名稱、藥物名稱、輔助檢查名稱等。不同研究者有不同的分類方法,主要有5大類實體:(1)患者、醫生以及醫療機構的名稱、編號等隱私信息 (Private Health Information, PHI)。使用電子病歷的先決條件就是去隱私化信息 (De-Identifi cation),用替代信息替換病歷中的 PHI, 以保持病歷文本的完整性。(2)醫療問題類(Problem)實體[5]。指描述患者身體或精神上由疾病引起的異常現象的短語,即疾病和癥狀,如“肺炎(疾病) ”“咳嗽(癥狀)”“胸痛(癥狀)” 等。同時,抽取疾病和癥狀的重要修飾成分(或者稱上下文特征),比如“無高血壓病”,表示肯定排除。因此,電子病歷命名實體識別研究還需要識別疾病和癥狀的修飾,方能準確表達電子病歷的內容含義。(3)檢查類(Test)實體。指為了診治疾病開展的各項檢查等,如“病理”“血常規”等。(4)治療類(Treatment)實體。指診治疾病的治療干預措施,如“地塞米松(藥名)”“百多邦(藥名)”等。其不僅涉及藥物名稱 (包括通用名、商品名), 還包括劑量、用藥方式、頻次等被視為藥物屬性的命名實體。(5) 時間信息。這也是一類重要的實體數據。患者的治療和病情的發展有時序性, 在病歷中很多表示事件的實體都與時間相關,比如 “惡心嘔吐3小時”。
電子病歷臨床醫學命名實體識別既要識別病歷文本中表達患者癥狀體征及醫療過程的實體,又要體現電子病歷實體之間的相互關系。實體關系主要有3大類[6]:(1) 概念之間的關系。包括疾病和癥狀的關系,疾病和疾病的關系,疾病和檢查的關系,以及疾病和治療的關系;(2)概念間的等價關系。有些概念可能是其他概念的等價表達,這種關系的識別是共指消解的主要研究內容;(3)概念和時間的關系。表示事件的概念通常具有時間屬性, 即什么時間發生的某個事件。
臨床醫學命名實體與臨床醫學術語不同。術語是在特定學科領域用于表示概念的稱謂的集合,醫學名詞術語是臨床醫學中的專業用語;命名實體則是自然語言處理的產物,是從信息抽取角度來定義的,不僅包括醫學名詞術語,還包括名詞術語的多種表達方式以及修飾詞。醫學名詞術語講究統一規范,命名實體則存在一詞多種變體,故要進行詞義歸一。
電子病歷由結構化數據和非結構化數據組成。其中,自然語言自由文本形式的非結構化數據是電子病歷中最重要的部分,包括入院記錄、病程記錄、會診記錄、出院記錄等。《病歷書寫基本規范》對病歷書寫的每一個項目均有明確的格式和內容要求。同時,病歷書寫分客觀病歷記錄和主觀病歷記錄兩部分。因此,對電子病歷進行分詞和命名實體識別之前,要了解病歷書寫各項目的含義和功能,只有在掌握病歷書寫結構特征的前提下方能選好語料,設計好分詞提取方案。
為便于同行間信息的傳遞和溝通,《病歷書寫基本規范》要求“病歷書寫應規范使用醫學術語”。病歷作為專業檔案,其語言表達具有鮮明特點:(1)具有大量對疾病、癥狀、體征進行描述的醫學術語;(2)有大量檢查檢驗報告、藥物劑量名稱、數字及單位;(3)有大量對命名實體進行修飾的常用語,如“無”“不伴”等。
電子病歷臨床醫學命名實體識別主要涉及與患者接受醫療診治相關的實體,因此,評判一個命名實體及關系是否被正確識別,其核心取決于原始文本本身的真實性、完整性,病歷結構是否符合規范,語言邏輯是否清晰等。電子病歷取代手寫病歷,在帶來方便的同時,也帶來了系列問題[7]。這些問題將直接影響病歷內涵質量,進而影響對臨床醫學命名實體及實體關系的抽取和識別。
(1)病歷記錄內容的真實性。個別醫生臨床基本功不扎實,問診查體不認真,事前遺漏重要內容,事后隨意編寫,導致病歷內容失真。少數醫生拷貝病歷張冠李戴,如未手術患者出現手術切口描述,男性患者出現月經史,左側白內障手術誤寫成右側等。
(2)病歷記錄內容的完整性。已做手術缺手術記錄,出院缺出院記錄,重要的病理報告未歸入病歷,入院記錄缺專科情況等。
(3)病歷記錄內容的規范性。未按規范要求格式和內容書寫病歷,導致病歷內容不全;病歷記錄中出現大量錯字、漏字、別字;同一份病歷記錄,前文寫有青霉素過敏,后文又否認青霉素過敏,相互矛盾等。
(4)病歷模板使用和拷貝雷同現象。病例特點與現病史相同,上級醫師查房內容與首次病程記錄擬診討論內容相同,多次病程記錄內容相同等。這些雷同內容不能客觀真實地反映患者情況。
(5)病種診療過程不完整。或因患者原因,或因醫療原因,導致診療過程未按既定方案完成。再如,有疾病診斷,沒有診斷依據;有手術操作名稱,沒有手術操作記錄等。
(6)新舊病歷在病歷記錄中使用語言存在較大差異,尤其是近年來網絡語言的興起,病歷語言與既往習慣的常用表達方式相比有較大變化,給命名實體識別帶來阻礙。
(7)病歷中出現大量不規范中英文縮寫等。
在開展臨床醫學命名實體識別前,可參照《病歷書寫基本規范》要求建立入選病歷標準,篩選合格病歷進行臨床醫學命名實體識別。
住院病歷書寫項目格式及框架符合《病歷書寫基本規范》要求,無項目遺漏,無內容缺失。住院病歷包括入院記錄、病程記錄、出院記錄等,且每個書寫項目均具有完整內容,如出院記錄應包括入院情況、入院診斷、診治經過、目前情況、出院診斷、出院醫囑等6部分內容。缺少任何書寫項目,缺少書寫項目中任一部分內容,均評判為不合格病歷,不能入選。
在電子病歷中建立臨床醫學命名實體,進行實體間關系的抽取和識別,是為人工智能輔助臨床決策支持服務,因此,病歷本身內在的邏輯性、臨床推理即臨床思維過程非常重要。病歷中對病情變化、異常情況的分析與處理等內容不可或缺。
病歷內容出現以下情況之一,導致病歷內容不能真實反映診療過程,應評判為不合格病歷,不能用于臨床醫學命名實體庫建設。(1)兩次以上病程記錄內容相同;(2)使用模板,導致同一病種癥狀體征大致相同;(3)病歷內容出現張冠李戴、前后不一致等影響內容真實性的問題;(4)病種病歷診療過程不完整;(5)病種病歷主要診斷缺少依據等。也可根據提取的臨床醫學命名實體的具體用途調整病歷篩選標準,以提高臨床醫學命名實體整體質量,為后續工作提供強有力支撐。
通過人工智能手段對電子病歷進行分詞、挖掘,建立臨床醫學命名實體數據庫,是深度開發利用病歷的重要手段。基于電子病歷的臨床醫學命名實體及關系識別,具有內容廣泛、知識密集、專業性強等特點,與病歷記錄有著千絲萬縷的聯系。病歷記錄不真實、不完整、不良拷貝等將使病歷內容失真,不能客觀反映真實的疾病診治過程,不能準確表達醫生的臨床思維過程,嚴重影響病歷質量,進而影響臨床醫學命名實體及實體關系的正確表達。因此,建立標準篩選合格病歷,是提升臨床醫學命名實體質量的有效舉措。