尹思藝 龐曉燕 蔡秀軍 林 輝 喬 凱 王可心 徐 哲
1.國家衛生健康委醫管中心數據運行處,北京 100044;2.浙江大學醫學院附屬邵逸夫醫院互聯網辦公室,浙江杭州 310016;3.北京劉家窯中醫院中西醫科,北京 100075;4.杭州朗通信息技術有限公司技術部,浙江杭州 310053
目前,部分醫院雖然引進了電子病歷質控系統,但其質控范圍僅限于病案缺項、時限等形式質控,不能解決病歷邏輯的準確性、術語的規范性和診療處置的合理性等內涵問題[1-2]。該項研究通過構建醫學自然語言處理[3-5]平臺、術語映射平臺、醫學知識圖譜、質控規則引擎和深度學習[6]模型,來清洗醫療數據,統一醫學術語,實現對醫學文本自然語言語義的理解,對運行病歷文書和出院病案資料從完整性、時限性、邏輯性、合規性等多維度進行深度內涵質控應用,對電子病歷質量進行事中、事后的全流程監控,提升智能電子病歷質控[7]的準確性。
要實現對病歷內容的審核,首先要解決的是對病歷文本準確識別和理解[8]。由于醫學術語表述多樣、復雜、不標準,因此第一步需要對復雜臨床數據進行數據清洗、分詞和結構化處理以及語義標注,從而增強數據識別的準確性[9]。因此利用深度學習[10]和自然語言處理技術[11],搭建醫學文本主動學習標注平臺,對大量病歷文本進行實體、屬性、關系、事件等標注任務,獲取海量的醫學語料,然后基于醫學語料進行語言模型訓練,從而實現病歷文本的結構化處理,在此過程中,輔以人工校驗,不斷提升病歷文本分詞的準確性。
例如圖1所示的病例文本自然語言處理(NLP)標準任務:“患者10年前無明顯誘因下出現惡心、嘔吐、伴腹瀉,嘔吐物和腹瀉物為暗紅色液體,至醫院就診診斷為胃出血”經自然語言處理平臺處理后會自動抽取“無明顯誘因”“惡心”“嘔吐”“腹瀉”“嘔吐物和腹瀉物為暗紅色液體”“胃出血”等實體,同時抽取出不同實體之間的關系。見表1。

圖1 病歷文本NLP標準任務

表1 病歷文書NLP結構化處理
由于電子病歷中的癥狀、疾病名稱等臨床醫學術語并不是規范統一的,譬如針對癥狀“腹痛”,不同的病歷文書中可能被表述為“肚子痛”“肚子疼”,為解決臨床醫學術語表達同義不同詞、內涵不清、語義表達和理解不一致等問題。需要將這些詞進行聚類融合,基于 SNOMED-CT、Loinc、RxNorm[12]、醫保版ICD-10、ICD-9-CM-3等編碼標準規則,構建中文臨床醫學術語庫及標準術語映射系統,實現病歷文本中涉及的疾病、癥狀、體征、檢查、藥品、手術和操作術語的映射。見圖2。

圖2 標準術語映射演示
前兩步解決了病歷文本的識別和理解問題,而要實現對病歷內涵質量的審核,還需要具有臨床診療推理引擎。臨床診療推理引擎的構建以指南文獻、醫學教材、臨床病例數據等醫學文本為數據源,通過深度學習構建專業醫學知識圖譜、診斷模型、治療模型,構架醫學知識圖譜。基于多層次醫學知識圖譜推理技術,形成綜合推理引擎。針對患者病情對醫生臨床路徑的合理性及充分性進行精準分析,進而對臨床內涵病歷質量進行判斷,解決病歷質控人員無法對各科室專業內容進行分析與評判的難題。
質控規則是實現系統對病歷文書執行量化評分的依據,因此質控規則引擎的構建也需要公正、標準、規范、可執行。因此可以參照《病歷書寫基本規范》[13]、國家質控標準等相關規范[14],深入解析18項醫療安全核心制度,對質控要點逐條細化和拆分,將文本描述語言轉換成計算機可執行的規則,構造質控規則引擎。根據質控規則引擎,實現病歷文本的自動審核,并對不符合規則的條目進行提醒和扣分。
通過兩種方式獲取醫療數據:一是對醫院數據脫敏,脫敏后進行清洗、整理,并導入大數據平臺,按照患者ID號將脫敏病歷的內容按照主訴、現病史、化驗、診斷等模塊分別存儲到數據庫。二是采集診療指南、期刊文獻、臨床路徑、醫學教材等不同權威的中文醫學語料,將兩種來源的數據匯總成訓練神經網絡模型的醫學語料,為自然語言處理平臺的構建奠定數據基礎。
目前,醫院里電子病歷的癥狀、疾病名稱不是規范統一的。我們利用預訓練語言模型,結合Transformer和卷積網絡兩種不同的相似度計算方法,構造Siamese Network框架,搭建語義相似度模型,研發術語映射系統。借鑒和利用Snomed-CT、Loinc、國家醫保版ICD-10和ICD-9-CM3等術語體系,構建標準醫學術語庫,研發標準術語映射系統,實現疾病、癥狀、藥品、手術和操作的映射。
研發基于海量醫學文本的預訓練語言模型,實現醫學實體提取、關系提取、屬性提取、醫學事件提取。預訓練醫學語言模型,采用Google提出的Transformer[15]模型,搭建預訓練語言模型;模型的構建參考2020年ICLR論文[16]中提出的模型。
利用深度學習技術,借鑒預訓練醫學語言模型,研發醫學信息提取模型,參考bert-bilstm-crf進行升級改進;基于關系抽取模型、屬性提取模型,研究聯合抽取模型,即關系和實體使用同一個模型,并且一次性完成實體和關系的抽取。將信息抽取模型、術語映射模型集成到醫學自然語言處理平臺,對接主動學習的標注平臺,實現醫學文本后結構化處理及語義理解。
基于自然語言處理平臺,從海量醫學文本中抽取醫學三元組;利用術語映射系統將非標準的醫學實體三元組進行標準化;借鑒和利用ICD-10,Snomed-CT,Loinc,ICD-9-CM3等術語體系,參考RxNorm和UMLS等大型醫學領域知識圖譜,完善自動化、可視化的臨床醫學知識圖譜;利用圖嵌入技術,實現醫學知識圖譜的自動補全更新。
質控規則引擎是系統實現病歷文書審核評分的核心,本項目依據國家質控標準和相關規范,解析18項醫療安全核心制度,細化拆分質控要點,將文本描述語言轉換成計算機可執行的規則,實現病歷文本的自動審核,并對不符合規則的條目進行提醒和扣分。通過可視化自定義維護,展示各病歷文書的內涵缺陷類別和詳情,實現病歷缺陷可視化追溯和分析。從評分規則、過程質控、終末病案質控評分、終末病案質控統計管理等多模塊進行對比分析,為醫療行為評價、病歷質量改進以及政策制訂等提供決策支持。
智能終末質控上線后,醫院病案等級結構見圖3,醫院甲級病案率逐步提升,統計數據顯示5月份甲級病案占比81.44%,6月份甲級病案占比86.59%,7月份甲級病案占比89.88%。通過質控系統的多維度、全范圍的審核,大大提升了臨床醫師準確書寫病歷的意識,促進了醫院整體甲級病案率的提升。7月份甲級病案率相較5月份甲級病案率提升8.44%。

圖3 醫院病案等級結構
應用智能病案質控系統后,病案首頁質量情況如圖4所示,5月份病案首頁合格率為82.02%,6月份病案首頁合格率為78.59%,7月份病案首頁合格率為92.56%,連續3個月的數據表明病案首頁合格率整體呈上升趨勢,7月份較5月份病案首頁合格率提升10.54%。

圖4 病案首頁質量情況
依據圖5數據,對比5、6、7三個月的缺陷條目占比情況發現,使用智能質控系統后,多數病案缺陷占比整體呈下降趨勢,特別是病案首頁手術名稱與手術記錄不一致缺陷從5月份的15.49%降至7月份的0.1%,系統的跨病歷文書質量審核功能,保證了病案首頁內容與病歷文書的一致性,為DRGs準確分組提供了良好的數據基礎。

圖5 主要條目缺陷占比趨勢
醫學自然語言處理、術語映射和深度學習等技術,能實現對多元異構醫療數據的清洗歸類和建模,提高對病歷文本的語義識別理解能力,規范病歷書寫流程,解決病歷書寫格式混亂、病歷內容缺陷、內涵質量低下等問題,提高病案質量和利用價值。同時,依托專業醫學知識圖譜評估病歷反映的臨床路徑,貫穿于病歷的過程監控和結果審核,查找缺陷內容,標識原因,從而實現對病歷內涵缺陷的可視化追溯和分析。