基于CRF的入院記錄中醫院名稱實體識別及應用

2019-12-10 07:42:40曹凱迪施識帆王忠民

智慧健康 2019年32期

曹凱迪，施識帆，王忠民

（南京醫科大學第一附屬醫院信息處，江蘇南京 210029）

0 研究背景

隨著醫療信息化的快速發展，住院電子病歷在臨床中得到廣泛應用，作為患者住院治療全過程的原始記錄，它包含有入院記錄、病案首頁、病程記錄、檢查檢驗結果、住院醫囑、手術記錄等信息[1]，這些數量龐大且完善的電子資料數據，給臨床科研提供了很大便利，很多臨床輔助決策系統（CDSS）將其當作重要的知識來源。入院記錄是臨床醫生在患者入院之初的醫療記錄，包含了患者的入院病因、簡要病史等，常會包含患者在此次入院前的既往就診信息。研究患者既往就診歷史醫院，可以分析患者對就醫機構選擇的考慮因素。

自從機器學習方法中的命名實體識別廣泛應用于英文電子病歷的研究后，已經有越來越多的科研工作者將該技術用于中文電子病歷的研究。當前使用較多的機器學習模型是條件隨機場(CRF)，該模型相對比其他模型比如支持向量機（SVM）、隱馬爾可夫（HMM）等具有無標注偏見、可求得全局最優值、小規模數據可獲得理想效果等優點。葉楓等[2]采用算法工具CRF++，提出了CRF特征選擇和模板設計應用于中文病歷中的一些基本規則，得到3類實體的最佳F值分別為92.67%、93.76%和95.06%。許源等[3]針對腦卒中患者入院記錄中的醫學實體構建了基于CRF和RUTA規則的命名實體抽取模型，經五折交叉驗證獲得實體的抽取準確率0.960，召回率0.916，F-score 0.939。

目前對于患者就醫醫院選擇的影響因素研究大多基于調查問卷進行，耗費人力物力，因此本研究采用機器學習的方法對入院記錄信息進行分析挖掘，通過構建命名實體模型實現入院記錄中的就診醫院名稱的抽取，進而分析患者就醫醫院選擇的影響因素。

1 研究方法

1.1 語料庫來源

江蘇省人民醫院暨南京醫科大學第一附屬醫院是江蘇省綜合實力最強的三級甲等綜合性醫院，擔負著醫療、教學、科研、行風四項中心任務，實際開放床位4000張，每年有大量的住院患者，僅2018年一年出院人次就為16.8萬，產生龐大的住院電子病歷數據量。本文研究數據的原始語料是從2008-2018年間該院收治的住院患者的電子病歷中隨機抽取的1000份入院記錄，因醫生記錄病歷習慣不同以及患者就診歷史不同，其中330份語料中包含了患者既往在其他醫院就診的歷史作為有效標注語料，另抽取26219份入院記錄作為數據抽取模型驗證的語料，所有語料均做了脫敏處理。

1.2 命名實體類別設計

本研究目的是通過命名實體識別的技術獲取患者此次在江蘇省人民醫院住院前的歷史就診醫院名稱，包含此類信息的文本是患者的住院電子病歷中的入院記錄，語料來源類型單一，實體類別單一，綜合考慮我國醫院行政級別劃分的情況并結合病歷中實際描述情況，將待標注醫院名稱劃分為5類實體：省級醫院（ProvinceHSP）、市級醫院（CityHSP）、縣區級醫院（CountyHSP）、社區醫院（CommunityHSP）、以及無明確說明醫院名稱只概括提到的當地醫院（LocalHSP），在實際標注過程中，遇到的軍隊所屬醫院全部歸為ProvinceHSP一類。

1.3 語料標注工作與工具

語料標注工作由兩個人完成，在統一命名實體標注標準并對標注工作人員進行培訓后，從330份語料中抽取120，由兩名研究人員各自對80份語料進行標注，其中有40份語料是完全相同的。兩人標注完成后對這相同的40份語料進行一致性驗證，第一次標注的一致性F值達到0.9以上才可以繼續語料標注工作。

語料標注與后續的模型生成、數據抽取工具均是醫學自然語言處理平臺系統-PLATO，此系統集成了機器學習方法和深度學習方法，能實現對文本的標注以及自然語言實體抽取模型的快速構建，以及應用交叉驗證等方法對模型的效果進行綜合性能評估。通過該平臺構建模型后，可以實現對非結構化醫療文本數據進行準確地識別和提取。

1.4 模型構建

本文采用PLATO系統中集成的CRF算法來構建抽取模型，然后使用五折交叉驗證的方法對模型效果進行準確率驗證。采用CRF的原因是它使用的概率圖模型，能夠表達長距離依賴性和交疊性特征，從而更優地解決標注(分類)偏置等問題，并且所有特征可以進行全局歸一化，以求得全局的最優解[4]。

2 結果與討論

因本文研究的實體只涉及到醫院名稱，不存在主觀判斷，對標注人員的醫學知識沒有要求，所以兩名標注人員對40份相同的語料標注的第一次的F值達到0.950，滿足多人標注的一致性要求，繼續完成剩下290份語料的標注。之后采用PLATO平臺集成的CRF算法作為構建自然語言模型的核心算法，此算法獲得的5類實體的準確率、召回率、F-score平均值分別為0.946、0.896、0.917（表1）。其中F-score較高的前4個實體均超過了0.9，表現良好。CommunityHSP的F-score較低，原因是社區醫院在患者的就診歷史中出現次數非常少，訓練樣本數量太少導致模型的F-score較低，這一現象在語料標注時已顯現。

表1 330份入院記錄中5類命名實體抽取的交叉驗證準確率

將此模型用于江蘇省人民醫院入院記錄中隨機抽取的26219份語料進行實體抽取，共獲取命名實體數據11254條，實體數據小于語料數量的原因有二：1）醫生書寫病歷中未涉及到患者既往就診醫院；2）患者在此次入院前無其他醫院就診歷史。在實體數據中，以LocalHSP數量最多（圖1），占總數的51.3%，這與醫生的書寫習慣和患者所述病史是否清晰有關系。另外4類實體中，我們發現，數據量按省-市-縣區-社區依次減少，這與我國衛生資源的倒三角配置有關系，技術水平優秀的醫務人員、先進的醫療資源都集中在大城市的大醫院，基層醫療機構衛生資源薄弱[5]，所以患者更愿意到省市級大醫院就診。

圖1 26219份入院記錄中命名實體抽取數量與占比統計

針對這4類實體進行詳細分析，將醫院按照所屬省份分類（表2），5478個實體中江蘇省的醫院占大部分，其次是軍隊、安徽省和上海市的醫院。從地理位置上看，安徽省和上海市緊挨江蘇，兩地患者到江蘇省人民醫院就診距離近而且交通便利，這符合患者傾向于就近就醫的心理。

表2 患者就診歷史醫院數據按省份分布統計

具體到江蘇省內的醫院（表3），南京市醫院數量最多，因江蘇省人民醫院位于省會南京，在本市有高水平的大醫院的情況下，南京市患者去外地就醫的意愿會降低。進一步分析南京之外的醫院（圖2），揚州、常州和鹽城的醫院排在前三，這三個城市在地域上靠近南京，且市內沒有高水平省級醫院，從患者就診醫院選擇傾向于技術水平高和距離近兩個原因分析，符合患者心理。排在后三位的是徐州、南通和蘇州，南通與蘇州到上海的距離要近于南京，且上海有更多的高水平三甲醫院，從上述兩個原因考慮，比南京對這兩個城市的患者更有吸引力。

表3 患者就診歷史醫院在江蘇省內按城市分布統計

圖2 患者就診歷史醫院在江蘇省南京市之外的城市分布示意圖

3 結論

本文建立了統一的命名實體標注體系，對330份江蘇省人民醫院住院電子病歷的入院記錄進行了標注，標注一致性F值為0.95。基于標注好的語料庫，結合CRF算法，構建了入院記錄中醫院名稱的命名實體抽取模型，獲得5類實體的平均準確率、召回率、F-score分別為0.946、0.896、0.917。之后使用該模型對該院入院記錄中隨機抽取的26219份語料進行結構化抽取，共獲取命名實體11254條。通過對實體的進一步分析，得到了江蘇省人民醫院住院患者的來源分布數據，患者在就診醫院的選擇上具有技術水平高、醫療資源好、就近就醫的偏好，此結論與既有文獻相關發現一致[6]。由此可見完善分級診療政策體系，優質醫療資源有效下沉，提高基層醫療衛生服務能力的工作任重道遠[7]。