鞏敦衛,張永凱,郭一楠?,王 斌,樊寬魯,火 焱
1) 中國礦業大學信息與控制工程學院,徐州 221116 2) 中國礦業大學人工智能研究院智慧醫療研究中心,徐州 221116 3) 徐州醫科大學第二附屬醫院內分泌科,徐州 221000 4) 中國礦業大學附屬醫院內分泌科,徐州 221116
電子病歷主要用來記錄患者過往病史、所患疾病及癥狀表現、體征檢查數據、診療意見及治療效果等一系列與患者健康狀況相關的重要信息[1].隨著醫療行業的信息化建設推進,用于記錄患者臨床治療信息的電子病歷也逐步完善. 基于電子病歷的智能診療、患者畫像構建及其病程追蹤也逐漸成為智慧醫療領域的熱點問題[2?3]. 為充分挖掘患者診療數據中的隱含特征和病癥關聯關系,高效準確的命名實體識別(Named entity recognition,NER)是電子病歷文本信息抽取的關鍵. 雖然電子病歷的命名實體識別已有較豐富的研究成果,但是面向中文電子病歷的相關研究相對較少. 特別是,復雜的中文語言結構使中文電子病歷文本存在專用詞匯多、語言結構不規范、實體嵌套嚴重、中文詞語邊界模糊等特點,傳統的命名實體識別模型難于獲得滿意的分類效果[4].
針對生物醫學文本,研究人員先后提出詞典與規則的統計學方法,基于Transformer編碼的命名實體識別模型[5]、長短期記憶網絡模型條件隨機 場[6](Bidirectional long short-term memory with conditional random field,BiLSTM-CRF)和用于解決疾病名稱和實體標記不一致問題的Dic-Att-BiLSTMCRF模型[7]等. 然而,上述方法沒有充分考慮中文電子病歷的文本特性. 為進一步提高中文電子病歷……