基于深度學習的醫療命名實體識別①

2022-09-20 04:10:40賈楊春朱定局

計算機系統應用 2022年9期

賈楊春, 朱定局

(華南師范大學計算機學院, 廣州 510631)

隨著現代化醫療系統的普及, 如今已產生了海量的醫療數據, 如診斷報告、臨床研究數據、藥品說明以及電子病歷等. 醫療數據的有效利用對醫學研究、醫療診斷和公共防疫等方面起著至關重要的作用, 比如, 統計研究醫學臨床數據可為醫務人員診療決策提供信息支撐; 又比如, 精準醫療通過對患者的基因大數據進行挖掘與分析, 可為其提供有針對性的診療方案;還有, 對于疫情防控, 跨省市的醫療大數據的合理利用可協助專家及時、全面地提出防控建議, 實現對醫療資源的合理配置. 然而, 醫療數據一般是半結構化或非結構化的文本, 對后續的研究帶來了一定難度. 因此,對海量的非結構化醫療文本通過數據分析與挖掘的方式來獲取有價值的醫學數據已成為一個研究熱點.

命名實體識別(named entity recognition, NER)[1]指從自然語言文本中發現特定的目標實體, 對文本信息結構化起著十分重要的作用. 醫療命名實體識別指從醫療文本中識別醫療實體的邊界并判斷醫療實體的類別,常見的醫療實體類別包括疾病名稱、身體部位、藥品信息、檢查或檢驗項目以及癥狀等. 醫療命名實體識別的準確性影響著事件抽取、關系抽取等任務的效果,是醫療文本數據挖掘的關鍵任務, 為構建健康醫療系統、智能醫療問答系統、醫療知識圖譜提供了關鍵基礎.

如今, 命名實體識別技術在學術界已經較為成熟,但還無法較好的應用到工業界中. 主要是因為不同領域,有不同的語言風格以及規則, 命名實體模型的泛化能力差, 無法找到一個統一高效的模型. 如何將命名實體識別任務部署在醫療領域, 首先需要分析該領域的特點, 進而總結出需要解決的難點. 現有的BiLSTM-CRF模型是該任務的主要模型, 為了提升模型效果, 需要在傳統模型的基準上加以優化改進. 本文按照本思路, 在第1節總結了命名實體識別在醫療領域面臨的難點, 第2節和第3節總結了傳統的方法以及基于深度學習的方法, 在第4節介紹了集中主流的改進方法, 包括針對特征向量、數據匱乏、復雜命名實體識別等問題的改進.

1 醫療命名實體識別的難點

分析研究醫療命名實體識別的特有難點, 對提高實體識別效果具有一定的指導意義. 對于醫療命名實體識別的難點, 一方面是醫療文本特有的語言特點給實體識別任務帶來的困難, 另一方面是復雜的命名實體難以準確地被識別, 還有就是命名實體識別應用到醫療領域所面臨的數據匱乏、可遷移性差、可解釋性弱等問題.

1.1 醫療文本的語言特點

中文醫療文本的特點主要集中在中文的語言特點以及醫療文本的語言特點兩個方面.與英文不同, 中文命名實體識別的難度更大, 主要因為中文文本沒有顯著的大小寫特征以及單詞特征, 相關實體邊界難以確定. 容易造成以下問題: (1)中文分詞錯誤. 若采用基于詞的命名實體識別, 會因不正確的中文分詞導致命名實體識別錯誤, 如“痛風性關節炎”會被錯誤識別為“痛風”和“關節炎”兩個實體. (2)語義信息無法完整提取.若采用基于字的方法, 可避免分詞錯誤, 但沒有考慮文本中詞和詞邊界信息, 而這些詞義信息可能對識別效果有潛在的提升效果. (3)字、詞多義問題. 無論是基于字還是基于詞的命名實體識別都無法避免由于同一個字、詞在不同上下文中的含義不同所造成的歧義問題.

醫療文本中存在著大量的專業術語、英文縮寫等特殊表達, 以及很多如嵌套、略寫等不規范的表達, 這給醫療命名實體識別帶來了一定的難度, 主要表現在以下幾個方面: (1)專業性強是醫療領域的一大特點. 醫療文本中存在著大量的醫學名詞和專業術語, 沒有醫學背景的非專業人士對其很難理解, 無法對其準確標注.(2)醫療文本中存在很多英文縮寫. 醫務人員為了簡便以及提高通用性與可讀性, 通常使用英文縮寫代替復雜的中文名稱, 但命名實體識別模型很難對其辨別. 如“HR”是“心率”的英文縮寫, “BP”是“血壓”的英文縮寫.(3)大量的醫學名詞都是由外文音譯而來, 同一個英文醫學名詞可能對應著不同的音譯而來中文名詞, 給命名實體識別引入了噪聲. 如“克雷伯桿菌”和“克雷白桿菌”“艾樂替尼”和“阿來替尼”. (4)醫療文本中存在句子成分缺失、表達不完整現象.如縮略表達“畏寒(經常怕冷感)”“律齊(心跳正常)”. (5)醫療實體名詞種類繁多, 數量龐大, 并且, 隨著現代化醫療技術的發展, 未登陸詞不斷涌現, 難以構建一個系統全面的醫學詞典.

1.2 復雜命名實體識別

對于醫療命名實體識別而言, 復雜命名實體通常難以被準確地識別. 主要包括嵌套醫療命名實體、類別易混淆命名實體, 非連續表達醫療命名實體. 實例如圖1所示, 其中嵌套命名實體是指一個命名實體中存在多個其他的命名實體, 如“胰腺癌”指一個疾病實體, 而“胰腺癌”中的“胰腺”指的是身體部位實體; 非連續命名實體指由于表達不完整造成歧義現象, 如“未見胸悶憋氣、惡心嘔吐、乏力”, 應指“未見胸悶憋氣, 未見惡心嘔吐,未見乏力”; 類型易混淆命名實體指的某些醫療命名實體所屬多個類別, 無法準確判斷當前實體屬于哪一類別,如“發熱”一般是指一種疾病, 但有時也可作為癥狀.

圖1 復雜命名實體實例

1.3 領域命名實體識別所面臨的問題

近些年來, 隨著深度學習技術的發展,命名實體識別在學術界已獲得了很多不錯的成果, 但在工業界還面臨著很多挑戰, 針對本文所研究的醫療領域, 主要存在以下問題: (1)數據匱乏. 醫療實體標注是一個較為復雜的任務, 對專業知識以及標注規范的要求較高, 標注成本高昂, 現存的醫療數據集很稀缺, 這對實體識別任務帶來了很大的挑戰. 除此之外, 在數據層面醫療命名實體識別任務還面臨著冷啟動、噪聲、數據不平衡等問題. (2)可遷性差. 不同的醫療系統, 不同的醫院,不同的醫藥廠商對醫療文本的描述不同, 并且具有不同的規范, 這會導致醫療命名實體識別技術的可遷移性差. (3)可解釋性弱. 深度學習端到端的過程會導致模型的可解釋性弱, 而醫療領域是一個極度嚴謹的領域, 使用完全的黑箱算法是不可取的.

2 傳統醫療命名實體識別方法

2.1 基于規則的方法

基于規則的醫療命名實體識別方法依賴于手工制定的規則, 即利用領域專家制定規則模板結合醫學詞典通過模式匹配的方法識別出醫療實體. 規則一般包括句法、語法以及醫療領域知識. 例如, “胰腺癌多發于成年女性, 癥狀通常為腹部疼痛”, 現有規則: (1) [身體部位+癌/炎/瘤/…]代表一種疾病. (2) [身體部位+疼/痛/疼痛]代表癥狀, 通過模式匹配能夠識別出疾病實體“胰腺癌”和癥狀實體“腹部疼痛”. 早期, 有學者研究如何設計處理醫療文本信息的系統以實現信息提取、構建知識庫、信息編碼等功能, 這些系統一般是基于模式匹配結合領域知識來設計的. Canfield等人[2]通過分析臨床報告中的語義和句法結構, 結合醫學詞典構建醫療信息處理模型. Sager等人[3]設計了一種文本信息提取系統并將其運用在醫療領用, 該系統通過分析醫學文本特有的結構以及語法規則, 可提取醫學報告、臨床記錄中的關鍵信息. Friedman等人[4]提出了一個通用的醫療文本信息提取系統MEDLEE, 利用領域知識庫和專家總結的規則實現其功能, 具有很好兼容性.Zingmond等人[5]通過分析統計醫學語料中的規則結合語言處理工具構建了一個文本處理器, 用于處理醫學文本報告. 這些早期的醫療文本信息處理系統為基于規則的醫療命名實體識別提供了基礎. 特定的領域具有特有的語言規則和詞典, 當專家能夠較為完備地總結出目標領域的規則時, 基于規則方法在領域命名實體識別將會有很好的表現. 李楠等人[6]通過分析化學文獻中化學物質命名的構詞規律, 總結化學領域的啟發式規則, 有效提高了該領域實體識別的準確率.

2.2 基于機器學習的方法

對于基于機器學習的方法, 命名實體識別可被形式化為實體標簽分類任務或文本序列標注任務. 專家應用醫學領域知識與特征工程對樣本數據進行表征,利用大量標注好的醫療數據作為訓練樣本, 然后應用機器學習算法訓練模型使其對數據的模式進行學習,即可使用訓練好的模型實現標簽分類或序列標注任務:對于實體標簽分類任務, 常用的模型有支持向量機(support vector machine, SVM)[7]、決策樹(decision tree)[8]等, 將醫療語料中每個字符的標簽當做一個類別進行文本分類; 條件隨機場(condition random gield,CRF)[9]、隱馬爾可夫模型(hidden Markov models,HMM)[10]等模型是文本序列標注任務常用的模型, 通常將命名實體識別任務理解為一個最大概率序列問題,即根據觀測序列(一般指字符)預測隱藏序列(一般指字符的標簽). Li等人[11]使用基于隱馬爾可夫模型的方法訓練醫療臨床筆記, 識別臨床筆記中的各個模塊, 該方法的準確率到達了93%, 明顯優于基線. Zhou等人[12]為了高效挖掘醫學文本中的信息, 提出了一個識別生物醫學實體的系統, 該系統通過基于HMM的命名實體識別器集成如構詞模式、詞性、語義觸發等針對生物醫學領域的特征, 評價顯示, 該系統能夠有效處理實體嵌套問題, 在GENIA語料庫中的F1值可到達90%.Lee等人[13]使用基于SVM的將方法命名實體識別分為識別和語義分類兩個子任務, 可以解決實體類別過多并且分布不均勻對識別效果造成的影響. Settles 等人[14]使用條件隨機場(CRF)結合豐富的特征集實現在生物醫學領域的命名實體識別. 在中文領域, 葉楓等人[15]提出使用基于CRF的方法識別電子病歷的實體,通過構建醫學數據的特征模板用小規模的語料庫訓練模型, 獲得了較為理想的F1值. 燕楊等人[16]提出了一種基于級聯條件隨機場模型, 識別電子病歷中的復雜疾病和臨床癥狀的嵌套實體, 與傳統的CRF相比,F1值提高了7%.

在領域詞典足夠完善的情況下, 當制定的規則能夠對目標領域文本的特征精準描述時, 基于規則的方法將會有比其他方法更好的表現. 但是, 制定領域規則模板和維護領域詞典耗時耗力, 并且對專業知識的要求很高, 不同的領域具有不同的規則與詞典, 導致該方法的可遷移性較差. 基于機器學習的方法取得了很大的進展, 在一定程度上改善了上述問題, 降低了對醫學領域知識的要求, 但基于機器學習的方法需要大量人工標記的數據集對模型參數進行訓練, 而現有可用的大規模醫療數據集比較稀缺. 并且, 基于機器學習的方法需要專家手動選擇對命名實體識別任務有影響的各種特征, 但特征提取通常是困難且昂貴的.

3 基于深度學習的方法

深度學習[17]運用深層非線性的神經網絡結構能夠學習得到更復雜、抽象的特征, 以實現對數據更本質地表征. 與傳統的機器學習不同, 深度學習不依靠人工識別特征, 可以自動提取特征. 基于深度學習的方法在命名實體識別任務上取得了不錯的效果, 受到了研究人員的廣泛關注.

基于深度學習的命名實體識別任務的網絡構架一般分為3類: 卷積神經網絡(convolutional neural networks, CNN)[18], 循環神經網絡(recurrent neural networks, RNN)[19]以及基于自注意機制的Transformer[20].曹依依等人[21]提出用基于CNNs的模型處理醫療領域的NER, 作者采用迭代擴張卷積作為編碼器提取特征,降低了模型訓練難度并實現了并行運算. Liu等人[22]采用循環神經網絡的變體LSTM建模, 用基于BiLSTMCRF的模型識別醫學文本中的健康信息和臨床實體,該方法避免了繁瑣的特征工程, 在i2b2數據集上提取醫學實體, F1值達到了94.37%, 證明了該模型的有效性. 李博等人[23]考慮使用基于Transformer的模型在自建數據集上識別醫療實體, 有效提高了識別準確率和改善了對較長語句的處理性能. 表1總結了部分比較有代表性的基于深度學習方法的論文.

表1 基于深度學習方法的典型論文

3.1 命名實體識別模型的一般構架

構建命名實體識別模型時, 需要把不可計算的自然語言文本進行向量化表示. 傳統的獨熱碼編碼根據每個字或詞在詞匯表中的位置信息, 為其分配一個長度為詞匯表大小的向量, 實現文本編碼. 獨熱碼編碼方法簡單、便于實現, 但存在一些本質的缺點: (1)將各個字或詞都視為是獨立的, 無法體現某些字詞之間存在的潛在聯系, 比如“肺”和“肝”都為身體器官, 但用獨熱碼編碼方法會忽略它們之間的相似性. (2)向量維度為字典大小, 且只有一位是有意義的, 具有離散稀疏性.(3)無法考慮詞序信息. (4)有些詞不在詞匯表中, 無法對其編碼. 詞嵌入方法在一定程度上改善了以上問題,它將詞用一個定長的低維實數向量表示以實現文本向量化, 預訓練詞向量模型是實現詞嵌入較為主流的方法. Word2Vec[33]是一種預訓練詞向量的工具, 對詞之間的相似性能夠較好地“刻畫”. 一個詞的上下文信息能夠很大程度地決定該詞的語義信息, Word2Vec能夠捕獲目標詞的上下文信息并融入該詞的詞向量中, 包括通過上下文中的詞預測中心詞的(continuous bag-ofwords model, CBOW)[34]和通過中心詞預測上下文中的詞的跳字模型(continuous skip-gram model, Skipgram)兩種語言模型. GloVe[35]是對Word2Vec詞嵌入方法的擴展, 采用指定大小的窗口構建自然語言文本中詞的共現矩陣, 把全局詞頻統計與Word2Vec的基于上下文的學習結合起來, 以實現將全局語義信息考慮到詞向量中. BERT[36]自提出后就受到了廣泛的關注, 該模型基于深層雙向Transformer結構能動態地生成詞向量, 并且使詞向量中蘊含了更多的語義、語法知識, 有效解決了一詞多義問題, 在眾多自然語言處理任務上都取得了令人驚嘆的效果.

基于深度學習的醫療命名實體識別模型如圖2所示, 包括輸入層、嵌入層、編碼層、解碼層和輸出層.嵌入層的語言模型可從輸入的醫療文本中學習到語義、語法知識并將其向量化表示, 主要有基于詞的表示、基于字的表示以及基于字信息和詞信息的混合表示; 編碼層使用CNN、RNN、Transformer等特征提取器對嵌入層傳入的信息進行特征提取并編碼; 解碼層利用解碼器對編碼層的輸出結果進行標簽預測, 最終輸出最佳標簽序列. 有不少研究基于3種特征提取器,加以改進, 實現更高的識別性能.

圖2 命名實體識別模型框架

標注命名實體識別的數據集需要標注出實體邊界和類別, 常用方案有: (1) BIO. 該方法用符號B和I標記實體邊界, B表示一個命名實體的開始位置, I代表處于命名實體內部的位置, 用符號O標記非實體或非目標類別的實體. (2) BIOES. 相較于前一種方法, 該方法對實體邊界的描述更詳加細, 用符號E指一個命名實體的結束邊界, 符號S用來表示僅包含一個字的實體名稱. 對于NER任務, 有基于字級別和基于詞級別兩種標注粒度, 圖3是一個基于字符的BIO標注示例,通常用[B/I/O-實體類別]格式對一個字標注.

圖3 BIO標注示例

3.2 基于CNNs的模型

基于CNNs的醫療命名實體識別模型的一般結構如圖4所示, 嵌入層將輸入的一維文本序列轉化為二維向量并將其傳遞給卷積層, 通過指定數量的卷積核在輸入的向量矩陣上進行窗口移動來提取文本中的特征, 得到的特征向量通過池化層的平均池化或極大池化操作后被傳遞給CRF層, 最后輸出對應的標簽序列.Collobert等人[24]開創性地使用基于CNNs的模型解決NER問題. 在此基礎上, Gui等人[26]將詞典信息融合到基于CNNs的模型, 處理中文NER任務, 該模型實現了并行處理, 并且應用新穎的反饋機制來解決詞之間的歧義問題, 表現出較好的性能. 陶源等人[25]則運用門控卷積過濾卷積層的輸出, 有效解決了長距離依賴問題.

圖4 基于CNNs的命名實體識別模型結構

然而, 基于CNN的模型會存在以下問題: (1)對于傳統的CNN而言, 由于受到感受野的限制, 卷積后得到的只是局部特征, 無法捕獲遠距離的特征, 對于較長的醫療文本序列來說效果不佳. 越深的卷積層可捕獲越遠距離的特征, 通過增加CNN的神經網絡層數可在一定程度上解決上述問題, 但這會給訓練模型帶來很大的難度. Strubell等人[37]提出用膨脹卷積增加序列覆蓋距離以得到更多的上下文信息, 該方法在命名實體識別任務中能兼顧運算速度和長序列的特征提取. 主要原理為: 卷積核窗口在輸入序列的矩陣上以指定大小的間隔跳躍滑動, 以相同大小的卷積核獲得比傳統卷積核更大的感受野. 作者還提出重復應用相同的卷積塊實現參數共享, 這一迭代過程可以防止過擬合現象. (2)經過池化操作后得到的特征向量會丟失位置信息, 但位置信息對文本序列的命名實體識別來說卻很關鍵.

3.3 基于RNNs的模型

RNN能夠學習到序列數據中的上下文語義與時序信息, 通常用來處理線性序列數據. 圖5展示了循環神經網絡的結構, 循環節點共享權重矩陣W并按時序鏈式連接, 某個時刻的節點輸出依賴于當前時刻的輸入(即當前節點輸入的詞向量 xt)和上一時刻的輸出(即上一節點的隱藏狀態向量ht-1). RNN的結構使其能夠處理不同長度的序列文本, 但序列過長會因梯度彌散使模型的輸出被近距離的信息主導, 難以學習到遠距離的依賴關系. 而長短期記憶網絡(long short-term memory, LSTM)[38]可以選擇性地“記憶”過去的關鍵信息以實現長期記憶, 有效改善梯度彌散現象, 使命名實體識別任務的效果顯著提升. Huang等人[27]開創性地使用BiLSTM-CRF模型. 模型解決NER問題, 在此基礎上, Dong等人[28]采用CNN捕獲更細粒度的字符級特征, 提高了對特殊字符的識別準確率; Li等人[29]在基礎模型上引入一個雙向LSTM子分類模型, 在一定程度上解決了醫學實體嵌套的問題; 下文將詳細介紹BiLSTM-CRF模型.

圖5 循環神經網絡結構圖

LSTM的一個循環單元的模型結構如圖6所示,包含4個相互作用神經網絡層, 主要通過門控機制對單元狀態C 中的信息更新以達到控制信息傳遞、避免長距離依賴問題的目的. 其中, 遺忘門利用門控函數判斷上一節點的單元狀態 ct-1對當前單元狀態ct的重要性, 對ct-1中的信息部分“忘記”并將其融入ct狀態向量中; 輸入門對當前輸入信息 xt進行選擇性“記憶”并將其選擇性地加ct中; 輸出門決定當前節點的單元狀態信息ct要輸出多少給當前隱藏狀態ht. LSTM用當前輸入xt和上一時刻的隱藏狀態ht-1作為輸入訓練各個“門”的控制信號, 對隱藏狀態 ht更新并得到當前輸出yt, 其計算公式如式(1)-式(3), 其中, W和b為需要學習的參數:

圖6 LSTM循環單元

條件隨機場是在給定一組輸入隨機變量的條件下得到另一組輸出隨機變量的條件概率分布模型, 常用于處理序列標注任務. 對于命名實體識別, CRF可向編碼層輸出的標簽序列中添加一些約束以條件保證輸出結果的合理性, 例如: (1)用B表示一個實體名稱的開始邊界, “左下肢”中“左”的標簽應該是“B-body”而不能是“I-body”. (2)同一個實體對應標簽的類別是相同的,“左下肢”的標簽為“B-body I-body I-body”, 類別都是“body”, 而不能是“B-body I-symptom I-body”或其他.

CRF通過學習到的特征來表征各標簽之間的約束關系, 使用狀態特征函數和轉移特征函數對標簽序列進行評估. 假設給定輸入序列:

X=(x1,x2,···,xn)

對應的輸出序列為:

Y=(y1,y2,···,yn)

定義得分函數為:

其中, F (X,Y) 表示輸入文本序列X 對應的實體標簽序列為 Y的概率分數, Mi,yi代表第i個字符被標記為標簽yi的概率, 指由當前文本自身特征所對應的標簽的得分;N是轉移矩陣, Nyi,yi+1表示標簽yi的下一個標簽是yi+1的概率, 即上下文、外部字典及規則等特征對當前實體標簽的影響. 求出最大的概率分數, 即可得到當前最佳的輸出標簽序列.

醫療文本含有大量的專業術語和專有名詞等特殊實體, 需要依賴上下文信息才能準確提取這些實體,LSTM網絡能夠充分考慮上下文語義信息以及長距離依賴問題. 為了增強循環神經網絡對下文信息的提取,可以考慮添加一層從序列末尾開始處理的逆序LSTM.條件隨機場作為序列標注算法, 能有保證輸出序列的具有一定的有效性. BiLSTM-CRF模型其結構如圖7所示, 該模型通過兩層LSTM對嵌入層中的序列信息進行編碼, 并將這兩層的編碼結果連接在一起輸入CRF層, 解碼輸出對應的最佳標簽序列.

圖7 BiLSTM-CRF命名實體識別模型

3.4 基于Transformer的模型

Transformer[20]是一種基于注意力機制, 旨在解決序列到序列的網絡結構. 由前文可知, 傳統的基于CNNs的模型受感受野的限制無法捕獲遠距離的特征; 基于RNNs的模型雖然能較好地解決長期依賴的問題, 但模型結構使其無法實現并行運算, 運行速率較慢. Transformer可以避免以上模型的缺點, 該網絡結構沒有循環結構, 能夠對序列中的單詞或字符并行處理, 借助注意力機制對序列中所有字或詞之間的關系進行建模,可以解決長期依賴的問題. 基于Transformer的模型在醫療命名實體任務上獲得了不錯的效果, 其模型如圖8所示, 將預訓練的字向量結合位置編碼作為Transformer的輸入, 提取文本序列的特征信息, 然后通過CRF預測出最佳標簽序列并輸出.

圖8 基于Transformer的命名實體識別模型結構

雖然Transformer在命名實體識別任務上取得了非常不錯的效果, 但是該模型也有一定的局限性: (1)簡單地拋棄RNN和CNN使Transformer無法捕獲文本序列的局部特征. (2)位置編碼并不能改變Transformer無法捕獲位置信息這一固有的結構缺陷.

4 針對醫療命名實體識別的模型改進

近年來, 提升命名實體識別模型的性能引起了廣泛關注, 具有一定的現實意義. 本小節總結了醫療領域命名實體識別模型較為流行的改進方法, 主要有: 針對嵌入層特征向量的改進, 融合詞典信息, 拼音、偏旁特征以豐富嵌入層的特征向量; 為解決數據匱乏問題, 引入遷移學習的方法; 通過引入注意力機制可以提高模型的計算能力并且能有效解決長距離依賴問題; 針對復雜命名實體難以被識別的問題, 從不同角度對模型進行改進.

4.1 針對特征向量的改進

通常, 精心構造的底層特征向量可以顯著提升模型的識別效果. 如引入詞典信息, 可以有效避免分詞錯誤. 再如, 通過融合拼音特征、偏旁特征來豐富嵌入層的詞向量, 能夠提高對“多義詞”“象形字”的識別準確率. 對嵌入層的特征向量進行改進, 引入豐富的特征,是一個提升模型效果的可行方法.

在特征向量中融合詞信息可以避免中文分詞錯誤,命名實體識別通常采用基于字符的方法, 但這種方法忽略了文本序列中很多與詞相關的語義信息, 容易帶來歧義. 因此, 很多NER模型將詞典特征融合到輸入的字符序列中, 既可避免分詞錯帶來的影響, 還可把潛在的詞信息融入到特征向量中, 從而提高對實體邊界識別的準確性. Zhang等人[39]首次提出使用晶格結構(lattice)獲取文本序列中潛在的詞信息, 有效利用序列中與詞相關的語義信息還避免了分詞錯誤. 在醫療領域, 張笑天[40]提出了一種基于Lattice-LSTM的醫療文本命名實體識別模型, 并在嵌入層使用大量醫學字典訓練詞向量模型, 整體提升了命名實體識別效果.

醫療文本中有許多外文音譯而來的醫學名詞, 一詞多“譯”給醫療命名實體識別帶來了一定的難度, 同音異字是音譯名詞的常見現象; 大部分漢字的偏旁含有一定的語義信息, 如“腳”“腿”中的“月”字旁代表身體部位, “痛”“瘤”中的“疒”字旁代表與疾病相關的癥狀.根據這些中文醫療文本的特點, 可對醫療命名實體識別的詞嵌入模型加以改進: 第一, 增加拼音特征, 便于對音譯詞的識別; 第二, 增加偏旁特征, 從而增強漢字本身的語義. Dong等人[28]將來自字典的偏旁級特征結合到字符級向量中, 采用基于LSTM的模型處理中文領域的NER任務, 在MSRA數據集上, F1值取得了90.95%優秀表現. Sun等人[41]提出一種的名為Chinese-BERT模型, 該模型能夠利用上下文特征和漢字本身的語義特征, 不僅將基于漢字字形的特征融入到特征向量中, 還考慮了基于漢字拼音的特征, 通過對比實驗,該模型表現出其明顯的性能優勢. 在醫療領域, Yin等人[42]使用CNN來提取漢字的偏旁特征, 結合字符級嵌入的模型識別醫療文本中的實體名稱, 有效利用了醫療文本中漢字本身隱含的語義信息. 圖9展示一種構建在字符向量中融合拼音、部首特征的方法, 新的特征向量由字符向量C與特征向量W的加和構成.

圖9 融合多特征的特征向量

4.2 針對長距離依賴問題的改進

醫療文本數據中較長語句較多, 當處理的文本序列過長時, 傳統的基于CNNs的模型受感受野的限制無法捕獲遠距離的特征; 而基于RNNs的模型雖然能較好地解決長期依賴的問題, 但模型結構使其無法實現并行運算, 運行速率較慢. 通過引入注意力機制可以挺高模型的計算能力并且能有效解決長距離依賴問題.

注意力機制(attention mechanism)[43]是一種模擬人類視覺的信號處理機制, 能夠將有限的注意力選擇性地分配給需要關注的部分. 在命名實體識別任務中,融入注意力機制能夠使NER模型捕獲到更為關鍵的句法和高層語義特征. 醫療文本中有很多超長語句, 合理利用上下文信息對正確識別出目標實體具有很大的意義, 雖然基于RNNs模型可以有效利用上下文信息,但它無法體現上下文信息與當前信息的相關程度. 引入注意力機制根據各個字詞對正在識別的目標實體的重要程度, 分配相應大小的關注程度, 從而優化資源配置, 提高識別效果. 例如“門診以口唇皰疹、低燒收入我科, 考慮手足口”“門診、收入我科”等對識別出疾病實體“手足口”作用不大, 而“口唇皰疹”“低燒”對識別出實體“手足口”卻起著很大的作用, 因此注意力機制會把更多的注意力資源分配給“口唇皰疹”和“發燒”.

Luo等人[44]在命名實體識別模型中引入注意力機制, 用于生物醫學領域的實體識別, 該模型以很少的特征工程獲得了比其他最先進的方法更好的表現, 在CHEMDNER和CDR語料庫上的F1值達到91.14%和92.57%. 單義棟等人[45]從軍事領域的文本中識別實體, 通過引入注意力機制和融合詞向量的方法提供對實體識別任務更為關鍵的特征, 整體提升了模型的性能. 融合注意力機制在命名實體識別任務中獲得了不錯的效果, 成為了開放領域命名實體識別最好的模型之一[46-49].

4.3 針對數據匱乏問題的改進

醫療命名實體識別離不開醫療數據集的支撐, 標注好的大規模數據集十分稀缺, 并且由于醫療領域的特殊性, 很多醫療領域的數據都涉及隱私問題. 數據匱乏使得命名實體模型無法對特征進行準確的表達, 識別效果不好, 針對醫療數據匱乏的問題, 融合遷移學習的方法被廣泛使用.

遷移學習[50]指將從“源”數據集中學到的知識應用在“目標”任務中, 即利用源域中的標注數據或知識結構, 通過微調模型等方法, 完成或改進目標任務的學習效果. 訓練醫療領域的NER模型需要大規模標注好的醫療數據集, 但醫療數據具有一定的特殊性, 并且需要有一定專業背景的人來標注, 導致現有的可訓練數據集很少, 融合遷移學習可有效解決醫療命名實體識別中數據匱乏的問題[51]. Giorgi等人[52]使用SSC語料庫(大規模數據集, 含有噪聲)代替GSC語料庫(手工標記的數據集, 高度可靠)訓練生物醫學領域的NER模型, 通過SSC到GSC的遷移, 既可以利用大規模SSC數據集訓練模型, 又可以利用GSC數據集對模型進行優化以減少噪聲. Wang等人[53]提出一種融合遷移學習的NER模型, 該模型引入標簽感知機制, 實現了醫療NER模型的特征和參數在不同專業間遷移.

4.4 針對復雜實體識別問題的改進

由于醫療文本中醫學名詞構詞復雜, 復雜命名實體在醫療文本中占比很大, 如, 據統計生物醫學數據集GENIA中含有嵌套實體的語句占到了30%, 因此對于醫療命名實體識別而言, 復雜命名實體識別的問題不可忽視.

嵌套實體. 傳統模型在識別命名實體時, 每個字符對應一個標簽, 無法解決嵌套實體一個字符對應可能對于多個標簽的問題. 對于嵌套實體而言, 它的構成復雜多變, 無法找到一個統一的規則對它進行“刻畫”, 一般需對模型加以改進提高識別準確率. 主流的處理方法包括: 多層序列標注法, 增加模型編碼器和解碼器的層數將多個標簽分配給一個字符, Ju等人[54]提出一種動態層疊式模型, 通過堆疊多個Flat NER層, 從內層到外層識別命名實體, 每當該模型識別出命名實體, 就會在當前基礎上堆疊一個新的Flat NER層以識別更外層的命名實體, 直到沒有更外層的命名實體被識別出來為止. 但是, 由于該模型識別內層實體時無法考慮外層實體信息, 會在一定程度上造成級聯錯誤; 基于區域的識別方法, 抽取序列中所有可能存在實體的子序列區域來識別出所有實體, 該方法可以有效避免上述方法級聯錯誤. Sohrab等人[55]提出一種基于區域的方法,將序列中所有可能存在實體的區域進行編碼, 然后通過一個分類器判斷該區域是否是一個實體. 然而, 這種方法會判斷大量的非實體區域, 帶來較高的計算成本.基于邊界感知的方法, 這種方法綜合考慮了上述兩種方法的優劣之處, 用序列標注的方法提取到命名實體的位置, 用基于區域的方法確定實體所屬的類型, 圖10以“甲狀腺癌”為例子概述了這種方法的模型, 首先提取實體邊界, 將“B”和“E”配對并進行實體區域標記, 然后對標記區域進行實體類別判斷.

圖10 基于邊界感知的方法

非連續實體. 醫療文本序列中有很多非連續實體的表達, 多個間隔的部分構成非連續實體, 主要包括以下處理方法: 數據標注層面[56]. 擴展傳統的BIO標記,添加必要的標簽以滿足非連續實體的標注需求. 如:BH代表非連續實體中首個部分的開始, BI代表非連續實體中首個部分的內部, BD代表中間部分的開始,BI代表中間部分的內部. 針對語料句子層面[57], 判斷句子由哪些非連續命名實體的部分構成. 使用超圖的方式表達語句中所有非連續部分的組合, 通過解碼得到所識別到的實體; 基于轉移的方法[58]. 預先設定好動作, 采用堆棧的技術對非連續命名實體的組成部分進行處理.

5 評價指標

正確識別出一個醫療命名實體, 既要正確識別出該實體的邊界, 也要正確識別出其對應的類別. 醫療命名實體識別通常采用精確率(Precision)、召回率(Recall)和F1值(F1-Measure)對模型進行評估. 可通過如表2所示的混淆矩陣來理解, Tp代表模型預測為命名實體且預測正確的個數, Fp代表模型將非實體識別為命名實體的個數, Fn代表模型將命名實體識別為非實體的個數, Tn代表模型預測為非實體且預測正確的個數.

表2 混淆矩陣

精確率P, 指所有被模型識別為命名實體的樣本中實際為命名實體的概率, 表達式為:

召回率R, 指模型所有預測正確的結果中命名實體所占的比例, 表達式為:

當樣本分布不均衡時, 僅考慮精確率或者召回率是不全面的, 由式(5)和式(6)可知它們是相互矛盾的.F1值是命名實體識別的主要指標, 綜合了上述兩個評價指標, 表達式為:

6 總結與展望

本文對醫療命名實體識別任務進行研究, 主要做了以下工作: (1)分析了命名實體識別對醫學研究的重要意義以及其特有的難點; (2)綜述了傳統的方法并詳細歸納了基于深度學習的模型; (3)介紹了當下較為流行的醫療命名實體識別模型改進方法; (4)總結了常用數據集和評價指標.

結合醫療名實體識別任務的研究現狀和趨勢, 對今后的研究工作提出以下幾點建議: 一方面, 就醫療領域的數據匱乏現狀, 可對如何采用小規模的數據訓練模型這一問題更深入地研究; 另一方面, 探索更有效的命名實體識別模型, 比如將圖神經網絡[59]、遷移學習等技術與現有的命名實體識別模型融合. 最后, 應注重命名實體識別在實際應用中的泛化能力, “AI+醫療”是大數據時代的一個探索性研究熱點, 醫療知識圖譜揭示了醫學實體之間的邏輯關聯, 智能問答系統為大眾提供了科普性知識, 臨床決策系統的普及緩解了醫務人員的工作壓力, 這些下游應用都離不開結構化數據的支持, 命名實體識別模型應適應于不同的應用場景,并且能夠與其他技術模塊高效結合.