結合多頭自注意力機制與BiLSTM-CRF 的中文臨床實體識別

2021-04-25 08:11:58羅熹夏先運安瑩陳先來

湖南大學學報(自然科學版) 2021年4期

羅熹，夏先運，安瑩，陳先來

（1.中南大學大數據研究院，湖南長沙 410083；2.湖南警察學院網絡偵查技術湖南省重點實驗室，湖南長沙 410138）

隨著醫療信息化的快速發展，醫療機構中積累了大量的電子病歷數據.這些電子病歷是病人在醫院就診及治療過程中所產生的重要記錄，包含了臨床文本、醫學圖表、醫學影像等多種類型的臨床記錄數據.其中，諸如主訴、診斷結果、入院/出院記錄和治療過程等臨床文本中蘊含著極為豐富的臨床經驗知識以及與病人健康狀態緊密相關的臨床信息，但是，這些以非結構化自由文本形式存儲的信息很難直接加以分析和利用，需要首先通過自然語言處理技術進行必要的信息抽取，準確地識別出文本中的相關概念、屬性和語義關系等重要信息.命名實體（Named Entity，NE）是電子病歷中相關醫學知識的主要載體，因此，臨床命名實體識別也就成為了臨床文本分析處理極為關鍵的基礎性任務之一.

近年來，關于臨床命名實體識別的研究得到了研究人員大量的關注，并在英文臨床文本領域產生了一系列的研究成果，其中基于統計機器學習方法的條件隨機場（CRF）[1]和基于深度學習方法的長短時記憶網絡與條件隨機場（BiLSTM-CRF）[2]應用最為廣泛.然而，由于在語言結構和表達形式等方面的特殊性，面向中文電子病歷的臨床命名實體識別依然存在著巨大的挑戰.

隨著深度學習技術的發展，很多研究人員嘗試使用基于循環神經網絡（RNN）的深度學習模型解決中文臨床命名實體識別任務，該模型將中文文本中的一個句子看作是一條由漢字詞語或者字符組成的序列，然后執行循環遍歷，利用RNN 中的隱藏單元來學習文本中的上下文信息.但是，已有的研究方法仍然存在著很多的欠缺.首先，傳統的RNN 學習長序列中的依賴關系的能力不足，當文本序列較長時容易損失大量有用信息.其次，現有的方法大多僅將一個文本序列映射為單一的表示，缺乏獲取多角度文本序列特征的能力.此外，這些基于深度學習模型的方法的識別性能很大程度上依賴于大量的標注訓練數據集，而且未能對已有的領域特征加以有效的利用.再加上中文臨床文本中存在的很多語法及表述方面的問題，如大量的醫學專有名詞、非標準化的名詞縮寫以及由于書寫或表達錯誤導致的噪聲，都嚴重地影響了中文臨床文本命名實體識別的性能.

為了解決以上的這些挑戰，本文提出了一種結合多頭自注意力機制與BiLSTM-CRF 的深度網絡模型（Multi-Head self-Attention BiLSTM-CRF，MHABiLSTM-CRF）.該模型將中文文本字符特征和臨床領域知識特征進行融合，以獲得更全面的字符級嵌入表示.然后使用BiLSTM 網絡從輸入序列中捕獲相關的時序特征和上下文關系，同時引入多頭自注意力機制，從多個角度獲得中文臨床文本中字符間關聯權重表示來更準確地關注句子中的重要字符或單詞，從而有效地提升中文臨床命名實體的識別能力.

1 相關工作

1.1 中文臨床命名實體識別

命名實體識別（Named Entity Recognition，NER）本質上可以看成是一個多標簽序列分類問題.它以由多個字符或詞語構成的文本序列為輸入，旨在識別文本中的專有名詞、數字信息和其他重要名詞并將其分類為預先定義的類別，例如人員名稱、組織、位置、時間表達等.多年來，研究人員針對該問題開展了廣泛的研究并提出了許多命名實體識別的相關方法[3].這些方法大致可以分為三種類型：基于規則和詞典匹配的方法、基于傳統特征工程的機器學習的方法[4-6]以及目前比較流行的基于深度學習的方法[2，7-9].

在臨床領域中，命名實體識別的目標是從給定的臨床文本中提取出那些與醫療過程密切相關的實體指代，并將它們準確地劃分為疾病、癥狀、檢查、身體部位以及治療等特定的實體類別.目前，研究人員針對英文臨床文本的命名實體識別已經開展了大量的研究[3].而且，得益于英文語言所具有的以空格作為分割符、專業術語的字母大寫特征等天然優勢，使得許多命名實體識別方法在英文臨床文本中得到了較為成功的應用.然而，由于不同語言在句法結構、表達方式等方面的特殊性，針對其他語言的臨床文本，特別是中文臨床文本的命名實體識別依然是一項極具挑戰性的任務.

為了推動中文臨床命名實體識別技術的發展，2017 年由中文信息學會組織的全國知識圖譜與語義計算大會（CCKS2017）首次設立了中文臨床文本命名實體識別相關的測評任務，吸引了大量研究人員的積極參與并產生了一系列較為有效的中文命名實體識別方法.例如，Li 等人[10]將中文臨床命名實體識別看作一個詞級別的序列標注任務，提出了一個基于BiLSTM-CRF 的深度模型，并通過使用額外的醫療詞典及數據集作為補充來得到更加豐富的、具有領域特征的詞向量，從而有效地提高識別的準確率.Ouyang 等人[11]結合分詞特征、詞性特征以及醫療詞典特征，提出了一種基于n-gram 字符表示策略的BiLSTM-CRF 模型.Xia 等人[12]則在BiLSTM-CRF 模型的基礎上引入自學習和主動學習策略，充分利用未標注數據來增強模型的識別能力.此外，Hu 等人[13]還提出了一種基于投票的混合模型，將基于規則的方法、基于CRF 的方法以及融合特征的RNN 方法進行結合，以有效地實現中文臨床文本中的實體識別.

近年來，研究人員在之前工作的基礎上對CNER 方法進行了大量的改進.Wang 等人[14]將數據驅動的深度學習方法與知識驅動的詞典方法結合起來，提出了一種融合領域詞典的深度神經網絡模型，并利用一種改進的詞典特征表示方法，在中文臨床文本上獲得了較高的命名實體識別性能.Qiu 等人[15]采用了一個帶條件隨機場的殘差卷積神經網絡模型（RD-CNN-CRF）來解決中文臨床命名實體識別的問題.該方法首先將漢字和字典特征映射為對應的向量表示，然后將其輸入到RD-CNN-CRF 模型中以捕獲相關的上下文特征.由于CNN 出色的并行執行能力，該方法在識別能力和訓練時間等方面獲得了與現有其他基于RNN 的方法相當或更高的性能.Tang等人[16]則提出了一種基于注意力機制的CNN-LSTMCRF 模型.該模型通過引入CNN 層和注意力層來更好地捕獲詞語的局部上下文信息以及詞間關聯強度，從而有效地擴展和增強了BiLSTM-CRF 模型的學習能力.盡管上述改進方法在提升中文臨床命名實體識別性能方面取得了一定的效果，但它們大多沒有充分利用中文文本序列中重要的全局特性，而且往往忽略了數據集中臨床實體分布的不均衡性，從而嚴重影響了其實體識別的準確性.

因此，為了彌補現有方法的上述缺陷，本文提出了一種基于多頭自注意力機制的BiLSTM-CRF 模型，通過有效地捕獲和融合臨床文本中字符自身特征、字符間的依賴關系、文本序列中的語義和上下文信息以及詞典特征等多層面的文本特征來提升中文臨床命名實體的識別能力.

1.2 多頭自注意力機制

Google 機器翻譯團隊在2017 年發表的論文中提出了一種包含自注意力以及多頭自注意力機制的神經網絡架構，并在機器翻譯任務中取得了較為出色的效果[17].自注意力機制是一種特殊的注意力機制，它通過計算單個文本序列中不同位置字符間的關聯關系，以便獲得序列的交互表示.而多頭自注意力機制則是通過結合多次并行的自注意力計算來捕獲同一序列在不同表示子空間上的信息，進而從多角度多層面得到更全面的相關特征.自注意力機制自其被提出開始就在自然語言處理相關的諸多領域得到了大量應用，例如，自動文本摘要、自然語言推理、機器翻譯及語言理解等.

在中文臨床命名實體識別任務中，臨床文本語料規模通常較小且其中存在大量不規則的文本表達.而與RNN 和CNN 相比，多頭自注意力機制具有很多優勢.首先，多頭自注意力機制可以捕獲句子中任意位置的字符之間的關聯關系，使得模型更加方便地學習到長句子的前后文依賴信息.其次，注意力機制使用權重求和的方式產生輸出向量，使其梯度在網絡模型中的傳播比RNN 和CNN 更加容易.此外，多頭自注意力機制的并行執行能力更強，具有更快的訓練速度.因此，多頭自注意力機制將成為進一步提升現有方法中文臨床命名實體識別能力的一種有效手段.該機制將會選擇性地關注某些重要的信息，同時相應地忽略其他次要信息，并且根據文本中文字的重要性將較高的權重分配給相對更重要的文字，獲取更多的臨床文本字符之間的關聯權重特征.

2 MHA-BiLSTM-CRF 模型設計

中文臨床命名實體識別任務通常被當作序列標注任務來處理.由于中文文本中詞語邊界的模糊性，本文對文本序列采用了字符級別的標注方式以避免分詞錯誤對實體識別性能帶來的影響.對于給定的一段文本字符序列S=[w1，w2，w3，…，wn]，其中wt表示其中的第t 個字符，我們的目標是訓練出一個模型準確地為文本中的每一個字符給出包含實體類別和位置信息的對應標簽，得到相應的標簽序列Y=[y1，y2，y3，…，yn].本節將簡要介紹一下本文方法的基本原理及處理流程.

2.1 模型框架

本文的模型總體架構如圖1 所示.該模型由多個深度網絡層組成，主要包括Embedding 嵌入層、MHA-BiLSTM 層以及CRF 層.Embedding 層的作用是將原始的輸入文本序列轉化為模型可接受的數字向量矩陣，并將其進一步映射為對應的低維嵌入向量表示，然后，將Embedding 層輸出的嵌入向量分別輸入到MHA-BiLSTM 層中的多頭自注意力模塊和BiLSTM 網絡模塊.其中，BiLSTM 網絡模塊用于學習文本序列的時序特征和上下文信息，而自注意力機制則用于獲取輸入文本序列的全局特征表示以及各種字符之間的關聯強度.最后，以上兩個神經網絡模塊的輸出將被拼接在一起輸入到CRF 層，以獲得最終的標簽序列.

圖1 MHA-BiLSTM-CRF 模型架構圖Fig.1 Architecture diagram of MHA-BiLSTM-CRF model

2.2 Embedding 層

Embedding 層的作用將自然語言文本處理成模型能夠識別并進行計算的形式.給定中文臨床文本字符序列S=[w1，w2，w3，…，wn]，我們首先將每個字符wt表示成一個one-hot 向量xt，其維度等于訓練數據集中的字符量大小.那么，輸入字符序列可以表示為X=[x1，x2，x3，…，xn].然后，通過基于分布式字符嵌入表示的方法，這些字符的one-hot 向量被進一步映射為相應的低維稠密向量.本文中使用的嵌入表示方法包括兩種方式，一種是字符嵌入，它將每個字符嵌入到一個對應的語義向量中；另一種被稱為特征嵌入，它將每個字符及其對應標簽的組合映射為一個特征嵌入向量，從而使得在不同實體中具有不同標簽的相同字符具有不同的特征表示形式.具體過程描述如下.

2.2.1 字符嵌入

字符是中文自然語言處理的最小語義單元，本文采用預訓練字符嵌入向量表來獲得豐富的字符級文本特征表示.該查找表通過未標注的中文維基百科數據集經word2vec 訓練得到，包含了16 691 個漢字及其對應的向量表示.在獲取字符嵌入向量的過程中，對于中文臨床文本中的任意字符，我們首先在該字符向量表中查找是否存在該字符對應的嵌入向量，若找到匹配項，則將該字符以匹配的字符嵌入向量表示；否則，將其表示為一個隨機向量.這樣，輸入序列將被轉換為字符嵌入向量序列Vc=[vc1，vc2，vc3，…，vcn].其中，每個字符嵌入向量的維數d 設為100.

2.2.2 特征嵌入

字符嵌入僅實現了字符自身特征的降維表示，然而同一個字符可能出現在不同臨床命名實體中的不同位置，這些信息蘊含了與相關實體的依賴關系，對于命名實體的識別具有十分重要的意義.現有的方法大多采用單獨將字符的特征標簽（如所屬實體的類別以及BIOES 位置標注等）轉化為對應的特征向量的方式.但是，這種方式把字符和其對應的標簽完全分離開來進行表示，無法捕獲字符在對應實體中的依賴關系特征.因此，在本文的方法中，我們將每個字符與其對應標簽作為一個整體，然后通過word2vec 將其表示為相應的特征嵌入向量，從而盡可能全面地捕獲字符與實體的相關特征以得到更豐富的字符特征表示.

為了獲得更全面的字符特征標簽，我們使用了一個包含多種臨床實體的醫學領域詞典.其中的臨床實體均由ICD-10、ICD-9-CM 以及如搜狗細胞詞庫、在線醫療咨詢網站等其他系統中抽取得來，主要包括五種實體類別：疾病、癥狀描述、檢查項目、身體部位以及治療.對于給定的輸入文本序列S，我們首先根據該詞典利用雙向最大化匹配算法（Bi-Direction Maximum Matching，BDMM），對輸入文本進行實體劃分.若輸入文本序列中的某個子串在詞典中發生匹配，則將該子串作為一個臨床實體并對其進行相應的類別標注.沒有發生匹配的字符則統一標記為“None”.然后，我們再利用BIOES 標注機制為每個字符加上其所在實體的位置標簽.標注樣具體如表1 所示.接著，我們將字符與其對應標簽（實體類別標簽+位置標簽）結合起來轉化為相應的聯合特征嵌入向量vdt.

最終，對于任意字符的輸入xt，我們將上述兩個嵌入過程得到的字符嵌入向量vct和聯合特征嵌入向量vdt拼接起來作為它的最終向量表示et，如公式（1）所示.

表1 文本序列的特征標注樣例Tab.1 A sample of feature labeling for a clinical text sequences

式中：⊕表示向量拼接運算.這樣，輸入字符序列即可表示為E=[e1，e2，e3，…，en].

2.3 MHA-BiLSTM 層

為了更好地獲取文本的時序特征、字符上下文信息以及文本序列中字符之間的相關權重，本模型在Embedding 層之后部署了一個由兩個獨立模塊組成的MHA-BiLSTM 層.一個是BiLSTM 模塊，另一個則是多頭自注意力模塊.Embedding 層輸出的向量矩陣將分別輸入到上述兩個模塊進行處理，然后再將兩個模塊的輸出向量拼接后得到該層的最終輸出.

2.3.1 BiLSTM 模塊

BiLSTM 利用來自Embedding 層的輸出向量矩陣E，通過結合序列中每個字符的上下文信息來獲取更全面的特征表示.

對于輸入序列中任意位置t 上的字符向量et，LSTM 將結合et和前一時刻的狀態ht-1來計算當前的隱藏狀態ht.具體實現過程如公式（2）～（7）所示：

然而，單向LSTM 在計算當前狀態時僅考慮了過去的歷史狀態，而忽略了后續的狀態信息.因此，我們利用雙向LSTM（BiLSTM）模型，通過計算并結合任意輸入字符et的前向表示和后向表示來獲得更完整的上下文信息，從而解決單向LSTM 的局限性.則最終當前時刻t 的隱藏狀態ht可表示為：

2.3.2 多頭自注意力模塊

傳統的BiLSTM-CRF 模型無法充分表達文本序列的全局信息以及句中各個字符的重要性，而且隨著句子長度的增加，BiLSTM 在訓練過程中有可能會遺失大量對于命名實體識別極為重要的信息.例如，不同的詞語或字符在同一語句中往往具有不同的作用，同一詞語或字符在不同語句中的含義也可能存在明顯的差異.這些特征對于準確地理解詞語/字符間的關系和上下文含義具有重要意義.因此，我們引入了多頭自注意力機制作為BiLSTM 模塊的補充，從字符、單詞和句子的層面捕獲多種語義特征來進一步提高臨床命名實體識別的性能.

該過程將Embedding 層的輸出向量矩陣E 通過三次不同的映射操作分別轉換成三個維度均為dk的輸入矩陣：查詢Q、鍵K 和值V，并傳入如公式（9）所示的注意力函數中.注意力函數將根據Q 與K 之間的相關性計算V 上的權值，進而得到相應的混合向量表示.

在多頭自注意力模塊中，查詢Q、鍵K 和值V 將分別使用不同的參數矩陣進行h 次獨立的線性映射，然后相應地輸入到h 個并行頭中執行上述的注意力函數運算.這樣，每個并行頭都可以捕獲文本序列中各字符在不同表示子空間上獨特的特征信息.接下來，h 個并行頭上的計算結果進行合并后再經過一次線性映射得到最終的輸出ST=[st1，st2，st3，…，stn]，具體過程如公式（10）和（11）所示.

最后，多頭自注意力模塊和BiLSTM 模塊的計算結果stt和ht將結合起來輸入下面的tanh 激活函數得到MHA-BiLSTM 層的輸出zt如公式（12）所示.

2.4 CRF 層

充分考慮相鄰字符標簽之間的依賴關系和約束條件對于中文臨床命名實體的識別和分類具有重要的意義.因此，我們在模型的最后采用條件隨機場（CRF）對MHA-BiLSTM 層生成的融合特征信息進行解碼來得到文本的字符標簽序列.

將上層的輸出序列Z=[st1，st2，st3，…，stn]作為輸入，CRF 層根據上下文前后的字符標簽來預測得到可能性最大的標簽序列Y=[y1，y2，y3，…，yn].

令θ 表示CRF 層的參數集合，那么，我們可以通過最大化對數似然函數，如公式（13）所示，來得到所有參數的估計：

式中：Y 是文本字符序列對應的標簽序列；p 表示給定輸入特征序列Z 和參數集合θ 時Y 的條件概率.

為了求得式（13）中的條件概率p，我們先根據公式（14）對轉移概率矩陣A 與MHA-BiLSTM 層的輸出Z 進行求和計算出預測序列Y 的得分Sθ（Z，Y），然后，再對Sθ（Z，Y）進行歸一化即得到對應的條件概率p.

這里，Zyt，t表示輸入的當前時刻的字符wt被標記為yt標簽的概率值，Ayt-1，yt則表示t-1 時刻的字符被wt標記為標簽并且被標記為標簽的概率.最終的解碼階段通過CRF 中的標準Viterbi 算法[18]，預測出全局最優的標注序列.

3 實驗結果與分析

本節將通過與幾種最新的臨床命名實體識別方法的對比實驗來評估本文方法的有效性.

3.1 數據集

本文實驗中的數據均來自CCKS2017-CNER 數據集.該數據集是目前廣泛采用的用于中文臨床命名實體識別任務公開測評的標準數據集.其中包含了來自不同科室的400 份中文臨床記錄（300 份作為訓練集，余下的100 份作為測試集），共計1 596 個標注實例（10 024 個不同的語句），并經多名臨床專家的人工標注將其中的實體分為了疾病、癥狀、檢查項目、身體部位以及治療五種類別.同時，樣本中的句子均根據中文的標點符號（句號或者感嘆號等）劃分成了子句以方便處理.數據集中相關臨床實體的詳細統計信息如表2 所示.

表2 數據集中實體統計信息Tab.2 Statistics of entities in the dataset

3.2 基準模型

本文選取了幾種典型的基于詞級特征嵌入和字符級特征嵌入的命名實體識別方法作為基準模型來評估本文方法的有效性，主要包括了詞級別的模型BiLSTM-CRFword[10]、BiLSTM-CRFword+ReSeg[19]以及字符級別的模型BiLSTM+CRF+LSTM-FEA[13]、BiLSTM-CRFchar[12]、RD-CNN-CRF[15]、CNN-LSTMAttention[16].

3.3 實驗設置與評價指標

3.3.1 實驗設置

本文實驗均基于Python 3.6 編程語言開發，采用Keras 2.4 工具包以及Tensoflow1.13.0 進行模型的實現.訓練過程中，所有模型均通過Adam 優化算法進行參數優化，初始學習率設為0.01.同時，采用了early-stop 和dropout 策略以防止過擬合，并通過梯度裁剪來解決梯度爆炸問題.主要的實驗參數設置如表3 所示.

表3 實驗參數設置Tab.3 Parameter configurations of our proposed approach

3.3.2 評價指標

本文采用了CCKS2017-CNER 挑戰賽提供的官方測試數據集和測評標準來對所有模型進行性能評估.對于模型識別出的實體，僅當實體邊界和類別均與標準結果完全一致時才被判定為一次正確的識別.所用的評價指標主要包括：微平均精準率microaverage precisions（P）、微平均召回率micro-average recall（R）以及微平均F1值（F1）.

3.4 結果分析

接下來，我們對本文方法與其他典型的命名實體識別模型的性能進行對比，并從不同的方面驗證本文方法的優越性.

3.4.1 多頭自注意力機制的優勢

本文希望通過引入多頭自注意力機制來提升模型的命名實體識別能力，而將注意力機制與BiLSTM-CRF 進行結合存在多種可行的方式.因此，我們首先嘗試了4 種不同的網絡結構，并通過實驗性能對比來選擇最佳的組合方式.如圖2 所示，模型I采用了將多頭自注意力模塊直接置于BiLSTM 網絡層之后的方式；模型II 將多頭自注意力模塊置于BiLSTM 層與embedding 層之間；模型III 在模型II的基礎上采用殘差結構將多頭自注意力模塊的輸出與其經過BiLSTM 模塊處理后的輸出進行融合再輸入CRF 層的方式；模型IV 則將embedding 層的輸出獨立并行地分別送入到BiLSTM 與多頭自注意力模塊中，將這兩個模塊的輸出進行融合后輸入CRF 層得到最終結果.

圖2 多頭自注意力機制的不同模型架構Fig.2 Different model architectures of multi-head self-attention mechanism

從表4 中的實驗結果可以發現，BiLSTM 與多頭自注意力機制采用并行組合的兩種模型（模型III 和模型IV）較之采用串行組合的模型（模型I 和模型II）具有更好的效果.其中，模型IV 的精準率、召回率和F1值分別達到了0.905 6、0.909 1 和0.907 3，獲得了四者中最優的性能.這說明模型IV 能夠更好地發揮多頭自注意力機制與BiLSTM 的互補作用，因此，本文將其作為最終的模型架構.

表4 多頭自注意力模塊不同架構的實驗結果Tab.4 Experimental results of different architectures of multi-head self-attention modules

同時，為了證明多頭自注意力機制對于中文臨床命名實體識別的好處，我們在使用相同的特征表示方法和字典特征的前提下，選擇了兩個MHABiLSTM-CRF 的修改版本來與本文方法進行性能對比.一個是通過去除MHA-BiLSTM-CRF 中的多頭自注意力模塊得到的BiLSTM-CRF 基礎模型，另一個則是將MHA-BiLSTM-CRF 的多頭自注意力模塊替換為單頭自注意力模塊得到的SA-BiLSTM-CRF模型.

從表5 所示的實驗結果可以看出，由于自注意力機制很大程度上彌補了LSTM 模型在捕獲字符間關聯關系能力方面的不足，因此，不論是否使用字典特征，SA-BiLSTM-CRF 的性能均要優于BiLSTMCRF.而本文提出的基于多頭自注意力機制的MHA-BiLSTM-CRF 模型更是超過前兩者獲得了最佳的性能表現.這說明多頭自注意力機制能充分結合不同層次不同角度的相關特征來增強模型的表示能力，從而進一步提高了實體識別的整體性能.另外，從表中不難發現，當使用了外部詞典特征時，每個模型的性能都出現了明顯的提升.這也驗證了領域詞典在提高命名實體識別性能方面的重要作用.

表5 使用多頭自注意力模塊的模型實驗對比結果Tab.5 Comparison results of model experiments using multi-head self-attention module

為了進一步理解MHA-BiLSTM-CRF 模型的優勢，我們也做了一些實際的模型識別結果對比分析.如表6 所示，分別給出了BiLSTM-CRF 與MHABiLSTM-CRF 模型的真實識別結果對比.可以看出，BiLSTM-CRF 模型針對中文臨床命名實體中實體詞較長時具有明顯的識別錯誤，如第一個實例中的治療實體“腰麻下行闌尾切除術”，BiLSTM-CRF 模型將其錯誤識別為治療實體“闌尾切除術”，第三個實例中的檢查項目實體“肱二、三肌腱反射”，BiLSTMCRF 模型將其錯誤識別為身體部位實體“三肌腱”，然而MHA-BiLSTM-CRF 模型均能準確地識別出這些實體.這也充分說明了MHA-BiLSTM-CRF 能夠彌補BiLSTM-CRF 的不足，有效學習并捕獲到字符序列中的長距離依賴信息，在實體較長時仍然能夠正確識別出中文臨床命名實體.

表6 BiLSTM-CRF 與MHA-BiLSTM-CRF模型實體識別結果對比Tab.6 Comparative examples of BiLSTM-CRF and MHA-BiLSTM-CRF entity recognition results

3.4.2 與其他基準模型的對比結果

表7 展示了幾種典型的命名實體識別模型在CCKS2017-CNER 數據集上的性能.從表中我們可以看到兩個基于詞級特征嵌入的模型（BiLSTMCRFword 和BiLSTM-CRFword+ReSeg）性能相對較差.其主要原因在于基于詞級別特征的方法通常依賴分詞工具的準確性，而分詞錯誤必然嚴重地影響該類方法的實體識別性能.而與基于詞級特征嵌入的模型相比，使用字符級特征的模型擺脫了對分詞精度的依賴，因而能夠獲得相對更高的性能.例如，同樣基于BiLSTM-CRF 模型，使用字符級嵌入的BiLSTM-CRFchar 的F1值達到了0.912 4，比使用詞級嵌入的BiLSTM-CRF 高出了0.032 9.RD-CNNCRF 利用殘差擴張的卷積神經網絡捕獲上下文特征，獲得了0.913 2 的F1值.然而，CNNs 通常主要關注局部特征，沒有充分利用文本的長期依賴性，因此其性能在所有對比方法中僅排在第三位.而CNNLSTM-Attention 則結合了CNN 和LSTM 各自的優勢來獲取局部上下文信息和單詞的時序依賴關系，并融合了另外兩種方法（CRF 和LSTM-CRF）來構建集成模型，進一步將F1值提高到了0.914 6.得益于精確的特征表示以及多頭自注意機制的引入，本文方法MHA-BiLSTM-CRF 不僅可以全面地挖掘字符級、詞級以及句子級的各種語義和結構特征，而且還能捕獲句子中不同字符的重要性.因此，它獲得了明顯優于其他對比模型性能，F1值達到了0.919 7.盡管部分模型在精準率或召回率上似乎略高于MHABiLSTM-CRF，例如，BiLSTM+CRF+BiLSTM-FEA的精確率達到了0.944 9，而RD-CNN-CRF 則獲得了0.920 2 的召回率.但是，另一方面，它們的召回率和精確率卻分別僅為0.877 9 和0.906 3，遠遠低于我們模型.作為結合精確率和召回率的綜合指標，F1值能更全面有效地評估不同模型的整體性能.因此，在F1值方面的比較結果更充分地說明了本文方法的優越性.

表7 基準模型對比實驗結果Tab.7 Comparative results between baseline models and our proposed model

3.4.3 不同特征表示方法的影響

為了分析不同特征嵌入方法對實體識別性能的影響，我們以BiLSTM-CRF 和MHA-BiLSTM-CRF模型為例，分別比較采用三種不同的嵌入方法（字符嵌入、字符嵌入+標簽嵌入以及字符嵌入+字符-標簽嵌入）時的性能.從表8 結果可以看到，本文提出的特征嵌入方法（字符嵌入+字符-標簽嵌入）與其他兩種嵌入方法相比具有明顯的性能優勢.例如，僅采用字符嵌入時，MHA-BiLSTM-CRF 模型僅獲得了0.907 3 的F1值，結合標簽嵌入時，其F1值增加到了0.914 2，而采用字符嵌入和字符-標簽嵌入的組合時，模型的F1值進一步提升了0.005 5.

表8 不同特征表示方法對模型性能的影響Tab.8 Comparative results of different feature embedding method

這也充分地證明了本文所提出的特征表示方法的有效性.其主要原因在于，與使用單一標簽嵌入的傳統方法相比，本文方法將字符和特征標簽組合成一個整體來重新訓練新的字符標簽嵌入向量，該向量可以為出現在不同臨床命名實體中的相同字符提供富含領域特性不同表示形式，極大地增強了特征表示的特異性和多樣性.

3.4.4 數據不均衡的影響分析

從表2 的實體統計數據中可以明顯看出，數據集中的實體分布很不均衡，尤其是疾病和治療實體的數量遠遠低于其他實體，在訓練集中大概只占實體總數的4%左右，然而其他實體的比例超過了25%.這也導致了模型對于疾病和治療實體的識別準確率遠遠低于其他實體，性能結果如圖3 所示.

圖3 未使用額外特征的MHA-BiLSTM-CRF模型在數據不平衡處理前后的實驗結果Fig.3 Experimental results of the MHA-BiLSTM-CRF model without additional features before and after data imbalance processing

因此，為了緩解這一影響，我們對數據集中的樣本進行了數據均衡處理，特別針對疾病和治療實體進行了重采樣處理.實驗結果如表9 所示，不論是BiLSTM 模型還是MHA-BiLSTM-CRF 模型，在進行數據不均衡處理之后整體性能明顯提升.此外，還可以從圖3 中看到，MHA-BiLSTM-CRF 識別疾病實體和治療實體的能力顯著增強.對于治療實體的識別、精確率、召回率和F1值由0.704 5、0.702 9、0.712 6 分別增加至0.841 5、0.802 3、0.821 4.因此，數據均衡處理提高了整體的識別性能MHA-BiLSTM-CRF 的精確率為0.9056，召回率為0.909 1、F1值為0.907 3，比未進行處理的F1-score 分別高0.010 8、0.023 7、0.017 2.

表9 使用數據均衡處理（Im）后的模型實驗結果對比（Y 表示使用了，N 表示未使用）Tab.9 Comparison of model experiment results after using data balance processing（Im）（Y-used，N-unused）

4 結論

臨床命名實體識別是許多臨床信息抽取任務中最關鍵也是最基礎的環節.然而，目前很多針對中文臨床命名實體識別任務的模型均不能夠很好地捕獲文本序列中的全局特征信息以及文本序列內部的字符與字符之間的關聯權重信息，且特征表示能力不足.因此，本文首先設計了一種改進的字符級特征表示方法，將字符嵌入和字符-標簽嵌入相結合以增強特征表示的特異性和多樣性.然后，在此基礎上提出了一種結合多頭自注意力機制和BiLSTM-CRF 的中文臨床命名實體識別方法.通過引入多頭自注意力機制并結合相關的醫學詞典，該方法可以更有效地捕獲臨床文本中的字符間的權重關系和多層次的語義特征信息，從而提高中文臨床命名實體的識別能力.

當然，本文方法也存在著一定的局限性.一方面，本文模型的性能很大程度上依賴于充足的高質量標注數據；另一方面，我們僅在CCKS2017-CNER數據集上對模型進行了性能評估，而在其他數據集上的有效性仍然有待進一步驗證.在未來的工作中，我們將會使用更多其他相關的數據集來測試模型的可擴展性和泛化能力，并測試優化模型在有限標注數據集的情況下的性能.