結合神經文本生成的FLAT模型的中文電子病歷命名實體識別

2022-10-26 10:52:52蘇志同余肖生

重慶理工大學學報(自然科學) 2022年9期

陳鵬,蘇志同,余肖生

(三峽大學計算機與信息學院，湖北宜昌 443000)

0 引言

電子病歷(electronic medical record，EMR)是描述患者在臨床治療過程中產生的醫療活動的記錄，包括:所患疾病、藥物、檢查和治療結果等。這些信息是重要的臨床數據，對其進行精確高效地分析和挖掘，能夠更好地支持臨床輔助診療系統、精準醫學研究和疾病監控等應用[1]。

命名實體識別是關系抽取、事件抽取、知識圖譜、問答系統等諸多自然語言處理任務的基礎。近期的研究中，將詞典信息加入模型被證明對中文命名實體識別任務很有效[2]。FLAT模型能夠有效利用詞典提供的詞邊界信息，在Transformer的基礎上，采用了一個特殊的位置編碼表征輸入結構，在多個通用數據集上取得了SOTA的效果[3]。

FLAT模型的訓練依賴于高質量的由預訓練詞向量組成的詞典。電子病歷作為醫療領域的專業文本，其中包含大量的病人隱私，通常難以獲取。針對此問題，本文使用神經文本生成方法在已有的小數據集上生成大量的新病歷文本以訓練詞向量。考慮到神經文本生成的過程中會出現語句不合理，不通順的現象，而語句的通順度關乎到預訓練詞向量的質量。本文建立了基于N-gram的評分函數對每一批生成的文本進行打分，以篩選質量較高的，語句通順的電子病歷文本。經過與文本增強方法在CCKS 2017和CCKS 2019 2個數據集上的效果對比，篩選后的新病例文本訓練出的Word2Vec詞向量在FLAT模型中的表現更優。相較于當前主流的命名實體識別模型，結合神經文本生成的FLAT模型在電子病歷文本的識別效果上得到了顯著提升。

1 相關工作

1.1 命名實體識別

命名實體識別(named entities recognition,NER)是自然語言處理(natural language processing,NLP)的基礎任務之一，其目的是識別語料中的人名、地名、機構名等命名實體。在電子病歷領域，其目的是識別病歷中的疾病、藥物、檢查等醫療實體。命名實體識別的方法可以細分為4類：基于規則的方法、基于詞典的方法、統計機器學習的方法和深度學習的方法[4]。目前主流使用深度學習的方法，如BiLSTM或BERT表示輸入的文本，并使用softmax和CRF輸出層分配命名實體標簽和非實體標簽。

1.2 結合詞典的命名實體識別方法

與英文不同，中文沒有明顯的單詞邊界，字符序列下不同分詞會產生不同含義。Lattice LSTM在字符級別序列標注中引入詞細胞(word cell)形式的詞典信息，構造出眾多的詞-字符路徑(word-character paths)，使用門控單元將來自不同路徑的信息動態傳送到每個字符，能有效確定詞邊界的同時避免分詞錯誤[5]。如圖1中的詞“左側”和“面頰”，可以消除“左側面”的歧義。CGN和LGN通過圖神經網絡引入詞匯信息，雖然可以捕捉順序結構，但它們需要循環神經網絡作為底層編碼器，模型結構復雜[6-7]。針對Lattice LSTM無法捕捉長距離依賴，且不能充分利用GPU并行運算的缺點，FLAT使用Transformer結構和相對位置編碼無損地引入詞匯信息，使Transformer更適用于命名實體識別任務。

圖1 Lattice的跳邊結構

1.3 預訓練詞向量

與獨熱編碼簡單地根據詞在詞典中的位置設計詞的向量表示不同，Google團隊于2013年提出了Word2Vec模型，其包含2種結構：連續詞袋模型(continuous bag of words,CBOW)和跳字模型(skip-gram)[8-9]；Pennington等[10]于2014年提出了GloVe模型。由于Word2vec只考慮詞與窗口范圍內鄰接詞的局部信息，并未考慮詞與窗口范圍外詞的全局信息，使得Word2vec模型存在只關注上下文局部信息的缺點。GloVe模型利用共現矩陣進行了改進，既考慮了目標詞周圍的局部信息又考慮了整個語料的全局信息。與Word2vec和GloVe模型不同的是，FastText模型的任務不是預測詞出現的概率而是文本分類，即利用有標簽的數據進行監督訓練；其輸出層使用的N-gram特征能夠利用語句的語序信息[11]。

1.4 文本生成

在語料生成方面，文本增強已經得到廣泛的運用。Kolomiyets等[12]使用同義詞替換進行文本增強。Wei等[13]采用了隨機插入、隨機交換、隨機刪除3種隨機噪音注入方法。作為一種重要的文本增強方法，回譯法先將文本翻譯為其他語言，再翻譯回原語言，能夠保障語句的通順和完整性。除文本增強外，文本生成也可以用來應對訓練語料較小的情況。SeqGAN用強化學習的策略梯度下降返回的獎勵值代替連續變量的梯度下降，并用學習速度滯后于生成器的rollout模塊避免深度強化學習的不穩定性[14]。該方法解決了以往強化學習只能應用于生成器輸出為連續值的問題，但其判別器在訓練過程中往往過于嚴格，使得生成器生成的大量句子被判別為假，且效率較低。本文使用的神經文本生成方法運用LSTM模型學習文本特征，該方法不僅可以學習并生成特定領域中不同風格的文本，還可以通過設定采樣策略和閾值進一步控制所生成文本與原文本在概率分布上的相似度[15-16]。

2 結合神經文本生成的FLAT模型

本文首先使用神經文本生成方法學習電子病歷文本的文本特征以生成新病歷文本。對新病歷文本使用提出的評分函數進行篩選和清洗后作為Word2Vec模型的輸入訓練出詞向量，即領域詞典。將FLAT模型結合以上訓練好的詞典在電子病歷數據集上進行訓練后，即得到最終模型。整體流程如圖2所示，其中N表示希望生成文本的數量。

圖2 使用結合神經文本生成的FLAT模型整體流程圖

2.1 神經文本生成中的語言模型

運用神經文本生成方法，首先需要訓練一個能夠捕捉文本的統計結構的語言模型(language model)。將初始文本輸入到訓練好的語言模型后，語言模型能夠循環對下一個字符的概率進行建模。即在輸入初始文本后，從語言模型中采樣，就可以生成新Token，然后將新Token加入初始文本末尾再次作為輸入并重復這個過程就可以生成任意長度的序列。本文使用LSTM模型作為神經文本生成中的語言模型。LSTM模型中引入了輸入門、遺忘門、輸出門，能夠完成選擇性記憶，同時避免RNN模型的梯度消失問題[17-18]。神經文本生成的整體流程如圖3所示，即首先輸入由N個字符組成語料，然后使用訓練好的LSTM模型來預測第N+1個字符，最后對LSTM模型的輸出做softmax，得到下一個字符的概率分布。這樣的模型也叫作字符級的神經語言模型(character-level neural language model)。

圖3 神經文本生成的流程

2.2 神經文本生成的采樣策略

語言模型的預測輸出是訓練語料中所有詞的概率分布。若選擇生成其中概率最大的詞，會更接近原文本的概率分布，但也會使生成的文本過于單調和冗余。在保證文本中的語句基本通順的情況下，選擇合適的的采樣策略(sampling strategy)可以獲得冗余度更小且語義更豐富的大量文本：

貪婪采樣：始終選擇可能性最大的下一個字符。此方法可能得到重復的、可預測的字符串，也可能語義不連貫。

純隨機采樣：從均勻概率分布中抽取下一個字符，其中每個字符的概率相同。此方法隨機性太高，容易生成不合理的字符組合。

隨機采樣：根據語言模型的預測結果來確定下一個字符的概率。例如，下一個字符是e的概率為0.2，則有20%的概率選擇它。此方法在遵循訓練語料的概率分布的同時，能夠根據訓練語料的概率分布隨機產生下一個字符，使文本更豐富。

隨機采樣雖然很有創造性，但存在無法控制隨機性大小的問題：隨機性越大，可能生成富有創造性，但不合理的輸出；隨機性越小，生成文本越接近訓練文本的概率分布，但太死板、可預測。為了控制采樣過程中隨機性的大小，引入參數softmax溫度，用于表示選擇下一個字符的隨機性：當使用更高的溫度，會增加生成文本的隨機性，生成更加無結構的數據；當使用更低的溫度，對應更小的隨機性，會生成更加符合原始分布的數據[19]。假設p(x)為模型輸出的原始分布，則加入temperature后的新分布計算如式(1)所示：

(1)

2.3 對生成的文本進行篩選

神經文本生成方法生成的文本中會出現不通順的語句并影響預訓練詞向量的質量。因此，從新生成的病歷文本中篩選出通順的、合理的文本十分重要。通常使用式(2)所示的聯合概率公式計算一個句子存在的概率：

p(x1,x2,x3,…,xn)=

p(x1)·p(x2|x1)·p(x3|x1,x2)·…·

p(xn|x1,x2,x3,…,xn-1)

(2)

其中，xi代表一個詞(或字)，聯合概率鏈式法則表示句子中每個詞(或字)都跟前面一個詞(或字)有關。對于內容為“右髖關節”的文本而言，其聯合概率的計算過程如式(3)所示：

p(右髖關節)=p(右)·p(髖|右)·

p(關|右,髖)·p(節|右,髖,關)

(3)

N-gram是一種基于馬爾科夫假設的統計語言模型。其基本思想是將文本按照字節進行大小為N的滑動窗口操作，形成長度是N的字節片段序列。同樣是條件概率的連乘，但N-gram算法在計算某個詞(或字)的概率的時候，不去考慮它的全部歷史，而只考慮最接近的N個詞語，從而近似逼近該單詞的歷史。如式(4)是N=2,也即bi-gram時計算聯合概率的過程：

p(右髖關節)=p(髖| 右)·p(關| 髖)·p(節| 關)

(4)

在文本生成的過程中，為了篩選質量較高和語句通順的文本，建立了基于N-gram和聯合概率公式的評分函數，對每一批次生成的文本進行打分。將文本數據劃分成unigram和bigram形式后，分別制作字典unigram dict和bigram dict，字典的索引是字符，字典的值是該unigram字符或bigram字符在訓練語料中出現的頻數。對于單個bigram字符的概率如式(5)所示：

(5)

其中，ci表示當前字符，ci+1表示與ci相鄰的后一個字符，w(ci,ci+1)表示在bigram dict中查到的字符串ci,ci+1在語料中出現頻數，w(ci)表示在unigram dict中查到的字符ci在語料中出現的頻數，V表示訓練語料中字符的種類數，并將分子加1，使用拉普拉斯平滑，使得同一個字符對應的不同bigram概率和為1。并且在bigram字符ci,ci+1不屬于語料字典bigram dict時w(ci,ci+1)+1取0。計算bigram的聯合概率為：

(6)

其中，n表示待計算的文本的長度，由于n個字符對應n-1個bigram字符，因此連乘n-1次并取幾何平均避免文本長度n過大時導致最終的得分數值過大。為了便于計算，兩邊取對數后得到的評分函數：

score1(c1,c2,c3,…,cn)=

(7)

對于n個字符的文本有：

(8)

因此：

(9)

上式連乘后求幾何平均：

(10)

可知：

(11)

最終的得分score1范圍在0到1之間。score1可以衡量新生成語料的概率分布與訓練語料的概率分布的相似程度，即對于新生成的文本，其score1越高，則表示新文本的字符組合越符合訓練語料中的字符組合。但是，當原始語料的概率分布不均勻時，在訓練語料中組合方式單一并且大量出現的字符組合的p(ci,ci+1)偏高，而在訓練語料中出現較少的字符組合的p(ci,ci+1)偏低。這使得最終生成的score1較高的文本很多是訓練語料中的高頻文本。例如在CCKS 2017訓練語料中，“心肺腹未見異常”的出現頻次達到了80次，當生成的文本中出現此類字符串時，對應得分偏高。因此，評分函數score1會使生成的語料更符合訓練語料中的高頻字符組合，該評分函數更適合對均勻分布的語料進行評價。

評分函數score1對非均勻分布數據效果不好的原因：首先，對于高頻的bigram字符，其概率更高；其次，計算句子分數時使用的是連乘的方式。區別于score1，建立了一個新的評分函數score2，對存在于bigram dict字典中的bigram字符設置1，對于不在字典中的bigram字符設置為0。先求長度為n的句子的每個bigram字符的累加和，然后計算其算術平均值，計算公式如式(12)所示：

(12)

(13)

不同于score1根據字符組合在訓練語料中的頻次高低給予不同分數的做法。新的評分函數score2在簡化計算的同時，更注重文本中2個連續字符的組合是否合理，即字符組合是否在訓練語料中出現過。該方法既改善了score1偏向于訓練語料中的高頻字符組合的缺點，又使得新生成文本的字符組合更豐富多樣。有效避免了訓練語料中的高頻文本在新生成文本中大量出現的問題。

2.4 FLAT模型

電子病歷中存在著很多的專業詞匯。使用先分詞再進行詞級別的序列標注的方法會帶來錯誤分詞信息的傳遞；使用基于字符級的序列標注方法則會忽略詞級別的信息。為了在引入詞邊界信息的同時避免分詞錯誤，Lattice LSTM模型將輸入的字符以及詞匯一起編碼輸入到模型中，并選擇出最相關的字符和詞匯，降低歧義發生的概率，從而提升識別的準確率。Lattice是一個有向無環圖，如圖4所示，詞匯的開始和結束字符決定了Lattice結構的位置，每個字符能夠獲得以其本身為結尾的詞匯的詞信息，如字符“頰”可以獲得詞信息“面頰”。

圖4 Lattice的有向無環結構

FLAT模型將Lattice的有向無環結構轉化為包含數個span的扁平結構。每個span由一個字符或潛在的詞匯和它們在原Lattice結構中的位置構成。如圖5所示，FLAT模型對每一個字符或詞匯都構建頭位置和尾位置。將其從一個有向無環圖展平為一個平面的Flat-Lattice Transformer結構。每個字符的頭位置和尾位置是相同的，每個詞匯的頭位置和尾位置是間隔的。通過這種方式，FLAT模型可以直接建模字符與所有匹配的詞匯信息間的交互，例如圖5中的字符“左”可以匹配詞匯“左側”和“左側面”。FLAT模型的整體結構如圖6所示。

Transformer采用的全連接自注意力機制可以很好捕捉長距離依賴，并引入位置嵌入來保持位置信息。受到位置嵌入的啟發[20]，FLAT模型設計了相對位置編碼來融合Lattice結構。對于Lattice中的2個span，即xi和xj之間有3種關系：相交、包含和分離，由它們的頭位置和尾位置決定。用head[i]和tail[i]表示spanxi的頭位置和尾位置。xi和xj之間的位置關系可以用4種相對距離來表示，如式(14)—(17)所示：

(14)

(15)

(16)

(17)

(18)

其中，Wr是一個可學習的參數，⊕表示向量的拼接。Pd計算方式和原生Transformer中計算方法一致：

(19)

(20)

圖5 Flat-Lattice Transformer結構

圖6 FLAT模型的頭尾位置編碼方式

3 實驗

3.1 實驗數據

實驗數據為CCKS 2017與CCKS 2019電子病歷數據集。CCKS 2017數據集共包含5種類別的實體，分別為：治療；檢查和檢驗；身體部位；癥狀和體征；疾病和診斷。其各類實體在文本中的數量統計如表1所示。數據集涵蓋病史特點、出院情況、一般項目、診療經過4個部分，每個部分包含約300條病歷文本，合計1 198條病歷文本。對各條文本開頭對齊，刪除無關字符后，共有字符約27萬個。CCKS 2019數據集包含手術、解剖部位、藥物、影像檢查、疾病和診斷、實驗室檢查，共6種類別的實體。各類實體在文本中的數量統計如表2所示。共有標注病歷文本1 000條。對各條文本開頭對齊，并刪除無關字符后，共有字符約42萬個。

表1 CCKS 2017數據集實體數量統計

表2 CCKS 2019數據集實體數量統計

CCKS 2017與CCKS 2019數據集在本實驗中的句子切分方法相同。為了使句子的長度分布更均勻且小于160字符。文本切分時首先對于大于20字符的句子向后找句號、問號、感嘆號進行切分。接著對于長度大于40字符的句子向后找逗號、分號進行切分。最后，對于長度大于120字符的句子找非實體部分進行切分。切分完成后，CCKS 2017數據集共獲得7 263個句子，CCKS 2019數據集共獲得8 412個句子。分別將CCKS 2017與CCKS 2019數據集中的句子隨機打亂，按照8∶1∶1的比例劃分訓練集、開發集和測試集。本文使用的CCKS 2017與CCKS 2019數據集劃分后的各部分句子數量和字符數量統計表，如表3所示。

表3 CCKS 2017數據集實體種類數量統計表

3.2 使用文本增強后的語料訓練詞向量

選擇文本增強方法生成的一組語料作為基準，在此基礎上進行對照實驗，將各類文本增強方法生成語料的效果與神經文本生成方法生成語料的效果進行對比。將不同語料訓練出的詞向量導入FLAT模型作為詞典信息進行命名實體識別。FLAT模型訓練完成后，使用其在測試集上的F1分數來評價詞向量以及語料的質量，同時論證神經文本生成方法和基于N-gram的文本通順度評價方法的可行性。

基準語料的選取過程是在CCKS 2017和CCKS 2019數據集上選用同義詞替換法、隨機插入法、隨機交換法、隨機刪除法4種文本增強方法對每一個原始病歷文本的句子生成4個文本增強后的句子，然后刪除了不存在實體的句子和重復句子的冗余部分。CCKS 2017和CCKS 2019數據集經以上處理后分別得到約4 900個和3 900個新病歷文本。新病例文本使用Word2Vec模型訓練詞向量后，作為詞典信息導入FLAT模型進行訓練。考慮到文本增強的隨機性，進行5組實驗，如表4所示。選取F1分數表現最好的一組作為后面對照實驗的基準語料，即CCKS 2017數據集中的第一組語料和CCKS 2019數據集中的第三組語料。

表4 文本增強生成的基準語料在FLAT模型中的表現

為了比較各類文本增強方法的效果，在基準語料的基礎上分別加入一組同義詞替換、隨機插入、隨機交換、隨機刪除、日文回譯以及英文回譯句進行新的對照實驗。考慮到文本增強的隨機性，除回譯的方法外，對另外的文本增強方法依然隨機生成5次文本，進行5組實驗。使用以上的新病例文本訓練出詞向量后，FLAT模型在CCKS 2017和CCKS 2019數據集上的表現如表5、6所示。考慮到展示的簡明清晰，表中省略了每個文本增強方法對應的5組實驗的詳細數據，只展示了有比較價值的平均值和最大值。

表5 CCKS 2017數據集上不同文本增強方法

表6 CCKS 2019數據集上不同文本增強方法

3.3 使用神經文本生成后的語料訓練詞向量

文本增強方法能夠生成與原始電子病歷文本語義甚至文本結構相近的病歷文本，但也存在著當改動比例較小時與原文本相似度過高，當改動比例較大時生成的文本質量較差的缺點。生成語料的質量難以把控。神經文本生成方法能在生成大量與原始病歷文本語義相似度較高的文本的同時，使生成的文本具有更豐富的文本結構。使用本文提出的評價語句通順度的評分對新生成的病歷進行篩選，可以過濾掉語句不通順的語句和字符組合不正常的語句，進而提高新生成文本的質量。

實驗分別在CCKS 2017和CCKS 2019數據集上運用神經文本生成方法以生成新的病歷文本。設置LSTM模型需要讀入的序列長度maxlen為60，步長step為3，即每3個字符采樣一個新序列，LSTM模型中輸入的二維張量維度為maxlen·charslen，其中charslen表示語料的字符組成的one-hot編碼維度，輸出維度units為128。訓練輪數epochs為50，batch_size為128。序列生成過程中，對于每一個初始文本，設置多個溫度來對應不同的采樣策略，分別為0.3、0.5、0.7、0.9、1.1。使得生成的病歷文本中既有隨機性較高的文本，又有與原始文本風格和文本結構更接近的文本。

對訓練好的模型，將原始病歷文本中每行的前60個字符作為初始文本，實驗按照不同溫度對應的采樣策略生成500個字符。CCKS 2017數據集中初始文本為1 198行，新生成的文本為300萬字符。CCKS 2019數據集中初始文本為1 000行，新生成的文本為250萬字符。在文本寫入文件前，使用前面提到的評分函數score2對每次生成的500字符進行打分，并篩選得分在0.9以上的文本寫入文件。經過篩選，CCKS 2017數據集最終獲得了14 742個新病歷文本，合計約240萬字符；CCKS 2019數據集最終獲得了11 754個新的病歷文本，合計約190萬字符。

經觀察發現，使用神經文本生成方法生成的新病歷文本經評分函數篩選后仍存在少部分不通順的語句，因此對新病歷文本進一步清洗。首先，生成的新病歷文本中存在一些同一個字連續出現的情況，將原始文本中同一個字符連續出現的元素進行統計并記錄下來，在生成的新病歷文本中刪除了除這些元素之外同字相連的比例高于0.7的句子。其次，進一步觀察發現，在文本生成過程中，所生成的較短的新病歷文本基本沒有實體，因此刪除長度小于20的新病歷文本。由于在文本生成過程中設置每次固定生成500個字符，因此每輪文本生成過程中最后生成的新病歷文本都不完整，且沒有句號等結束符號，因此將新生成病歷文本中結尾無句號的新病歷文本刪除。最后，刪除了不包含實體的新病歷文本以及重復的新病歷文本。經過上面的數據清洗，CCKS 2017數據集所獲得的新病歷文本共8 126行，總計1 361 484個字符。CCKS 2019數據集所獲得的新病歷文本共4 794行，總計1 151 574個字符。CCKS 2017與CCKS 2019數據集最終生成的新病歷文本的相關信息如表7所示。

表7 使用神經文本生成的新病歷文本相關信息

以上清洗好的數據與文本增強中的基準數據進行合并，得到最終的訓練語料。同上，使用Word2Vec模型訓練詞向量、字向量以及雙字向量，將訓練好的詞典加載到FLAT模型進行訓練，設定輪數50，模型效果在CCKS 2017和CCKS 2019數據集的比較分別如表8、9所示。表8、9中使用文本增強方法的FLAT模型的結果是表5、6中5組實驗結果的平均值。各類序列標注模型的超參數設置如表10所示。其中hidden size表示隱藏層大小，num_layers表示BiLSTM層的數量，head_num表示頭的數量，lr表示學習率，batch size表示每一批的大小，epoch表示訓練輪數。2組數據集訓練時使用的超參數基本一致。

BiLSTM CRF模型、BERT CRF模型以及BERT BiLSTM CRF模型都是當前命名實體識別任務的主流模型。其中BiLSTM與BERT是編碼層，CRF為解碼層。BiLSTM[22]可以看作2個方向的LSTM，其在t時刻的隱藏層狀態通過前向隱藏層狀態和后向隱藏層狀態加權求和得到。BERT(bidirectional encoder representation from transformers)是預訓練語言表征模型，其采用深層的雙向Transformer組件來構建整個模型。其任務由2個自監督任務組成，即MLM(mask language model)和NSP(next sentence prediction)。

表8 CCKS2017數據集上各模型結果

表9 CCKS 2019數據集上各模型結果

表10 各序列標注模型的參數設置

對實驗的具體數據分析后可知，結合神經文本生成的FLAT模型在CCKS 2017數據集中取得了95.32%的F1分數，其F1分數比BiLSTM CRF模型提高了1.16%，比BERT CRF模型提高了0.89%，比BERT BiLSTM CRF模型提高了1.02%。在CCKS 2019數據集中取得了85.87%的F1分數，其F1分數比BiLSTM CRF模型提高了5.19%，比BERT CRF模型提高了1.34%，比BERT BiLSTM CRF模型提高了1.83%。其中CCKS 2019中的專業術語更偏僻，分詞難度更大，因此相較于沒有詞典提供詞邊界信息的模型，FLAT模型表現更好。

綜上可知，在預訓練詞向量的質量較高的條件下，與目前的主流模型BiLSTM CRF模型、BERT CRF模型以及BERT BiLSTM CRF模型相比，FLAT模型在電子病歷命名實體識別任務上的效果提升顯著。同時，與使用文本增強的方法生成的文本訓練出的詞向量相比，使用神經文本生成方法生成的新病歷文本訓練出的詞向量被用于FLAT模型訓練后取得了更好的效果。這說明該方法生成的文本訓練出的相關領域詞向量能夠作為領域詞典，并能夠運用于基于詞典的模型以提高中文命名實體識別的效果。最后，各類文本增強方法訓練出的詞向量在FLAT模型上的效果差距較大，例如在CCKS 2019中，日文回譯法和隨機交換法之間的F1分數差距接近1%。同時，病歷文本特有的文本風格在回譯后可能發生改變。例如“患兒入院第8天，偶有咳嗽，食欲、睡眠尚可，二便正常。”經回譯后變為“入院后第8天，患病孩子偶爾咳嗽，食欲和睡眠正常，第二次排便正常。”而同義詞替換法和隨機交換法所操作的對象大都是詞庫中的常見詞，醫療領域詞匯被替換或交換的可能性較小，因此基本不會改變句子的語義和風格。隨機插入法和隨機刪除法存在破壞實體的風險，效果不穩定。

4 結論

使用神經文本生成方法生成大量文本，并通過設計的評分函數對生成的文本進行過濾，篩選出大量質量較高的文本。對生成的文本進行清洗后與文本增強的文本進行合并，最終使用合并后的文本訓練Word2Vec詞向量。將訓練好的詞向量作為FLAT模型的詞典訓練模型。最終的模型在F1分數上超過了BiLSTM CRF模型、BERT CRF模型和使用文本增強語料的FLAT模型。除了本文使用的神經文本生成方法外，文本生成的方法還有很高的可擴展性。后續會進一步研究各種文本生成方法的性能，嘗試更豐富的手段評價和篩選生成的文本，進一步提高生成文本的質量以訓練出質量更高的詞向量，并將詞典運用于結合詞典的命名實體識別模型以提高電子病歷領域命名實體識別的效果。