基于transformer的python命名實體識別模型

2022-09-25 08:42:18徐關友馮偉森

計算機應用 2022年9期

徐關友，馮偉森

（四川大學計算機學院，成都 610065）

0 引言

在中國互聯網技術的快速發展和世界范圍內線上教育快速普及的大背景下，互聯網技術被廣泛地應用于教育領域，網絡上有許多在線題庫能幫助學生學習各種專業的知識，但是這些在線題庫很難針對每個學生不同的學習進展而進行個性化的試題定制。題庫中的練習題一般是以章節或者是知識點來進行劃分，章節或者是知識點之間會有一部分重疊、遞進的情況出現，這些情況會影響學生練習試題的效果。因此學生在學習python 知識時，對python 知識進行更加精確的命名實體識別（Named Entity Recognition，NER）是十分重要的前期工作。

python 命名實體相較于微博等廣泛使用口語的命名實體在句子方面會更加正式。和醫學、社交等熱門的領域相比，python 領域的NER 研究和嘗試都相對較少，現有的技術可以解決部分問題，但仍會面臨數據少、可借鑒和參考少的問題，因此取得的效果一般。

NER 是自然語言處理（Natural Language Processing，NLP）眾多子任務中一項非常上游的基本任務，NER 同時也是諸如問答系統［1］、信息檢索［2］、關系提取［3］等非常多下游任務的前提和重要基礎，在近幾年受到了非常多研究人員的重點關注。NER 的主要目標是從給定文本中找到諸如人物名和地名等命名實體（Named Entity，NE）。在深度學習（Deep Learning，DL）技術未廣泛使用以前，Saito 等［4］提出使用隱馬爾可夫模型（Hidden Markov Model，HMM）來識別NE，而Feng 等［5］則是利用條件隨機場（Conditional Random Fields，CRF）解決該問題，Ekbal 等［6］在2010 年提出使用支持向量機（Support Vector Machines，SVM）識別文本中的NE。近幾年深度學習技術和注意力機制得到發展后則使用神經網絡技術［7］來解決NER 問題，使得NER 有很大的進步。

相較于英文NER，中文NER 難度更大，因為中文并不能像英文那樣自然切分，詞邊界非常模糊，所以現有的一些研究是先使用已有的中文分詞系統進行分詞，然后將詞級序列標注的模型應用于分詞的句子［8］。然而，中文分詞（Chinese Word Segmentation，CWS）不可避免地會產生錯誤分割的情況，會使詞邊界和實體類別的預測出現錯誤。所以有些方法直接使用字符進行NER，文獻［9-10］中的研究表明字符級的NER 模型也能夠有效地識別NE。

雖然基于字符的中文NER 模型能避免分詞錯誤，但是基于字符的模型有一個缺點就是沒有充分利用數據中的單詞信息，而這些單詞信息對于識別NE 非常關鍵。出于將詞信息加入到模型中的目的，Lattice-LSTM 模型［11］使用類似格子的結構來編碼輸入到模型中的字符以及與詞典所匹配的詞信息。該模型是一個使用長短期記憶（Long Short-Term Memory，LSTM）和條件隨機場（Conditional Random Field，CRF）的字符級模型的拓展模型，它在兩個字符之間設置一個用于存儲開始和結束字符之間對應單詞的“快捷路徑”，通過“快捷路徑”連接開始字符、存儲單元和結束字符，并且使用門控循環單元（Gated Recurrent Unit，GRU）來控制快捷路徑和相鄰字符直接路徑的貢獻。門控循環單元在如圖1 所示的情況時，模型沒有辦法選擇正確的路徑，此時該模型會退化為基于詞的模型，受到分詞錯誤帶來的負面影響。圖1（a）表示Lattice-LSTM 原模型，而圖1（b）則表示因為錯誤預測“河水（River Water）”為實體從而造成快捷路徑錯誤的情況，圖中標有雙下劃線的標簽表示正確預測的標簽，而沒有下劃線的標簽表示模型預測的錯誤標簽，字符間的虛線路徑則表示未正確預測的路徑。由于句子中的每一個單詞的長度是不同的，整個路徑的長度不是固定的；每個字符都對應有一個可變大小的候選詞集，這意味著模型的輸入和輸出路徑的數量也不是固定的，上述兩個問題會使得Lattice-LSTM模型失去批量訓練的能力，從而導致模型訓練的速度降低。

圖1 一個Lattice-LSTM退化的例子Fig.1 An example of Lattice-LSTM degradation

新提出的字符-詞 transformer（Character-Word TransFormer，CW-TF）模型可以很好地解決Lattice-LSTM 模型的上述問題。為了防止模型退化為基于詞的模型而受到分詞錯誤帶來的影響，本文模型將詞信息分配給單個的字符，摒除了錯誤路徑的影響。在transformer 編碼前創建字符和詞信息，在編碼時將詞信息分別分配給其對應的開始和結束字符，通過transformer 處理后使用CRF 解碼預測標簽序列。本文模型還引入了3 種策略來處理字符對應的詞信息長度不固定的問題，讓模型能夠保留詞信息的同時提高模型批量訓練的速度。

針對python 的NER，CW-TF 模型在python 數據集上展示了其有效性，而且驗證了模型并不會因為python 數據集而產生高性能的特殊情況，同時還在另一個數據集上訓練，確保模型的普適性。實驗的結果表明本文所提模型確實能較好地識別python 中的NE。

本文的主要工作有：1）提出了CW-TF 模型將詞信息融合到基于字符的模型中；2）探索了3 種不同的策略將詞信息編碼為固定大小的向量以解決無法批量化訓練的問題；3）針對python 已有數據集缺乏的問題整理了一個python 的NER數據集；4）驗證了所提模型能很好地識別python 中的NE。

1 相關工作

近年來LSTM 等神經網絡技術的進步促進了NER 的快速發展，本章將說明神經網絡技術在NER 中的應用以及提出模型使用到的transformer 的結構。

1.1 NER的神經結構

近些年來神經網絡技術在NER 中已經取得了較好的成績［12-14］。從輸入序列到預測標簽序列，基于DL（Deep Learning）或者是注意力機制的NER 模型一般是由輸入、上下文編碼器和標簽解碼器3 個部分構建而成［15］。

Xu 等［16］利用詞根、字符、詞等不同粒度級別的信息作為輸入解決了中文微博數據集中的NER 明顯的性能下降問題；Sun 等［17］提出了ERNIE2.0 模型，首先從訓練的語料庫中提取詞匯信息、句法信息和語義信息，然后逐步構建預訓練任務，最后通過在這些構建的任務上持續多任務學習的方式利用了訓練語料庫中其他有價值的信息。

Liu 等［18］在將信息輸入模型時將詞信息與字符信息相融合，避免了分詞錯誤帶來的影響，但是其批量化的訓練速度仍然受限于上下文編碼的方式；所以現有的某些研究［19-20］使用圖像處理的方法來處理NER，將中文字符轉化為圖片的格式進行訓練，使用卷積神經網絡（Convolutional Neural Network，CNN）編碼圖片吸收漢字作為象形文字的象形信息；Yan 等［21］使用了transformer 結構作為上下文編碼器編碼輸入信息，對字符級和詞級特征進行建模，通過整合方向感知、距離感知等信息證明了transformer 類的編碼器對于NER和其他NLP 任務一樣有效；Zhu 等［22］針對詞級嵌入和詞匯特征的模型經常出現的分詞錯誤以及預訓練在字典外（Out-Of-Vocabulary，OOV）的問題，提出使用一個基于字符并且帶有局部注意力層的CNN 和從相鄰的字符以及句子語境中獲取信息的全局自注意層的GRU 組成的卷積注意網絡（Convolutional Attention Network，CAN）作為上下文編碼器解決這個問題；Ding 等［23］利用自適應的門控圖序列神經網絡（Gated Graph Sequence Neural Network，GGNN）和一個標準的雙向長短期記憶（Bi-directional Long Short-Term Memory，Bi-LSTM）網絡作為上下文編碼器，學習來自不同詞典的加權信息組合，并且模型基于上下文信息解決了字符和詞匯匹配的沖突；Sui 等［24］和Wu 等［25］也使用Bi-LSTM 作為上下文編碼器解決了中文詞邊界模糊的問題；Xue 等［26］提出一個transformer 的拓展模型多孔格子transformer 編碼器（Porous Lattice Transformer Encoder，PLTE），它通過批處理并行建模所有的字符和匹配的詞匯，并用位置關系表示來增加自注意以包含格結構，它還引入了一種多孔機制來增強本地建模，并保持捕獲豐富的長距離依賴關系的強度。Zhao 等［27］提出了多任務數據選擇和使用知識庫的約束解碼兩種方式改進Bi-LSTM-CRF 模型架構。

1.2 Transformer

Vaswani等［28］改進了seq2seq任務模型，提出了transformer的概念。transformer 的結構如圖2所示，包含編碼和解碼兩個部分，為了專注于NER 任務，本部分只關注于transformer的編碼部分。transformer 的編碼部分是由多頭注意力（Multi-head Attention）和前饋網絡（FeedForward Network，FFN）這兩個非常重要的部分組成，FFN 是一種具有非線性轉換位置方式的多層感知器。在這之后是殘差連接和層標準化這兩個操作。

圖2 transformer結構Fig.2 Structure of transformer

1.2.1 位置嵌入

自注意力不知道不同標記的位置，所以無法捕獲語言的順序特征，而Vaswani 等［28］則采用由頻率變化的正弦波產生的位置嵌入。第t個詞元的位置嵌入可以用下面的公式計算：

其中：i∈[0，]，d表示輸入的維度。這種基于正弦曲線的位置嵌入使transformer 能夠對詞元的位置和每兩個詞元的距離進行建模。對于任何固定的偏移量k，PEt+k以通過PEt的一個線性transformer 表示。

1.2.2 縮放點擊注意力

transformer 編碼器接收到一個已經轉化為嵌入向量的矩陣H∈Rl×d，其中的l和d分別表示序列的長度和輸入的維度。使用三個可學習的矩陣Wq，Wk，Wv∈可以將矩陣H投影到不同的空間中，dk為一個超參數。縮放點積注意力可以通過以下公式計算：

其中：At，j、Q、K、V、A皆為矩陣；Qt表示第t個詞元的查詢向量；j表示第j詞元；Kj表示第j個詞元的值向量表達；歸一化指數函數softmax 將應用于最后一個維度。

1.2.3 多頭自注意力

可以使用多組Wq、Wk、Wv提升自注意力的能力，在使用多組Wq、Wk、Wv時被稱為多頭自注意力，其計算方式為：

式（6）和（7）中的h表示頭的索引，式（8）中的n表示頭的數量，[head(1)，head(2)，…，head(n)]則表示在最后一個維度的連接操作。在一般的情況下有d=n×dk，這可以說明多頭注意力MultiHead(H) ∈Rl×d。在式（8）中的WO∈Rd×d是一個可學習參數。

1.2.4 前饋網絡

多頭注意力的輸出會經過FFN 進一步處理，處理過程可以表示為：

其中：W1，W2∈為可學習參數矩陣，dff是一個超參數；b1∈為可學習向量，b2∈Rd同樣為可學習向量。

2 所提模型

所提模型結構如圖3 所示，和有的模型一樣使用transformer 作為上下文編碼器編碼輸入的數據，但是本文模型和標準的transformer 模型在嵌入層有所不同。如圖3 所示，實線部分可以看作是一個使用transformer 作為上下文編碼器的基于字符的模型，虛線部分則表示將單詞信息編碼成固定大小的表示，單詞信息被整合到單詞的結尾字符中，“PAD”表示填充值，“Stgy”表示3 種編碼策略的一種，“⊕”表示連接操作。在嵌入層中，中文句子是將詞信息綁定到每個字符上形成字符-詞對；其次，為了使模型能夠批量訓練并滿足不同的應用需求，引入了3 種編碼策略來從詞集中提取固定大小但不同的信息；最后，CW-TF 模型能提取字符和單詞的特征，以更好地預測NE。

圖3 所提模型結構Fig.3 Structure of the proposed model

使用S={c1，c2，…，cn}來表示輸入的一句中文句子，ci表示句子中的第i個字符；使用cb，e表示句子S中的一個以第b個字符開始到第e個字符結束的字符子序列，如圖3 中所示的字符子序列“清澈”，可以將其表示為字符子序列c1，2。使用ciw表示第i個字符對應的單詞集，它由一組來自詞典D的字符子序列cb，i所構成，而下標b＜i，詞典D的構建和Lattice-LSTM 模型中自動分割原始文本構建的詞典相同，每個字符對應的單詞集可以表示為ciw={wi1，wi2，…，}，wi1表示字符ci對應的字符子序列構成詞集的第一個詞，表示詞集中詞的數量。字符對應的詞集在經過詞編碼策略選擇以后，把字符和對應詞信息連接在一起，最終輸入的句子按字符-詞對這種形式可以表示為CW={(c1，c1w)，(c2，c2w)，…，(cn，cnw)}。

2.1 詞編碼策略

詞集ciw中詞的原始數量為，盡管模型在同一個批次中為每個字符ci分配的單詞集ciw中詞的數量通過填充都為，但是每個批次為字符ci選擇的詞的長度會因為批次不同而可能不同，因此模型的輸入大小并不是相同的，這種情況將會不利于批量訓練。為了獲取固定大小的輸入，本節將會介紹3 種不同的編碼策略，并且在后面的部分統一使用wi，fin作為字符ci對應詞信息的最終表示，然后其他對應詞的長度則通過填充或者是截取的方式變成相同的長度。在通過詞編碼后字符ci對應的詞集中只有一個詞，其詞集可以表示為ciw=wi，fin。

2.1.1 最短策略

對于字符ci對應的詞集ciw={wi1，wi2，…}，最短策略為選擇詞集中長度最短的詞，假如是第一個詞的長度為最短，則有：

2.1.2 最長策略

對于字符ci對應的詞集ciw={wi1，wi2，…，}，最長策略就是選擇詞集中長度最長的詞，如果最后一個詞的長度最長，則有：

2.1.3 平均策略

如果選擇長度最短的詞語，一般情況下就是字符本身，必定只能利用部分的信息，而選擇長度最長的詞會對增加計算的時間，所以引入一種平均策略。將平均策略用于選詞的時候，對于字符ci對應的詞集ciw={wi1，wi2，…，}，選擇對應的詞有：

2.2 詞-字符嵌入層

在CW中的i個元素都包含兩個部分：對應句子中的第i個字符和分配給這個字符的詞ciw。在字符ci的詞集沒有經過編碼策略選擇以前，每個詞集ciw中的詞的數量為，通過填充確保每個詞集ciw有相同數量的候選詞數量，經過詞編碼策略以后字符ci對應的詞為wi，fin。通過預訓練的字符嵌入查找表ec將每個字符ci嵌入到分布空間中獲得向量有：

同樣字符ci對應的詞ciw=wi，fin，通過預訓練的詞嵌入查找表ew將每個詞wi，fin表示為向量：

2.3 詞-字符transformer

選擇對應的詞編碼策略將詞集編碼并且使字符和對應的詞轉化為嵌入向量，然后將字符嵌入與對應的詞嵌入連接。將字符嵌入與對應的詞嵌入連接計算獲取向量Xi如下：

式（15）中的“⊕”符號表示連接操作，在經過連接以后CW={X1，X2，…，Xn}。通過將字符與對應詞信息連接，本模型沒有Lattice 模型中的快捷路徑，信息只能在相鄰的字符間流動，確保模型不會退化。將連接的信息輸入到上下文編碼器中，在CW-TF 中的隱藏狀態向量hi計算有：

則CW-TF 的輸出可以表示為H={h1，h2，…，hn}的向量集合。

2.4 解碼和訓練

模型使用標準的CRF 作為模型的最后一層，將上下文編碼器的結果H輸入到CRF 中。對于一個由向量li組成可能的標記序列y={l1，l2，…，ln}，它的概率計算如下：

在得到所有可能的標簽序列后，對其使用一階維特比算法找到可能性最大的標簽序列。

3 實驗結果和分析

3.1 數據和評估指標

使用3 個數據集評估提出的CW-TF 模型，并且使用精確率（Precision，P）、召回率（Recall，R）和F1 值（F1）作為評價的指標。

3.1.1 數據集

使用多個數據集（python 數據集、resume 數據集和weibo數據集）評估提出的CW-TF 模型。resume 數據集、weibo 數據集是Lattice-LSTM 模型中使用的數據集，python 命名實體數據集是針對python 知識領域的數據集。

針對學生在學習python 知識時的個性化定制問題，python 命名實體識別的工作必不可少。中文命名實體識別的工作主要集中在新聞領域以及社交領域，針對教學領域的數據集很少，所以制作了一個有關python 命名實體的數據集。制作python 數據集時需要知道：在教育領域中，可以將NE 看作是教學過程中傳遞信息的載體。具體來說，在教學材料中NE 的表現形式可以是一個符號、一個事實、一個概念、一個原理或一個技能。通過這些事實、概念實現信息從一端到另外一端的傳遞。

教育領域中的NE 可以分為概念性、事實型、原理型、技能型以及符號型幾類。在教育材料中：符號型NE 通常以單詞形式出現。概念型NE、原理型NE、事實型NE、技能型NE通常以一句或多個句子的形式出現。其例子如圖4 所示。

圖4 數據集標注例子圖Fig.4 Dataset labeling examples

標注的python 數據集是使用文獻［29］作為標注數據集的原始文本材料，對書中的第一章至最后一章的所有內容進行標注。在進行數據標注以前使用正則表達式將語料中的數字統一替換為0，然后對清理過后的數據使用開源的標注工具YEDDA［30］進行NE 標注，并使用BIO 標記主題。對于數據集中的每個字符，可能的標注結果包括“B-NAME”“INAME”和“O”三種情況。python 數據集、resume 數據集和weibo 數據集的句子數量和字符數量如表1 所示，而表中的“K”表示1 000。

表1 數據集的統計信息Tab.1 Statistics of datasets

3.1.2 評估指標

使用精確率（P）、召回率（R）和F1 值（F1）來評價模型在3 個數據集上的NE 識別效果。P指的是所有正確預測結果占所有實際被預測到的結果的比例；R指的是正確被預測的結果占所有應該被預測到的結果的比例；P傾向于查準，而R更傾向于查全，在預測的時候希望兩者都高，但事實上這兩個指標在有些情況下是矛盾的，所以引入了精確率和召回率的調和平均F1。P、R、F1 三者的計算方法如下：

其中：Tp表示模型能夠正確識別到的實體數目，Fp表示模型識別到與所需NE 不相關的實體個數，FN表示模型無法識別的相關實體個數。

3.2 實驗設置

本節將會通過兩個部分詳細地介紹實驗所依托的軟硬件環境以及在實驗過程中所設置的各種參數。

3.2.1 模型參數設置

模型的超參數和訓練參數搜索范圍如表2 所示，模型的特征維度在前兩個數據集上都在160 時取得最好的效果，而在weibo 這個數據集上取得最好效果是在320；同樣前兩個數據集在模型層數設置為2 時取得較好的效果，而weibo 則是在4 時效果較好；將python 數據集和resume 數據集的多頭注意力頭數和維度分別設置為10 和64，而將weibo 數據集的多頭注意力頭數和維度分別設置為16 和128。輸入句子的最大長度在resume 數據集上設置為178，而在python 數據集上設置為199，在weibo 數據集上設置為175。字符嵌入和詞嵌入設置為0.15，而將模型中transformer 的dropout 率為0.4。并且模型將隨機梯度下降（Stochastic Gradient Descent，SGD）這種優化算法應用于優化器，同時在python 數據集和resume 數據集上都將學習率設置為0.000 7。將梯度裁剪值設置為5，模型訓練10 個輪次，100 個批次。

表2 模型參數Tab.2 Model parameters

3.2.2 實驗環境

實驗的硬件和軟件環境如表3 所示。

表3 實驗環境Tab.3 Experimental environment

3.3 實驗結果和分析

與本文所提模型比較的基準模型同樣是使用了詞信息的模型，即在2018 年提出的Lattice-LSTM 模型、在2019 年提出的WC-LSTM 模型、在2019 年提出的LR-CNN 模型以及在2020 年提出的BERT+CRF 和BERT+LSTM+CRF 方法作為比較的基準。表4 為各模型在python 數據集、resume 數據集和weibo 數據集上的實驗結果。

表4 在python，resume，weibo數據集上的實驗結果單位：%Tab.4 Experimental results on python，resume，weibo datasets unit：%

從表4 中可以看出將字符與對應詞連接時，NER 性能將得到提升。在python 數據集，針對Lattice-LSTM 模型，將字符直接與其對應的詞信息連接消除了原有模型中的快捷路徑，進一步消除了模型退化為基于詞模型的可能性，所以在P、R以及F1 上分別提升1.5、3.81、2.64 個百分點。與WC-LSTM模型相比，在R 值和F1 值上分別提升1.73 和0.58 個百分點，由于訓練模型時的參數問題，導致得到的模型相較于理想情況，更傾向于查全而不是查準，所以所得結果的P 值會低于該模型。相較于LR-CNN 模型，在P 值上提升0.61 個百分點，而在R 值和F1 值上的性能提升并不明顯。本模型和使用了BERT+CRF 的模型相比在F1 值上提升3.65 個百分點，在P 值和F1 值上相較于BERT+LSTM+CRF 模型分別低2.15 和0.59 個百分點，說明使用BERT 初始化詞嵌入優于隨機初始化詞嵌入，并且在使用BERT 的情況下再加入LSTM是有必要的。本模型通過使用BERT 語言預訓練模型可以有進一步的提升，說明預訓練的語言模型在python 領域是有效果的。從表4 還可以看出三種詞編碼策略中平均策略在各項均優于最短策略。

為驗證本文模型的性能提升并非特定于python 數據集，使用resume 數據集和weibo 數據集驗證模型的拓展性。從表4 中在resume 數據集上的實驗結果可以看出與Lattice-LSTM模型相比，在F1 值提升0.83 個百分點；而和使用BERT 的模型相比，由于resume 數據集中的數據對于方向性有一定的依賴，所以使用BERT 的模型會優于使用單向transformer 的CW-TF 模型。雖然模型在resume 數據集上的提升不大，但是訓練速度明顯提高。

表4 最后的部分為CW-TF 模型使用預訓練后在weibo 數據集上的實驗結果。可以看出在F1 值上本模型略高于Lattice-LSTM 模型，而對于weibo 這種口語化強、語句短的領域表現出的效果低于其他基準模型，但仍然可以說明CW-TF模型具有一定的泛化性。

通過3 種詞編碼策略提高了模型的批量訓練能力，表5第2 列顯示了部分模型在python 數據集總訓練時間上的對比，而第3 列表示在resume 數據模型上的比較，使用“×”表示倍數關系。使用Lattice-LSTM 模型的總訓練時間作為比較的基準，Lattice-LSTM 模型相較于所提出的模型而言，在python 數據集上的總訓練時間為CW-TF 模型的4.14 倍，在resume 數據集上的總訓練時間為CW-TF 模型的3.25 倍。而所提模型與其他模型相比在總的訓練時間上都有顯著減少。

表5 訓練速度Tab.5 Training speed

3.4 多頭注意力的特征維度對比實驗

本文還研究了多頭注意力的特征維度對CW-TF 模型的影響。實驗在保持transformer 上下文編碼器總規模不變的情況下，通過python 數據集研究了多頭注意力的特征維度對CW-TF 模型的影響，特征維度的取值范圍為［32，64，96，256］。將其他參數設置為固定值，所得實驗結果如表6 所示。從表6 可以看出：前期當多頭注意力的特征維度數增加時，實驗的效果逐漸變好；在多頭注意力的特征維度取64時，模型取得最佳的效果；而當多頭注意力的特征維度增加到一定程度后，實驗效果達到最優值并逐漸變差。

表6 在python數據集上不同transformer多頭注意力的特征維度結果對比單位：%Tab.6 Result comparison of different transformer multi-head attention feature dimension on python dataset unit：%

3.5 三種詞編碼策略對比實驗

選擇不同的詞編碼策略會對實驗的效果有影響，圖5 為3 種詞編碼策略的實驗效果對比。從圖5 中可以看出在python 數據集上選擇最長的詞可以讓F1 值達到最高。由于最長的詞編碼策略可以利用更多的詞信息，所以最長的詞編碼策略在效果上均優于最短的詞編碼策略。

圖5 在python數據集詞編碼策略性能比較Fig.5 Word coding strategy performance comparison on python dataset

4 結語

本文對python 領域的NER 進行了研究，提出了一種基于transformer 的python 領域NER 模型。該模型將字符和字符對應的詞信息進行連接，獲取連接后的向量化表示，然后輸入到transformer 中編碼，最后通過CRF 獲取預測的標簽序列。實驗的結果表明，所提模型相較于其他幾個模型在識別效果和速度上都有提升。所提模型為python 領域NER 的下游任務打下堅實的基礎，為個性化學習python 知識進一步提供了技術上的可行性。與基于機器學習方法相比，本文模型可以很容易地遷移到其他領域。為了解決教育領域命名實體識別標記數據集少的問題，整理了一個python 的數據集。后續將進一步驗證模型的可遷移性，將該模型應用于其他領域，還會擴大數據集的規模，以達到更好的識別效果。