李曉騰 勾智楠 高凱



摘 要:針對傳統命名實體識別方法無法有效利用實體邊界信息的問題,提出一種聯合實體邊界檢測的命名實體識別方法,即將實體邊界檢測作為輔助任務,增強模型對實體邊界的判斷能力,進而提升模型對實體的識別效果。首先,利用Bert預訓練語言模型對原始文本進行特征嵌入獲取詞向量,并引入自注意力機制增強詞對上下文信息的利用;其次,在命名實體識別任務的基礎上,添加實體邊界檢測輔助任務,增強模型對實體邊界的識別能力;再次,對比聯合實體邊界檢測的命名實體識別方法與基線方法的有效性,并對測試結果進行消融實驗;最后,進行樣例分析,分析損失權重β對實體邊界檢測的影響。實驗結果表明,在英文社交媒體數據集Twitter-2015上,聯合實體邊界檢測的命名實體識別方法相較于基線模型取得了更高的精準率、召回率和F1值,其中F1值達到了73.57%;并且,邊界檢測輔助任務提升了基線方法的檢測效果。所提方法能有效利用實體邊界信息,從而獲得更好的實體識別效果,促進了人機交互系統的發展,對自然語言處理下游任務有重要意義。
關鍵詞:自然語言處理;命名實體識別;實體邊界檢測;輔助任務;深度學習
Named entity recognition method based on joint entity boundary detection
LI Xiaoteng1,GOU Zhinan2,GAO Kai1
(1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China;2.School of Information Technology, Hebei University of Economics and Business, Shijiazhuang, Hebei 050061, China)
Abstract:To solve the problem that traditional named entity recognition methods cannot effectively utilize entity boundary information, a named entity recognition method based on joint entity boundary detection was proposed. The method took entity boundary detection as an auxiliary task, so that the model can enhance the ability of entity boundary recognition, and then improve the effect of entity recognition. Firstly, the Bert pretraining language model was used to embed the features of the original text to obtain word vectors, and the self-attention mechanism was introduced to enrich the context features of words. Secondly, on the basis of named entity recognition task, an auxiliary entity boundary detection task was added to enhance the recognition ability of the model to the entity boundaries. Thirdly, the effectiveness of the named entity recognition method and the baseline method was compared, and the test results were from ablation experiments. Finally, the influence of loss weight β on entity boundary detection was analyzed by examples. The experimental results show that on the English social media dataset Twitter-2015, the named entity recognition method combined with entity boundary detection achieves higher accuracy, recall rate and F1 value than the baseline model, of which the F1 value can reach 73.57%. In addition, the boundary detection auxiliary task has a certain improvement effect on the baseline method. The proposed method can effectively utilize entity boundary information to obtain better entity recognition effect, and promote the development of human-computer interaction system, which is of great significance for downstream tasks of natural language processing.
Keywords:natural language processing; named entity recognition; entity boundary detection; auxiliary task; deep learning
命名實體識別(named entity recognition, NER)是指抽取文本序列中的“人名”、“地名”、“機構名”等實體,是一項重要的自然語言處理任務。命名實體識別任務廣泛應用于其他自然語言處理任務,如信息抽取、信息檢索、問答系統以及知識圖譜構建等[1]。隨著社交網絡的快速發展,人們在社交網絡上通過文字來表達自己的觀點,浩如煙海的社交網絡數據亟待處理,命名實體識別是結構化處理社交媒體數據中的關鍵技術,命名實體識別任務可以提取出社交網絡數據中的“人名”、“地名”、“機構名”等實體,對社交媒體數據的歸納分類具有重要意義。
近年來,隨著深度學習的不斷發展,許多深度學習方法被應用到命名實體識別任務中。YANG等[2]結合雙向長短時記憶網絡(bi-directional long-short term memory,Bi-LSTM)和條件隨機場[3](conditional random field,CRF)來處理命名實體識別問題,目前Bi-LSTM+CRF依然是一種常見的命名實體識別處理方法。REI[4]通過添加語言模型的輔助任務,學習文本中深層的語義、語法信息,幫助模型獲得更強大的文本特征表示。LIN等[5]提出利用遷移學習緩解NER任務中數據不足的問題,利用源域的大量有標注數據學習知識,然后利用遷移學習方法,將知識遷移到目標域,緩解目標域數據不足的問題。YANG等[6]利用遠監督方法產生的數據在新領域進行命名實體識別。ZHOU等[7]提出利用對抗學習處理NER任務,在原始數據中添加擾動生成對抗樣本,判別器判斷樣本的正負性,使得模型可以更好地處理文本中的噪聲,提升了模型的魯棒性。2018年谷歌提出的Bert模型[8],在11項NLP任務中獲得了最優結果。隨著Bert獲得的巨大成功,涌現了許多對Bert改進的方法,如BERT-WWM[9],SpanBERT[10],UNILM[11],ViLBERT[12] 和K-BERT[13]等。多任務學習在NER任務中同樣具有廣泛應用。多任務學習是指將多個相關的任務聯合在一起訓練,通過共享任務之間的特征信息,獲得一個更好的效果[14]。多任務學習中常見的參數共享方式有2種,一種是硬共享[15],另一種是軟共享。LI等[16]添加情感分類任務作為立場檢測的輔助任務,并引入靶向注意力機制提升立場檢測效果。多任務學習在命名實體識別任務中也得到了廣泛應用。LIN等[17]提出了一種跨語言的多任務學習方式,緩解特定NER領域語料不足的問題。GREENBERG等[18]針對生物醫學領域數據不足的問題,提出了使用多類數據集來訓練網絡模型,增強模型的泛化能力。ZHAO等[19]通過聯合實體規范化任務,在2個任務之間增加反饋鏈路,提升了NER任務和實體規范化任務的效果。
命名實體識別領域雖然已有大量優秀的研究成果,但已有方法忽略了對實體邊界信息的利用。實體邊界信息是實體識別中的一項重要信息,對實體的正確識別有重要意義。為了充分利用實體邊界信息,本文提出一種聯合實體邊界檢測的命名實體識別方法(joint entity boundary detection named entity recognition,JEBD-NER)。在命名實體識別模型的基礎上,通過引入實體邊界檢測任務,幫助模型學習到實體邊界信息。此外,相似的實體有相似的上下文,因此為了增強詞對上下文信息的利用,引入自注意力機制來豐富詞的上下文信息,進一步提升模型對實體的識別能力。
1 聯合實體邊界檢測的命名實體識別模型(JEBD-NER)
1.1 任務定義
命名實體識別任務需要在一段文本序列S中判斷出其中的實體,并對這些實體分類。同其他研究者一致,本文將該任務視為序列標注任務,模型需要判斷出S中的實體并對其分類,且判斷出實體的邊界信息。本文定義文本序列為S=(s1,s2,…,sn),其中n為文本序列長度。Y=(y1,y2,…,yn),為文本序列對應的標簽。Z=(z1,z2,…,zn),為實體邊界檢測任務的標簽。其中標簽Y和Z遵循BIO2標注原則。B代表實體的首個字符,I表示實體的中間或者結尾字符,O表示非實體字符。
1.2 模型結構
JEBD-NER方法的模型結構如圖1所示,整體可分為3部分:Bert編碼層、Self-Att層、多任務學習層。首先,Bert編碼層將原始文本輸入轉換成詞向量X供Self-Att層使用;其次,Self-Att層通過自注意力機制增加詞對上下文信息的利用,并將融合上下文信息的文本特征向量A傳入多任務學習層;最后,多任務學習層聯合了命名實體識別任務與實體邊界檢測任務,并利用文本特征向量A分別輸出實體和實體邊界預測結果。
1.2.1 基于Bert預訓練語言模型的特征嵌入層
如圖1中Bert編碼層所示,為了增強對原始文本的嵌入能力,Bert采用token嵌入、segment嵌入、position嵌入聯合表示的方法來增強字符級、詞級、句級的特征信息表示。Bert-Encoder則是使用Transformer的編碼器。定義S′=(s0,s1,…,sn+1),為Bert編碼器的輸入,其中s0和sn+1分別代表文本序列的開始字符[CLS]和結束字符[SEP]。si由token嵌入、segment嵌入、position嵌入構成。X=(x0,x1,…,xn+1),作為Bert編碼器的輸出,即詞的特征向量,xi∈?d是si的特征向量,d是特征向量維度。
1.2.2 基于Self-Attention的上下文語義交互層
對于文本序列而言,如何有效利用上下文信息是識別實體的關鍵。因為對于相似的上下文而言,其中的實體類型是相似的。例如,“我的家鄉在河北石家莊”,其中 “河北石家莊”是地點實體。“我的家鄉在濟南”,其中“濟南”是地點實體。由上述2個例子可知,在上下文相似的情況下,實體類型是相似的。如何有效利用上下文信息是判斷實體的關鍵,因此本文引入Self-Attention機制來增強詞對上下文信息的利用。
如圖1中Self-Att層所示,為了有效利用上下文信息,引入Self-Attention機制[20]。Self-Attention機制是一種自注意力方法,其中注意力模塊計算公式如式(1)所示:
式中:Q,K,V分別指注意力機制中的查詢向量、鍵值向量、權值向量;dk為輸入向量的維度。在使用自注意力機制時,通常會使用多個注意力網絡并行計算,每個注意力稱為一個注意力頭。第i個注意力頭計算公式如式(2)所示:
式中:Wqi,Wki,Wvi為第i個注意力頭的線性映射變換權重。最終的h個注意力頭拼接結果為[Head1,Head2,…,Headh]。
在本文模型中,文本序列X=(x0,x1,…,xn+1)作為多頭自注意力的輸入,最終經過多頭自注意力機制得到文本序列特征A=(A0,A1,…,An+1)。
1.2.3 聯合實體邊界檢測的多任務學習層
為了更好地利用實體邊界信息,本文提出聯合實體邊界檢測的命名實體識別方法。實體邊界信息指的是實體詞組在文本序列中的位置信息,即文本序列中實體詞組開始到結束的位置信息。命名實體識別任務需要同時識別出實體詞組的邊界信息和實體類別信息。因此,提升模型對實體詞組的邊界識別能力可以在一定程度上促進命名實體的識別效果。受多任務學習策略啟發,在命名實體識別任務基礎上,引入實體邊界檢測輔助任務。實體邊界檢測任務是與命名實體識別任務高度相關的任務,可以幫助模型有效學習實體邊界信息。在本方法中采用硬共享的方式來共享參數信息,硬共享是目前應用最廣泛的共享機制,它把多個任務的數據表示嵌入到同一個特征語義空間之中,多個任務之間共享模型底層參數,從而使得底層參數學習到多個任務的知識,提升實驗效果。
如圖1中多任務學習層所示,該層有2個分支:命名實體識別分支和實體邊界檢測。命名實體識別分支在圖左側,作為主任務,其根據輸入的文本序列特征A預測出實體結果;實體邊界檢測分支在圖右側,作為輔助任務,其根據輸入的文本序列特征A預測實體邊界結果。命名實體識別任務的標簽定義為Y=(y1,y2,…,yn),邊界檢測任務的標簽定義為Z=(z1,z2,…,zn),在訓練過程中,根據預測結果與標簽之間的損失來優化文本序列特征A。
命名實體識別分支 在該分支中,模型將文本序列特征輸入CRF層,輸出對實體的預測標簽序列。將文本序列特征A經過線性層(LN)控制維度,得到新序列特征W,具體公式如式(3)所示:
W=LN(A)。(3)
考慮到文本序列標簽之間的依賴關系,本文采用CRF結構學習標簽之間的依賴關系。給定特征W,得到預測序列標簽y′的概率如式(4)-式(6)所示:
式中:Y*是所有可能標簽序列集合,每種可能的序列得分score(w,y′)由Tyi′,y′i+1和
Ewi,y′i共2部分構成。其中:Tyi′,y′i+1是標簽y′i到y′i+1之間的轉移得分;
Ewi,y′i是第i個詞預測為y′i的發射得分;Wy′i是預測為y′i時的權重參數。
實體邊界檢測分支 在該分支中,模型將文本序列特征輸入CRF層,輸出實體邊界的預測標簽序列。首先,將文本序列特征A經過線性層(LN)控制維度,得到新序列特征W′。隨后,經過CRF層學習標簽之間的依賴關系。給定特征W′,得到序列標簽z′的概率如式(7)-式(9)所示:
式中:Z*是所有可能標簽序列合集,每種可能的序列得分score(w′,z′)由Tz′i,z′i+1和Ew′i,z′i共2部分構成。其中:Tz′i,z′i+1是標簽z′i到z′i+1之間的轉移得分;Ew′i,z′i是第i個詞預測為z′i的發射得分;Wz′i是預測為z′i時的權重參數。
1.3 模型訓練
在模型訓練過程中,采用命名實體識別任務損失結合實體邊界檢測任務損失的方式共同來優化網絡參數,其損失函數如式(10)-式(12)所示:
式中:lossNER是命名實體識別任務損失;lossEDB是實體邊界檢測任務損失;β是實體邊界檢測任務的損失權重系數。
2 實驗設計
2.1 數據集和評價指標
為了驗證聯合實體邊界檢測的命名實體識別方法的有效性,本文在國際公開數據集Twitter-2015[21]上進行實驗驗證。Twitter-2015是命名實體識別任務中經典的公開數據集,本文選取了Twitter-2015數據集中的文本數據來驗證模型的有效性。Twitter-2015來源于Twitter,包含了“Person”、“Location”、“Organization”、“Misc”共4類實體。其數據劃分具體情況如表1所示,4類實體在訓練集、驗證集和測試集中分布情況如表2所示。
采用精準率(Precision,P)、召回率(Recall,R)和F1值來評估命名實體識別模型的有效性。
2.2 對比基線模型與參數設置
為了驗證JEBD-NER模型的有效性,本文對比了經典的命名實體識別基線模型。
BiLSTM-CRF[2]命名實體識別任務中經典的基線模型,使用Bi-LSTM提取字特征,并利用CRF層學習序列之間轉移關系,提升模型對實體識別效果。
CNN-BiLSTM-CRF[22]使用CNN學習字符級特征,將字符級特征與詞嵌入拼接后作為Bi-LSTM 的輸入,后接CRF獲得最佳的預測標簽序列。
HBiLSTM-CRF[23]使用堆疊LSTM層抽取字符級特征,將字符級特征和詞嵌入拼接作為Bi-LSTM的輸入,后接CRF層獲得最佳的預測標簽序列。
Bert-CRF 使用Bert對原始文本序列進行詞嵌入,得到文本序列的詞向量;利用CRF學習文本序列之間的轉移概率對最后結果預測輸出。
Bert-Bi-LSTM-CRF[24]使用Bert對原始文本序列進行詞嵌入,得到文本序列的詞向量;添加Bi-LSTM網絡來學習上下文信息,豐富詞向量表征信息;利用CRF層學習文本序列的轉移概率,對最后結果預測輸出。
Bert-Self-Att-CRF 使用Bert對原始文本序列進行詞嵌入,得到文本序列的詞向量;使用Self-Attention機制學習上下文信息;利用CRF層學習文本序列的轉移概率,并對最后結果預測輸出。
本文代碼均使用Pytorch框架實現,所使用的顯卡為NVIDIA GeForce GTX TITAN X,顯存大小為12 211 MB。實驗中所使用的預訓練語言模型為Bert-base-cased,具體參數信息如表3所示。
2.3 消融實驗設計
為進一步說明實體邊界檢測輔助任務對模型的增益作用,設計實驗來驗證實體邊界檢測輔助任務對模型的提升效果。首先,選取3組基線模型,分別是Bert-CRF,Bert-BiLSTM-CRF,Bert-Self-Att-CRF;其次,在基線模型上添加邊界檢測輔助任務(使用“+EBD”標識);最后,將添加邊界檢測輔助任務的基線模型與原始基線模型結果進行對比,觀察邊界檢測輔助任務對最終實驗結果的提升效果。
2.4 樣例分析
為了直觀地展示聯合實體邊界檢測的命名實體識別方法的效果,選取3組樣例來說明其有效性,選取Bert-Self-Att-CRF(表中記作Bert-Self-Att)與JEBD-NER進行對比分析。
2.5 損失權重β分析
受文獻[25]啟發,設置實驗探索實體邊界檢測任務的損失權重對JEBD-NER方法的影響。模型中其他參數固定,實體邊界檢測任務損失權重是唯一的變量,其變化范圍為(0.1,1.0),按0.1依次遞增。為了細粒度展示實體邊界檢測任務損失權重對實驗結果的影響,將4類實體識別的F1值使用4種不同顏色柱狀圖展示,并將4類實體綜合F1值(圖中記作Aug-F1)使用藍色折線圖展示。
3 實驗結果分析
3.1 對比基線模型結果分析
本文提出的模型與上述基線模型在Twitter-2015數據集上進行實驗對比,結果如表4所示,其中,“各類實體F1結果”是指模型在4類實體上各自的F1值結果;“4類實體綜合結果”是指模型在數據集上的整體實驗結果,包括3部分,分別是精準率(P)、召回率(R)和F1值。本文以“4類實體綜合結果”中F1值為首要評價指標。
由表4可知,聯合實體邊界檢測命名實體識別方法相較于基線方法實驗結果最優。JEBD-NER方法在各類實體F1值中均表現最優,在4類實體綜合結果中,3個評價指標均達到最優。相較于最優基線模型Bert-BiLSTM-CRF,精準率提升了1.04%,召回率提升了0.36%,F1值提升了0.73%,這表明本文方法是有效的,對實體識別能力有提升;相較于Bert-CRF模型,精準率提升了1.15%,召回率提升了1.27%,F1值提升了1.21%。這表明增加Self-Attention機制以及實體邊界檢測輔助任務后,模型增強了對上下文信息和實體邊界信息的利用,實體識別能力有較大的提升;相較于Bert-Self-Att-CRF模型,精準率提升了1.44%,召回率提升了0.57%,F1值提升了1.03%。這表明增加實體邊界檢測輔助任務后,模型對實體邊界信息能夠有效利用,提升了對實體的識別效果。綜上分析可知,本文提出的聯合實體邊界檢測的命名實體識別方法是有意義的,模型中的Self-Attention機制增強了單詞對上下文信息的利用;實體邊界檢測輔助任務,提升了模型對實體邊界的識別能力。
3.2 消融實驗結果分析
實驗結果如表5所示。由表5可知,基線模型Bert-CRF在添加邊界檢測輔助任務后,精準率提升了0.73%,召回率提升了0.41%,F1值提升了0.57%;基線模型Bert-BiLSTM-CRF在添加邊界檢測輔助任務后,精準率提升了0.42%,召回率提升了0.7%,F1值提升了0.61%。基線模型Bert-Self-Att-CRF添加邊界檢測輔助任務,即本文方法JEBD-NER,相較于Bert-Self-Att-CRF精準率提升了1.44%,召回率提升了0.57%,F1值提升了1.03%。綜上可知,在添加邊界檢測輔助任務后,3個基線模型實驗效果均有不同程度的提升,進一步說明了本文提出的邊界檢測輔助任務對于命名實體識別模型是有效的,并且對不同模型的實驗效果均有提升效果。
3.3 樣例結果分析
如表6所示,每張樣例表中分別有樣例文本、真實標簽、本文方法的預測結果以及Bert-Self-Att方法的預測結果。為直觀對比,對預測結果添加底紋,綠色表示預測正確,紅色表示預測錯誤。
由表6可知,樣例1中,對于“Governor”單詞,本文方法成功預測為O,而Bert-Self-Att方法誤將“Governor”識別為人名實體,錯誤地拓寬了實體邊界,表明在實體邊界檢測輔助任務的作用下,本文方法對實體邊界有更好的判斷能力。樣例2中,對于“#Stars”單詞,本文方法成功預測為B-ORG,正確識別出該詞為組織實體,而Bert-Self-Att方法錯誤地將該詞識別為O,識別為非實體單詞,表明在增加實體邊界檢測任務后,本文方法對實體的識別效果也有所增強。樣例3中,對“MH17”單詞,本文方法成功預測為B-MISC,正確識別出該詞為其他類實體,而Bert-Self-Att方法錯誤地將該詞識別為O,表明本文方法能更好識別出特殊類實體,說明在實體邊界檢測輔助任務的幫助下,模型對實體的識別能力也進一步得到提升。綜合以上3組樣例分析可知,在添加實體邊界檢測輔助任務后,方法不僅對實體邊界的識別能力有所提升,而且對實體識別效果也同步變好。因此可以驗證實體邊界檢測輔助任務對命名實體識別任務是有增益作用的。
3.4 損失權重β影響結果分析
損失權重β影響結果如圖2所示。由圖2可知,當實體邊界檢測損失權重β為0.9時,可獲得最佳綜合Aug-F1值為73.57%,4類實體各自的F1值也相對最優。當實體邊界檢測損失權重β過大或過小都無法得到最優實驗結果。分析可知,當實體邊界檢測損失權重β過大時,實體邊界檢測任務將影響主任務命名實體識別的學習過程,導致實體識別效果變差;當實體邊界檢測損失權重β過小時,將無法起到應有的效果,對主任務命名實體識別效果提升沒有作用。因此,選擇合適的實體邊界檢測損失權重β也是實驗中的重要環節。
4 結 語
本文提出一種聯合實體邊界檢測的命名實體識別方法,解決傳統命名實體識別方法無法有效利用實體邊界信息的問題。首先,使用Bert對原始文本進行詞嵌入,獲得詞向量;其次,引入Self-Attention機制增強對上下文信息的利用能力,并引入實體邊界檢測輔助任務來提升模型對實體邊界的判斷能力,進而幫助模型增強實體識別效果;再次,對比了JEBD-NER模型與經典的命名實體識別基線模型的有效性,并對測試結果進行消融實驗;最后,進行樣例分析,分析了損失權重β對實體邊界檢測的影響。通過在Twitter-2015數據集上的實驗證明了聯合實體邊界檢測的命名實體識別方法是有效的。通過樣例分析可知,所提方法不僅可以提升實體邊界的識別能力,實體的識別效果也同步變好。同時,選擇合適的損失權重β對于實體邊界檢測也很重要。
所提方法雖然在當前數據集上的實體識別能力有一定提升,但其對“Misc”類實體無法很好識別,因為“Misc”類實體包含多種類型的實體。現有方法的實體識別能力仍有較大提升空間,下一步將探索利用遷移學習來提升模型對“Misc”類實體的識別能力,采用數據增強方法緩解數據受限問題。
致 謝
在此感謝清華大學智能技術與系統國家重點實驗室徐華老師對本項工作給予的建設性意見及幫助。
參考文獻/References:
[1] LI Jing,SUN Aixin,HAN Jianglei,et al.A survey on deep learning for named entity recognition[J].IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.
[2] YANG Xuemin,GAO Zhihong,LI Yongmin,et al.Bidirectional LSTM-CRF for biomedical named entity recognition[C]//2018 14th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD).Huangshan:IEEE, 2018:239-242.
[3] LAFFERTY J,MCCALLUM A,PEREIRA F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.Williamstown:Morgan Kaufmann Publishers Inc.,2001:282-289.
[4] REI M.Semi-supervised multitask learning for sequence labeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Vancouver:Association for Computational Linguistics,2017:2121-2130.
[5] LIN B Y,LU W.Neural adaptation layers for cross-domain named entity recognition[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels:Association for Computational Linguistics,2018:2012-2022.
[6] YANG Yaosheng,CHEN Wenliang,LI Zhenghua,et al.Distantly supervised NER with partial annotation learning and reinforcement learning[C]//Proceedings of the 27th International Conference on Computational Linguistics.Santa Fe:Association for Computational Linguistics,2018:2159-2169.
[7] ZHOU J T,ZHANG H,JIN D,et al.Dual adversarial neural transfer for low-resource named entity recognition[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:Association for Computational Linguistics,2019: 3461-3471.
[8] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (Long and Short Papers).Minneapolis:Association for Computational Linguistics,2019:4171-4186.
[9] CUI Yiming,CHE Wanxiang,LIU Ting,et al.Pre-training with whole word masking for Chinese BERT[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021,29: 3504-3514.
[10]JOSHI M,CHEN Danqi,LIU Yinhan,et al.Spanbert:Improving pre-training by representing and predicting spans[J].Transactions of the Association for Computational Linguistics, 2020,8:64-77.
[11]DONG Li,YANG Nan,WANG Wenhui,et al.Unified language model pre-training for natural language understanding and generation[C]//Advances in Neural Information Processing Systems 32.Vancouver:Curran Associates,Inc.,2019:13042-13054.
[12]LU J,BATRA D,PARIKH D,et al.ViLBERT:Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems 32.Vancouver:Curran Associates,Inc.,2019:13-23.
[13]LIU Weijie,ZHOU Peng,ZHAO Zhe,et al.K-BERT:Enabling language representation with knowledge graph[C]//The Thirty-Fourth AAAI Conference on Artificial Intelligence.New York:AAAI Press,2020:2901-2908.
[14]ZHANG Yu,YANG Qiang.An overview of multi-task learning[J].National Science Review, 2018,5(1):30-43.
[15]CHEN Z,BADRINARAYANAN V,LEE C Y,et al.Gradnorm:Gradient normalization for adaptive loss balancing in deep multitask networks[C]//Proceedings of the 35th International Conference on Machine Learning.Stockholmsm?ssan:PMLR,2018: 794-803.
[16]LI Y J,CARAGEA C.Multi-task stance detection with sentiment and stance lexicons[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).Hong Kong:Association for Computational Linguistics,2019:6299-6305.
[17]LIN Y,YANG S Q,STOYANOV V,et al.A multi-lingual multi-task architecture for low-resource sequence labeling[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne
: Association for Computational Linguistics,2018:799-809.
[18]GREENBERG N,BANSAL T,VERGA P,et al.Marginal likelihood training of bilstm-crf for biomedical named entity recognition from disjoint label sets[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels: Association for Computational Linguistics,2018:2824-2829.
[19]ZHAO Sendong,LIU Ting,ZHAO Sicheng,et al.A neural multi-task learning framework to jointly model medical named entity recognition and normalization[C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu:AAAI Press,2019:817-824.
[20]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach, California:Curran Associates Inc.,2017:6000-6010.
[21]ZHANG Qi,FU Jinlan,LIU Xiaoyu,et al.Adaptive co-attention network for named entity recognition in tweets[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence.New Orleans:AAAI Press,2018:5674-5681.
[22]MA X Z,HOVY E.End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin:Association for Computational Linguistics, 2016:1064-1074.
[23]LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al.Neural architectures for named entity recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego:Association for Computational Linguistics,2016:260-270.
[24]顧亦然,霍建霖,楊海根,等.基于BERT的電機領域中文命名實體識別方法[J].計算機工程,2021,47(8):78-83.
GU Yiran,HUO Jianlin,YANG Haigen,et al.BERT-based Chinese named entity recognition method in motor field[J].Computer Engineering,2021,47(8):78-83.
[25]AAKERBERG A,JOHANSEN A S,NASROLLAHI K,et al.Single-loss multi-task learning for improving semantic segmentation using super-resolution[C]//Computer Analysis of Images and Patterns.Cham:Springer,2021:403-411.