












摘 要: "針對互聯網上日漸豐富的多語言文本和匱乏大規模標注平行語料庫的問題, 為了從多語言的信息源挖掘語言間的關聯性與擴展知識圖譜,提出了基于注意力遷移的跨語言關系提取方法。首先針對語言間的實際平行語料情況,分類進行跨語言平行語料映射,并針對缺乏種子詞典的低資源語言對,提出神經網絡翻譯模型獲取目標語言數據集并保存多語言間的對應注意力權重關系,然后利用BERT端對端的聯合抽取模型抽取訓練數據實體關系特征,反向遷移語言間注意力權重關系,最后利用反向遷移的注意力進行增強的關系抽取。實驗表明,該模型的關系提取效果相比其他模型在準確率和回歸上都有所提升,在缺乏雙語詞典情況下也表現出較好的性能。
關鍵詞: "神經機器翻譯; 關系提取; 無監督; 注意力遷移; BERT預訓練
中圖分類號: "TP391.1 """文獻標志碼: A
文章編號: "1001-3695(2022)02-016-0417-07
doi:10.19734/j.issn.1001-3695.2021.07.0317
Cross language relationship extraction method based on attention transfer
Wu Jing1, Yang Bailong1, Tian Luogeng1,2
(1.Dept.of Information amp; Communication Engineering, Rocket Force University of Engineering, Xi’an 710000, China; 2.Dept. of Information amp; Communication, National University of Defense Technology, Xi’an 710000, China)
Abstract: "Aiming at the problem of increasingly rich multilingual texts and lack of large-scale labeled parallel corpora on the Internet,in order to mine the relevance between languages from multilingual information sources and expand the knowledge map,this paper proposed a cross language relationship extraction method based on attention transfer.Firstly,according to the actual parallel corpus between languages,it classified the cross language parallel corpus mapping,and for the low resource language pairs lacking seed dictionaries,it proposed a neural network translation model to obtain the target language data set and save the corresponding attention weight relationship between multiple languages,and then it extracted the entity relationship feature of training data by using BERT end-to-end joint extraction model.Finally,it used the reverse transferred attention to extract the enhanced relationship.Experiments show that the relationship extraction effect of this model is better than other models in accuracy and regression,and also shows better performance in the absence of bilingual dictionary.
Key words: "neural machine translation; relation extraction; unsupervised; attention transfer; BERT pre-training
近年來,隨著人工智能技術的飛速發展,旨在架構化建設概念、實體及其關系的知識圖譜也發展迅猛,涉及知識圖譜的知識獲取、表示、建模、融合、推理、推薦等重要技術也得到了一定的解決和進步,知識圖譜給互聯網搜索引擎、個性化推薦等知識應用的落地帶來了巨大影響。因此,構建一個能夠處理多種語言文本并與開放網絡交互的知識庫,可以極大推動智能信息服務效能。為了從多語言多源頭的信息源中擴展知識圖譜,自動從多種語言的龐雜數據信息中獲取新的實體及其之間的關系已成為知識圖譜的新興研究方向。跨語言關系抽取有利于獲取隱藏在各種語言數據中的多樣信息,通過語言間關系模式的一致性和互助性來獲得更好的關系抽取結果。跨語言訓練通過從源語言中對語言文本進行采樣,隨后將當前文本通過翻譯模型轉換成目標語言,使用翻譯句子和源語言句子作為訓練對進行訓練。跨語言訓練可以進一步利用語言間關系模式的一致性來有效剔除與關系相關性較低的實例,集中于信息豐富的實例。在上述背景下,本文將無監督語言翻譯與跨語言關系提取任務相結合,提出一種無監督情況下基于神經網絡雙向翻譯模型的跨語言關系抽取方法,并將其應用于多語言、跨語系及低資源語言等多種跨語言任務,從而檢驗其對于提升目標語言的關系提取效果。
1 背景
1.1 基于深度學習的實體關系抽取研究
關系抽取的核心是設計準確有效的特征,而基于機器算法的模型擬合能力十分有限,難以取得令人滿意的結果。而深度學習技術的應用使得神經關系提取模型得到了廣泛的關注與研究。依據標注數據的量級,可將研究方向分為有監督和遠程監督。有監督的神經關系抽取模型的研究主要集中在引入各種神經網絡以從文本中提取語義特征并對關系進行分類。受圖像識別任務中各種卷積神經網絡的啟示,卷積神經網絡首先被用于關系抽取,并被擴展到諸多變種模型中。Zeng等人[1]最早利用卷積深層神經網絡在詞段和語句級別提取特征,從而進行關系分類。Nguyen等人[2]在前者的基礎上利用過濾器的多窗口大小和預先訓練的單詞嵌入作為非靜態架構的初始化器來提高性能。之后,為了更好地建模自然語言的序列性特征,遞歸神經網絡被引入,文獻[3]提出一種采用遞歸網絡的方法,通過將雙向樹狀結構的長短期記憶循環神經網絡(LSTM-RNN)在雙向序列神經網絡上的疊加來獲得單詞序列和依賴樹子結構信息。Cai等人[4]的BRCNN模型深入探討了如何將卷積神經網絡和具有長短期記憶塊的多路徑遞歸神經網絡組合,利用為包設計的穩定依存原則,很好獲得了上下文的依存關系信息。盡管有監督的關系抽取模型取得了可觀的效果,但面對大規模數據的關系抽取,有監督的方法很難支撐龐大的工程項目落地應用。為了解決這個問題,Mintz等人[5]通過對齊知識圖譜中已有的世界知識和未經標注的自由文本來自動生成訓練數據,構建出基于遠程監督的知識獲取系統,從而使利用大規模數據訓練出可用的抽取模型成為可能。近年來,研究者們在神經網絡的基礎上設計了多種方法和模型提升性能,Zeng[6]提出的分段卷積神經網絡模型PCNN(piece-wise-CNN)在遠程監督的基礎上對按實體位置劃分的卷積表示段應用分段最大池化。Jiang等人[7]的多實例多標簽卷積神經網絡(multi-instance multi-label convolutional neural network,MIMLCNN)[7]進一步將其擴展到多標簽學習中。Cai等人的BRCNN[4]模型、Qin等人[8]提出的對抗式學習框架——DSGAN,都增強了實體關系抽取的效果。
1.2 跨語言的關系抽取
跨語言關系抽取有利于獲取隱藏在各種語言數據中的多樣信息,通過語言間關系模式的一致性和互助性來獲得更好的關系抽取結果。多語言關系抽取一般通過文本編碼向量化訓練、跨語言領域訓練、對抗訓練等步驟獲得最終模型。自編碼器通過將輸入信息作為學習目標,對輸入信息進行表征學習訓練。跨語言領域訓練通過從源語言中采樣的句子,使用當前翻譯模型翻譯成目標語言,使用翻譯句子和源句作為訓練對進行訓練。跨語言領域訓練可以進一步利用語言間關系模式的一致性來有效剔除與關系相關性較低的實例,集中于信息豐富的實例。對抗訓練可以有效增強神經網絡的魯棒性,對混合一些微小擾動的樣本進行編/解碼還原出原始樣本內容,經過訓練神經網絡的樣本可以適應噪聲干擾帶來的改變,從而使對抗樣本獲得抗干擾性。為了解決多語言中低資源語言的name tagging任務,Huang等人[9]提出了一套多層次對抗訓練的學習框架。單詞層級上,在源語言上應用投影函數以及鑒別器生成目標—源語言的語義共享空間;在語句層面上,訓練序列編碼器和鑒別器來區分每個句子的目標語言與源語言,兩種層級的對抗訓練有效將注釋資源從源語言轉移到目標語言。
在國內研究方面,我國的跨語言自然語言處理任務還與國際有著一定差距。田明杰等人[10]于2018年提出帶標簽雙語主題模型,即利用科技文獻、新聞報道中的多標簽信息與LDA(latent Dirichlet allocation)詞袋主題模型挖掘多個文檔的共同主題,發現文檔間關聯性與相關性,最終實現對新文檔的主題分類與標簽推薦。2021年楊威亞等人[11]針對漢越跨語言話題發現任務缺乏平行語料,雙語詞嵌入訓練困難的問題,提出通過訓練主題分布的向量表示對齊的映射矩陣建立雙語聯系。根據新聞主題的相似性對雙語新聞進行文本聚類,分析獲得新聞話題。張磊等人[12]針對相同的問題,提出基于事件類型感知的漢越跨語言事件檢測方法。通過基于事件類型感知的特征提取網絡學習候選事件類型等與語言無關而與事件相關的特征信息提升跨語言事件檢測性能。國內的跨語言文本處理主要集中在兩個方向,從平行語料中獲得雙語相關聯系或引入與下游任務相關的特征信息強化文本處理性能。前者需要大量標注數據,后者則適合特定下游工作任務,如新聞主題分類、事件檢測等,而無法推廣到通用任務中。此外,楊威亞等人[11]也承認跨語言方法與單語文本處理方法效果仍存在差距。
總的來說,目前的研究仍然較多地局限于單語言實體關系抽取,針對跨語言實體關系抽取的研究則大多采用機器翻譯獲得平行語料,研究者們為了能夠在翻譯后的實例中找到對應實體的位置,提出基于混合匹配原則的實體對齊、啟發式的實體對齊等,但仍然無法避免實體對齊錯誤的問題,從而影響跨語言實體關系抽取模型的表現。本文嘗試在單語料文本數據缺少標注的情況下,首先使用各自語種的單語種平行語料數據訓練兩種語言之間的機器翻譯模型,通過翻譯模型將完成目標語種的文本集到源語種的翻譯,輔助翻譯系統生成的目標數據及其對應的真實數據本作為跨語言關系提取的輸入數據,通過反向翻譯模型深入挖掘雙語種間的特征聯系,最終通過將源語言的特征表示遷移給目標語言進行關系抽取。本文將此方法應用到多語言數據集為基礎的跨語言關系抽取任務上,并進一步探究模型的各個模塊變化對關系抽取效果的影響。
2 關系抽取模型
跨語言關系提取早期使用大量標注的平行語料,通過手工設定的特征模板對文本語句關系進行分類。盡管多語言特征下實現知識提取結果比單一語種更精確,但人工標注平行語料的稀缺,導致很多問題難以解決:如何利用多種語言語料在相同任務中抽取特征來提升單一語言處理性能;如何解決跨語種語言的問題,提升遠距離語言對和低資源語言的模型處理性能。
針對上述研究問題,本文提出基于注意力遷移的跨語言關系抽取模型。該模型結構由兩部分組成,即跨語言平行語料映射模塊(language parallel corpus mapping module,LPCMM)和基于注意力遷移的關系提取模塊(relationship extraction based on attention transfer,REAT)。如圖1所示,該方法通過翻譯模型獲取語言對的翻譯語料,并保存多語言間的對應注意力權重關系,然后利用預訓練BERT關系提取模塊抽取源語言實體關系特征,最后將多語言間注意力權重關系反向遷移并對目標語言數據進行實體關系抽取,從而提高目標語言文本關系提取準確性,并將其應用于多語言、跨語系及低資源語言等多種跨語言任務,從而檢驗其對于提升目標語言的關系提取效果。
2.1 跨語言平行語料映射模塊
在平行語料映射前先進行單語言語句編碼預處理,首先將兩種語料的單語語言對合并。然后,對于合并的單語數據,將mosesdecoder作為統計機器翻譯工具進行數據預處理,對標點符號、句子長度進行規范化,避免長句與空語句引起合并過程中雙語料不對齊的問題。之后將moses處理好的數據輸入到BPE(Byte pair encoder,字節對編碼)算法[13]進行分詞預處理,BPE算法先將訓練語料分解為一個一個的字符,然后按照訓練得到的字符對來合并,并對字符對的結果按照出現頻次進行排序,最后將字符串里頻次的一對字符被一個沒有在這個字符中出現的字符代替。解碼器將編碼器輸出作為輸入,通過加權輸出值,獲取最終的隱藏狀態以及編碼器原始輸入。這樣做有兩個好處:一是盡量減少單詞的個數,可以在后續的翻譯步驟中減少生詞的出現次數;二是更好地形成跨語言信息,因為詞表內部已經有大量的共同單詞。
2.1.1 雙語詞典翻譯
對于擁有成熟雙語詞典的源語言和目標語言,可以直接通過雙語詞典將源語言翻譯獲得帶有標簽的偽目標語言數據集,并通過雙語詞典的多次迭代翻譯獲得兩種語言間的對稱語言對,并保留包含語言間對應關系的注意力權重。
L=E[- log "P(y|u*(y))+E[- log "P(x|v*(x))] ""(1)
其中: u*(y) 為目標語句通過反向翻譯獲得的偽源語言語料; v*(x) 是由源語言獲得的偽目標語言語料。
2.1.2 種子詞典擴展翻譯
對于低資源語言,無法獲取雙語詞典的情況下,可以通過種子詞典進行擴展翻譯。首先通過種子詞典學習源語言和目標語言詞向量的正交矩陣 W ,并對兩種語言的詞向量進行跨語言詞嵌入映射,并將詞向量映射到共同的語義空間。設種子詞典為D={ s "i, t "j}, s "i是源語言的第i個詞向量, s "i 為目標語言對應的詞向量,通過詞典規約(lexicon induction)[14]得到目標詞向量與源詞向量的高維度上的相似度為
r T(w t "i)= 1 K ∑ y t∈N T(w t "i) "cos (W t "i, s "j) ""(2)
其中: N T(w t "i)是指w t "i 在目標語言的詞向量中的 k 個最近鄰; N S(w s "j)是指y中源語言詞向量中的k個最近鄰居,其中 cos是余弦函數,用于計算兩高維度向量的夾角, r 函數是一個懲罰項目,其值是所有最近鄰的平均余弦相似度。然后通過CSLS(相似度局部收縮)得到更多更準確的翻譯詞對。
CSLS( w t "i, s "j)=2 cos (w t "i, s "j)-r T(w t "i)-r S(w s "j) nbsp;"(3)
2.1.3 無詞典擴展法
對于連種子詞典都難以獲得的低資源語言對,使用可得到的有限的平行語料對,構建神經網絡翻譯模型。
翻譯模型由編碼器和解碼器組成,分別對應于將源語言語句和目標語言語句編碼到隱空間,從隱空間中解碼出源語句和目標語句。圖2為語言模型的架構。
右邊的語言A(源語言)解碼器和語言B(目標語言)解碼器分別為兩個語言的語料庫語言模型。左邊的共享編碼器是兩個語料庫公用的編碼器,并且它的輸入是經過預處理的跨語言詞嵌入。系統對語言A的語句迭代地進行訓練,包括去噪和反向翻譯。在去噪過程中,它通過降噪自編碼對含有微小干擾的語料進行編碼和解碼重構的優化;反向翻譯過程中,通過目標語言句子的反向翻譯來擴充并行訓練語料庫,然后將合成的偽平行語料添加到真實的雙語語料中,通過兩種語言的互翻譯迭代訓練,構架出神經網絡雙向翻譯模型。訓練在源—目標解碼器間交替進行,后者的步驟類似。在T-S翻譯模型中,訓練自編碼器的時候如果不疊加一些干擾噪聲等影響條件,自編碼器會簡單粗暴地把原始信息作為解碼輸出,這個過程并不能學習獲知原始信息中的特征信息。為解決這個問題,本文參考去噪自編碼器[15]的思想將噪聲添加到原始語料中,設定目標函數為
Llm=E x~S[- log "P s→s(x|C(x))]+E y~T[- log "P t→t(y|C(y))] """(4)
其中: x 是采樣于單語種A的語料表示; y 是采樣于單語種B的語料表示; C(x)是句子x 經過隨機抽樣噪聲處理過的句子。通過向輸入句子添加不同類型的噪聲,使得輸入句子的每個單詞以一定概率 q 被丟棄掉, P s→s(x|C(x))指代C(x) 在源語言端運行的降噪自編碼的重建結果。
最后將經過預處理的語言輸入LaBSE(language-agnostic BERT sentence embedding,語言不可知論BERT句子嵌入)[16]模型,LaBSE將屏蔽語言模型和翻譯語言模型的預訓練與使用雙向雙重編碼器的翻譯排名任務結合在一起,將雙編碼器翻譯排序模型的性能提升到雙文本挖掘的水平,對兩種語言預訓練好的單語詞向量模型進行跨語言詞嵌入映射,并將詞向量映射到共同的語義空間,以詞的翻譯形式進行翻譯模型的初始化。
LPCMM模塊對源語言數據集翻譯得到目標語言數據集。考慮到雙語詞典翻譯后的實體對齊率較差,因此本文采取種子詞典擴展翻譯和無詞典擴展法獲取平行語料的詞向量。
2.2 基于注意力遷移的關系提取增強
在基于注意力遷移的關系提取增強模塊中,首先利用BERT預訓練模型學習兩種語言實例的潛在特征表示,獲得源語言和目標語言的關系分類,然后利用翻譯模型中學習到的兩種語言的語料關系表征的注意力權重,反向對目標語言的嵌入向量使用注意權重來獲取源單詞的傳遞信息,最后將源語言的語料序列與目標語言的轉移模型知識組合進行關系分類預測。本模塊在輸入層輸入字符級詞向量,從而取得更細粒度的詞向量特征。圖3是預訓練實體關系抽取模塊結構,模塊由實體抽取模塊和關系抽取模塊構成。
2.2.1 BERT關系抽取模塊
該模塊與BERT預訓練模型的差別在于,文本在通過BERT進行特征學習后接一個FFNN層,而非CRF層。
對于輸入 N 個詞的句子序列 s={w 1,w 2,…,w N} ,經過BERT層進行特征抽取后輸出一個向量序列 x (NER) 1, x (NER) 2,…, x (NER) N ,然后輸入FFNN層進行分類。
s(NER) i =FFNN NER( x (NER) i) ""(5)
輸出向量的維度為基于BIOES的訓練數據標注數 |C(NER)| , 標注意義為:B-為實體跨度的開始;
I-為實體跨度的內部;
E-為實體跨度的結束;
S-為用于任何單個實體;
O-為所有字符。
關系抽取的模塊輸入可以分為實體抽取信息以及BERT編碼信息兩個部分。前者首先通過實體抽取模塊獲得詞源的BIOES實體類別信息 s(NER) 1,s(NER) 2,…,s(NER) N ,在嵌入層編碼為向量組 e (NER) 1, e (NER) 2,…, e (NER) N 。然后將向量與對應的BERT編碼向量拼接作為輸入,如式(6)所示。
x (RE) i= x (NRE) i‖ e (NRE) i ""(6)
該輸入并行通過兩個FFN層——FFN-head和FFN-tail層,獲得上下文的兩個向量。
h (head) i =FFNN head( x (RE) i)
h (tail) i =FFNN tail( x (RE) i) ""(7)
將雙向量通過 Biaffine分類器[17],預測得到屬于上下文實體間關系的所屬關系類。
s(RE) j,k =Biaffine( h (head) j, h (tail) k) "Biaffine (x 1,x 2)=x T 1∪ x 2+W(x 1‖x 2)+b ""(8)
U維度為 m×|C(RE)|×m ,W為 |C(RE)|×2m。m 是上下文雙向量的維度, C(RE) 是實體應屬關系類別的數量, s(RE) j,k 表示模型預測樣本屬于某關系的得分。
實體識別模塊在訓練過程中,通過softmax函數對NER目標計算交叉熵損失獲得NER的損失函數:
L NER=-∑ N n=1 "log( e s(NER) n ∑C(NER) c e s(NER) n,c ) ""(9)
其中: s(NER) n 表示第 n 個詞屬于正確類別的得分; s(NER) n,c 表示第 n 個詞屬于類別 c∈C(NER) 的得分。關系抽取模塊的損失函數為
L RE=-∑ R r=1 "log( e s(RE) r ∑C(RE) c e s(RE) r ) ""(10)
其中: s(RE) r 是模型預測的樣本中所含關系的預測得分;即 c∈C(RE) (標簽所含的關系類別)。由于NER和RE模型需要共同優化,所以總損失函數為
L=L NER+λL RE ""(11)
其中:參數 λ 在訓練中從0遞增到1,通過漸進改變 λ 的值使NER模型獲得更好的效果。
2.2.2 反向注意力遷移
神經網絡翻譯模型通過給編碼器—解碼器定義合適的注意力,將不同語言環境中的語料關系表征對應起來。利用這種對應關系的可轉換性,反向注意力遷移通過強迫目標語言B反向模仿源語言A的注意力,極大地提升了源語言A的性能[18]。
低資源語言中的句子被用做模型的輸入。給定源語言的輸入句子 s={s 1,s 2,…,s n} ,翻譯模型將語句 s 翻譯成目標語言的句子 t={t 1,t 2,…,t n} ,由于翻譯器中解碼器層的注意力權重可以用于回顧序列模型的過去狀態,設 i 層解碼器的注意力權重為 A i={a i1,a i2,…,a in} ,且 A i∈"Euclid Math TwoRAp
n×m ,所有 L 層解碼器層的關注層權重的平均值為
F sum(A)=∑ L i=1 |A i| ""(12)
為了探索不同關注層對于變換矩陣的性能,保存了第一個關注層和最后一個關注層的權重 A 1 和 A L 。之后,使用預訓練NER模塊(BERT-RE)對目標語言的句子 t i 進行關系預測,得到
t i=[t(NER) (i,j);t(RE) (i,j),(i,k);t(NER) (i,k)] ""(13)
其中: t(NER) (i,j) 和 t(NER) (i,k) 分別表示句子 t i 中提取的第 j 和第 k 個實體; t(RE) (i,j),(i,k) 表示兩個實體間關系預測得分。 t i 中翻譯句子的語義和特定任務信息。預訓練模型抽取包含的特征為
Tk=(tk 1,tk 2,…,tk n) ""(14)
其中: Tk∈"Euclid Math TwoRAp
d×n,d為預訓練模型特征維度。源語言輸入語句s i在目標語言環境下的特征 f l i 為
f l i=Tk×al i ""(15)
注意權重矩陣的第 j行A j=(A j1,…,A jm) 表示源單詞 j 與目標句子 t 中所有單詞之間的相關性。此后,通過反向使用注意權重來獲取源單詞的傳遞信息。
Fl=TkA j ""(16)
其中: Tk 表示在實體關系提取模型中目標語料的全部輸出,并且 A∈"Euclid Math TwoRAp
m×n,A j∈"Euclid Math TwoRAp
1×n,TK∈"Euclid Math TwoRAp
n×d,Fl 表示源語言A的轉移模型知識,遷移特征 Fl={fl 1,fl 2,…,fl n} ,列向量 f l i 可以與源語言A的語料單詞相互對應。在注意力遷移中,給定源網絡的層級權重,訓練目標不僅是獲得一個可以進行更準確的實體關系提取,同時也要有和源網絡相似的特征深度。可以選擇通過降低遷移損失控制差值到目標要求范圍內,定義遷移損失為
L AT =CE (Tk,x)+ β 2 ‖ Q B ‖Q B‖ 2 - Q A ‖Q A‖ 2 ‖ p Q A =vec( ∑ n i=1 "f l i),Q B =vec( ∑ n i=1 t i) "CE (Tk,x)= "- log (Tk) "if "x=1 - log (1-Tk) "otherwise """(17)
其中: Q A 和 Q B 分別是矢量化形式的語言A和B的注意力權重; p 指范數類型(一般選擇 p=2 );CE (Tk,x) 表示交叉熵損失函數, x 代表樣本標簽數。可以看出,當標簽為1時, p 愈大(逼近1),則損失愈小;標簽為0時, p 愈小(逼近0),則損失越小,符合優化的方向。
2.2.3 信息增強關系抽取模塊
為了避免重復依賴元語料數據集的自我注意力的信息干擾和部分領域小數據集的過擬合問題,本文模型包含BERT預訓練多語言模型,由于BERT模型的大多參數都是預先訓練過的,避免了大量冗余的重復訓練工作,同時,為了解決多語言語料的不同粒度問題,對于遠距離跨語系的語言,輸入向量為詞嵌入,避免字向量錯誤劃分的問題;對于近距離/同語系的語言,選擇更細粒度的字向量來提升準確率。訓練過程與預訓練實體關系訓練模塊保持一致,方便利用反向注意力遷移模塊輸出的遷移信息。與此前的信息抽取模型不同的是,由于遷移特征 Fl={fl 1,fl 2,…,fl n} ,列向量 f l i 可以與語言A的語料單詞相互對應,將語言A的語料序列 s i 與遷移自語言B的轉移模型知識 f i 組合作為模型輸入,輸入第 i 個句子的詞向量為
r "i= ""s i "f l i """"(18)
對于 N個詞的輸入序列q=[r 1,r 2,…,r n] ,經過BERT輸出為向量序列[ y (NER) 1, y (NER) 2,…, y (NER) N] ,輸入FFNN層進行分類。
q(NER) i =FFNN NER( y (NER) i) ""(19)
將實體類別信息 [q(NER) 1,q(NER) 2,…,q(NER) N] 輸入embedding層獲得固定長度連續向量組[ c (NER) 1, c (NER) 2,…, c (NER) N] ,經過BERT的輸出進行拼接。
y (RE) i= y (NER) i‖ c (NER) i,
m (head) i =FFNN head( w(RE) i), "m (tail) i =FFNN tail( w(RE) i) ""(20)
將拼接后的輸出在Biaffine分類器[17]中進行關系分類:
q(RE) j,k =Biaffine( m (head) j, m (tail) k) "Biaffine( y 1,y 2)=yT 1∪y 2+W(y 1‖y 2)+b ""(21)
定義最終的loss函數為
L=L NER+λL RE=
-∑ N n=1 "log( e s(NER) n ∑C(NER) c e s(NER) n,c )+λ∑ R r=1 "log( e s(RE) r ∑C(RE) c e s(RE) r ) ""(22)
參數 λ 在訓練的過程中從0逐漸增大到1。
3 實驗設置
本文在四個公共數據集上進行了實驗,以評價提出模型對NER任務的有效性。所有實驗都是使用11 GB內存的GeForce RTX 2080Ti進行的。模型通過PyTorch架構實現,End to End-BERT-RE結構以PyTorch Transformer庫中的bertbase模型為對照,對于八種語言的九個數據集分別釆用靜態詞向量與動態詞向量進行實驗,以觀察遷移信息對模型的影響。
3.1 實驗數據
本文考慮兩種跨語言關系抽取語言對:源語言為中文,目標語言為中文;源語言為英文,目標語言為中文。英文數據集選擇使用2016年WMT單語新聞爬取數據集[19]的可用句子。中文數據集選取自復旦大學中文文本分類數據集[20],如表1所示。
目標語言:381 371 583 注:語料文本由Moses切詞器處理后進行詞例計數。中文文本在用默認設置的Moses切詞器處理前,先用jieba切詞處理。
3.2 標注規范與評價指標
命名關系識別的評判標準為實體間關系的邊界是否正確,關系類型標注是否正確,任何一項錯誤都判定為1。實驗評價指標選取準確率 Acc 、 精確率 P 、召回率 R 和綜合評價指標 F 1 值。
準確率 Acc 為正確分類的樣本數與測試數據集總樣本數之比。在正負樣本不均衡的情況下,不能只用準確率作為評判指標。
Acc= T p+T n T p+T n+F p+F n """(23)
其中: T p 為將正類準確預測的樣本數; T n 為將負樣本準確預測; F p 為將負樣本錯誤預測為正類; F n 為將正樣本錯誤預測為負類。
精確率 P 為將正類預測為正類占所有預測為正類的總樣本(分類后得到的樣本總數)的比例。
P= T p T p+F p """(24)
召回率 R 為正確分類的正樣本占數據集中所有真正的正樣本總數的比例。
R= T p T p+F n """(25)
由于 Acc 和 R 的數值為[0,1),當數值越大(接近1),意味著準確率/召回率就越高。準確率和召回率有時會出現相反的情況,為此,將 F 1 加入評判標準,當 F 1 值更高說明實驗方法更為有效。 F 1 值定義如下:
F 1= 2PR P+R """(26)
3.3 參數設置
雙語詞典翻譯選取開源LASER包[21]預訓練大規模多語言句子嵌入,獲取中英文詞向量,設置詞向量維度為512維,其余方法的參數如表2所示。
基于注意力遷移的關系提取模塊中,選擇BIOES的標記規范,FFNN層的輸出和BERT模型的注意力層的嵌入維數為128,和的維數為512,NER模塊的FFNN層數為1層,關系提取模塊的FFNN層數為2層,優化器選擇AdamW,設定梯度歸一化為1,衰減率為0.1。
4 實驗結果與分析
在實驗中,為了與當前相關工作進行對比,選取四種深度學習方法進行比較,分別為BRCNN、PCNN、MNRE、TNMT+BERT。
BRCNN[4]:基于最短依存路徑的深度學習關系分類模型,可以通過雙向結構同時分別學習SDP的前向和后向的句子特征信息。
PCNN[6]:將多實例學習合并到卷積神經網絡進行自動學習特征的訓練關系抽取模型。
MNRE[22]:基于跨語言注意力機制使用多語言實例數據集進行關系抽取。
TNMT+BERT:TNMT結合BERT預訓練模型進行關系抽取,TNMT模型參考Artetxe等人[21]對于UNMT的超參數值。
4.1 通過不同翻譯方法的中英語系實驗
1)翻譯模型性能驗證
為了驗證雙語詞典翻譯、種子詞典擴展翻譯和無詞典擴展法——基于神經網絡的翻譯模型三種翻譯方法的性能,本文選取英文—中文平行語料庫進行測試,將中文翻譯為英文,并將獲得翻譯語句和英文語句進行比較,驗證實驗結果。
雙語詞典為通過Google Translator將中文翻譯為英文;種子詞典擴展翻譯為通過英漢種子詞典Access數據庫進行翻譯學習,然后對中文數據集進行翻譯;基于神經網絡的翻譯模型在選取平行語料庫的部分數據進行學習,得到中英語的特征權重對應矩陣后對其余數據進行翻譯實驗,訓練實例數是翻譯模型訓練實例數占全部翻譯庫總實例數的比例。
圖4給出了三種翻譯方法在英文—中文平行數據庫上添加翻譯語料后的翻譯性能結果。從圖4可以看出:
a) 隨著實訓語料的增加,雙語詞典翻譯模型和種子詞典擴展翻譯模型雖然表現出一定的波動,但總體性能是穩定的,雙語詞典翻譯模型是依賴訓練好的雙語翻譯系統進行語言翻譯,并不涉及實訓語料的影響,而種子詞典擴展翻譯模型也是通過單獨的翻譯詞典對雙語對應矩陣進行學習訓練,在進行翻譯任務前已經訓練完畢,實訓語料的數量不能對它的性能產生反饋和影響。
b) 基于神經網絡的無詞典翻譯模型隨著實訓語料的規模增加而獲得翻譯性能的增加,說明增大的雙語訓練語料規模增加可以幫助翻譯模型獲得兩種語言間更多的對應特征矩陣,同時,訓練性能也可以對后續的翻譯任務產生反饋影響,幫助模型學習更多,甚至可以超越種子詞典擴展翻譯模型的性能,證明了本文提出的神經網絡翻譯模型在缺少大規模詞典情況下的良好性能。
2)結合翻譯模型的關系提取性能
在結束上一部分的翻譯實驗后,將復旦大學中文文本分類數據集作為關系提取驗證模型,設置關系抽取基準模型為
a)BDT+BERT(bilingual dictionary translation)。雙語詞典翻譯將中文文本翻譯為英文后,通過BERT關系抽取模型對翻譯英文文本進行關系提取。
b)SDET+BERT(seed dictionary extended translation)。種子詞典擴展翻譯在通過英漢種子詞典Access數據庫進行翻譯學習訓練后,對中文文本數據進行翻譯,同樣選取BERT關系抽取模型對翻譯文本進行關系抽取。
c)TNMT+BERT。本文提出的基于注意力遷移的跨語言關系抽取方法通過雙語語料進行訓練學習后,對中文文本進行翻譯和關系抽取。
實驗結果如圖5所示。
圖5給出了三種關系抽取方法在英文—中文平行數據庫上添加翻譯語料后的翻譯性能結果。從圖5可以看出:
a)由于機器翻譯過程中會帶來一定的噪聲,所以盡管基于Google Translation翻譯系統的BDT翻譯模型表現出最好的翻譯性能,但在關系抽取中不斷的噪聲疊加導致最終的性能并不理想。
b)基于種子詞典擴展翻譯的關系抽取模型由于在關系抽取模型中并沒有應用上自身學習的特征矩陣等語言特征,最終的關系抽取成績最差。
c)本文提出的跨語言關系抽取方法盡管在翻譯模型方面的性能并非最優解,但由于上游和下游任務的良好銜接,將翻譯過程中學習到的潛在特征表示和語料關系表征的注意力權重對關系抽取進行增強,幫助關系抽取模型進行關系分類預測,最終獲得了最好的關系抽取成績。
綜合圖4和5可以看出,本文所提翻譯模型可以很好地應用在缺少大規模語料詞典的情況下,如不能連網的局域網內平臺的多語言翻譯,是較好的工具。此外,結合翻譯模型的關系抽取方法也適用于多語言平臺對知識的獲取和文本處理,對于本文方法的具體性能將在下一節進行具體實驗討論。
4.2 在中英語系上的實驗
為了驗證本文提出關系抽取方法的有效性,對比單語系關系抽取的性能,第一組選擇以英文為源語言,中文為目標語言。En和ZH分別代表英語和中文的單語料,MNRE與UNMT+BERT選取英語—中文雙語料作為平行語料庫進行訓練,輸入的關系提取文本為2016年的WMT英文新聞數據集的句子。TMRA是transferred model reversed attention(遷移模型反向注意力),TMRA first、TMRA last和TMRA average分別表示反向注意力遷移模塊分別選擇翻譯模塊中第一層、最后一層以及關注層注意力權重的平均值 A 1、A L、 "進行遷移。實驗結果如表3所示。
如表3所示,即使基準模型中均未加入遷移信息,比起單一語言的關系抽取模型BRCNN和PCNN,采用多語言關系抽取的模型結果普遍得到了提升。基準模型在加入注意力反向遷移模塊后,關系抽取結構均得到了提升,TNMT+End2End BERT+ +En-Fr相比于基準模型TNMT+End2End BERT+En-Fr,值提升了0.71%。此外,在基準的基礎上選擇了和的方法分別提升了4.11%和2.72%,相比于目前最好的跨語言關系抽取模型MNRE,選取的方法提升了1.89%,說明本文方法在關系抽取方面取得了較好的效果。由此可以發現,在WMT18的英語和法語數據集上,使用更高層級的關注層注意力權重,有助于提升模型效果,即在多語言翻譯模型內,多層編碼—解碼器網絡的結構使得更高層的注意力矩陣可以獲得語言間更深意義的關聯關系。第二組選擇以中文為源語言,英文為目標語言,實驗基準模型與上個實驗保持一致,將聯合國平行語料庫英語—漢語的雙語平行語料輸入翻譯訓練模型,將復旦大學中文文本分類數據集作為關系抽取數據集進行抽取。
表4展示了關系抽取方法在復旦大學中文文本上的結果,與表3比較,單語模型(BRCNN和PCNN)的 F 1 值差距不大。由于在跨語系關系抽取中,分屬于不同語系的遠距離對并不存在大量的共享單詞,語句嵌入的對其效果較差,對關系抽取存在一定的影響,如MNRE模型,在跨語系中的表現( F 1 值)比同語系降低了2.28%,雖然本方法也出現了效果降低的問題,但相比于MNRE,采用神經網絡翻譯模型的關系抽取方法(TNMT+End2End BERT)在 F 1 得分方面提升了0.69%,說明使用機器翻譯模型可以有效提升跨語系嵌入句子的關聯性。在加入反向注意力遷移后,結果得到進一步提升,在三種不同層級權重進行遷移的方法下,分別展現出0.37%、2.87%和1.41%的提升,其中TNMT+End3End BERT+TMRA last的關系抽取測試結果最好,分別是85.47%、84.92%和85.19%。
4.3 模型結構對實體關系抽取的影響
4.3.1 不同attention層數對關系提取的影響
從上面的實驗可以看出, 使用不同層級的注意力權重進行遷移會影響信息增強NER-RE模塊抽取信息的結果。本文實驗進一步分析不同關注層解碼器的注意力權重 A i 對結果的影響,選擇實驗1的語料數據(En-ZH),記錄不同層級的注意力權重 A 1,…,A 15 ,翻譯模型通過反向使用注意權重來獲取源單詞的傳遞信息 Fl=TkA i ,將語言A的語料序列 S 與遷移自語言B的轉移模型知識 Fl 組合作為模型輸入,得到實驗結果如圖6所示。
圖6顯示了利用不同的關注層解碼器的注意力權重進行知識遷移,經過信息增強NER-RE模塊獲得的不同 F 1 值,可以看到更高層數的注意力權重在信息傳遞中可以獲得語言之間更準確的特征關系,得到更好的測試結果。在層級數量為10時,關系抽取性能達到最佳,在層數為更高層時,性能趨于穩定,甚至隨著層數的增加,有小幅降低的趨勢。可以認為,本文方法在較高的注意力層中可以從多語言學習中得到更深層次的上下文關聯,獲得更精確的實體關系依賴分類,從而提升關系提取效果。
4.3.2 訓練集大小對關系抽取的影響
本文實驗嘗試使用不同大小的雙語平行語料,探究平行語料訓練集的數量對于關系提取的影響,設置訓練語料為實驗1的不同占比(10%~100%),具體實驗結果如圖7所示。
總體來看,隨著平行語料大小的增加, F 1 呈上升趨勢,模型在30%時(即源語言數量為127 668 872,目標語言數量為114 411 474)獲得最好的關系提取效果。具體而言,在訓練數據集逐漸從10%增長到30%時,模型表現顯著提升,但在數據集增大到40%時有一定下降,之后隨著數據集不斷增大, F 1 值增長緩慢。說明隨著雙語平行數據集的增長,盡管前期提升明顯,但一味擴充雙語語料對關系提取的性能增加意義不大。
5 結束語
本文旨在解決無對稱語料下的多語言關系抽取問題,通過利用神經網絡翻譯模型獲得無監督下的多語言對應翻譯語料,BERT端對端的聯合抽取模型抽取訓練數據實體關系特征,反向遷移語言間注意力權重關系,最后利用反向遷移的注意力進行增強的關系抽取。實驗表明,本文方法可以很好地提高無監督情況下的關系識別能力,特別在跨語系語料中,表現出較強的魯棒性和關系提取能力。在英語→中文和中文→英語兩個關系抽取任務上的實驗結果表明,該模型在兩種跨語言關系抽取任務上的表現較好,兩個任務上MNRE模型的 F 1 值分別為84.78%和83.73%,這表明本文提出的跨語言實體關系抽取框架可以顯著提升低資源情境下的實體關系抽取。本文還研究了多層神經網絡翻譯模型中注意力層數對關系抽取方法測試效果的影響,對于下一步改進實驗架構有著很好的參考價值。研究結果對于改進跨語言情境下的關系抽取模型,促進實體關系抽取研究在情報學領域的應用具有重要意義。
在下一步工作中,希望可以考慮基于旋轉、多任務學習、持續培訓、多語言模型或其他技術的方法,通過引入第三語言作為中轉語言來拉進遠距離語言對的關系,同時研究跨語句關系抽取問題,將跨語言抽取問題從語句層面擴展到篇章層面。
參考文獻:
[1] "Zeng Daojian,Liu Kang,Lai Siwei, et al .Relation classification via convolutional deep neural network[C]//Proc of the 25th International Conference on Computational Linguistics:Technical Papers.2014:2335-2344.
[2] Nguyen T H,Grishman R.Relation extraction:perspective from convolutional neural networks[C]//Proc of the 1st Workshop on Vector Space Modeling for Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:39-48.
[3] Miwa M,Bansal M.End-to-end relation extraction using LSTMS on sequences and tree structures[C]//Proc of the 54th Annual Meeting of the Association for Computational LinguisticsStroudsburg,PA:Association for Computational Linguistics,2016:1105-1116.
[4] Cai Rui,Zhang Xiaodong,Wang Houfeng.Bidirectional recurrent convolutional neural network for relation classification[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2016:756-765.
[5] Mintz M,Bills S,Snow R, et al .Distant supervision for relation extraction without labeled data[C]//Proc of Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP.2009:1003-1011.
[6] Zeng Daojian,Liu Kang,Chen Yubo, et al .Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:1753-1762.
[7] Jiang Xiaotian,Wang Quan,Li Peng, et al .Relation extraction with multi-instance multi-label convolutional neural networks[C]//Proc of the 26th International Conference on Computational Linguistics:Technical Papers.2016:1471-1480.
[8] Qin Pengda,Xu Weiran,Wang W Y, et al .DSGAN:generative adversarial training for distant supervision relation extraction[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:496-505.
[9] Huang Lifu,Ji Heng,May J.Cross-lingual multi-level adversarial transfer to enhance low-resource name tagging[C]//Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:3823-3833.
[10] 田明杰,崔榮一.面向跨語言文本分類與標簽推薦的帶標簽雙語主題模型的研究[J].計算機應用研究,2019, 36 (10):2911-2915. (Tian Mingjie,Cui Rongyi.Research on tagged bilingual topic model for cross language text classification and label recommendation[J]. Application Research of Computers ,2019, 36 (10):2911-2915.)
[11] 楊威亞,余正濤,高盛祥,等.基于跨語言神經主題模型的漢越新聞話題發現方法[J].計算機應用,2021, 41 (10):2879-2884. (Yang Weiya,Yu Zhengtao,Gao Shengxiang, et al .Chinese Vietna-mese news topic discovery method based on cross language neural topic model[J]. Journal of Computer Applications ,2021, 41 (10):2879-2884.)
[12] 張磊,高盛祥,余正濤,等.類型感知的漢越跨語言事件檢測方法[J/OL].重慶郵電大學學報:自然科學版.[2021-07-20].http://kns.cnki.net/kcms/detail/50.1181.n.20210824.0913.002.html. (Zhang Lei,Gao Shengxiang,Yu Zhengtao, et al .Chinese Vietnamese cross language event detection method based on type perception[J/OL]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition .[2021-07-20].http://kns.cnki.net/kcms/detail/50.1181.n.20210824.0913.002.html.)
[13] Kudo Ta.Subword regularization:improving neural network translation models with multiple subword candidates[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:66-75.
[14] Irvine A,Callison-Burch C.A comprehensive analysis of bilingual lexicon induction[J]. Computational Linguistics ,2017, 43 (2):273-310.
[15] Vincent P,Larochelle H,Lajoie I, et al .Stacked denoising autoenco-ders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research ,2010, 11 (12):3371-3408.
[16] Feng Fangxiaoyu,Yang Yinfei,Cer D, et al .Language-agnostic BERT sentence embedding[EB/OL].(2020).https://arxiv.org/abs/2007.01852.
[17] Dozat T,Manning C D.Deep biaffine attention for neural dependency parsing[EB/OL].(2016).https://arxiv.org/abs/1611.01734.
[18] Sun Linghao,Yi Huixiong,Liu Huanhuan, et al .Back attention know-ledge transfer for low-resource named entity recognition[EB/OL].(2019).https://arxiv.org/abs/1906.01183.
[19] Bojar O,Chatterjee R,Federmann R A, et al .Findings of the 2016 conference on machine translation[C]//Proc of the 1st Conference on Machine Translation.Stroudsburg,PA:Association for Computational Linguistics,2016:131-198.
[20] "復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組.復旦大學中文文本分類語料庫[EB/OL].(2019).https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04.(Natural language processing group of international database center,Department of computer information and technology,Fudan University.Chinese text classification corpus of Fudan University[EB/OL].(2019). https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04.)
[21] Artetxe M,Schwenk H.Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond[J]. Trans of the Association for Computational Linguistics ,2019, 7 :597-610.
[22] Lin Yankai,Liu Zhiyuan,Sun Maosong.Neural relation extraction with multi-lingual attention[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:34-43.
[23] Gupta R,Besacier L,Dymetman M, et al .Character-based NMT with transformer[EB/OL].(2019).https://arxiv.org/abs/1911.04997.