余傳明 黃婷婷 林虹君 安璐



收稿日期:2020-05-31
基金項目:國家自然科學基金面上項目“面向跨語言觀點摘要的領域知識表示與融合模型研究”(項目編號:71974202)。
作者簡介:余傳明(1978-),男,教授,研究方向:數據挖掘、商務智能與信息檢索。黃婷婷(1995-),女,碩士研究生,研究方向:數據挖掘與信息檢索。林虹君(1995-),女,碩士研究生,研究方向:數據挖掘與信息檢索。安璐(1979-),女,教授,研究方向:可視化知識發現。
摘? 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標語言,借助遷移學習和深度學習的思想,提出一種結合自學習和GRU-LSTM-CRF網絡的無監督跨語言實體抽取方法。[結果/結論]與有監督的跨語言實體抽取方法相比,本文提出的無監督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F1值為0.6419,在荷蘭語上,F1值為0.6557。利用跨語言知識在源語言和目標語言間建立橋梁,提升低資源語言實體抽取的效果。
關鍵詞:知識獲取;實體抽取;跨語言;深度學習;標簽映射
DOI:10.3969/j.issn.1008-0821.2020.12.001
〔中圖分類號〕TP391? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)12-0003-14
Research on Cross-lingual Entity Extraction Based on
Tag Transfer and Deep Learning
Yu Chuanming1? Huang Tingting2? Lin Hongjun1? An Lu3
(1.School of Information and Safety Engineering,Zhongnan University of Economics and Law,
Wuhan 430073,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;
3.School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]This paper explores how to better solve the entity extraction problem of low resource languages from a cross-lingual perspective.[Method/Process]With English as the source language,Spanish and Dutch as the target language,an unsupervised cross-lingual entity extraction method combining self-learning method and GRU-LSTM-CRF network is proposed based on the idea of transfer learning and deep learning.[Result/Conclusion]Compared with the supervised cross-lingual entity extraction method,the unsupervised cross-lingual entity extraction method proposed in this paper can achieve better results.In Spanish,the value of F1 is 0.6419,and in Dutch,the value of F1 is 0.6557.Cross-lingual knowledge is used to build a bridge between source language and target language to improve the effect of entity extraction of low-resource languages.
Key words:knowledge acquisition;entity extraction;cross-lingual;deep learning;label mapping
實體抽?。‥ntity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機構名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務中起著至關重要的作用,有效識別命名實體,不僅是關系抽取[8-9]和構建知識圖譜[10]的基礎,而且可以顯著提高問答系統[11]和文本挖掘[12]等應用的性能。隨著大數據的迅速發展,各種語料在不同語言中的分散化和多樣化日益嚴峻,跨語言情境下的實體抽取任務受到越來越多的關注。實體抽取任務在中文和英文等語言情境中,存在較為豐富的標注語料,與此相關的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標注語料相對稀缺,存在標簽語料很少和手工標注標簽昂貴且費時等問題,與此相關的實體抽取模型相對復雜,面臨更多挑戰。在標注語料豐富的源語言和標注語料稀缺的目標語言之間建立橋梁,將源語言的標簽數據遷移給目標語言,以豐富目標語言的標簽數據,通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。
機器翻譯研究的發展在一定程度上緩解了目標語言語料稀缺的問題,但采用機器翻譯來解決跨語言實體抽取仍面臨一些挑戰。首先,在源語言翻譯成目標語言的過程中,即便在機器翻譯達到很高準確率(即源語言文本與目標語言文本具有很好的語義一致性)的情況下,由于在目標語言中詞匯語序被調整,且存在對源語言詞匯進行拆分(源語言詞匯與目標語言詞匯之間為一對多的關系)或合并(源語言詞匯與目標語言詞匯之間為多對一的關系)的情況,很難準確地建立詞匯標簽(如B、I、O等)從源語言到目標語言之間的一一對應關系,如何在機器翻譯基礎上自動化地構建目標語言的語料標簽仍然是一個嚴峻的問題。其次,目前應用較為廣泛的免費在線翻譯系統(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機器翻譯的情況下自動化地構建目標語言的文本(并在此基礎上自動化地構建標簽)也是一大挑戰。
為解決上述問題,本文將自動化的雙語詞典構建應用到跨語言實體抽取任務中,利用遷移學習和深度學習的思想,開展跨語言實體抽取的實證研究。
1? 相關研究現狀
1.1? 實體抽取的傳統模型
實體抽取的傳統模型包括早期基于規則的方法、統計機器學習的方法以及近年來基于深度學習的方法,其效果不斷得以提升。
1.1.1? 基于規則的實體抽取
基于規則的實體抽取方法是指人工構造規則或者借助機器自動生成規則,然后從文本中找出匹配規則的字符串。為了解決烏爾都語實體標注語料稀缺的問題,Riaz K[13]提出一種基于規則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機構名等6個實體標簽制定規則;并選出2 262篇文檔進行實驗,該方法的召回率為90.7%,準確率為91.5%,F1值為91.1%。由于人工構造規則需要消耗較多的人力和物力,所以研究者們嘗試借助機器自動生成規則的方法。Collins M等[14]先構造種子規則,再根據語料對該種子規則進行無監督的訓練迭代得到更多的規則,將這些規則用于實體抽取,該方法在人名、地名和機構名3種實體抽取任務中取得很好的效果。周昆[15]提出一種基于規則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進行組織,可提高知識庫的可維護性;然后分別制定20種人名識別規則和9種地名識別規則;最后構建具有自主學習能力的實體識別系統,能在識別實體的基礎上,產生新的規則反饋給規則庫,該方法有效提高了實體抽取的準確率和召回率。基于規則的實體抽取方法在小規模語料庫上,訓練速度快且模型效果好,但需要制定大量的規則,導致該類方法的可移植性較差。
1.1.2? 基于統計機器學習的實體抽取
在基于統計機器的方法中,實體抽取被視為序列標注問題。序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,預測標簽序列之間具有強相互依賴關系。目前常用的統計機器學習方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機場模型(CRF)等。CRF是計算整個標記序列的聯合分布概率,在全局范圍內進行歸一化處理,不僅克服HMM輸出的獨立性假設問題,而且有效避免了MEMM的標記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機場的領域術語識別方法,將領域詞語的語義特征和領域特征融入CRF模型中,在漁業領域語料、通用語料和混合語料上進行實驗,該方法均取得較好效果。李想等[17]將農作物、病蟲害和農藥名稱的詞性、偏旁部首、左右指界詞、附近數量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關聯關系,從而識別出命名實體,對農作物、病蟲害、農藥命名實體識別的準確度分別達97.72%、87.63%、98.05%。基于統計機器學習的實體抽取獲得了較好的結果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴重依賴特征選取,且模型的泛化能力不強。
1.1.3? 基于深度學習的實體抽取
深度學習技術成為研究命名實體識別問題的熱點方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數據稀疏問題。近年來,基于深度學習的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進行向量表示,然后用長短期記憶網絡(LSTM)、循環神經網絡(RNN)和卷積神經網絡(CNN)等網絡進行文本的語言特征提取,最后用條件隨機場(CRF)輸出最優標簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強的魯棒性,對詞語特征工程的依賴性較小。在此基礎上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數據集上均取得較好的結果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現分詞錯誤。在多個數據集上證明Lattice LSTM方法優于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經網絡都是使用Word2Vec和Glove工具訓練詞向量,所得到的詞向量沒有考慮詞序對詞義的影響,Google在2018年10月發布BERT語言表示模型,在各項自然語言處理任務中都取得了最先進的結果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓練大量未標注語料,得到抽象的語義特征,然后結合LSTM-CRF神經網絡,該方法在《人民日報》數據集上的F1值達到94.86%。此外,深度學習方法還被廣泛應用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業領域實體抽取[24]、在線醫療實體抽取[25]等應用場景。值得說明的是,基于深度學習的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。
1.2? 跨語言情境下的實體抽取研究
跨語言的實體抽取主要目標是提升低資源語言的命名實體識別效果。值得說明的是,跨語言實體抽取不能理解為“單語言實體抽取”與“機器翻譯”的簡單拼接。從研究現狀來看,目前主要包括以下兩點:一是基于標簽數據遷移的跨語言實體抽取;二是利用基于語言獨立特征遷移的跨語言實體抽取。
1.2.1? 基于標簽遷移的跨語言實體抽取
基于標簽遷移的跨語言實體抽取是指利用平行語料或者雙語詞典將源語言的標簽數據遷移給目標語言,并在目標語言上建立實體抽取模型以完成實體識別任務。在基于平行語料的跨語言實體抽取方面,Ni J等[26]提出一種基于弱監督的跨語言命名實體識別方法,首先建立英語實體抽取模型,得到英語實體標簽;然后通過包含對齊信息的平行語料庫,實現英語與目標語言句子的對齊,并將英語的標簽映射給目標語言;最后建立目標語言的實體抽取模型。其研究結果表明,目標語言實體抽取的效果好壞取決于英語實體抽取模型和平行語料庫在詞匯句子層面的對齊程度。徐廣義等[27]為了解決柬埔寨語實體標簽語料稀缺和命名實體缺乏明顯標識特征的問題,根據英語和柬埔寨語的平行語料來構造雙語圖,獲取柬埔寨語的實體類別分布特征,顯著提高了柬埔寨語的命名實體識別的性能。上述實驗結果表明,通過平行語料庫將源語言標簽遷移給低資源語言,能夠有效提升低資源語言的命名實體識別效果。值得說明的是,由于構建平行語料庫需要耗費較多的人力,所以從一定程度上限制了該方法的推廣性。
在基于雙語詞典的跨語言實體抽取方面,Mayhew S等[28]利用“廉價”雙語詞典,將一種或幾種高資源語言中可用的標簽數據“翻譯”為目標語言,并在廉價詞典的基礎上加入維基百科特征,顯著提高目標語言實體抽取的效果?;诹畠r詞典的方法,其效果在很大程度上取決于雙語詞典的規模和質量,由于人工構建雙語詞典具有一定的困難,在處理真正低資源語言的命名實體識別問題上具有局限性。Xie J等[29]為了減少對人工構建雙語詞典的依賴,用種子詞典進行詞典規約得到包含更多單詞對的雙語詞典,將源語言的標簽數據遷移給目標語言;為了提高數據遷移過程中語序的魯棒性,在神經網絡模型中加入自注意力機制,在西班牙語、荷蘭語和德語數據集上取得了較好的結果。與此類似,Ehrmann M等[30]嘗試在沒有任何平行語料庫的情況下構建雙語詞典,通過無監督的方式對齊單語單詞嵌入空間。值得說明的是,利用雙語詞典進行標簽映射存在標簽映射錯誤問題。為解決該問題,吳煥欽[31]提出一種基于軟對齊的跨語言命名實體識別方法,通過建立跨語言神經網絡模型,其中源語言句子、源語言標簽和目標語言句子均用于預測目標語言的命名實體標簽,從而實現源語言到目標語言的標簽遷移,充分利用了源語言和目標語言的上下文信息??偟膩碚f,一方面,基于雙語詞典的跨語言實體抽取方法擺脫了對于雙語平行語料的限制,因而具有更廣泛的應用;另一方面,如何減少對人工構建雙語詞典的依賴(即在處理低資源語言時能夠準確、自動、快速地構建雙語詞典),又成為新的瓶頸問題。
1.2.2? 基于語言獨立特征遷移的跨語言實體抽取
基于語言獨立特征遷移的跨語言實體抽取是指在一種語言上通過語言獨立特征訓練出模型,然后將模型直接遷移給其他語言。依照語言獨立特征的不同,可以分為詞簇特征、音韻特征、維基百科特征和共享詞向量特征等。在詞簇特性方面,“詞簇”(Word Cluster)是指文本中2個或2個以上的詞形以固定的組合關系(或位置)重復同現[32-33]。Tackstrom O等[34]將具有語言獨立性的詞簇特征加入直接遷移系統中,實現從英語到目標語言的語言結構遷移,在依賴句法分析和命名實體識別任務中,系統相對誤差分別減少13%和26%。在上述研究的基礎上,Tackstrom O[35]在命名實體識別任務中,通過加入多種源語言的詞簇特征,并結合自訓練學習目標語言的獨立特征,顯著提高目標語言實體抽取的效果。在音韻特征方面,Bharadwaj A等[36]提出一種加入音韻特征的神經網絡模型,并結合自注意機制學習關注更有效的字符,預訓練的模型能夠很好地適應標注語料少甚至沒有標注語料的目標語言中。在維基百科特征方面,Tsai C T等[37]將單詞和短語鏈接到維基百科中的條目,并使用頁面類別作為語言獨立特征,實驗表明,維基百科特征可有效提高命名實體識別的性能。在共享詞向量特征方面,Ni J等[26]將源語言和目標語言的詞向量投影到共享空間,將共享空間中的詞向量作為語言獨立特征,在源語言上訓練模型并將其直接應用到目標語言中,實驗表明該方法優于之前最先進的方法,并且縮小了與監督學習的差距??傮w而言,基于語言獨立特征遷移的方法,可以有效地將源領域的預訓練模型遷移給目標語言,提高了模型在不同語言間的自適應性,但是該方法仍需要一定量的目標語言標注語料,對于真正低資源語言來說,具有一定的局限性。
值得說明的是,目前基于深度學習的實體抽取模型,較多地集中在單語言數據集上。在跨語言實體抽取任務上,一方面,由于機器翻譯并不能完全解決標注語料缺乏的問題;另一方面,基于標簽遷移的跨語言實體抽取較多地依賴于平行語料或雙語詞典的自動構建,這使得命名實體識別的效果提升仍然面臨諸多挑戰。如何有效地將源語言豐富的標注語料遷移給目標語言,成為當前亟待解決的研究問題。鑒于此,本文提出融合標簽遷移學習和深度學習的跨語言命名實體識別框架。一方面,探究不同的標簽映射方式和深度學習方法對跨語言命名實體抽取系統的影響;另一方面,探究遷移的數據量、雙語詞典規模和相似度計算方式對跨語言實體抽取系統的影響,以期為跨語言實體抽取相關研究提供借鑒。
2? 研究框架與方法
2.1? 研究問題
本文旨在探究跨語言情境下的實體抽取問題,參照Feng X等[38]關于低資源語言命名實體識別的研究,我們將英語假定為高資源的源語言,西班牙語和荷蘭語為低資源的目標語言(即完全沒有實體標注語料,只有少量或者完全沒有雙語詞典),利用跨語言知識在源語言和目標語言之間建立橋梁,將源語言的標簽數據遷移給目標語言,得到目標語言的訓練集,然后建立目標語言的命名實體識別模型。具體而言,本文在特定的數據集上探究以下問題:①在跨語言實體抽取任務中,如何有效地將資源豐富語言中的標簽遷移到低資源語言中?在有監督學習和無監督學習中,哪一種遷移方法更為有效?②在跨語言標簽遷移的基礎上,如何將深度學習正確地應用于命名實體識別模型?在卷積神經網絡模型(CNN)、長短時記憶網絡模型(LSTM)和門控循環單元(GRU)等神經網絡模型中,哪一種更為有效?③在跨語言實體抽取任務中,如何合理地確定源語言訓練數據的規模?源語言訓練數據的規模是否越大越好?④如何合理地確定源語言和目標語言雙語詞典的規模?雙語詞典的規模是否越大越好?⑤在跨語言實體抽取任務中,如何選擇合理的相似度方法來計算源語言和目標語言的對應翻譯?
2.2? 研究框架
本文提出跨語言實體抽?。–ross-Lingual Entity Extraction,CLEE)框架,如圖1所示,該框架由跨語言標簽映射模塊和命名實體識別模塊構成。標簽映射模塊中,根據生成雙語詞典是否需要種子詞典,將標簽映射模塊分為有監督學習和無監督學習兩類,實現從源語言到目標語言的標簽遷移,其中有監督學習包括簡單詞典翻譯和擴展詞典翻譯;無監督學習包括自學習詞典翻譯。在命名實體識別模塊,對目標語言建立基于深度學習的實體抽取模型。
2.3? 跨語言標簽映射模塊
2.3.1? 簡單詞典翻譯
相對于平行語料庫而言,雙語詞典是一種豐富且廉價的資源,將直接通過雙語詞典得到目標語言標簽數據的方法稱為簡單詞典翻譯。該方法的主要思路是從Github網站下載Facebook官方提供的源語言和目標語言高度對齊的雙語詞典[39],通過雙語詞典將源語言的單詞翻譯成目標語言,并將源語言的標簽數據直接映射給目標語言,得到帶標簽的目標語言訓練集;然后根據雙語詞典得到的目標語言訓練集,建立深度學習的命名實體識別模型。
2.3.2? 詞典擴展翻譯
對于低資源的語言,當雙語詞典資源也很稀缺的情況下,可以利用種子詞典進行詞典擴展翻譯。具體思路如下:首先通過種子詞典學習源語言和目標語言詞向量之間的正交性矩陣W,通過正交性映射將源語言和目標語言的詞向量映射到同一向量空間;其次是進行詞典規約(Lexicon Induction)[40],將預訓練的源語言和目標語言詞向量通過相似性局部縮放(CSLS)[40],得到包含更多單詞對的雙語詞典;最后利用擴展后的雙語詞典,將源語言的單詞翻譯成目標語言,并將源語言的標簽直接映射給目標語言,得到目標語言的訓練數據集。
正交性映射的基本原理是假設有一個種子詞典D={xi,yi}(i=1,2,…,d),其中xi為源語言的詞向量,yi為對應目標語言的詞向量,共有d個單詞對。通過迭代訓練式(1)得到正交性矩陣W,正交性矩陣W保證映射前和映射后的詞向量方差保持不變。
minw=Wxi-yi2s.t.WWT=I(1)
相似性局部縮放(CSLS)的基本原理是源語言和目標語言的詞向量通過正交矩陣W映射到同一空間后,根據最近鄰找出同一向量空間下,目標語言詞向量Y對應源語言詞向量WX的翻譯。余弦相似度可以計算源語言詞向量WX和目標語言詞向量Y之間的相似性,余弦值越大,說明源語言對應的目標語言翻譯越正確。但該方法存在Hubness問題,即最近鄰是非對稱的,目標語言詞向量Y是源語言詞向量WX的最近鄰,但源語言詞向量WX不是目標語言詞向量Y的最近鄰。鑒于此,本文采用相似性局部縮放(CSLS)方法,計算公式如式(2)和式(3)所示:
CSLS(WXs,Yt)=2cos(WXs,Yt)-rT(WXs)-rs(Yt)(2)
rT(WXs)=1K∑Yt∈ηT(s)cos(WXs,Yt), rs(Yt)=1K∑WXs∈ηS(t)cos(WXs,Yt)(3)
rT(WXs)和rs(Yt)用于度量每個源語言和目標語言單詞的Hubness問題的嚴重程度,如果一個單詞和另外一種語言的單詞都很接近,則r值就很高,那么CSLS(WXs,Yt)的值會變小。
2.3.3? 自學習詞典翻譯
詞典擴展翻譯依賴于小型種子詞典,采用有監督的方法學習源語言和目標語言之間的映射矩陣。但對于真正低資源的語言,當源語言和目標語言之間不存在雙語詞典的情況下,利用不同語言的等價詞具有相似性分布的原理,進行無監督的自學習詞典翻譯[41]。具體分3個步驟:
第一步:詞向量的標準化。首先根據維度歸一化源語言詞向量X和目標語言詞向量Y;然后均值中心化每個維度;最后重復維度歸一化處理步驟。
第二步:完全無監督的初始化。利用標準化后的源語言和目標語言詞向量去構建初始化詞典D,詞典D的行是來自于源語言X的單詞(X1,X2,…,Xi,…);列是來自于目標語言Y的單詞(Y1,Y2,…,Yi,…),如果Y中的第j個詞是X中的第i個詞的翻譯,則Dij=1;否則Dij=0。由于X和Y是兩種不同語言訓練得到的詞向量矩陣,無論是第i個單詞Xi*和Yi*,還是第j個維度X*j和Y*j,它們之間都不是對齊的,故用相似矩陣替代詞向量矩陣:MX=XXT和MY=YYT。對相似性矩陣的每一行都進行排序,在嚴格的等距條件下,排序后不同語言中相等的詞會得到相同的向量。因此給出sorted(MX)中的任意一行,都可以在sorted(MY)中找到最相近的一行,從而找到對應詞的翻譯。
D=D11D12……
D21D22……
……Dij…
…………(4)
第三步:自學習訓練過程。通過最大化當前字典D的相似性來計算最優正交映射WX和WY,計算公式如式(5)所示;并在映射后的詞向量相似矩陣上計算最優的詞典D,映射后的詞向量相似矩陣為XWXWTZZT,如果j=argmaxk(Xi*WX)·(Yj*WY),則Dij=1,否則Dij=0。不斷地重復上述訓練步驟直到收斂。
argmaxWX,WY∑i∑jDij((Xi*WX)·(Yj*WY))(5)
2.4? 命名實體識別模塊
目標語言的命名實體識別可看作是序列標注問題,輸入序列為X={x1,x2,…,xn},xi為該序列中的第i個單詞;輸出是與X相對應的標簽序列Y={y1,y2,…,yn},yi為第i個單詞的標簽。本文的詞表示編碼器使用雙向LSTM神經網絡,可充分利用單詞的上下文信息;解碼器使用CRF,常見的解碼器有CRF、HMM和MEMMs,而解碼器CRF能夠計算整個標記序列的聯合概率分布,是在全局范圍統計歸一化,標簽預測的效果較好。故該部分實驗主要為了比較不同的字符編碼器對目標語言的命名實體識別模型的影響。命名實體識別模塊的框架如圖2所示。
圖2? 命名實體識別模塊架構圖
通過標簽映射模塊,得到目標語言的訓練集,對目標語言建立基于深度學習的命名實體識別模型。該模型包括編碼和解碼兩個環節,在編碼環節,首先采用門控循環單元(GRU)、卷積神經網絡(CNN)或者雙向長短期記憶模型(LSTM)得到每個單詞的字符向量;然后通過加載預訓練的詞向量或者用Word2Vec工具訓練維基百科語料庫得到每個單詞的詞向量;接著將每個單詞的詞向量Wword和字符向量Cword串聯得到聯合向量表示Eword;最后采用長短期記憶模型(LSTM)獲取每個單詞的上下文特征。在解碼環節,通過條件隨機場(CRF)分析句子中標簽之間的制約關系,加入標簽轉移概率矩陣,給出全局最優標簽序列。
2.4.1? 字符編碼器(CNN/GRU/LSTM神經網絡)
英語、西班牙語和荷蘭語的單詞都具有豐富的形態信息,如單詞的前綴和后綴等,這些信息能夠為命名實體識別任務提供有價值的信息,顯著提高標簽預測的效果。此外,研究表明,單詞拼寫對詞性標注和語言建模等任務中的未登錄詞有很大的幫助。為了使單詞表示對拼寫敏感,本文采用字符編碼器提取單詞中的字符信息,探究以下3種字符編碼器,即卷積神經網絡(CNN)、長短期記憶神經網絡(LSTM)和門控循環單元(GRU)在命名實體識別上的效果。
2.4.2? 詞表示編碼器(LSTM神經網絡)
循環神經網絡(RNN)在訓練過程中通常會出現梯度消失或梯度爆炸的情況,為了解決這個問題,長短期記憶網絡(LSTM)應運而生,LSTM能很好地提升模型的長距離依賴的性能。LSTM和一般RNN的區別在于,LSTM增加了一個存儲器塊單元A,這個存儲器塊A包括3部分:輸入門、遺忘門和輸出門。輸入門決定有多少新信息需要加入單元中,遺忘門主要用于控制單元內信息的存儲,即決定丟棄什么信息,輸出門是確定該單元A要輸出什么信息。
2.4.3? 條件隨機場(CRF)解碼器
Bi-LSTM層輸出每個單詞對應的各個標簽的預測分值,可以挑選分值最高的作為單詞的標簽,但經常會出現一些不合法的標簽序列。故在Bi-LSTM層的基礎上加CRF層,CRF層能從訓練數據中得到約束性規則,例如句子第一個單詞以B/O開頭,而不能從I開頭;在B-label1和I-label2中,label1和label2要同類型;O和I-label不能組合在一起。標簽序列中非法序列出現的概率大大降低,從而提高標簽預測的準確性。
對于輸入句子X={x1,x2,…,xn},對應的輸出標簽為Y={y1,y2,…,yn}。該標簽序列的計算得分為:
s(X,Y)=∑ni=0Ayi,yi+1+∑ni=0Pi,yi(6)
其中,P是Bi-LSTM的輸出得分矩陣,P的大小是n*k,k是不同標簽的數目,Pi,j是代表第i個單詞標記為第j個標簽的得分。A是轉移得分矩陣,Ai,j是同一句子中由標簽i到標簽j的轉移分數。矩陣A是大小為k+2的正方形矩陣,k是標簽的個數。對這個分數進行指數化和標準化,可以得到標注序列y的概率值p(y|X)。
p(y|X)=es(X,Y)∑∈YXes(X,)(7)
在式(7)中,YX表示句子X的所有可能的標簽輸出序列。
3? 實驗結果與討論
3.1? 數據集
本次實驗中,以英語作為源語言,數據來源于CoNLL2003公開數據集[42];以西班牙語和荷蘭語為目標語言,數據來源于CoNLL2002公開數據集[43]。3種語言的訓練集、驗證集和測試集已劃分好。例如,英語的訓練集、驗證集和測試集中分別包含單詞數為204 567個、51 587個和46 666個。具體統計如表1所示。
3種語言均使用BIO標注法,其中,B表示實體詞的開始,I表示實體詞的內部,O表示實體詞的外部(不是實體詞),在B和I的后接實體類型以區分不同的實體。CoNLL2003和CoNLL2002數據集包含4種類型的實體,分別為人名(Person)、地名(Location)、機構名(Organization)和其他實體(Miscellaneous)。例如:
3.2? 實驗及參數設置
為探究本文提出的研究問題,在跨語言命名實體識別的任務中,將比較標簽映射方式、命名實體識別方法、遷移數據量的大小、雙語詞典的大小以及求最近鄰的方法5個因素對跨語言命名實體識別系統的影響,相關實驗設置如表3所示。
在命名實體識別算法中,從向量維度、訓練設置和超參數3個方面設置相關參數,遵循以下原則:一是可比性,即不同模型的參數設置最大可能具有一致性,如保持相同的詞向量維度和字符向量維度等;二是兼顧可用性和效率性,參照相關研究工作的參數設置[44],使得模型有較好的實體抽取效果,并盡可能地減少存儲空間的開銷和運行時間的耗費。具體參數設置如表4所示。
3.3? 基線方法
本文提出融合自學習詞典翻譯和GRU-LSTM-CRF網絡的實體抽取方法,為了檢驗該方法的有效性,假定英語為高資源語言,西班牙語和荷蘭語為低資源語言(完全沒有實體標注語料)。跨語言標簽映射模塊中,以簡單詞典翻譯、詞典擴展翻譯為基線方法;命名實體識別模塊中,以CRF、CNN-LSTM-CRF、LSTM-LSTM-CRF為基線方法。具體來說,將所提出的方法與11種基線方法進行比對,如表5所示。
3.4? 本文方法與基線方法的對比實驗
在本文方法與基線方法的對比中,以英語為源語言、西班牙語和荷蘭語為目標語言,探究跨語言實體抽?。–LEE)框架的有效性。具體而言,在跨語言標簽映射模塊,通過雙語詞典將英語的CoNLL2003訓練集遷移給西班牙語和荷蘭語,得到目標語言的訓練集。在命名實體識別模塊,用遷移的目標語言訓練集訓練命名實體識別模型,并用西班牙語和荷蘭語的CoNLL2002驗證集和測試集對模型進行驗證和評估。統計出實驗結果的準確率(P)、召回率(R)和F1值,具體實驗結果如表6和表7所示。
由表6可以看出,在“英語-西班牙語”數據集上,本文所提出的“自學習詞典翻譯+GRU-LSTM-CRF網絡”的實體抽取效果優于其他基線方法,F1值達到0.6419。具體地,比較不同標簽映射方式對實驗結果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學習詞典翻譯效果最好,F1值為0.6419;其次為簡單詞典翻譯,F1值為0.6369;詞典擴展翻譯排在最后,F1值為0.6299。
比較不同命名實體識別模型對實驗結果的影響,在不同的標簽映射方法中,CRF模型實體抽取的效果均遠遠低于基于深度學習的實體抽取方法;當標簽映射方式為簡單詞典翻譯時,GRU-LSTM-CRF取得了最優結果,F1值為0.6369,比CNN-LSTM-CRF和LSTM-LSTM-CRF的F1值分別高0.028和0.027;當標簽映射方式為詞典擴展翻譯時,GRU-LSTM-CRF取得了最優結果(0.6299),CNN-LSTM-CRF次之(0.6226),LSTM-LSTM-CRF結果最差(0.5930);當標簽映射方式為自學習詞典翻譯時,同樣是GRU-LSTM-CRF的方法效果最好,比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了4個百分點。
由表7可以看出,在“英語-荷蘭語”數據集上,本文所提出的“自學習詞典翻譯+GRU-LSTM-CRF網絡”的實體抽取效果同樣優于其他基線方法,F1值達到0.6557。具體地,比較不同標簽映射方式對實驗結果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學習詞典翻譯取得最好的效果,F1值為0.6557,比簡單詞典翻譯和詞典擴展翻譯分別高0.017和0.011。
比較不同命名實體識別模型對實驗結果的影響,在不同的標簽映射方法中,CRF模型實體抽取的效果均遠遠低于基于深度學習的實體抽取方法;當標簽映射方式為簡單詞典翻譯時,CNN-LSTM-CRF取得了最優結果,F1值為0.6484,LSTM-LSTM-CRF次之(0.6420),GRU-LSTM-CRF最差(0.6388);當標簽映射方式為詞典擴展翻譯時,GRU-LSTM-CRF取得了最優結果(0.6451),比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了3個百分點。當標簽映射方式為自學習詞典翻譯時,CNN-LSTM-CRF、LSTM-LSTM-CRF和GRU-LSTM-CRF 3種實體抽取方法的F1分別為0.6549、0.6481和0.6557,實驗效果上整體相差不大。
綜合表6和表7來看,自學習詞典翻譯在跨語言標簽映射中具有一定優勢。作為一種無監督的標簽映射方法,自學習詞典翻譯方法不需要雙語種子詞典,而是根據源語言和目標語言的分布形態生成雙語詞典。當目標語言完全沒有標注語料,且源語言和目標語言之間沒有雙語詞典時,可通過該方法得到比簡單詞典翻譯和詞典擴展翻譯更好的實驗結果。此外,CRF統計模型的實體抽取效果遠遠低于基于深度學習的實體抽取模型;GRU-LSTM-CRF模型與其余兩種深度學習模型相比較,在大多數情況下GRU字符編碼器表現更好,可能是因為GRU的結構比LSTM更加簡單,GRU能更快地趨于收斂,并且所需的Epoch次數更少,這使得迭代次數一致的情況下,GRU取得了更好的結果。
從實驗結果和實際情況的比照來看,本文提出的“自學習詞典翻譯+GRU-LSTM-CRF”方法在不同的評價指標下均取得較好的結果,在多數情況下能夠較好地識別出實體,但仍存在少數與實際情況不一致的結果。例如,在西班牙語句子“Sao Paulo(Brasil),23 May(EFECOM)”中,單詞“Sao Paulo”的中文含義為“圣保羅”,被人工標注為地名,而實驗結果將其判定為人名。通過對原始語料進行比對,發現在英語訓練集中,單詞“Sao Paulo”的實體標簽存在地名和人名兩種情況,由于待識別語句長度較短(上下文信息并不充分),可能導致分類錯誤。再如,在荷蘭語句子“In Viangros Kan Het Vlees,in Welke Fase Van Het Productieproces Het Zich Ook Bevindt,Perfect Getraceerd Worden Aan De Hand Van Een Etiket”(譯為“在Viangros,肉產品在生產過程任何階段都可以通過其標簽被完美地追蹤”)中,單詞“Viangros”被人工標注為組織機構名,而實驗結果將其誤判為地名。通過對原始語料進行比對,發現通過數據遷移得到的荷蘭語訓練集中介詞“in”的上下文中存在較多地名,可能導致訓練出的模型將單詞Viangros誤判為地名。
3.5? 擴展實驗
擴展實驗部分,本文探究從源語言遷移不同大小的訓練集給目標語言、雙語詞典大小以及計算最近鄰的方法對跨語言的命名實體識別模型的影響。
3.5.1? 源語言訓練集大小對跨語言實體抽取效果的影響
標簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,雙語詞典的大小為8 000,比較遷移不同大小的訓練集對命名實體識別的影響。實驗結果如表8和表9所示。
從表8和表9可以看出,總體而言,在目標語言為西班牙語或荷蘭語時,隨著遷移訓練集數量的不斷增加,F1值逐漸增加。具體而言。在源語言數據集規模由3 000增加到150 000時,F1值增加較為迅速;在達到150 000后,F1值增加開始放緩;
3.5.2? 雙語詞典大小對跨語言實體抽取效果的影響
從源語言遷移的訓練集大小為180 000,標簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,比較不同雙語詞典大小對西班牙語命名實體識別的影響。其中雙語詞典大小為0時,實際是直接進行模型的遷移,用英語訓練集訓練得到模型后,并在西班牙語和荷蘭語的驗證集和測試集上進行驗證和評估。具體結果如表10和表11所示。
由表10和表11可知,在西班牙語數據集上,當雙語詞典大小為8 000時,模型結果最優,F1值為0.6235;在荷蘭語數據集上,雙語詞典大小為10 000時結果最好,F1值為0.6484??傮w上看,隨著雙語詞典大小的增加,F1值也不斷增加。
在一定范圍內,從源語言遷移到目標語言的標簽數據越大,雙語詞典越大,包含的跨語言的知識也越多,跨語言的命名實體識別系統的性能也就越好。
3.5.3? 相似度計算方法對跨語言實體抽取效果的影響
詞典擴展翻譯和自學習詞典翻譯在生成雙語詞典時,都利用相似度來計算源語言和目標語言的對應翻譯。本文提出兩種相似度計算方法,分別為余弦相似度和相似性局部縮放(CSLS),比較這兩種標簽映射方式中不同計算最近鄰的方法對西班牙語和荷蘭語命名實體識別的影響。實驗結果如表12和表13所示。
由表12和表13可知,在西班牙語和荷蘭語數據集上,當遷移的訓練集大小為180 000,命名實體識別的模型CNN-LSTM-CRF時,詞典擴展翻譯和自學習詞典翻譯這兩種標簽映射方式利用相似性局部縮放(CSLS)計算源語言和目標語言的相似性,效果均優于余弦相似度。CSLS可以計算不同語言間的單詞相似性,并且考慮了源語言和目標語言的Hubness程度懲罰。比如當某個單詞與另一種語言中的多個單詞相似時,該單詞的CSLS值會較小,可以有效抑制某些單詞是很多單詞的最近鄰的情況。
3.6? 討? 論
根據本文方法與基線方法的對比實驗和擴展實驗的結果,我們對2.1中所提出的研究問題進行探討。針對問題1“在跨語言實體抽取任務中,如何有效地將資源豐富語言中的標簽遷移到低資源語言中?在有監督學習和無監督學習中,哪一種遷移方法更為有效?”,從不同標簽映射方式對實驗結果的影響可以看出,在跨語言實體抽取任務中,使用不同的標簽映射方式會在很大程度上影響模型效果。當標簽映射方式為簡單詞典翻譯,雙語詞典大小為10 000,通過雙語詞典將源語言的標簽數據遷移給目標語言。當標簽映射方式為詞典擴展翻譯時,首先雙語種子詞典的大小設為2 000,通過正交性映射和相似性局部縮放(CSLS),詞典擴展到100 000個單詞對,將源語言的訓練集遷移給為目標語言。由于簡單詞典翻譯和詞典擴展翻譯均為有監督的標簽映射方式,其標簽映射的效果很大程度上依賴于雙語詞典的質量和大小。而自學習詞典翻譯法是一種完全無監督的標簽映射方式,利用源語言和目標語言的相似詞向量之間具有相似的分布特征,通過不斷地迭代訓練生成包括100 000個單詞對的雙語詞典,將源語言的訓練集遷移給為目標語言。實驗表明,無監督的自學習標簽映射方法取得最好的效果。
針對問題2“在跨語言標簽遷移的基礎上,如何將深度學習正確地應用于命名實體識別模型?在卷積神經網絡模型(CNN)、長短時記憶網絡模型(LSTM)和門控循環單元(GRU)等神經網絡模型中,哪一種更為有效?”,從不同命名實體識別模型對實驗結果的影響可以看出,采用不同的深度學習命名實體識別方法,對實驗結果產生不同的影響。分別采用CNN、LSTM和GRU 3種神經網絡模型對字符向量進行編碼,其中GRU神經網絡的效果最好。雖然GRU神經網絡的結構比較簡單,但仍然能夠取得相對較好的結果,表明在跨語言命名實體識別系統中,GRU-LSTM-CRF模型足以捕獲目標語言的字符向量和詞向量信息。
針對問題3“在跨語言實體抽取任務中,如何合理地確定源語言訓練數據的規模?源語言訓練數據的規模是否越大越好?”,從不同大小的訓練集對實驗結果的影響可以看出,在西班牙語和荷蘭語數據集上,當固定雙語詞典大小不變,遷移的訓練集大小在30 000~180 000之間,隨著遷移的訓練集增大,跨語言命名實體識別的效果呈現上升趨勢。但是當遷移的訓練集大小為210 000時,F1值反而下降。由于遷移的訓練集過大,但雙語詞典大小有限,得到的目標語言訓練集中的未登錄詞較多,從而影響跨語言命名實體識別系統的性能。因此,有必要合理地平衡雙語詞典大小和遷移標簽數據二者的關系,使得跨語言命名實體識別系統達到最好的效果。
針對問題4“如何合理地確定源語言和目標語言雙語詞典的規模?雙語詞典的規模是否越大越好?”,從不同雙語詞典大小對實驗結果的影響可以看出,隨著雙語詞典的詞數量增大,跨語言命名實體識別系統的性能越好。由于雙語詞典越大,包含源語言和目標語言間信息越多,將源語言的標簽數據遷移給目標語言的更加準確。但是,隨著雙語詞典的不斷增加,跨語言命名實體識別的性能增長緩慢,故規模小但高度對齊的雙語詞典可有效提高跨語言命名實體識別的效果。此外,當雙語詞典的大小為0時,是將源語言訓練出的模型直接遷移到目標語言,這種模型使用直接遷移的方法效果較差。
針對問題5“在跨語言實體抽取任務中,如何選擇合理的相似度方法來計算源語言和目標語言的對應翻譯?”,從不同計算最近鄰的方法對實驗結果的影響可以看出,在西班牙語和荷蘭語數據集上,詞典擴展翻譯和自學習詞典翻譯兩種標簽映射方式均利用相似性生成雙語詞典,因此在擴展實驗部分,在詞典擴展翻譯和自學習詞典翻譯中比較余弦相似度和CSLS兩種相似度計算方法對跨語言命名實體識別系統的影響。由于CSLS考慮了源語言和目標語言單詞的Hubness程度懲罰,生成源語言和目標語言間的雙語詞典對齊效果更好。
總體而言,與其他研究相比,本文所提出的框架具有以下優勢:①相比于機器翻譯模型,本文較好地解決了由于詞匯語序被調整以及源語言詞匯被拆分或合并等所帶來的標簽映射錯誤問題;②相比于基于平行語料的方法,本文方法節省了構建平行語料所消耗的人力與時間;③相比于其他基于雙語詞典的方法,本文提出無監督雙語詞典構建模型,能夠更加便利地應用于無標注資源的小語種語言實體抽取。從理論上來看,當目標語言完全沒有標注語料時,根據雙語詞典資源稀缺程度的不同,本文提出3種不同的標簽映射方法。其中,針對一般低資源語言,可采用簡單詞典翻譯和詞典擴展翻譯;對于完全無雙語詞典的語言,可采用自學習詞典翻譯。從實踐上來看,我們通過實證探究遷移的數據量、雙語詞典規模和相似度計算方式在跨語言實體抽取任務中的影響,對于跨語言實體抽取實踐具有借鑒作用。研究結果對于改進跨語言情境下的知識獲取模型、促進知識獲取研究等方面具有重要意義。
4? 結? 語
為了提升跨語言情境下低資源語言命名實體識別模型的性能,本文在跨語言實體抽取(CLEE)框架下,首先利用遷移學習的思想,將源語言的標簽數據遷移給目標語言,然后利用深度學習的思想,建立目標語言的命名實體識別模型。本文將標簽映射模塊和命名實體識別模塊的不同方法進行組合,并在西班牙語和荷蘭語數據集上進行實證研究,論證了結合自學習詞典翻譯和GRU-LSTM-CRF網絡的無監督跨語言實體抽取效果最好。實驗結果表明,通過利用跨語言知識在源語言和目標語言之間建立橋梁,能顯著提升低資源語言實體抽取的效果。
受制于實驗條件,本文僅探究了與跨語言命名實體識別相關的5個問題。在后續研究中,將繼續探究以下問題:①如何進一步優化研究方法,持續改進現有命名實體識別模型,使用BERT模型或者在模型中加入自注意力機制來提高跨語言命名實體識別的性能;②進一步探究HowNet義原詞典、同義詞詞典以及反義詞詞典等語義工具對于跨語言命名實體識別效果的提升。
參考文獻
[1]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現代圖書情報技術,2010,(6):42-47.
[2]禤鎮宇,蔣盛益,張禮明,等.基于多特征Bi-LSTM-CRF的影評人名識別研究[J].中文信息學報,2019,33(3):94-101.
[3]魏勇,李鴻飛,胡丹露,等.一種基于復合特征的中文地名識別方法[J].武漢大學學報:信息科學版,2018,43(1):17-23.
[4]關曉炟,呂學強,李卓,等.用戶查詢日志中的中文機構名識別[J].現代圖書情報技術,2014,(1):72-78.
[5]余麗,錢力,付常雷,等.基于深度學習的文本中細粒度知識元抽取方法研究[J].數據分析與知識發現,2019,3(1):38-45.
[6]劉曉娟,劉群,余夢霞.基于關聯數據的命名實體識別[J].情報學報,2019,38(2):191-200.
[7]馬建霞,袁慧,蔣翔.基于Bi-LSTM+CRF的科學文獻中生態治理技術相關命名實體抽取研究[J].數據分析與知識發現,2020,4(Z1):78-88.
[8]張琴,郭紅梅,張智雄.融合詞嵌入表示特征的實體關系抽取方法研究[J].數據分析與知識發現,2017,1(9):8-15.
[9]鄂海紅,張文靜,肖思琪,等.深度學習實體關系抽取研究綜述[J].軟件學報,2019,30(6):1793-1818.
[10]丁晟春,侯琳琳,王穎.基于電商數據的產品知識圖譜構建研究[J].數據分析與知識發現,2019,3(3):45-56.
[11]安波,韓先培,孫樂.融合知識表示的知識庫問答系統[J].中國科學:信息科學,2018,48(11):1521-1532.
[12]范馨月,崔雷.基于文本挖掘的藥物副作用知識發現研究[J].數據分析與知識發現,2018,2(3):79-86.
[13]Riaz K.Rule-based Named Entity Recognition in Urdu[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2010:126-135.
[14]Collins M,Singer Y.Unsupervised Models for Named Entity Classification[C]//Proceedings of Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.Stroudsburg:ACL,1999:100-110.
[15]周昆.基于規則的命名實體識別研究[D].合肥:合肥工業大學,2010.
[16]馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機場的領域術語識別方法[J].計算機應用,2016,36(11):3146-3151.
[17]李想,魏小紅,賈璐,等.基于條件隨機場的農作物病蟲害及農藥命名實體識別[J].農業機械學報,2017,48(S1):178-185.
[18]Huang Z,Xu W,Yu K,et al.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].https://arxiv.org/abs/1508.01991,2020-03-16.
[19]Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures for Named Entity Recognition[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2016:260-270.
[20]Zhang Y,Yang J.Chinese NER Using Lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2018:1554-1564.
[21]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機科學,2019,46(S2):138-142.
[22]唐慧慧,王昊,張紫玄,等.基于漢字標注的中文歷史事件名抽取研究[J].數據分析與知識發現,2018,2(7):89-100.
[23]李綱,潘榮清,毛進,等.整合BiLSTM-CRF網絡和詞典資源的中文電子病歷實體識別[J].現代情報,2020,40(4):3-12,58.
[24]丁晟春,方振,王楠.基于Bi-LSTM-CRF的商業領域命名實體識別[J].現代情報,2020,40(3):103-110.
[25]陳美杉,夏晨曦.肝癌患者在線提問的命名實體識別研究:一種基于遷移學習的方法[J].數據分析與知識發現,2019,3(12):61-69.
[26]Ni J,Dinu G,Florian R,et al.Weakly Supervised Cross-lingual Named Entity Recognition via Effective Annotation and Representation Projection[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1470-1480.
[27]徐廣義,嚴馨,余正濤,等.融合跨語言特征的柬埔寨語命名實體識別方法[J].云南大學學報:自然科學版,2018,40(5):865-871.