武照淵,余正濤,黃于欣
(1.昆明理工大學 信息工程與自動化學院,昆明 650500;2.云南省人工智能重點實驗室,昆明 650500)
跨語言詞嵌入將不同語言具有相同含義的詞映射至同一空間中對齊,是跨語言文本分類[1-3]、跨語言情感分析[4-5]、機器翻譯[6-8]、跨語言實體鏈接[9-10]等任務的基礎,具有重要的應用價值。
漢越跨語言詞嵌入是面向低資源語言的雙語詞嵌入任務,目前低資源跨語言詞嵌入方法主要包括無監督、半監督和有監督3 類。無監督方法利用不同語言單語嵌入空間的相似性,無需標注數據即可學習映射矩陣實現對齊。文獻[11]通過初始化一個映射矩陣作為生成器,使映射后的源語言詞嵌入更加接近目標語言詞嵌入以欺騙鑒別器,利用對抗思想迭代優化映射矩陣。文獻[12]將兩種語言的詞嵌入空間視作兩個分布,通過最小化分布間的沃瑟斯坦距離實現跨語言詞嵌入。文獻[13]則是將沃瑟斯坦距離同對抗訓練相結合,使生成器構建出的源語言詞嵌入更加接近目標語言詞嵌入,以提升對抗方法在低頻詞上的性能。半監督方法相比無監督方法引入了少量詞對齊信息用于提升映射的準確性,主要包括兩種策略:一種是使用小規模平行詞對作為監督信號來解決映射矩陣在迭代訓練過程中初始化階段的不足;另一種則是將無監督模型學習到的嵌入空間相似性同有監督模型相結合來提升對齊效果。文獻[14]使用少量的雙語詞對學習初始映射矩陣,并將映射得到的翻譯詞對作為擴展數據迭代學習新的映射矩陣。文獻[15]發現統計翻譯模型僅憑少量平行語料即可實現不同語言高頻詞間的準確對齊,而映射模型則能通過大規模的單語語料實現低頻詞間的對齊,因此提出一種融合統計與映射方法的跨語言詞嵌入模型。文獻[16]發現無監督模型更傾向于學習大范圍的空間對齊,而有監督模型更善于學習詞對間的精確對齊,基于這一思想提出將無監督損失同有監督損失進行聯合優化來提升映射效果。目前已有的半監督與無監督方法在相近語言上取得了不錯的效果,例如英語-西班牙語由于詞根、構詞方式上具有相似性,兩者詞嵌入空間包含大量的共現詞與同構詞(如“possible”與“posible”),僅憑少量標注數據就能實現較好的對齊。然而,詞源學上差異較大的語言通常單語嵌入空間之間的相似性也較低[17],對于漢越這種差異較大的語言,無監督和半監督的方法對齊效果不佳[18]。當前,通過雙語詞典學習映射矩陣的有監督方法可以有效提升遠距離語言上的對齊效果,如文獻[19]提出使用雙語詞典作為監督信號,通過最小化詞典詞對間的歐氏距離平方和來學習映射矩陣,在英語-捷克語上取得了不錯的效果。一些后續研究則在此基礎上通過引入歸一化處理[20]和為映射矩陣添加正交約束[21]來進一步提升映射的準確性。為緩解遠距離語言間語法差異帶來的影響,文獻[22]提出分別為兩種語言學習單獨的映射矩陣,將不同語言詞嵌入映射至一個同語言無關的共享空間中來最大化其相似度。文獻[23]通過引入語言學中語言家族樹的概念,利用層次化映射將文獻[22]中的方法擴展至多語言任務上。然而,傳統有監督方法僅使用詞典中的詞對齊信息學習映射矩陣,漢越作為低資源語言對其雙語詞典在規模及質量上同資源富集型語言(如:漢語-英語)仍有較大差距,導致學習到的映射矩陣在詞典外的非標注詞上對齊效果不佳。
本文提出一種融合詞簇對齊約束的漢越跨語言詞嵌入模型,用于改善低資源場景下漢越雙語空間的對齊效果。使用不同類型的關聯關系充分挖掘雙語詞典中蘊含的詞簇對齊信息,通過構建詞與詞簇兩種粒度的聯合損失將其融入到映射矩陣的訓練中,以提升映射矩陣在非標注詞上的泛化性,在此基礎上結合漢越雙語詞典的特點設置了近義詞、同類詞和同主題詞3 種類型的對齊詞簇,并通過實驗研究不同類型詞簇及其組合對模型效果的提升。
基于雙語詞典學習跨語言詞嵌入的關鍵步驟是學習單語嵌入空間之間的映射關系[24],傳統有監督模型通常使用雙語詞典中的詞對齊信息學習映射矩陣,對齊兩種語言的嵌入空間,如圖1(a)所示。但漢越作為低資源語言對缺乏大規模的雙語詞典,導致學習到的映射矩陣Ww在雙語詞典外的非標注詞上泛化性較弱,無法準確對齊雙語空間。例如圖中的非標注詞“茉莉”,經過映射后仍與對應的越南語翻譯“hoa_nhài”距離較遠,對齊效果欠佳。實際上,詞典中存在一些近義詞與同類詞,如圖1(b)所示,“缺少”、“稀缺”、“缺失”和“蘭花”、“花朵”、“玫瑰”這種具有相近含義的詞在漢語詞嵌入空間中的距離比較接近,可以構建為詞簇,且詞典中相應的翻譯“thiu”、“khan_him”、“thiu_st”和“hoa_lan”、“hoa”、“hoa_hng”在越南語詞嵌入空間中也具有鄰近的分布。

圖1 融合詞簇約束前后的漢越詞嵌入空間對齊效果Fig.1 Alignment effect of Chinese and Vietnamese word embedding space before and after with word cluster constraints
文獻[25]提出來自不同語言具有相近含義的詞簇在映射后的距離也應接近。因此,本文提出一種融合詞簇對齊約束的漢越跨語言詞嵌入方法,通過使用詞簇對齊數據讓映射矩陣Ww+cls學習到詞簇粒度的映射關系。例如詞簇對齊信息“蘭花,花朵,玫瑰| hoa_lan,hoa,hoa_hng”可以使映射矩陣學習到具有“花朵”含義的漢越單語詞嵌入之間的一些共性特征及映射關系(如“花”與“hoa”),使模型在映射過程中盡可能精準地識別和保留這些特征,并通過映射拉近漢越相近語義詞在共享空間中的距離。這種共性特征間的映射關系還可以遷移到其他未標注詞簇上,通過局部詞簇空間的準確對齊提升模型在非標注詞上的泛化性,進一步改善低資源環境下漢越整體嵌入空間的對齊效果。例如圖1(b)中非標注詞“茉莉”與“hoa_nhài”經過映射矩陣Ww+cls后,更接近具有“花朵”含義的詞簇,詞簇空間準確對齊的同時也使兩詞間的距離更近,更容易實現對齊。
實現漢越跨語言詞嵌入的首要步驟是獲取漢越單語詞嵌入。模型使用漢語與越南語的單語訓練語料作為輸入,通過Word2Vec 模型[26]訓練獲取漢語與越南語的單語詞嵌入空間X∈Rn×d,Y∈Rm×d,其中,n為訓練得到的漢語詞嵌入個數,m為越南語詞嵌入個數,d代表詞嵌入維度。然后通過漢越雙語詞典,分別得到詞典對應的漢語與越南語詞嵌入矩陣X′,Y′∈Rv×d,其中,v為詞典大小,與分別代表雙語詞典第i條詞對所對應的漢、越單語詞嵌入。
漢越雙語詞典中存在許多近義詞、同類詞和同主題詞可以構建為詞簇,近義詞是指具有相近含義的詞,例如“缺少”、“稀缺”、“缺失”;同類詞代表具有某種聯系的詞,例如“蘭花”、“花朵”、“玫瑰”;同主題詞指圍繞某一主題概念的詞,例如表示數字的“零”、“一”、“二”,表示顏色為“紅色”、“藍色”等。模型基于3 種不同類型的關聯關系充分挖掘雙語詞典中的詞簇對齊信息,數據構建詳見2.3 節。為了更好地將詞簇對齊信息融入映射矩陣的訓練過程中,模型通過平均操作將詞簇對齊進一步轉換為簇心對齊。設現有詞簇對齊信息為代表漢語詞簇中的詞嵌入個數,t代表越南語詞簇中的詞嵌入個數,所對應的簇心嵌入與的構建如式(1)、式(2)所示:

這種簇心嵌入與詞典中的詞嵌入維度相同,因此詞對齊數據同詞簇對齊數據可以直接融合為訓練數據D3,應用到映射矩陣的訓練中。CX,CY∈Rl×d分別代表詞簇對齊數據中漢語與越南語的簇心嵌入矩陣,l代表詞簇對齊數據的規模。分別代表訓練數據D3中融合詞對齊與詞簇對齊數據后的漢語與越南語嵌入矩陣,其中
受語法、構詞上的差異及單語訓練語料主題不一致等因素的影響,漢語與越南語的詞嵌入空間并不同構,而傳統跨語言詞嵌入方法通常采用從源語言到目標語言的單向映射實現雙語空間對齊,并沒有考慮這種差異性帶來的影響,導致最終獲取到的漢越跨語言詞嵌入效果不佳。因此,在映射矩陣的訓練步驟中,模型的目標為漢語與越南語分別學習兩個單獨的映射矩陣WX與WY,從而將兩種語言的單語詞嵌入映射至一個同語言無關的共享嵌入空間中,以減小漢越語言差異性對模型效果的影響。同時,為兩個映射矩陣添加正交約束WTW=Ι,以保證映射后的單語詞嵌入性能不變。依據訓練數據D3中的對齊關系,詞典中對應的漢語與越南語詞嵌入經過映射后應盡可能相似。同理,詞簇對齊數據中的漢語與越南語簇心嵌入經過映射后也應盡可能相似。這一問題可以通過最小化它們之間歐氏距離的平方和求解,模型在詞對齊與詞簇對齊上的聯合損失函數如式(3)所示:

不同于僅使用詞對齊約束構建映射損失的傳統有監督方法,融合詞簇對齊約束后的聯合損失函數可以使模型進一步學習到漢越相近詞間的共性特征及其映射關系,使不同語言具有相近含義的詞嵌入在映射后的距離更近。這種距離縮減可以使后期雙語詞典歸納任務中檢索到的越南語候選詞同漢語檢索詞的語義相關性更強,從而提升模型在非標注詞上的泛化能力,以彌補低資源環境下詞粒度對齊關系學習不充分的問題。因為兩個損失中的映射矩陣是共享的,所以通過訓練數據D3可以將損失函數進一步簡化為:

當WX與WY滿足正交約束時,最小化歐氏距離的平方和可以等價于最大化點積,如式(5)所示:

其中:Tr(*)為跡運算,代表矩陣主對角線上所有元素之和,該問題的最優正交解為WX=U,WY=V,其中的SVD 解。
基于1.2 節中獲得的漢語與越南語的映射矩陣WX與WY,模型通過跨語言映射將兩種語言的單語詞嵌入映射至同一空間中對齊。跨語言映射步驟主要基于文獻[27]提出的跨語言映射框架VecMap 實現,分為歸一化、白化、正交映射、去白化、重賦權重5 個步驟。框架使用漢語與越南語的單語詞嵌入空間X、Y作為輸入,最終得到漢語與越南語的共享詞嵌入空間,使具有相同含義的漢越單語詞嵌入在空間中彼此接近。
雙語詞典歸納(Bilingual Lexicon Induction,BLI)是評測跨語言詞嵌入對齊準確性的通用任務,對于詞典外任何一個未經標注的漢語或越南語單詞,均可根據空間余弦相似度來查找該詞在共享空間中對應的翻譯詞。設與分別為漢語與越南語單詞分別為兩個單詞在共享空間中對應的漢語與越南語詞嵌入,兩詞余弦相似度的計算過程如式(6)所示:

例如在漢語到越南語的正向詞典歸納任務中,以漢語單詞“耳朵”作為檢索詞,經過計算選取余弦相似度最高的越南語單詞“tai”作為候選詞,構建漢越對齊詞對“耳朵,tai”。通過詞典歸納任務,可以為所有漢越單語詞嵌入查找對應的翻譯詞,實現漢越跨語言詞嵌入。
基于以上思想,本文提出融合詞簇約束的漢越跨語言詞嵌入模型,由漢越單語詞嵌入訓練、詞簇對齊數據融合、映射矩陣訓練和跨語言映射四部分組成。模型首先使用獨立的單語語料訓練獲取漢越單語詞嵌入,然后基于雙語詞典中的對齊詞對構建詞簇對齊數據融入映射矩陣的訓練過程中,最后通過跨語言映射獲取漢越共享詞嵌入空間,模型架構如圖2 所示。

圖2 融合詞簇約束的漢越跨語言詞嵌入模型Fig.2 Chinese-Vietnamese cross-lingual word embedding model with word cluster constraints
漢語與越南語均使用開源新聞數據集作為單語訓練語料,漢語的單語語料來源于brightmart 新聞數據集,使用jieba 工具進行分詞。越南語單語語料來源于binhvq 新聞數據集,使用Vncorenlp 工具進行分詞。
漢語與越南語的單語詞嵌入訓練采用相同的參數設置,均使用Word2Vec 模型中的CBOW(Continuous Bag-Of-Words)模型進行訓練,詞嵌入維度為300 維,詞窗大小設置為10,最低詞頻為50,迭代次數為5 輪。經過訓練,共得到32萬漢語詞嵌入和15萬越南語詞嵌入。
有監督跨語言詞嵌入模型的效果很大程度上依賴于雙語詞典的質量,本文使用同主題詞對和高頻詞對兩種數據構建高質量的漢越雙語詞典。詞典中的同主題詞對來源于多語公開數據集CLDR(Unicode Common Locale Data Repository),其中包含月份、數字、顏色等常用主題詞的對齊詞對,如表1所示。這些詞屬于日常生活中的常用詞,具有較高的詞頻和豐富的語義資源。

表1 同主題對齊詞對Table 1 Aligned word pairs with the same subject
傳統雙語詞典依據源語言訓練語料的詞頻構建,該策略認為高頻詞具有更高的權重和更豐富的語義特征。但漢語不同于其他語言,詞頻最高的詞往往是一些助詞、介詞或單個文字,例如“的”、“在”、“了”等。這些詞并不具備具體的含義,很難使映射矩陣捕捉到較為精確的映射關系。針對這一問題,本文提出一種面向漢越場景的高頻詞對構建流程。首先利用網上開源資源構建停用詞表,剔除漢語高頻詞中的助詞、介詞和語氣詞,然后對剩余高頻詞進行人工篩選,去除特有名詞及噪聲詞,最后使用Lingea 在線詞典人工標注相應的越南語翻譯,并剔除不包含在漢越單語詞嵌入文件中的OOV(Out Of Vocabulary)詞對。本文一共構建了5 500 對高質量的漢越雙語詞對,并從中隨機抽取500 對作為測試詞典Test,剩余5 000 對作為漢越雙語詞典Seed。
為使映射矩陣能夠更好地學習到相近詞間的共性特征及映射關系,詞典中的詞簇對齊數據主要利用近義詞和同類詞兩種關系進行構建,構建流程如圖3 中1)、2)所示。首先查找漢越雙語詞典中越南語翻譯相同的詞對,這些詞對通常具有極為相近的含義,可以構建為一個初始的詞簇對齊。然后使用在線詞典和開源詞庫Babelnet 查找初始詞簇在詞典中的近義詞對和同類詞對用于擴充詞簇對齊。除近義詞簇和同類詞簇外,詞典中來源于多語公開數據集CLDR 的同主題詞對作為一種封閉詞類,本身具有一定的弱相關性,可以構建為大范圍的隱性對齊詞簇,如圖3 中3)所示。3 種不同類型的詞簇對齊數據共同構成詞簇對齊詞典Seed_Cls,各詞典規模如表2 所示。

圖3 對齊詞簇構建流程Fig.3 Alignment word clusters construction process

表2 詞典規模Table 2 The scale of dictionaries
為便于同基線模型進行對比,本文在單語詞嵌入上采用相同的維度設置,模型中的漢語與越南語詞嵌入維度均為300 維。由于簇心嵌入是經單語詞嵌入進行平均操作獲得,因此其維度也為300 維。此外,訓練得到的映射矩陣WX與WY的大小為300×300 維,同詞嵌入維度設置保持一致。VecMap 跨語言映射框架中的歸一化步驟使用長度歸一化(unit)和中心化(center)作為預處理,執行順序為[unit,center,unit]。框架其余步驟中的參數設置均同文獻[27]保持一致,白化步驟中模型使用ZCA 白化;在重賦權重步驟中,漢語與越南語的權重值分別設置為0.5 和0.5。
為更好地與現有工作進行比較,本文采用同mikolov、Artetxe、Conneau 等在詞典歸納任務上相同的評價指標,以詞匯對齊的準確率P@N(選取N個候選詞時的對齊準確率)作為衡量模型效果的標準,具體計算過程如式(7)所示:

其中:T代表測試詞典的規模;C(wi)代表模型依據余弦相似度為單詞wi檢索到的N個候選詞集合,若集合中包含正確的翻譯詞則取1,否則取0。
為驗證融合詞簇對齊方法的有效性,模型同3 個有監督模型和1 個無監督模型進行了對比,基線模型設置如下:
1)Multi_w2v 模型。文獻[19]基于線性回歸思想提出的跨語言Word2Vec 模型,使用隨機梯度下降最小化雙語詞典詞對間的均方誤差(Mean Squared Error,MSE)來學習映射矩陣。
2)Orthogonal 模型。文獻[21]提出的正交映射模型引入了長度歸一化與中心化處理,并為映射矩陣添加正交約束。
3)VecMap 模型。文獻[27]提出的雙向正交映射模型分別為源語言和目標語言訓練單獨的正交映射矩陣,并將兩種語言的詞嵌入映射至同一共享空間。
4)Muse 模型。文獻[11]基于無監督思想,利用單語嵌入空間之間的相似性,使用對抗的方式學習映射矩陣。
所有模型使用相同數據集進行訓練與測試,參數設置同各文獻保持一致,并在漢語到越南語的正向詞典歸納任務上進行了對比,實驗結果如表3 所示。

表3 漢越正向詞典歸納任務實驗結果Table 3 Experimental results of the Chinese-Vietnamese forward lexicon induction tasks %
分析表3 的實驗數據可知,融合詞簇對齊約束的方法可以有效提升漢越低資源場景下跨語言詞嵌入的對齊準確率,模型效果明顯優于其他傳統方法。由于漢越語言差異性大,詞嵌入空間相似度低,Muse 無監督模型在實驗中的表現明顯弱于其他有監督基線模型。而在有監督模型的對比中,基于線性回歸方法實現的Multi_w2v 模型在P@1 和P@5 任務上的效果優于單向正交映射模型Orthogonal,但表現不如基于雙向正交映射的VecMap 模型。本文模型ClsMap 相較于表現最好的基線模型,在P@1 和P@5 任務上的對齊準確率提升了2.2 個百分點。實驗結果充分證明了在訓練過程中融合詞簇對齊約束的方法可以有效提升漢越低資源場景下映射矩陣在非標注詞上的泛化性,提高了漢越雙語空間的對齊準確率。
為驗證融合詞簇對齊的方法在反向詞典歸納任務上的表現,本文將訓練集與測試集中的語言進行了置換,以越南語作為源語言,漢語作為目標語言進行了測試,實驗結果如表4 所示。

表4 漢越反向詞典歸納任務實驗結果Table 4 Experimental results of the Chinese-Vietnamese reverse lexicon induction tasks %
分析表4 可知,在以越南語作為檢索詞的反向詞典歸納任務中,本文方法在P@5 任務上的對齊準確率達到了54.76%,相比VecMap 模型與Orthogonal模型提升了1.48 個百分點,取得了最好效果。而在P@1 任務上,無監督方法取得了最好效果,但除Multi_w2v 模型外,有監督模型與無監督模型在P@1任務上的差異并沒有漢越正向詞典歸納任務中那樣明顯。主要原因是由于雙語詞典是以漢語為源語言進行構建所致,這一問題在初始詞簇的構建中就有所體現,詞典中包含許多越南語相同的詞對,證明漢語相較于越南語的標注更為精確。因此,用于訓練的漢越雙語詞典在反向詞典歸納任務中并不具備優勢。ClsMap 模型雖然在P@1 任務上的表現一般,但在多候選詞的P@5 任務上依然取得了最好效果,證明融合詞簇對齊約束的方法在越南語到漢語的反向詞典歸納任務中仍具有一定的提升效果。
為驗證本文方法在低資源場景下的有效性,模型在不同規模的漢越雙語詞典上進行了對比實驗。詞典以2 000 詞作為最低規模,并逐次擴展到500 詞。模型在不同詞典規模下的實驗結果如表5所示,其中,詞簇詞典規模代表從雙語詞典中提取出的對齊詞簇數量。

表5 本文模型在不同詞典規模下的對齊準確率Table 5 Alignment accuracy of this model under different dictionary scales
通過對比表5 與表3 可知,在漢語到越南語的正向詞典歸納任務(Zh→Vi)中,融合詞簇對齊約束的方法僅使用2 000 詞就超越了大部分基線模型在5 000 詞上的訓練效果。當詞典規模達到3 000 詞時,通過融合從中提取到710 條詞簇對齊信息,模型在P@1 和P@5 任務上的對齊效果就已超越了最好基線模型在5 000詞上的訓練效果。隨著詞典規模的增長,在4 000~5 000詞時,模型在P@5 任務上的效果逐步趨于穩定,但在P@1 任務上的效果有略微下降,推測這是由于在詞典擴展過程中引入了更多近義詞所導致,例如“好看,?p”與“漂亮,xinh”。這種近義詞對在共享詞嵌入空間中的距離較近,容易使映射出現偏差,導致模型在單個候選詞任務上的效果下降。但隨著數據規模的擴展,模型效果再次提升。在越南語到漢語的反向詞典歸納任務(Vi→Zh)中,隨著詞典規模的擴大,模型在P@1 和P@5 任務上的效果穩步提升,波動并不明顯,并在5 000 詞規模時取得了最好效果。
實驗結果表明,相比傳統跨語言詞嵌入方法,融合詞簇對齊約束的方法可以使模型在有限規模的雙語詞典中學習到更為精確的映射關系,以提升漢越雙語空間的對齊效果,驗證了本文方法在漢越低資源任務上的有效性。
為探索不同類型的詞簇對齊信息及其組合對模型效果的影響,本文依據構建時所使用的關聯關系將詞簇詞典劃分為近義詞簇、同類詞簇和同主題詞簇三部分。其中,近義詞簇251 條、同類詞簇534 條、同主題詞簇44 條,模型在不同類型詞簇及其組合上的實驗結果如表6 所示。

表6 本文模型在不同類型詞簇及其組合下的對齊準確率Table 6 Alignment accuracy of this model under different types of word clusters and their combinations
通過對比表6 中基線模型與本文模型在漢越正向詞典歸納任務中的實驗結果可知,融合不同類型的詞簇對齊信息均可提升模型在P@1 與P@5 任務上的對齊準確性。在前三組單一類型詞簇的融合實驗中,近義詞簇的效果明顯優于其他兩種詞簇,這是因為近義詞通常具有極為相近的含義,在單語嵌入空間中的距離更近,能使映射矩陣較為精準地學習到漢越相近語義詞間共有的結構特征和映射關系,提升模型在非標注詞上的泛化能力。但由于越南語的近義詞較難獲取,導致詞典提取到的詞簇數量有限,模型難以達到最優效果,因此還需引入其他類型的對齊詞簇作為補充。而同類詞簇對語義相關性的要求較低且容易獲取,可以作為近義詞簇的補充融入訓練。從實驗數據可知,模型在近義詞簇與同類詞簇組合上的訓練效果已十分接近最優。雖然使用同類詞簇學習到的結構特征不如近義詞簇精確,但依賴其數量上的優勢依然可以給模型帶來較大提升。除近義詞簇與同類詞簇外,詞典中的同主題詞對間本身具有一定的弱相關性,可以構建為一種大范圍的對齊詞簇。雖然同主題詞簇因涵蓋范圍較廣,但其主體來源于多語公開數據集CLDR,無需人工標注,且在同近義詞簇與同類詞簇進行組合后,依然可以給模型帶來微小的提升,以取得最佳的對齊效果。
為更好地與現有工作進行比較,模型采用同mikolov、Artetxe、Conneau 等相同的詞嵌入維度設置。因此,本文將重點探索歸一化步驟設置及重賦權重步驟中漢語與越南語的權重值配比對模型效果的影響。
1)在歸一化設置中,鑒于文獻[21]已詳細分析了歸一化對跨語言詞嵌入模型效果的影響,本文直接使用其推薦的歸一化方式作為組合的基礎選項,即長度歸一化(unit)和中心化(center)。由于連續執行長度歸一化(unit+unit)和中心化(center+center)的操作是無意義的,因此共設置了如下6 組歸一化組合,模型在不同組合上的實驗效果如表7 所示。

表7 不同歸一化組合對模型效果的影響Table 7 The influence of different normalization combinations on the model effect %
通過分析表7 中的實驗數據可知,使用[center+unit+center]作為預處理組合時,模型在漢越正向詞典歸納任務P@1 與P@5 上取得了較好的效果,但考慮到跨語言詞嵌入在實際應用場景中的主要目標是實現雙語詞間的精確對齊,因此最終選取在P@1 任務上表現最好的預處理組合[unit+center+unit]作為首選的歸一化設置。
2)考慮到不同語言的單語訓練語料有時更偏向于某一特定領域,如金融、法律等,此時依據語料詞頻構建的雙語詞典無法準確代表單語詞嵌入的整體分布,導致學習到的映射關系存在一定的偏差。因此,提出重賦權重步驟,通過為兩種語言賦予不同比例的權重值來對映射后的詞嵌入進行微調,以實現更好的對齊效果[27]。以漢越正向詞典歸納P@1 與P@5 任務為例,模型在不同比例權重值上的對齊效果如圖4 所示。其中,src 代表漢語對應的權重值,而trg 代表越南語對應的權重值。

圖4 模型在不同權重值比例上的對齊效果Fig.4 Alignment effect of the model on different weight value scales
從圖4 中數據可知,當漢語與越南語的權重值配比分別為0.5 和0.5 時,模型在P@1 任務上取得了最佳的對齊效果;當權重值配比為0.6 和0.4 時,模型在P@5任務上取得了最佳效果。此外,隨著兩端權重值配比差異的增大,模型效果逐漸降低。考慮到P@1 任務相較于P@5 任務對齊難度更大,本文最終選取(0.5,0.5)作為重賦權重步驟中漢語與越南語的權值配比。
為直觀反映融合詞簇約束方法對模型映射準確性的影響,本文選取了3 個漢越詞典歸納任務中的實例進行了對比說明,如表8、表9 所示。

表8 漢越詞典歸納任務實例Table 8 Examples of Chinese-Vietnamese lexicon induction tasks

表9 缺陷實例Table 9 Example of defects
表8 為基線模型VecMap 與本文模型ClsMap 在漢越詞典歸納任務中的兩個實例,模型分別輸出5 個與檢索詞余弦相似度最高的越南語單詞作為候選詞,候選詞下面為對應的漢語翻譯。表8 的對齊詞簇代表詞簇詞典中是否包含同檢索詞相關的對齊詞簇,例如實例1 中以非標注詞“禮拜五”作為檢索詞,同時詞簇詞典中也含有表示“星期”的同主題對齊詞簇。通過分析實例1 可知,在P@5 任務上,本文模型中的正確翻譯詞“th_sáu”在相似度排序上相比基線模型前移了一位,效果更好。此外,基線模型的第一候選詞為“th”,對應漢語為“東西”,同檢索詞的語義相關性較低,而ClsMap 模型中的前3 位候選詞同檢索詞的語義相關性更高。實例1 充分證明融合詞簇對齊信息可以使映射矩陣學習到不同語言相近語義詞間的共性特征及映射關系,能夠通過映射拉近漢越相近詞在共享空間中的距離,減小對齊難度。實例2 則體現了當詞簇詞典中無相關詞簇對齊信息時,模型在非標注詞上的性能。通過對比表中數據可知,以非標注詞“情感”作為檢索詞時,基線模型在P@1 任務上的對齊并不準確,而本文方法在P@1 任務上實現了精確對齊,同時候選詞的相似度排序同檢索詞的語義相關性更強。實例2 充分證明模型可以將學習到的相近詞間的映射關系遷移到其他未標注詞簇上,進一步提升模型在非標注詞上的泛化能力,改善漢越低資源場景下雙語空間的對齊效果。
然而,本文方法在個別實例上也體現出了一些問題,例如表9 中的實例3 所示,兩個模型以非標注詞“紫色”作為檢索詞,并且詞簇詞典中包含表示“顏色”的同主題對齊詞簇。通過對比可知,在P@5 任務上,本文方法相比基線模型,正確翻譯詞在相似度排序上后退了兩位。推測這是由于在詞簇對齊數據中,缺乏帶有“紫色”含義的詞,而具有“紅色”含義的詞較多。因此,融合詞簇對齊約束后,結果中的“?_son”、“?”、“hng”的距離更加接近,導致正確翻譯詞“tím”后移,但該實例也從側面反映出本文方法能有效拉近相近語義詞間的距離。
針對漢越低資源場景下語言差異性大、雙語詞典規模小導致跨語言詞嵌入對齊效果較差的問題,本文提出一種融合詞簇對齊約束的方法。通過使用近義詞、同類詞和同主題詞3 種類型的關聯關系抽取漢越雙語詞典中的詞簇對齊信息融入映射矩陣的訓練中,使映射矩陣學習到不同語言相近詞間的共性特征及映射關系,以提升模型在非標注詞上的泛化性。實驗結果表明,本文方法在漢越詞典歸納任務中P@1 和P@5 上的對齊效果相比基線模型均有明顯提升,能有效提高漢越低資源環境下雙語空間的對齊準確性。由于依據雙語詞典提取出的對齊詞簇雖然質量較高但數量有限,因此下一步考慮引入迭代的思想使模型自行構建高質量的對齊詞簇用于訓練,以提升模型的映射準確性。