郭晉鵬 曹海龍



摘 要: 雙語詞典抽取任務是自然語言處理一個重要課題。本文基于替換方法重新訓練詞向量,使得詞向量具有跨語言特性。本文主要研究了訓練詞典的獲取方法,以及詞向量共訓練模型,在中英維基百科語料上進行實驗。實驗結果表明,按照確信度的方法選取訓練詞典,基于替換的方法得到的詞向量跨語言性質較好,最終抽取的詞典具有較高的準確率。
關鍵詞: 雙語詞典抽取; 無監督; 替換方法
文章編號: 2095-2163(2021)03-0217-03 中圖分類號: TP391.1 文獻標志碼:A
【Abstract】Bilingual lexicon induction is an important task in natural language processing. This paper retrains the word vector based on the substitution method, so that the word embedding gets cross-language characteristics. This paper mainly studies the acquisition of training dictionary and the co-training model of word vector, and carries out experiments on the corpus of Chinese and English Wikipedia. The experimental results show that using the selected training dictionary according to the method of confidence, the word vector obtained by the method of substitution has a good cross-language property, and the dictionary extracted finally has a high accuracy.
【Key words】 bilingual lexicon induction; unsupervised learning; substitution method
0 引 言
在各種跨語言任務中,雙語詞典抽取是目前備受各方關注的研究課題。在多數跨語言自然語言處理任務,如機器翻譯[1]、跨語言文本分類[2]、跨語言情感分析[3]中,跨語言詞典都起著至關重要的作用。但是,進行跨語言詞典抽取往往需要人工標注的跨語言知識,如平行語料或者人工標注的翻譯詞典等。但世界上大多數語言對之間的平行語料或者種子詞典是十分匱乏的。因此,近年來學者們開始研究無監督跨語言詞典抽取,旨在使得計算機能夠在不借助跨語言知識的前提下即可得到跨語言信息,從而高效、自動地獲取跨語言知識。無監督跨語言詞典抽取都基于如下的一個基本假設:對于不同語言的基于分布式表示的詞向量空間,都存在某種映射關系,可以使其投影到相同的空間中,并且具有相同語義的單詞在這個空間中的距離會彼此接近。
目前,無監督跨語言詞典抽取方法已經取得了很大突破,典型工作有:Zhang等人[4]提出了基于生成對抗網絡的跨語言詞典抽取方法;Hoshen等人[5]提出了基于迭代最近點(ICP)算法的無監督翻譯詞典獲取方法;Aldarmaki等人[6]提出了一種不需要線性變換的映射方法來獲得初始化詞典。然而現有工作大都先在單語語料上獲得詞向量,再將詞向量空間對齊。本文提出了加入反饋機制重新訓練詞向量的新思路:先利用無監督方法得到雙語詞典,再借助詞典利用單詞替換的方式重新訓練詞向量。這種方法使得詞向量在保持單語特性的同時具有更好的跨語言特性。
1 具有反饋機制的無監督跨語言詞典抽取模型
本課題按照Conneau等人基于自學習的模式(Vecmap) [7]來進行研究。其過程主要分為:初始詞典的選取、迭代的自學習過程。其中,自學習過程是映射矩陣的求解和雙語詞典的更新兩步驟反復迭代直至收斂。在此基礎上,本文加入反饋機制,用得到的詞典重新訓練詞向量,整個模型框架如圖1所示。
vecmap認為2種語言的向量空間嚴格滿足同構性假設,使用正交變換來對齊2種語言的詞向量空間。但單獨訓練得到的詞向量并不能完全使正交變換來進行對齊。為使詞向量具有更好的幾何相似性,項目加入反饋機制,利用得到的翻譯詞典再重新訓練具有更好跨語言特性的詞向量,從而提高準確率。
2 基于替換的共訓練方法
共訓練模型的輸入為2種語言的單語語料和無監督反饋得到的訓練詞典,輸出為2種語言的具有跨語言特性的詞向量。由于無監督方法得到的翻譯結果并不是完全正確的,則要從中篩選出可能作為訓練指導的翻譯詞對作為訓練詞典。具體地,需要確定翻譯詞表中選取哪些詞作為詞條以及每個詞條的候選翻譯個數。若只取最可能的一個作為翻譯,反饋過程就沒有意義;若候選詞太多,會使訓練變得困難,也會增加時間復雜度。本文評估了經自學習過程映射后詞向量翻譯的top-k準確率來確定候選詞表的大小,并且比較了按照頻率和置信度兩種標準來篩選詞條對結果的影響,經過篩選得到的詞條加入訓練詞典指導下一輪詞向量的共訓練過程。
本文的共訓練方法在word2vec中的CBOW模型[8]基礎上加入跨語言信息。在訓練詞典的指導下,模型得到的詞向量保持單語特性的同時要有很好的跨語言特性,即互為翻譯的詞所對應的詞向量在空間中應該彼此接近。對于單語詞向量而言,近義詞或相關詞由于上下文相似,訓練后在空間中彼此接近。因此,本文提出基于替換的共訓練方法:在語料中將訓練詞典中互為翻譯的詞按照一定概率進行替換,如此使兩者就有了相同的上下文,便可以得到較為接近的詞向量。例如,在翻譯詞典中“吃”對應的翻譯為eat ,在訓練語料中句子“你喜歡吃蘋果嗎”時,中文單詞“吃”和英文單詞eat 基于二者在詞表中互為翻譯的確信度以一定概率用同樣的上下文進行訓練。為了進一步融合雙語語料,在訓練過程中按照翻譯的確信度以一定概率替換上下文。如圖2所示。
由于篩選出的詞典不能保證其中的詞條一一對應,即一個源語言的詞可能有若干個目標語言的詞成為其候選翻譯。本次研究在訓練過程中根據詞向量當前值為每一個詞選出一個最可能的候選翻譯,這些候選翻譯實際上就組成了一個一對一的翻譯集合。再利用這個確定的翻譯來指導詞向量的更新,該過程其實是一個EM算法:要求得word2vec的參數θ(包括詞向量U和上下文向量V),隨機初始化后,利用當前詞向量得到確定的詞典,再利用詞典更新詞向量,如此迭代直至收斂。EM算法具體如下:
3 實驗
關于候選詞大小的實驗,本文在中英維基百科語料上用CBOW模型分別訓練2種語言,再利用vecmap將2組詞向量映射到同一空間,對于vecmap得到的映射后的詞向量進行top-k準確率評估。分別采用最近鄰(Nearest Neighbor, NN)和CSLS(Cross Domain Similarity Local Scaling)兩種距離度量方式計算準確率。結果如圖3所示。可以看出,隨著詞表數目的增加,準確率的增長越來越緩慢,本文后續實驗使用準確率曲線拐點附近的值(5~10)作為候選詞表大小設置。
利用替換方法進行無監督雙語詞典抽取的結果見表1。vecmap給出的實驗結果在中英雙語詞典抽取上,CSLS準確率可以達到50.13,并以此作為基線。從表1可以看出,按照確信度的方法確定訓練詞典,在各個參數設置下CSLS準確率基本都超過了基線模型。并且在候選詞個數為5時效果最好。此外,直接對基于替換的Bi-CBOW得到的詞向量進行評價(表1中no_vecmap準確率)也有較高的準確率,說明這種方法得到的詞向量已經具有了較好的跨語言特性。
表1中,向量維度300,負采樣數25,迭代15輪。dic為候選詞個數,fre為頻率最高詞數,size為詞典大小。
4 結束語
針對分別訓練的單語詞向量不能很好地滿足同
構性假設這一問題,本文提出了基于替換方法的雙語共訓練模型,通過反饋機制,將無監督方法得到的詞典用于共訓練過程,使得詞向量具有較好的跨語言特性。按照確信度的標準選取詞表雖然有著很高的準確率,但詞表中依然存在著大量的數字和虛詞等人類無法理解的翻譯對,并且這類詞往往會翻譯為相同的目標詞加重樞紐點問題(hub-ness problem)。因此下一步的研究重點是如何更好地解決樞紐點問題,進一步提高準確率。
參考文獻
[1] ?ZOU W Y, SOCHER R, CER D M, et al. Bilingual word embeddings for phrase-based machine translation[C]// Proceedings of EMNLP. Seattle, Washington, USA: dblp, 2013:1393-1398.
[2] BHATTARAI B, KLEMENTIEV A, TITOV I. Inducing crosslingual distributed representations of Words[C]// ?Proceedings of COLING 2012. Mumbai, India:ACL,2012:1459-1474.
[3] XU Kui, WAN Xiaojun . Towards a universal sentiment classifier in multiple languages[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark:ACL,2017:511-520.
[4] ZHANG Meng, LIU Yang, LUAN Huanbo, et al. Adversarial training for unsupervised bilingual lexicon induction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics,2017:1959-1970.
[5] HOSHEN Y, WOLF L . Non-adversarial unsupervised word translation[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium:ACL,2018:469-478.
[6] ALDARMAKI H, MOHAN M, DIAB M. Unsupervised word mapping using structural similarities in monolingual embeddings[J]. Transactions of the Association for Computational Linguistics, 2018, 6: 185-196.
[7] CONNEAU A, LAMPLE G, RANZATO M, et al. Word translation without parallel data[J]. CoRR, abs/1710.04087,2017.
[8] KAICHEN ?T M, CORRADO G,DEAN J. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.