李巖 ,郭軍軍 *,余正濤,高盛祥
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650504;2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650504)
跨語言信息檢索(Cross-language information retrieval,CLIR),即用一種語言的查詢檢索出用另一種語言的相關文檔信息[1-4]。跨語言檢索可以有效地實現區域內國家之間的信息溝通和交互,因此具有非常重要的研究意義。目前,CLIR已經成為信息檢索(Information Retrieval,IR)領域中最重要的研究課題之一。然而,由于查詢和文檔屬于不同的語言,存在巨大的語義鴻溝,因此,如何匹配用戶的查詢和其他語言編寫的文檔成了巨大的挑戰。
如何構建統一的語義空間并實現跨語言在統一語義空間中的表征,然后在公共語義空間中實現跨語言檢索,是CLIR要解決的首要問題。在已有成果中,解決語言差異性最常用的方法還是查詢翻譯[5-6]、文檔翻譯[7-8]或同時使用查詢文檔翻譯[9],然后執行單語 IR[10-15]。文獻[16]基于雙語詞典解決歧義和多重匹配問題,實現了跨語言相似內容的檢索。然而,上述基于機器翻譯CLIR方法嚴重依賴機器翻譯的質量,對于低資源語言來說,低質量機器翻譯誤差的累積,會對后續的檢索任務產生極大的影響,甚至導致檢索的失敗。
為了解決低資源語言跨語言信息檢索中的語義對齊問題,受文獻[17]的啟發,擬基于更容易獲得且準確率較高的詞對齊信息對跨語言語義對齊任務進行指導,我們使用預先構建的雙語映射詞典基于詞映射生成偽查詢,并且利用偽查詢句來指導跨語言信息檢索。從表1中可以看出,在低資源語言上,機器翻譯的結果完全曲解了查詢的意思,而詞映射雖然丟失了部分語義,但是它可以保留查詢的關鍵詞信息,而關鍵詞信息對于檢索任務來說是非常重要的。

表1 詞映射與機器翻譯效果樣例對比Table 1 Comparison of example of word mapping and machine translation effect
基于此,本文提出了一種基于雙語交互注意力機制的偽查詢句融合方法,本文方法的跨語言檢索性能在文獻[18]提供的公共CLIR數據集和我們構建的漢越CLIR數據集上均取得了較理想的結果。本文的主要貢獻是:
1.本文首次提出一種基于詞映射指導的跨語言信息檢索方法,即首先利用詞映射生成偽查詢句來實現跨語言的語義對齊,然后利用雙語交互注意力來獲取查詢的跨語言特征表示,進而實現跨語言檢索。
2.結合查詢的跨語言特征表示和文檔的上下文表示構建了雙語排序模塊,實現了跨語言深度關聯匹配。
3.基于自制的漢越CLIR數據集和文獻[18]中公布的三種數據集對模型進行了訓練和測試。實驗結果表明,該方法能改善差異性低資源語言對之間CLIR的效果,在多個CLIR數據集上取得了很好的結果。
CLIR目前已經成了國內外的一個研究熱點[19-21]。學者們針對如何在源語言和目標語言之間建立溝通橋梁進行了一系列研究和討論。傳統的跨語言信息檢索算法大都基于機器翻譯的思想,通常包括機器翻譯和單語信息檢索兩部分[22],即首先基于機器翻譯實現跨語言的語義對齊,然后在單一語義空間中完成信息檢索[23-24]。根據翻譯的采取方式可以進一步分為查詢翻譯[5-6]、文檔翻譯[7-8]和同時使用查詢文檔翻譯[9]。三種基于翻譯的方法通常使用雙語詞典、平行語料庫或者機器翻譯來將源語言翻譯成目標語言或者將兩種語言翻譯成樞軸語言,然后執行單語檢索。基于機器翻譯CLIR方法屬于一種管道式(pipeline)的方法,該方法很容易受到翻譯誤差的累積影響,特別是對于低資源語言對,機器翻譯誤差累積會為后續的檢索造成較大的影響,甚至導致檢索的失敗。因此,對于低資源語言的跨語言檢索,上述基于機器翻譯的方法并不是理想的解決方案[25]。
近年來,越來越多的學者開始使用預訓練的詞向量進行信息檢索的研究和建模。受此啟發,文獻[26]提出了一種生成跨語言詞嵌入(CLE)的方法,首先通過隨機打亂平行語料庫 ,然 后 使 用 word2vec[27-28]得 到 跨 語 言 詞 嵌入[29]。經過上述過程可以同時產生兩種語言的單詞向量表示,以此解決跨語言的語義對齊問題。基于上述跨語言的對齊方式,文獻[30]提出了一個完全無監督的跨語言信息檢索框架,它不需要使用任何雙語數據,該框架利用共享的跨語言詞嵌入空間來表示查詢和文檔。另外,對于低資源跨語言信息檢索,文獻[31]提出了一種弱監督神經模型,并在并行的機器翻譯數據上進行訓練。Bonab等[32]利用啟發式算法預訓練了一種跨語言詞嵌入,并將他應用在CLIR中,使得檢索精度有了一定的提高。最近,一些多語言與訓練語言模型[33]將100多種語言映射到同一語義空間,這使CLIR又進一步改進。但是跨語言詞嵌入需要大量的雙語語料或對齊的雙語詞典進行預訓練,與此同時,上述模型也沒有對CLIR的目標進行優化[26,30]。
綜上,如何實現源語言查詢和目標語言文檔的語義對齊,是目前CLIR研究的核心問題。但是,針對這一問題,傳統的基于機器翻譯的CLIR方法和基于跨語言詞嵌入(CLE)的方法都存在各自的不足之處。對于低資源語言對,低質量的翻譯性能直接影響了檢索的準確率。而基于CLE的方法又需要大量的訓練數據且很難獲取。為了提高低資源的跨語言信息檢索的準確率,本文提出一種基于雙語交互注意力機制的偽查詢句融合方法。該方法基于雙語交互注意力機制融入偽查詢句來生成查詢的跨語言特征表示,有效地在不同語言對上縮小了語義空間之間的距離,并對CLIR的目標進行了優化。實驗證明該方法相對傳統的CLIR方法具有明顯的優勢。
針對查詢和文檔之間的差異性比較大的問題,本文基于詞映射構建偽查詢句來指導低資源跨語言信息檢索,提出了基于雙語交互注意力機制的偽查詢句融合方法。通過雙語交互注意力機制得到查詢的跨語言特征表示,最后利用雙語交互排序模型去計算查詢文檔對的匹配分數,如圖1所示。

圖1 跨語言深度聯匹配模型結構圖Fig.1 Structure of cross-language deep joint matching model
模型包括共享編碼模塊、跨語言特征表示模塊和雙語交互排序模塊,其中,(a)共享編碼模塊:用來獲取查詢、偽查詢和文檔的上下文表示;(b)跨語言特征表示模塊:基于雙語交互注意力機制來獲取查詢的跨語言特征表示;(c)雙語交互排序模塊:獲取查詢和文檔的匹配分數。
給 定 一 個 查 詢 qzh=(x1,x2,…,x|q|)和 文 檔d=(z1,z2,…,z|d|),其中,|q|和|d|表示查詢和文檔的長度。首先,我們利用雙語映射詞典生成的偽查詢 qvi=(y1,y2,…,y|q|)。然后將每個句子的每個單詞表示成n維詞向量,如公式(1)-(3)所示:

其中,Qz∈ Rn×|q|、Qv∈ Rn×|q|和 D ∈ Rn×|q|,分別表示查詢、偽查詢和文檔的嵌入特征表示矩陣;xi、yi和zi表示查詢、偽查詢及文檔的第i個詞;Eqz、Eqv和Ed分別表示查詢、偽查詢及文檔的嵌入函數,它可以將每一個輸入序列中的每個詞轉化為對應的n維詞向量;“分號”表示連接操作符。
2.2.1 查詢和文檔編碼
給定一個查詢qzh和文檔d,經過嵌入層獲取到每一句查詢和文檔的嵌入矩陣Qz和D,我們將文獻[34]的編碼模塊(即transformer encoder)應用到本文的共享特征提取器中。Transformer encoder由6個相同的層堆疊在一起,每一層又分為兩個子層。第一個子層是一個多頭的自注意力機制,第二個子層是一個簡單的全連接前饋網絡。在兩個子層外面都添加了一個殘差連接,然后進行了層歸一化的操作。具體對查詢和文檔的編碼過程如公式(4)、(5)所示。

我們獲取到查詢和文檔的上下文特征表示進行歸一化,使得每個特征向量都成為等于1的L2范數,這樣使得任何兩個特征向量的內積等于他們的余弦相似度。
2.2.2 偽查詢句編碼
偽查詢句的生成:由于傳統的基于句子級機器翻譯的方法在差異性比較大的語言對上翻譯質量很差,所以沒有辦法基于翻譯系統來進行單語檢索。為此,本文首先利用Google翻譯將所有查詢翻譯成文檔端語言;然后將翻譯結果回譯,并基于兩個翻譯結果進行人工篩選將所有翻譯質量差的句對剔除;最后我們利用快速對齊工具[35]實現詞對齊并結合翻譯從候選詞對齊中人工篩選唯一詞對齊,以此生成雙語映射詞典。基于此,根據詞映射來生成偽查詢句,進而保留查詢中大部分關鍵詞的準確信息,如公式(6)所示。

其中,D表示雙語映射詞典;xi表示查詢中的第i個詞;yi表示詞映射之后偽查詢句中的第i個詞。
編碼:偽查詢句編碼和查詢編碼是非常相似的結構。我們首先將偽查詢句標記為給qvi,經過嵌入層獲取每一句偽查詢句的嵌入矩陣Qv,然后將偽查詢句的嵌入矩陣輸入到共享特征提取器中,從而獲得它的上下文特征表示,如公式(7)所示:

同樣,本文將偽查詢句的上下文表示進行歸一化,使得每個特征向量都成為等于1的L2范數。
2.3.1 雙語交互注意層
本文借鑒神經機器翻譯中注意力機制[36-37]的思想實現雙語交互注意,目的是語義上對齊兩個句子,使得兩種語言的嵌入空間盡可能接近。具體地,我們在查詢和偽查詢句之間定義了一個雙語交互注意力機制,該機制使得查詢每一個詞的特征表征通過只關注來自偽查詢句的相關詞的特征表征來表示,如圖2所示。

圖2 雙語交互注意力機制結構圖Fig.2 Structure of bilingual interactive attention mechanism
根據基于transformer的共享編碼模塊我們可以獲取到查詢和偽查詢句的特征表示序列。然后利用偽查詢句的每一個特征表示的加權平均值來表示查詢的第i個詞的跨語言特征表示ci,計算如公式(8)所示:

其中,ci表示查詢的第i個詞的跨語言特征表示;注意力權重αi,j表示偽查詢句的第j個詞與查詢中第i個詞的注意力權重,它是通過在相應的匹配分數mi,j上計算softmax函數而獲得的,如公式(9)所示:

匹配分數mi,j又是基于特征向量的雙線性乘積來計算的,具體計算過程如公式(10)所示:

在跨語言任務中使用雙語交互注意力機制,將一種語言的句子放在另一種語言的上下文嵌入中,從而得到這種語言的跨語言特征表示,以此達到語義上對齊兩種語言的目的。
2.3.2 雙語多頭自注意力層
為了使得跨語言表征之后的查詢擁有更多的句內語義信息,本文基于雙語交互注意力機制得到查詢句中每一個詞的跨語言特征表示ci之后,并基于多頭自注意力機制進行特征提取。具體如公式(11)所示。

其中,self_attention()表示多頭自注意力機制的映射函數;表示查詢的第i個詞的跨語言上下文特征表示。
給定查詢經過雙語交互注意力機制之后的表示矩陣,以及文檔經過共享transformer編碼之后的上下文表示矩陣,本文模型通過雙語交互排序模塊計算查詢和文檔之間的匹配關聯得分,關聯得分通過最大相似度(MaxSim)操作符的總和求得。

本文通過成對排名網絡損失[38]最大化相關文檔和不相關文檔之間的分數差異來訓練跨語言深度關聯匹配模型。
3.1.1 漢越CLIR數據集的構建
漢越CLIR數據集的構建過程與文獻[19]構建英語-其他語言的CLIR數據集類似。首先從維基百科的每一篇英文文章中提取首句作為查詢,并將鏈接到的越南語文檔頁面標注為相關。接下來我們使用Google翻譯工具將查詢翻譯成中文。與文獻[18]相似,我們將漢語查詢中的主題詞刪除,這樣做是為了防止我們的任務變成一個簡單的關鍵字匹配問題。根據實際情況,我們將每個文檔長度限制在文章的前250個詞以內。經過一系列數據整理和預處理我們獲得漢越CLIR數據集的三元組:(中文查詢,越南文文檔,相關性判斷r),其中r∈{0,1}。
3.1.2 CLIR數據集的介紹
在所有實驗中,我們使用了查詢-文檔對數據集。其中包括自制的漢語-越南語(zh-vi)數據集,以及文獻[18]中提供的英語-法語(en-fr),英語-菲律賓語(en-tl),英語-斯瓦希里語(en-sw)三對公共語言對數據集。數據集規模如表2所示。

表2 CLIR數據集統計信息Table 2 Statistics of CLIR datasets
由于本文的目標之一是檢驗不同程度相似語言的檢索性能,因此我們使用漢越這樣查詢和文檔差異性比較大的語言對、以及文獻[18]中提供的資源不同的三種語言對進行實驗。
本文的評價指標[39]主要采用 MRR(Mean Reciprocal Rank)、P@1(Precision at 1)、R@k(Recall at k)、MAP(Mean Average Precision)以及 NDRG@k(Normalized Discounted Reciprocal Gain)。可調參數設置如下表3所示。

表3 可調參數設置Table 3 Adjustable parameters
本文共選擇了5個基準模型進行實驗,如下:
(1)基于查詢翻譯的CLIR方法(CLIRTQ):這種方法首先使用Transformer[34]將查詢翻譯,然后執行單語檢索,這種方法與文獻[22]類似。
(2)基于文檔翻譯的CLIR方法(CLIRTD):這種方法首先使用 Transformer[34]將文檔翻譯,然后與(1)相同,執行單語檢索。
(3)基于余弦模型的匹配檢索方法(CLIRS-COS)[18]:此模型中使用 CNN 對查詢和文檔進行特征提取并利用余弦模型計算二者的匹配得分。
(4)基于深度模型的匹配檢索方法(CLIRS-DEEP)[18]:此模型同樣使用 CNN 對查詢和文檔進行特征提取。然后獲得查詢和文檔的句子特征表示和并利用深度模型計算二者的匹配得分S,如公式(13)所示:

其中,O和W表示學習的參數矩陣,relu()表示非線性激活函數。深度模型根據深度分為CLIR-S-DEEP300、CLIR-S-DEEP400、CLIR-SDEEP500。整個模型的超參設置參照文獻[18]。
(5)基于預訓練語言模型:此方法使用多語言預訓練語言模型(mBERT)來編碼查詢和文檔,基于此計算查詢和文檔的余弦相似度。
在此部分,我們對本文模型的有效性進行了分析,由于漢越數據集是由本文構建,對兩種語言的研究極少,所以本文只利用漢越數據集對模型結構進行選擇,并得到最優模型結構。基于此,本文在兩個低資源的公共數據上進行了有效性測評。
3.4.1 公共CLIR數據集分析測評
為了驗證本文的基于雙語交互注意力機制的偽查詢句融合方法在公共數據集的有效性,本文使用文獻[18]公布的公共數據集(數據集詳情見表3)和性能最優的“(sh)本文模型”,與上述基準模型的性能作對比,為了使對比更加直觀,本文與基準模型的來源文獻[18]使用相同的評價指標,對比實驗結果見表4。

表4 公共CLIR數據集實驗結果Table 4 Experimental results of public CLIR data set
分析表4可知,本文模型在兩種語言對上的P@1值和MAP值均超過所有對比模型。從表中可以看出,傳統的基于機器翻譯的基線模型都取得了不錯的效果,但是與各深度學習模型還存在一定的差距。其中,與傳統方法中效果比較好的查詢翻譯相比;在en-sw數據集上,P@1值和MAP值分別提升了11.5%和17.0%;在en-tl數據集上,P@1值和MAP值分別提升了13.1%和15.8%;這表明我們的方法相比與傳統的機器翻譯的方法在兩個低資源數據集上有明顯的改進,這也進一步證明了細粒度的方式更有利于拉近低資源語言的語義空間。與深度模型中效果最好的基線模型mBERT相比,在en-sw數據集上,P@1值略有下降,但是MAP提升了1.5%;在en-tl數據集上,P@1值和MAP值分別提升了4.2%和5.4%。實驗結果表明在大規模訓練語料上預訓練好得多語言模型非常具有競爭力,因為它們已經把100多種語言之間的語義空間映射得非常接近了;另外,本文方法也體現了一定的優勢,進一步證明了本文融合偽查詢句的有效性。為了進一步證明本文模型在差異性不同的語言對上的優勢,我們增加評價指標NDRG@k,并得到NDRG@k的結果折線圖,如圖3所示。
從圖3中折線圖中可以看出,在三種語言對的數據集上,本文方法相比于基準模型取得了更好的結果,在en-sw和en-tl兩個數據集上提升比較明顯。這些實驗結果表明在菲律賓語等低資源語言訓練數據不充足的情況下,本文方法在跨語言信息檢索的任務中具有明顯的優勢。

圖3 NDCG@k的結果折線圖Fig.3 Line chart of NDCG@k results
3.4.2 融合偽查詢句的有效性分析
為了證明本文提出的融合偽查詢句來指導跨語言信息檢索對本文模型的有效性,本文在自制的漢越CLIR數據集上進行了一組簡單的消融實驗,并用MRR和R@k作為評價指標[39],實驗結果如表5所示,特別說明,“(-)偽查句”表示未使偽查詢句來指導跨語言信息檢索,使用直接建模的方式來實現。
由表5我們可以看出,在本文模型中,當我們使用偽查詢句來指導跨語言信息檢索時,MRR、R@3、R@5和R@10分別提升了9.45%、10.73%、10.65%、10.53%,由此證明基于詞映射的偽查詢句的構建和融入,在漢越這種低資源語言對上是有效的,它可以在一定程度上拉近漢越兩種語言的語義空間。

表5 消融實驗結果Table 5 Results of ablation experiments
3.4.3 雙語交互注意力機制的有效性分析
為了得到本文模型中效果最優的雙語交互策略。本文制定了三種不同的交互策略來選擇最優的模型架構:
策略一(CLIR+MTL):本文利用聯合多任務的思想,利用偽查詢句作為輔助約束,使得查詢句的語義和偽查詢句的語義相似度盡可能接近,然后來輔助跨語言信息檢索這個主任務。
策略二(CLIR+concat):首先將查詢句和偽查詢句對應位置的特征表示直接拼接,以此認為兩種語言的語義空間被拉近。
策略三(CLIR+c_att):引入雙語交互注意力機制,上述2.3描述方法。
針對上述的三種策略,本文利用我們構建的漢越CLIR數據集做了實驗對比,實驗結果如表6所示。

表6 雙語交互注意力機制有效性分析結果Table 6 Results of effectiveness analysis of bilingual interactive attention mechanism
從表6可知,三種不同的融合策略會直接導致不同的檢索性能。其中,與策略一(CLIR+MTL)相比,使用本文的雙語交互注意力機制時,MRR值、R@3值、R@5值和R@10值分別提升了9.39%、10.50%、10.62%、9.86%;與策略二(CLIR+concat)相比,雙語交互注意力機制分別提升了7.30%、8.10%、8.40%、7.82%。由此可見,雙語交互注意力機制是本文模型的重要一環,它可以利用偽查詢句的指導作用來拉近兩種語言的嵌入空間,進而有效地改善模型跨語言信息檢索的性能。
3.4.4 雙語交互排序模型的有效性分析
為了給本文模型選擇最優的排序方式,我們使用雙語交互排序模型與基線模型中的排序方式來作對比。其中,第一種方式是利用平均池化的方式得到查詢和文檔的句子向量,直接利用句子向量計算余弦相似度得到排序分數(CLIR-sent_cos)。第二種方式是本文使用的雙語交互排序方式。對比實驗結果如表7所示。

表7 雙語交互排序模型有效性分析結果Table 7 Results of the effectiveness analysis of the bilingual interactive ranking model
從表7可知,本文提出的雙語交互排序模型與傳統方法相比具有很明顯的優勢。由此可見,不一樣的排序方式也會直接影響檢索的準確率。由于查詢和文檔的長度差距比較大,文檔句子又過長,直接利用句子的表征去計算匹配得分會大大的丟失關鍵語義信息,從而導致準確率的下降。而本文的雙語交互排序模型可以從詞級粒度出發,更為全面的計算短查詢和長文檔的相似性,所以本文排序模型具有明顯優勢。
本文研究旨在提升差異性比較大的低資源語言對跨語言信息檢索的準確率。針對不同語言之間存在語義鴻溝等原因導致檢索準確率低這一問題,我們利用雙語映射詞典構建偽查詢句,提出了一種基于雙語交互注意力機制的偽查詢句融合方法。本文模型在自制的漢越數據集和CLIR公共數據集上均取得了顯著的效果。當前,針對低資源語言得跨語言信息檢索是檢索領域的研究熱點和難點,在未來工作中,我們將針對低資源跨語言信息檢索展開進一步的研究。