999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交替語言數(shù)據(jù)重構(gòu)方法的跨語言文本相似度模型

2025-03-21 00:00:00王軼王坤寧劉銘

摘要: 針對(duì)現(xiàn)有多語言模型在預(yù)訓(xùn)練過程中對(duì)多語言數(shù)據(jù)集的利用效率低, 導(dǎo)致跨語言上下文學(xué)習(xí)能力不足, 進(jìn)而產(chǎn)生語言偏差的問題, 提出一種基于交替語言數(shù)據(jù)重構(gòu)方法的跨語言文本相似度模型. 該方法通過對(duì)稱地替換平行語料中的中英文詞語, 形成重構(gòu)的預(yù)訓(xùn)練文本對(duì), 并利用上述文本對(duì)對(duì)多語言大模型mBERT(BERT-based-multilingual)進(jìn)行基于數(shù)據(jù)重構(gòu)的針對(duì)性預(yù)訓(xùn)練和微調(diào)處理. 為驗(yàn)證該模型的可行性, 在聯(lián)合國平行語料數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 該模型的相似度查準(zhǔn)率優(yōu)于mBERT和其他兩種基線模型, 其不僅可以進(jìn)一步提高跨語言信息檢索的準(zhǔn)確性, 并且可以降低多語言自然語言處理任務(wù)的研究成本.

關(guān)鍵詞: mBERT模型; 文本相似度; 多語言預(yù)訓(xùn)練模型; 大模型微調(diào)

中圖分類號(hào): TP391.1文獻(xiàn)標(biāo)志碼: A文章編號(hào): 1671-5489(2025)02-0551-08

Cross-Language Text Similarity Model Based on Alternating Language Data Reconstruction Method

WANG Yi1, WANG Kunning2, LIU Ming2

(1. School of Foreign Languages, Changchun University of Technology, Changchun 130012, China;2. School of Mathematics and Statis

tics, Changchun University of Technology, Changchun 130012, China)

收稿日期:2024-02-28. 網(wǎng)絡(luò)首發(fā)日期: 2024-09-29.

第一作者簡介: 王 軼(1980—), 女, 漢族, 博士, 教授,從事跨語言翻譯和機(jī)器翻譯的研究, E-mail: wangyi@ccut.edu.cn.

通信作者簡介: 劉 銘(1979—), 男, 漢族, 博士, 教授, 博士生導(dǎo)師, 從事機(jī)器學(xué)習(xí)、 大數(shù)據(jù)分析和數(shù)據(jù)挖掘的研究, E-mail: liuming@ccut.edu.cn.

基金項(xiàng)目: 吉林省高等教育教學(xué)改革研究課題項(xiàng)目(批準(zhǔn)號(hào): 20213F2VB6S006)、 吉林省發(fā)改委

基本建設(shè)基金(批準(zhǔn)號(hào): 2022C043-2)、 吉林省自然科學(xué)基金(批準(zhǔn)號(hào): 20200201157JC)、 吉林省教育廳人文社科研究項(xiàng)目(批準(zhǔn)號(hào): JJKH20240835SK)和吉林省高教科研課題項(xiàng)目(

批準(zhǔn)號(hào): JGJX24C051).

網(wǎng)絡(luò)首發(fā)地址: https://link.cnki.net/urlid/22.1340.O.20240927.1330.001.

Abstract: Aiming at the problem that existing multilingual models were inefficient in utilising multilingual datasets in the pre-training process, which led to a more insufficient cross-language contextual learning ability and thus language bias, we proposed a cross-language text similarity model based on the alternating language datareconstruction method. This method formed reconstructed pre-trained text pairs by symmetrically replacing Chinese and English words in the parallel corpus, and used the above text pairs to perform targeted pre-training and fine-tuning processing based on data reconstruction for the multilingual large model mBERT (BERT-based-multilingual). In order to verify the feasibility of the model, experiments were conducted on the United Nations parallel corpus dataset, and the experimental results show that the similarity checking accuracy of this model outperforms that of mBERT and the other two baseline models. It can not onlyfurther improve the accuracy of cross-language information retrieval, but alsoreduce the research cost of multilingual natural language processing tasks.

Keywords: mBERT model; text similarity; multilingual pre-trained model; large model fine-tuning

跨語言文本相似度是衡量不同語言文本相似程度的度量標(biāo)準(zhǔn), 廣泛應(yīng)用于自然語言處理領(lǐng)域的多個(gè)分支, 如信息檢索、 機(jī)器翻譯和跨語言文檔分類等. 近年來, 研究跨語言文本相似度的主要方法有詞句嵌入模型、 機(jī)器翻譯、 神經(jīng)網(wǎng)絡(luò)模型和知識(shí)圖譜.

詞句嵌入模型(如Word2Vec,GloVe和FastText)的主要任務(wù)是將文本轉(zhuǎn)換為連續(xù)向量表示, 并使這些向量盡可能多地捕捉詞間的語義關(guān)系1].在這種框架下, 通過計(jì)算文本中詞語向量表示之間的相似度, 可衡量文本之間的相似性. 基于機(jī)器翻譯的方法可以將一種語言的文本翻譯成另一種語言, 或?qū)蓚€(gè)文本分別翻譯為一種中間語言(如英語)2, 從而消除雙語或多語之間的壁壘. 通過比較標(biāo)準(zhǔn)語言或中間語言中的文本相似度, 即可獲得跨語言的文本相似度3].該方法適用于多語言問題, 并可處理大量文本數(shù)據(jù), 但其不足之處是質(zhì)量和效果受制于翻譯算法的準(zhǔn)確性, 且可能忽視一些語言的微妙差異. 隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的發(fā)展, 利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行跨語言文本相似度計(jì)算的研究受到廣泛關(guān)注. 這類模型的原理是通過學(xué)習(xí)兩個(gè)文本之間的映射關(guān)系, 將其映射到一個(gè)共享的語義空間中, 從而量化其相似度. 該方法可以由深度學(xué)習(xí)算法自動(dòng)挖掘文本的語義特征, 對(duì)復(fù)雜的語義關(guān)系有較好的處理能力, 適用于大范圍的應(yīng)用場景. 但這類方法需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練, 模型的解釋性相對(duì)較差, 并且訓(xùn)練一個(gè)有效的神經(jīng)網(wǎng)絡(luò)模型可能需要大量的計(jì)算資源. 基于知識(shí)圖譜的方法通過將文本映射到知識(shí)圖譜上, 利用其中的實(shí)體及其關(guān)系識(shí)別文本之間的相似性, 結(jié)合實(shí)體間的關(guān)系, 可獲得更豐富的上下文信息, 從而更準(zhǔn)確地量化文本之間的相似度4].但知識(shí)圖譜的構(gòu)建和維護(hù)需要大量人力和物力, 對(duì)圖譜中不存在的實(shí)體和關(guān)系, 處理過程較困難. 本文基于交替語言預(yù)訓(xùn)練的文本相似度模型, 經(jīng)過交替語言預(yù)訓(xùn)練后, 可以在使用較少訓(xùn)練資源的情況下進(jìn)一步縮小語言偏差. 與經(jīng)典統(tǒng)計(jì)方法相比, 該模型效果更優(yōu), 降低了跨語言自然語言處理任務(wù)的研究成本.

1 相關(guān)工作

1.1 跨語言文本相似度

跨語言文本相似度是指衡量不同語言文本之間相似度或相關(guān)性的度量, 其目標(biāo)是開發(fā)能有效比較并評(píng)估不同語言背景下文本內(nèi)容相似性的模型或方法.傳統(tǒng)的跨語言文本相似性計(jì)算主要分為基于翻譯的模型和基于對(duì)齊的模型. 基于翻譯的模型使用機(jī)器翻譯(machine translation, MT)系統(tǒng)將文本轉(zhuǎn)換為同一種語言[1].該方法在SemEval研討會(huì)上得到了廣泛應(yīng)用, 其根據(jù)各種特征(如兩個(gè)文本之間的n元重疊、 編輯距離和MT評(píng)估指標(biāo))計(jì)算跨語言文本相似度5].但這種方法依賴于現(xiàn)有的MT系統(tǒng), 對(duì)給定的語言對(duì), 易受MT系統(tǒng)產(chǎn)生的錯(cuò)誤影響.

在基于對(duì)齊的方法中, Fung等6提出了一種結(jié)合信息檢索(IR)和自然語言處理(NLP)技術(shù)的方法, 用于從非平行、 可比文本中提取新詞的翻譯, 該方法利用了互聯(lián)網(wǎng)上大量可用的在線文本材料, 特別是通過自動(dòng)下載的英文和中文非平行報(bào)紙文本提取新詞的翻譯. 目前, 效果較優(yōu)秀的跨語言文本相似性模型大多數(shù)基于機(jī)器學(xué)習(xí)7或神經(jīng)網(wǎng)絡(luò). Yih等8提出了S2Net模型, 為每種語言訓(xùn)練一個(gè)暹羅網(wǎng)絡(luò)和一個(gè)轉(zhuǎn)換網(wǎng)絡(luò), 以最小化翻譯對(duì)的相似性; Gupta等[9]提出了另一種概念上類似于S2Net的模型, 以便映射兩種語言, 但其設(shè)計(jì)了用于預(yù)訓(xùn)練的單語組成模型, 并使用偽相關(guān)反饋訓(xùn)練組成模型; Glava等10針對(duì)詞向量(詞嵌入), 根據(jù)共享語義空間中的詞級(jí)相似性對(duì)齊兩個(gè)文本的組成詞, 以計(jì)算其文本相似性; Seki[3將一種語言空間轉(zhuǎn)換為另一種語言空間(或構(gòu)建一個(gè)共享的語義空間), 以便可以直接比較不同的語言文本, 屬于一種強(qiáng)調(diào)用于語義文檔表示的神經(jīng)機(jī)器翻譯模型; Zhao等11為進(jìn)一步學(xué)習(xí)文本表示并建模相關(guān)性匹配, 將文本分類模型與預(yù)訓(xùn)練模型相結(jié)合, 設(shè)計(jì)了密集向量之間的語義匹配函數(shù)以進(jìn)行相關(guān)性建模, 并將這種相似文本的檢索方法稱為密集檢索; 祝婕等[12]提出了一種結(jié)合監(jiān)督式生成對(duì)抗網(wǎng)絡(luò)和注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)(AT-CNN)的文本匹配算法, 提高了跨語言文本匹配的速度和準(zhǔn)確度.

1.2 多語言預(yù)訓(xùn)練模型

跨語言預(yù)訓(xùn)練小模型(cross-language models, XLMs)是跨語言預(yù)訓(xùn)練模型的起點(diǎn), 這類模型通常以BERT為基準(zhǔn)進(jìn)行多語言預(yù)訓(xùn)練. 模型的預(yù)訓(xùn)練任務(wù)主要包括翻譯語言建模(translate language modeling, TLM)和掩碼語言建模(masked language modeling, MLM)兩個(gè)任務(wù). 其中, MLM與BERT中采用的方式類似, 即對(duì)部分掩碼標(biāo)記進(jìn)行預(yù)測. 而TLM任務(wù)則旨在引入多語言的對(duì)齊關(guān)系, 通常通過將互為翻譯的雙語文本拼接在一起, 再使用掩碼標(biāo)記的方式進(jìn)行預(yù)測. 因此, 模型既可以根據(jù)本語言的信息進(jìn)行預(yù)測, 也可以根據(jù)另一種語言的信息進(jìn)行預(yù)測13.作為BERT的多語言版本, mBERT(BERT-base-multilingual)模型14選擇了維基百科規(guī)模最大的104個(gè)語言語料作為預(yù)訓(xùn)練集. 考慮到不同語言維基百科庫規(guī)模的差異可能導(dǎo)致在低資源語言中出現(xiàn)表征不充分和過擬合現(xiàn)象, mBERT在創(chuàng)建預(yù)訓(xùn)練數(shù)據(jù)集時(shí)采用了指數(shù)平滑的策略: 對(duì)高資源語言進(jìn)行低采樣, 對(duì)低資源語言進(jìn)行高采樣. XLM模型15也是基于Transformer的語言模型, 類似于BERT, XLM的預(yù)訓(xùn)練任務(wù)包括掩碼語言建模. 此外, XLM模型還引入了翻譯語言建模作為第二個(gè)目標(biāo)函數(shù), 以增強(qiáng)模型學(xué)習(xí)不同語言之間相似表征的能力. RoBERTa模型16同樣使用無需標(biāo)注的原始文本進(jìn)行自監(jiān)督預(yù)訓(xùn)練, 其主要目標(biāo)函數(shù)仍是掩碼語言模型. 通過這種方式, RoBERTa模型能學(xué)習(xí)來自訓(xùn)練集中100種語言的內(nèi)部表征, 從而在下游任務(wù)中使用. XLM-R[17是RoBERTa模型的多語言版本, 與最初的XLM模型不同, 它放棄了翻譯語言建模作為預(yù)訓(xùn)練的目標(biāo)函數(shù), 完全采用了RoBERTa模型的預(yù)訓(xùn)練方式. 因此, XLM-R的詞匯量顯著增加到25萬, 遠(yuǎn)超過了RoBERTa的5萬. 多語序列到序列預(yù)訓(xùn)練模型mBART-50[18則展示了多語翻譯模型如何通過多語微調(diào)實(shí)現(xiàn).

多語言模型具有跨語言遷移的能力, 其中一種常見的應(yīng)用范式是在英語訓(xùn)練集上對(duì)模型進(jìn)行微調(diào), 然后直接將其應(yīng)用于其他語言的任務(wù)集, 稱為零樣本學(xué)習(xí). 該方法利用了多語言模型的跨語言遷移能力.

2 基于交替語言預(yù)訓(xùn)練的雙語文本相似度模型

為在盡可能減少訓(xùn)練成本和語言偏差的同時(shí), 開發(fā)一個(gè)跨語種的文本相似度模型, 本文將交替語言模型的預(yù)訓(xùn)練模型(alternating language modeling, ALM)19和具有龐大知識(shí)儲(chǔ)備的mBERT相結(jié)合, 提出一種基于交替語言預(yù)訓(xùn)練的中英文本相似度算法, 以進(jìn)一步縮小不同語種文本之間的相似度差異.

本文基于交替語言預(yù)訓(xùn)練的跨語言文本相似度模型如圖1所示.

2.1 基于交替語言的數(shù)據(jù)重構(gòu)方法

由于mBERT在預(yù)訓(xùn)練過程中仍存在采樣不均的問題, 而這種采樣不均是大多數(shù)多語言預(yù)訓(xùn)練模型在完成跨語言相似度計(jì)算或跨語言信息檢索任務(wù)時(shí)產(chǎn)生語言偏差(language bias)現(xiàn)象的原因之一20].語言偏差是指在多語言或跨語言任務(wù)中, 模型總會(huì)將相同語言的詞語映射到隱空間中較臨近的位置, 而將同語義的其他語種詞語映射到距離較遠(yuǎn)的位置, 從而導(dǎo)致與查詢文本同語種的檢索結(jié)果易出現(xiàn)在相似度排名更高位置的現(xiàn)象. 從根源解決多語言模型的語言偏差現(xiàn)象成本較高, 因此, 為在盡可能縮小訓(xùn)練成本和語言偏差的同時(shí), 得到一個(gè)跨語種的文本相似度模型, 本文將交替語言模型的預(yù)訓(xùn)練模型19與知識(shí)儲(chǔ)備龐大的mBERT相結(jié)合, 設(shè)計(jì)一個(gè)基于交替語言預(yù)訓(xùn)練的中英文文本相似度算法, 以進(jìn)一步縮小不同語種文本的相似度差別.

ALM是XLMs的一種具體形式, 但不同于基礎(chǔ)的XLM, ALM的輸入序列為兩種語言的詞級(jí)別交替句, 因此可以捕獲豐富的單詞和短語的跨語言上下文. 并且ALM使語言模型以一種語言的上下文為條件預(yù)測另一種語言的詞語, 因此可縮小源語言與目標(biāo)語言在詞嵌入過程中的差距, 對(duì)減小語言偏差非常有益. 常規(guī)的平行語料處理方式和交替語言方法的平行語料處理方式如圖2所示.

本文的基于交替語言模型的數(shù)據(jù)重構(gòu)示意圖如圖3所示. 由圖3可見, 本文方法與普通XLMs方法的區(qū)別是:ALM通過一對(duì)給定的雙語句子, 生成一組跨語言句子而非簡單的雙語拼接句. 給定一個(gè)雙語句子對(duì)(X,Y), 其中令X={x1,x2,…,xi,…,xN}為源語言句, 令對(duì)應(yīng)的目標(biāo)語言譯文為Y={y1,y2,…,yi,…,yM}, N和M是源語言句和目標(biāo)譯句的長度, 交替語言方法通過組合X和Y的短語創(chuàng)建交替語言句序列U, 其中U={u1,u2,…,ui,…,uL}, 長度為L, 通過該方法完成對(duì)預(yù)訓(xùn)練模型輸入數(shù)據(jù)的重構(gòu)操作, 使輸入數(shù)據(jù)更均勻地包含雙語特征.

由于語料庫是句對(duì)齊的, 因此, 首先使用GIZA工具包在平行句子X和Y之間執(zhí)行單詞對(duì)齊操作, 并使用統(tǒng)計(jì)機(jī)器翻譯技術(shù)提取雙語短語表. 其次, 對(duì)訓(xùn)練語料庫中的每對(duì)句子, 通過將源語言句子中的一些短語替換為短語表中對(duì)應(yīng)概率最高的目標(biāo)語言短語, 創(chuàng)建主要的源語言樣本; 同法也適用于用源端短語替換目標(biāo)端句子中的一些短語, 以創(chuàng)建主源端語言樣本.

由于U中的每個(gè)短語U(i,j)僅可能來源于源語言句中的短語X(a,b)或目標(biāo)譯句中的短語Y(c,d), 且X(a,b)和Y(c,d)在平行語料句(X,Y)中互為翻譯, 因此交替語言句序列中的每個(gè)短語滿足如下不等式:

1≤a≤b≤N,1≤c≤d≤M.(1)

給定中文句子及其英文翻譯, 通過選擇不同的短語進(jìn)行替換, 可以從一對(duì)句子派生出n個(gè)訓(xùn)練樣本.

2.2 模型預(yù)訓(xùn)練

將經(jīng)過基于交替語言模型數(shù)據(jù)重構(gòu)方法處理的雙語句, 在對(duì)一定比例的短語進(jìn)行掩碼(MASK)后輸送到預(yù)訓(xùn)練Transformer編碼器, 該編碼器用于預(yù)測該雙語句子的掩碼詞, 例如預(yù)測中文語句中的英文掩碼詞或英文語句中的中文掩碼詞, 其結(jié)構(gòu)如圖4所示.

該預(yù)測模型的損失函數(shù)為

L=-1N∑Nj=1∑Ni=1ujilog(ji),(2)

其中N表示跨語言詞預(yù)測任務(wù)的數(shù)量,uji和ji分別表示第j輪任務(wù)中預(yù)測的概率分布和實(shí)際標(biāo)簽.

2.3 針對(duì)雙語文本相似度任務(wù)的微調(diào)

由于文本相似度任務(wù)中具有相似度標(biāo)注的數(shù)據(jù)集較少, 無法滿足對(duì)多語言模型靈活訓(xùn)練的需求, 而人工收集滿足大模型訓(xùn)練需求的高質(zhì)量數(shù)據(jù)又不現(xiàn)實(shí), 因此, 在該部分本文設(shè)計(jì)并微調(diào)相似文檔檢索模型以達(dá)到對(duì)相似文檔進(jìn)行排序并衡量模型性能的目的. 在微調(diào)過程中, 本文受文獻(xiàn)[20]工作的啟發(fā), 將微調(diào)的多語言預(yù)訓(xùn)練模型選定為mBERT, 獲得適應(yīng)下游檢索任務(wù)的參數(shù), 即中英文文本相似度計(jì)算任務(wù). 該部分要訓(xùn)練的是一個(gè)用于對(duì)相似文檔進(jìn)行排序的相似度得分函數(shù)Scoreθ(qi,ti)→瘙綆, 其中qi∈Q為查詢文檔, ti∈D為語言數(shù)為2的目標(biāo)文檔, 相似度得分函數(shù)即通過點(diǎn)積的方式計(jì)算字符之間的相似度(等同于余弦相似度), 然后選取查詢長度個(gè)數(shù)最大相似度相加求和, 得到整體的相似度. 本文模型的損失函數(shù)為

Loss=-ilog Pi-(1-i)log(1-Pi),(3)

Pi=eScore(qi,t+i)eScore(qi,t+i)+eScore(qi,t-i),(4)

Scoreq.t=∑i∈[Eq]maxj∈[Et](Eqi·Epi),(5)

上述檢索模型可視為以查詢文檔qi、 最相似檢索結(jié)果t+i和其他檢索結(jié)果t-i構(gòu)成的三元組為基本元素. 其中Eqi和Epi為查詢文檔和查詢文檔的平行翻譯文檔經(jīng)編碼器后的逐字輸出. 通過最大化查詢文檔與其對(duì)應(yīng)的平行翻譯文檔之間的相似度分?jǐn)?shù), 最小化查詢文檔和其他文檔的相似度分?jǐn)?shù)最小化交叉熵?fù)p失.

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文選擇聯(lián)合國平行語料庫(united nations parallel corpus, UNPC)21作為預(yù)訓(xùn)練和微調(diào)的數(shù)據(jù)集, 以評(píng)估模型性能. 選取其中的中英文平行語料, 共1 745個(gè)文檔, 220 552個(gè)詞項(xiàng). UNPC語料庫內(nèi)容涵蓋聯(lián)合國正式會(huì)議的多個(gè)議題, 包括國際局勢、 經(jīng)濟(jì)發(fā)展、 環(huán)境氣候變化、 人道主義事務(wù)、 公共衛(wèi)生、 非傳統(tǒng)安全問題、

航空航天以及自然資源等方面22].這些文檔是句子級(jí)別對(duì)齊的, 符合本文的研究需要. 平行語料的數(shù)據(jù)信息列于表1.

本文實(shí)驗(yàn)中, 將數(shù)據(jù)集劃分為兩部分使用. 首先, 將一部分?jǐn)?shù)據(jù)用于交替語言預(yù)訓(xùn)練中的跨語言單詞預(yù)測, 有助于模型學(xué)習(xí)跨語言語義表示; 其次, 將另一部分?jǐn)?shù)據(jù)用于微調(diào)基于文本相似度排序模型. 在微調(diào)過程中采用十折交叉驗(yàn)證評(píng)估模型的一致性, 微調(diào)部分的數(shù)據(jù)集被劃分為10個(gè)不同的子集, 每個(gè)子集輪流作為測試集, 而其他9個(gè)子集則組成訓(xùn)練集. 模型首先在訓(xùn)練集上進(jìn)行訓(xùn)練, 然后應(yīng)用到對(duì)應(yīng)的測試集. 重復(fù)進(jìn)行10次實(shí)驗(yàn), 最后取這10次實(shí)驗(yàn)結(jié)果的均值作為評(píng)價(jià)指標(biāo)的最終結(jié)果. 上述評(píng)估方法能更全面地對(duì)模型性能進(jìn)行評(píng)估, 進(jìn)而提高實(shí)驗(yàn)結(jié)果的可靠性.

由于數(shù)據(jù)集UNPC并未對(duì)中英文文檔的相似度進(jìn)行標(biāo)注, 因此本文使用信息檢索分支常用的實(shí)驗(yàn)對(duì)相似度任務(wù)進(jìn)行檢驗(yàn), 將中文或英文文檔qi作為查詢文檔, 通過比較目標(biāo)文檔與查詢文檔之間的相似度得分得到與查詢相關(guān)的一個(gè)檢索序列, 并根據(jù)理想結(jié)果pi在該序列中的位次對(duì)模型性能進(jìn)行評(píng)價(jià).

3.2 評(píng)價(jià)指標(biāo)

本文采用均方誤差(mean squared error, MSE)、 平均倒數(shù)排序(mean reciprocal rank, MRR)和查準(zhǔn)率Precision@k 3個(gè)評(píng)價(jià)指標(biāo)考察算法的性能. MSE的計(jì)算公式為

MSE=1N∑Ni=1(yi-i)2,(6)

其中N表示源語言文檔數(shù)量, yi表示第i個(gè)文檔的真實(shí)相似度值, i表示相似度算法預(yù)測值. Precision@k的計(jì)算公式為

Precision@k=1N∑Ni=1Precision(yi),(7)

Precision(yi)=1,ranki≤k,0,rankigt;k,(8)

其中Precision@k表示模型在前k個(gè)預(yù)測中是否包含正確答案,ranki表示與第i個(gè)文本相似度最高的文本在預(yù)測列表中的排名.MRR的計(jì)算公式為

MRR=1N∑Ni=11ranki.(9)

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)使用Transformer深度學(xué)習(xí)算法庫搭建神經(jīng)網(wǎng)絡(luò)算法模型, 預(yù)訓(xùn)練模型均選擇mBERT, 編碼器層數(shù)為12, 輸出隱藏層維度為768, 多頭注意力頭數(shù)為12, 批處理大小為32, 輸出線性層維數(shù)為128. 實(shí)驗(yàn)環(huán)境配置如下: 處理器為Inter至強(qiáng)SILVER 40核, 獨(dú)立顯卡為NVIDIA A100(16 GB×8),

內(nèi)存為256 GB, Cuda版本為V11.7, Python版本為3.8.15,Pytorch版本為1.13.0.

實(shí)驗(yàn)首先對(duì)文檔進(jìn)行預(yù)處理, 包括使用jieba和NLTK包對(duì)中英文平行語料進(jìn)行分詞、 去除停用詞以及統(tǒng)一英文文本為全小寫.

實(shí)驗(yàn)1 為比較經(jīng)過ALM數(shù)據(jù)重構(gòu)方法及預(yù)訓(xùn)練對(duì)mBERT相似度性能的影響, 本文使用數(shù)據(jù)集UNPC訓(xùn)練ALM-mBERT, 并以BERT-Base,Multilingual Cased為對(duì)比進(jìn)行消融實(shí)驗(yàn), 驗(yàn)證本文模型在減小語言偏差效果的影響. 十折交叉驗(yàn)證的平均結(jié)果列于表2. 由表2可見, 本文方法準(zhǔn)確率相對(duì)較高, 均方誤差較低, 說明本文方法對(duì)不同語種文檔的相似性得分函數(shù)計(jì)算更均衡, 度量性能較好.

實(shí)驗(yàn)2 將本文基于交替語言預(yù)訓(xùn)練的雙語文本相似度模型(ALM-mBERT)與BM-25以及延拓至多語言場景的Siamese神經(jīng)網(wǎng)絡(luò)(S2Net)兩個(gè)基線模型的查準(zhǔn)率進(jìn)行對(duì)比, 十折交叉驗(yàn)證的平均結(jié)果列于表3. 由表3可見, 結(jié)合交替語言數(shù)據(jù)重構(gòu)以及預(yù)訓(xùn)練方法的mBERT在兩項(xiàng)查準(zhǔn)率中均取得了最優(yōu)效果.

綜上所述, 針對(duì)現(xiàn)有多語言模型在預(yù)訓(xùn)練過程中對(duì)多語言數(shù)據(jù)集的利用效率低, 導(dǎo)致跨語言上下文學(xué)習(xí)能力不足, 進(jìn)而產(chǎn)生語言偏差的問題, 本文結(jié)合跨語言文本相似度任務(wù)的相關(guān)特點(diǎn), 在mBERT的基礎(chǔ)上, 提出了一種基于交替語言預(yù)訓(xùn)練的雙語文本相似度模型. 該模型通過交替語言數(shù)據(jù)重構(gòu)方法豐富模型訓(xùn)練數(shù)據(jù)域, 有效提升了mBERT的雙語上下文學(xué)習(xí)性能, 通過適當(dāng)?shù)南掠稳蝿?wù)微調(diào), 使模型更具有靈活性.

參考文獻(xiàn)

[1]呂皓, 呂慧, 雍賓賓, 等. 藏文句向量預(yù)訓(xùn)練模型在嵌入式系統(tǒng)中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng), 2024, 12(1): 1-10. (L H, LH, YONG B B, et al. Research on the Application of Tibetan Sentence Vector Pre-trained Model in Embedded Systems[J].Journal of Chinese Computer Systems, 2024, 12(1): 1-10.)

[2]趙光耀, 王劍, 高盛祥, 等. 融入上下文特征提取的非自回歸神經(jīng)機(jī)器翻譯[J].陜西理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2024, 40(3): 44-51. (ZHAO G Y, WANG J, GAO S X, et al. Non-autoregressive Neural Machine Translation with Contextual Feature Integration[J].Journal of Shaanxi Un

iversity of Technology (Natural Science Edition), 2024, 40(3): 44-51.)

[3]SEKI K. Cross-Lingual Text Similarity Exploiting Neural Machine Translation Models[J].Journal of Information Science, 2021, 47(3): 404-418.

[4]尚福華, 張洪銘, 解紅濤. 基于知識(shí)圖譜與依存句法分析的井控領(lǐng)域文本相似度計(jì)算[J].計(jì)算機(jī)與數(shù)字工程, 2023, 51(8): 1732-1737. (SHANG F H, ZHANG H M, XIE H T. Text Similarity Calculation in Well Control Domain Based on Knowledge Graph and Dependency Parsing[J].Computer amp;

Digital Engineering, 2023, 51(8): 1732-1737.)

[5]TIAN J F, ZHOU Z H, LAN M, et al. Ecnu at SemEval-2017 Task 1: Leverage Kernel-Based Traditional NLP Features and Neural Networks to Build a Universal Model for Multilingual and Cross-Lingual Semantic Textual Similarity[C]//Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017). [S.l.]:

Association for Computational Linguistics, 2017: 191-197.

[6]FUNG P, YEE L Y. An IR Approach for Translating New Words from Nonparallel, Comparable Texts[C]//36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. [S.l.]: Association for Computational Linguistics, 1998: 414-420.

[7]韓開旭, 袁淑芳. 基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2023, 61(4): 909-914. (HAN K X, YUAN S F. Short Text Semantic Measurement Algorithm Based on Hybrid Machine Learning Model[J].Journal of Jilin University (Science Edition), 2023, 61(4): 909-914.)

[8]YIH W, TOUTANOVA K, PLATT J C, et al. Learning Discriminative Projections for Text Similarity Measures[C]//Proceedings of the Fifteenth Conference on Computational Natural Language Learning. [S.l.]: Association for Computational Linguistics, 2011: 247-256.

[9]GUPTA P, BANCHS R E, ROSSO P. Continuous Space Models for CLIR[J].Information Processing amp; Management, 2017, 53(2): 359-370.

[10]GLAVA G, FRANCO-SALVADOR M, PONZETTO S P, et al. A Resource-Light Method for Cross-Lingual Semantic Textual Similarity[J].Knowledge-Based Systems, 2018, 143(1): 1-9.

[11]ZHAO W X, LIU J, REN R, et al. Dense Text Retrieval Based on Pretrained Language Models: A Survey[J].ACM Transactions on Information Systems, 2024, 42(4): 1-60.

[12]祝婕, 劉敏娜. 基于GAN的跨語言文本匹配算法研究[J].自動(dòng)化與儀器儀表, 2023(4): 20-24. (ZHU J, LIU M N. Research on Cross-Language Text Matching Algorithm Based on GAN[J].Automation amp; Instrumentation, 2023(4): 20-24.)

[13]CHITTY-VENKATA K T, MITTAL S, EMANI M, et al. A Survey of Techniques for Optimizing Transformer Inference[J].Journal of Systems Architecture, 2023, 144(1): 1-38.

[14]PIRES T, SCHLINGER E, GARRETTE D. How Multilingual Is Multilingual BERT?[EB/OL].(2019-06-04)[2023-12-20]. https://arxiv .org/abs/1906.01502.

[15]LAMPLE G, CONNEAU A. Cross-Lingual Language Model Pretraining[EB/OL].(2019-01-22)[2024-01-10]. https://arxiv.org/abs/1901.07291.

[16]LIU Y H, OTT M, GOYAL N, et al. Roberta: A Robustly Optimized BERT Pretraining Approach[EB/OL].(2019-07-26)[2023-02-15]. https://arxiv.org/abs/1907.11692.

[17]CONNEAU A, KHANDELWAL K, GOYAL N, et al. Unsupervised Cross-Lingual Representation Learning at Scale[EB/OL].(2020-04-08)[2023-03-12]. https://arxiv.org/abs/1911.02116.

[18]LIU Y H, GU J T, GOYAL N, et al. Multilingual Denoising Pre-training for Neural Machine Translation[J].Transactions of the Association for Computational Linguistics, 2020, 8(1): 726-742.

[19]YANG J, MA S M, ZHANG D D, et al. Alternating Language Modeling for Cross-Lingual Pre-training[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Piol Alto: AAAI, 2020: 9386-9393.

[20]LAWRIE D, YANG E, OARD D W, et al. Neural Approaches to Multilingual Information Retrieval[C]//European Conference on Information Retrieval. Berlin: Springer Nature, 2023: 521-536.

[21]ZIEMSKI M, JUNCZYS-DOWMUNT M, POULIQUEN B. The United Nations Parallel Corpus v1.0[C]//Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16). [S.l.]: European Language Resources Association, 2016: 3530-3534.

[22]王婷婷, 黃志賢, 王洪濤, 等. 基于MobileNetV2的巖石薄片巖性識(shí)別 [J]. 吉林大學(xué)學(xué)報(bào)(地球科學(xué)版), 2024, 54(4): 1432-1442. (WANG T T, HUANG Z X, WANG H T, et al. Rock Thin Slice Lithology Identification Based on MobileNetV2 [J]. Journal of Jilin University (Earth Science Edition), 2024, 54(4): 1432-1442.)

(責(zé)任編輯: 韓 嘯)

主站蜘蛛池模板: 99热这里只有精品在线播放| 99免费视频观看| 亚洲无码高清视频在线观看| 国产激爽大片高清在线观看| 高清乱码精品福利在线视频| 亚洲黄色网站视频| 亚洲人成影院午夜网站| 日韩在线成年视频人网站观看| 国产av无码日韩av无码网站| 久久免费看片| 国产精品永久不卡免费视频| 亚洲精品老司机| julia中文字幕久久亚洲| 91青青视频| 特级做a爰片毛片免费69| 亚洲日本www| 天堂岛国av无码免费无禁网站| 国产精品女在线观看| 97在线国产视频| 制服丝袜一区| 国产精品xxx| 亚洲欧美日韩中文字幕一区二区三区| 动漫精品啪啪一区二区三区| 午夜福利视频一区| 欧美a级完整在线观看| 国产麻豆永久视频| 伊人AV天堂| 日韩免费毛片视频| 国产三级a| 国产精品第一区在线观看| 国产成人精品男人的天堂| 91国内视频在线观看| 国产亚洲精品97在线观看| 久久精品波多野结衣| 韩日免费小视频| 色哟哟国产精品| 亚洲国语自产一区第二页| 尤物亚洲最大AV无码网站| 99视频精品全国免费品| 国产精品女主播| 亚洲欧美一区二区三区蜜芽| 2020久久国产综合精品swag| 日韩高清成人| 亚洲一区二区三区香蕉| 免费看a毛片| 88av在线| 亚洲色图狠狠干| 第一页亚洲| 国产亚洲高清在线精品99| 精品欧美日韩国产日漫一区不卡| 久久精品无码一区二区国产区| 久久国产V一级毛多内射| 91精品亚洲| 亚洲美女高潮久久久久久久| 欧美成人A视频| 国产精品久久久久久久久久98| 日韩123欧美字幕| 国产主播在线观看| 综合人妻久久一区二区精品 | 欧美成人h精品网站| 国产不卡国语在线| 97se亚洲综合在线| 亚洲国产欧美国产综合久久| 亚洲精品在线91| 狠狠色综合网| 久久综合伊人 六十路| 免费a在线观看播放| 亚洲 成人国产| 国产主播一区二区三区| 欧美一级高清片欧美国产欧美| 看国产毛片| 青青操国产| 国产精品成人一区二区不卡| 91麻豆精品国产高清在线| 欧美精品另类| 欧美在线三级| 在线观看av永久| 久久综合结合久久狠狠狠97色| 精品视频第一页| 国产成人精品一区二区不卡| 四虎国产精品永久一区| 亚洲日韩精品无码专区97|