楊 丹,擁 措*,仁青卓瑪,唐超超
(1.西藏大學 信息科學技術學院,西藏 拉薩 850000;2.西藏自治區藏文信息技術人工智能重點實驗室,西藏 拉薩 850000;3.藏文信息技術教育部工程研究中心,西藏 拉薩 850000)
隨著網絡的快速發展,全球各國之間聯系日益緊密、各民族交流日趨頻繁。語言作為交流的基礎,對實現不同種語言之間的翻譯顯得尤為重要。由于人工翻譯代價很高,為了滿足人們的翻譯需求,機器翻譯憑借翻譯速度快,低成本等優點受到了人們的青睞[1]。在自然語言處理(Natural Language Processing,NLP)任務中,機器翻譯作為其重要分支和人們的日常生活息息相關。機器翻譯實現了計算機在不同種語言之間的自動轉換,縱觀機器翻譯的發展史,它經歷了基于規則的機器翻譯(Rule-Based Machine Translation,RBMT)、統計機器翻譯[2](Statistical Machine Translation,SMT)以及神經機器翻譯[3](Neural Machine Translation,NMT)三個主要階段。
對于樓頂空間的利用情況,大部分高層樓頂處于閑置狀態,即使被利用,也只是安裝了太陽能熱水器,基本沒有光伏發電裝置。
近年來,跨語言預訓練語言模型在NLP任務上受到普遍關注,比如mBERT[4],MASS[5],XLM[6],XLM-R[7],mBART[8]等。它們在大量語料上進行預訓練,然后在下游任務中按照其特點對模型微調。這種預訓練加微調的方式在一系列NLP任務中取得了很好的效果。2020年陸金梁、張家俊提出了一種基于Multi-BERT跨語言聯合編碼預訓練的語言模型的譯文質量估計(Quality Estimation,QE)方法,使用不同神經網絡對預訓練語言模型進行微調[9]。2021年滿志博等人針對漢語、英語以及緬甸語三種語言結構差異較大而導致的共享詞表大小受限的問題,提出進行聯合語義表征來提升緬漢英機器翻譯模型的性能[10]。翁榮祥等人提出APT框架,從預訓練模型中獲取知識到神經機器翻譯,在跨語言機器翻譯任務上的試驗結果表明,該模型優于強基線和微調模型[11]。黃昊陽等人介紹了Unicoder。給定一個任意的NLP任務,可以在Unicoder基礎上使用一種語言的訓練數據對模型進行訓練,并直接應用于其他語言相同任務的輸入。同時對多種語言微調可以進一步提升效果[12]。
2018—2020年期間,廣西計劃棚戶區改造開工37.57萬套,將重點改造房屋功能不全,安全隱患突出,被鑒定為C、D級以上、老城區內臟亂差的危舊住房,以及林區、墾區、工礦棚戶區未完成改造的危舊住房項目。
在多語言機器翻譯中,林澤輝等人提出mRASP模型[13](multilingual Random Aligned Substitution Pre-training,mRASP),其關鍵思想是隨機對齊替換技術(Random Aligned Substitution,RAS)。可以在預訓練后,在下游語言對對模型微調。首次驗證使用多個語言對的少量語料數據可以提高資源豐富的機器翻譯,并且可以提高預訓練語料庫中未曾出現過的其他語言的翻譯質量,可以在不同語言中構建語義空間的橋梁,從而有效提高翻譯性能。
隨著藏漢機器翻譯的興起,很多高校和機構開始研究藏漢統計機器翻譯。比如:1998年,陳玉忠等人順利研發出班智達漢藏科技機器翻譯系統。2003年在此基礎上研發了基于規則的實用化漢藏機器翻譯系統[14],為基于規則的漢藏機器翻譯奠定了堅實的理論基礎。2013年,周毛先提出了基于混合策略的漢藏機器翻譯系統[15]。隨后,中科院計算所、中科院軟件所、廈門大學、西藏大學、青海師范大學等單位開展了藏漢統計機器翻譯的研究工作。2014年,華卻才讓提出基于樹到串的藏語機器翻譯[16],這是中國第一個基于藏文句法信息的統計機器翻譯系統;2015年,位素東提出基于短語的藏漢統計翻譯[17];2016年,西藏大學尼瑪扎西教授的團隊研發完成“陽光藏漢雙向機器翻譯系統”,并面向社會提供翻譯服務,系統在漢藏現代公文領域的翻譯平均準確率達到70%,速度也較高[18]。近幾年,研究人員開始研究藏漢神經機器翻譯。比如,2017年,李亞超等人通過遷移學習方法進行了藏漢神經機器翻譯的實驗[19];2018年,蔡子龍等人利用數據增強技術對語料擴充,增強了藏漢機器翻譯的泛化能力[20];2019年,慈禎嘉措等人將藏語單語模型融合到神經機器翻譯中[21];2021年,頭旦才讓等人改進了字節對編碼算法,優化了漢藏神經機器翻譯[22];同年,該學者融入了藏文命名實體識別技術,提出了藏文長句分割方法[23];2022年,周毛先為了提高翻譯的質量,提出一種融合先驗知識的方法[24];同年,孫義棟等學者對機器翻譯的詞表進行了優化,顯著提升了翻譯性能[25];楊丹等學者經過對數據增強策略的深入研究,有效緩解了因平行語料匱乏而導致的翻譯性能較差的問題[26]。
以上學者提出的方法有效改善了藏漢雙向機器翻譯的性能,但是由于藏漢平行語料匱乏、語料的質量以及現有語料的領域限制,藏漢機器翻譯的性能相較于其他大語種的翻譯性能來說效果較差。而mRASP是針對機器翻譯任務而提出的多語言預訓練模型,其翻譯效果已經超過mBART。因此,該文使用一種融合跨語言預訓練模型(mRASP)與改進后的聯合詞表的藏漢雙向機器翻譯,從而進一步提高藏漢雙向機器翻譯的質量。相比基線系統來說,在藏漢/漢藏翻譯上提高了3.43/1.27個BLEU值。
mRASP的關鍵思想是隨機對齊替換技術(RAS),該技術使多種語言中具有相似含義的單詞和短語在表示空間中更接近。它利用多個語言對的少量平行語料訓練模型,然后在下游語言對微調。

多語言神經機器翻譯模型是通過學習一個多對多的映射函數(f),即從一種語言翻譯到另一種語言。更正式的定義是L={L1,L2,…,LM},其中L是預訓練所涉及到的語言集合。Di,j表示(Li,Lj)的并行數據集,ε表示并行數據集{D}i=Ni=1,其中N為雙語對的個數。訓練損失定義為:
(1)
(1)BPE切分分別產生的藏語、漢語詞表;
摘 要:當前,隨著我國信息技術和互聯網經濟的發展,我們已經進入了“互聯網+”的時代。隨著我國醫療衛生水平的提升,護理人員數量逐年增加。為了更好地提高我國護理行業從業人員的素質和能力,積極推進教育信息化在護理專業的發展,對于護理專業自身內涵式發展具有重要的現實意義。
mRASP獲取的聯合詞表采用了字節對編碼(BPE)的方式。總體思路是合并成對的頻繁字符序列以創建子詞單元。子詞詞匯可以看作是字符級詞匯和詞級詞匯之間的權衡。與詞級詞匯相比,它可以減少標記的稀疏性,增加相似詞之間的共享特征。但它只考慮頻率,而忽略了詞匯量的影響。VOLT[27]是一種通過最優傳輸的詞匯學習方法,通過考慮語料庫熵和詞匯量,可以在多項式時間內給出合適的詞匯。所以,該文使用一種融合跨語言預訓練模型(mRASP)與改進后的聯合詞表的藏漢神經機器翻譯。總體思路如圖1所示。
1.4統計學分析:對所有的數據都使用SPSS13.0軟件進行統計和分析。組間資料使用t進行檢驗,計數資料則采用X2進行檢驗。差異有統計學意義(P<0.05)。
(1)小蘇打:由于百香果的pH值過低,與鮮奶混合會出現絮狀物,因此需把百香果汁和胡蘿卜汁的混合液調節pH值為6.5。水與小蘇打的配比為1∶15,溶解后備用。

圖1 實驗流程
(1)數據增強:采用同義詞替換和回譯的數據增強方式對語料進行擴充。
(2)VOLT切分構建詞表:對藏漢平行語料直接進行BPE切分后,使用VOLT優化詞表。
(3)訓練模型:使用transformer-big神經機器翻譯模型進行訓練,并在mRASP提供的包含32個語言對的多語言預訓練翻譯模型上,使用藏漢平行語料進行訓練。
主人公Pi與動物們在跟隨父母一起移民加拿大的途中遭遇不測,只剩下他和一只黑猩猩、一匹受傷的斑馬、一條鬣狗和一頭饑餓的孟加拉虎開始了在海上漂流的冒險經歷。隨著殘酷的弱肉強食生死戰爭,最后只剩下Pi和孟加拉虎理查德·帕克,通過奈斯式的直覺方法與深層追問式的推理,Pi得出了七個方案。
為了使藏語語料很好地與模型兼容、并且擴大漢語的詞表占比,通過過采樣的方法(Over-sampling)去平衡詞匯量,保持詞匯表中藏語詞匯和漢語詞匯的最低頻度為20。
(4)翻譯模型評估:在解碼時采用不同的長度懲罰因子對翻譯模型進行評估,根據驗證集上的表現選擇最優模型。


圖2 基于mRASP的藏漢神經機器翻譯方法
本次實驗的語料來自第十八屆全國機器翻譯大會(CCMT 2022)所提供的1 157 959句對平行語料。
3.2.1 數據預處理
首先對所有藏漢平行語料進行了預處理,處理過程包括:符號標準化(具體包括全角半角的轉換,刪除非法字符,大小寫轉換以及中文化繁為簡等)、分詞處理、長度比過濾。同時為了提高模型泛化能力,把訓練集中與驗證集和測試集重復的句對刪除。
數據增強是提升機器翻譯的有效途徑。因此為了提高藏漢機器翻譯模型的性能,采用數據增強方式擴充語料。
1.3.1 心肌病理組織學檢測 將部分心肌組織石蠟包埋后制備切片,置于4%多聚甲醛溶液中固定24 h,蘇木精-伊紅(hematoxylin-eosin,HE)染色,光鏡下觀察心肌形態學變化,將非糖尿病ZT23亞組與糖尿病ZT23亞組、非糖尿病ZT11亞組與糖尿病ZT11亞組進行比較。
3.2.2 數據增強
(1)同義詞替換。在訓練集中隨機抽取15萬條數據采用同義詞替換的方式擴充語料。在進行藏語的同義詞替換時,使用50萬條藏語單語語料訓練word2vec模型,從句子中根據替換率分別為0.08,0.15的頻率隨機選擇非停用詞進行替換。漢語語料借助中文近義詞工具包Synonyms,從句子中根據替換率分別為0.08,0.15的頻率隨機選擇非停用詞進行替換。
該文采用基于自注意力機制的谷歌Transformer[28]神經網絡機器翻譯架構,使用的系統為fairseq開源工具。主要實驗參數設置如下:編碼器和解碼器的層數為6層,每一層有16個注意力頭,詞向量維度為1 024,全連接隱藏層維度為4 096。使用Adam梯度優化算法更新模型參數,其中β1=0.90,β2=0.98。學習率設置為0.000 3,warmup updates設置為4 000。為了防止過擬合,將dropout參數設置為0.1,clip norm參數設置為10。

最終的語料規模如表1所示。

表1 語料規模
2017年,國家食品藥品監督管理總局藥品審評中心副主任尹紅章因受賄罪被判處有期徒刑10年,同時獲刑的還有其妻子、兒子。法院查明,2002年至2014年間,尹一家三口共收取多家生物制藥企業給予的財物共356萬余元。
交通要道栽苗木。在交通要道兩側采用林苗模式,亦林亦苗,聯合運作,把“造林、造景、造錢”結合起來,培育“好看、好管、好賣”綠化景觀苗木,既把交通要道打造成農場的形象窗口,又實現道路兩側的經濟效益。
(2)
其中,c表示模型生成的句子長度,r表示參考譯文的長度。最終BLEU的公式為:
我國保險業起步較晚、基礎較弱,盡管近些年發展取得一定成就,但與經濟發展要求相比仍存在很大差距,依然處于發展的初級階段。黨中央、國務院對保險業的發展高度重視,支持保險業發展的力度不斷加大,通過政策、立法,對保險行業規范發展加以引導,為其營造了良好的市場環境。尤其自16年以來,一再強調保險作為社會保障體系重要支柱的功能,以及在脫貧攻堅戰、“一帶一路”中所發揮的重要作用。
最初的幾年,山東男籃的主管單位是省體育局。1998年,第一個正式贊助商山東永安介入,與體育局一起共建山東男籃。這家地產開發公司,在球隊管理上并無太多的話語權,但也借助“永安火牛”的聲名,被廣為人知。
(3)
(2)回譯。 分別從漢語和藏語的語料庫中隨機抽取10萬條句子,然后使用藏漢雙語數據在transformer-big上訓練一個正向翻譯模型和反向翻譯模型,即藏漢翻譯模型和漢藏翻譯模型。隨后利用這兩個模型對抽取出的句子進行翻譯,再使用詞對齊工具過濾掉對齊分數較低的句對。經過篩選得到最終的偽雙語數據。
3.5.1 基線實驗
為了驗證數據增強方式以及VOLT詞表的有效性,在transformer-big上訓練至收斂。表2對比了不同訓練方式的實驗結果。

表2 訓練策略結果
從表2可以得知,語料規模對翻譯性能的重要影響以及數據增強方式的有效性。同時使用VOLT詞表可以壓縮數據、壓縮熵,可以讓語料更容易訓練和預測,也加快了訓練模型的速度。VOLT也提升了藏漢雙向翻譯的性能,分別在藏漢/漢藏翻譯驗證集上提高了2.37/0.47個BLEU值。所以,該文采用VOLT+transformer作為基線實驗。
3.5.2 長度懲罰因子
為了適應驗證集短句較多的情況,分別在藏漢和漢藏翻譯上分析了長度懲罰因子(α)對BLEU值的影響。使用VOLT構建詞表,在transformer-big上訓練至收斂。實驗結果如表3、表4所示。

表3 長度懲罰因子對藏漢翻譯BLEU值的影響

表4 長度懲罰因子對漢藏翻譯BLEU值的影響
由表3、表4可知,藏漢翻譯適合的α為0.3,漢藏翻譯合適的α為1.2。合適的長度懲罰因子(α)會對BLEU值產生正面影響,過大或者過小的α都會影響翻譯性能。
3.5.3 mRASP跨語言預訓練模型
工程地質勘察是工程設計的基礎。地質調查的質量對工程的建設與設計有著重要的影響。必須加強工程地質勘察的質量管理。在目前的工程地質勘察質量管理中,仍然存在一些影響地質勘察質量管理的問題。
mRASP聯合詞表的規模為64 808。為了使藏語語料很好地與模型兼容、并且擴大漢語的詞表占比,該文采取4種方法合成詞表到原有的聯合詞表中。
該文選用機器翻譯常用的BLEU-4[29]值作為評價指標。BLEU(Bilingual Evaluation Understudy)是通過采用n-gram匹配的方式評估模型生成的句子和參考譯文之間差異的指標,生成的句子越接近參考譯文就認定它的質量越高。但該方法傾向于對短句子打出很高的分數,所以BLEU引入短句懲罰因子(Brevity Penalty,BP),對短句進行懲罰:
其中,xi代表語言(Li)中的一個句子,θ是mRASP的參數,C(xj)是對齊函數。在模型訓練時,會將所有翻譯對聯合訓練。
(2)BPE切分得到的藏語、漢語聯合詞表;
(3)VOLT切分分別產生的藏語、漢語詞表;
還有一個旅客在服務大廳買票,排隊的人比較多,想走捷徑,找到大廳里一位服務員,希望其代他插隊買票,服務員不同意,他轉身就投訴了這位服務員,說她不為旅客著想。
(4)VOLT切分得到的藏語、漢語聯合詞表。
mRASP提供了兩個32個語言對的模型,其中w/o model不包括對齊信息,w/ model包括RAS對齊信息。由于ALBERT[30]通過權值共享和矩陣分解減少參數,且使用遮蔽語言模型(MLM)和Transformer的編碼器來生成深度的雙向語言特征向量,所以此處將其作為對比實驗。該文在訓練好ALBERT模型后,先根據下游任務調整模型參數,然后將微調好的模型參數遷移到Transformer的編碼器端。實驗對比如表5、表6所示。

表5 mRASP藏漢翻譯實驗結果對比

表6 mRASP漢藏翻譯實驗結果對比
由表5、表6可知,mRASP+基線模型的翻譯性能是最好的,且w/ model都優于w/o model,這恰恰證明了RAS對齊信息的有效性;相比基線來說,在藏漢/漢藏翻譯的驗證集上提高了3.43/1.27個BLEU值。
ALBERT+基線模型也提高了翻譯效果,與基線相比,分別在藏漢/漢藏翻譯的驗證集上提高了0.52/0.38個BLEU值。在mRASP上融合BPE聯合詞表相較于mRASP+BPE來說,在一定程度上縮小了詞表規模,分別在藏漢/漢藏翻譯的驗證集上提高了0.42/0.02個BLEU值;但mRASP上融合VOLT聯合詞表相較于mRASP+基線模型來說,反而降低了翻譯性能。這可能是由于VOLT優化詞表所依靠的是信息熵,而藏語和漢語的信息熵差別較大而導致的。
為了直觀地對比基線、使用ALBERT預訓練模型以及mRASP跨語言預訓練模型后,藏漢/漢藏機器翻譯的改進效果,從1 000條驗證集中分別隨機抽取1條語句繪制成表。藏漢/漢藏翻譯效果對比如表7、表8所示。

表7 藏漢翻譯結果對比


表8 漢藏翻譯結果對比

上述譯文的對比證實了融合mRASP模型的有效性,它提高了藏漢/漢藏的翻譯效果。
針對CCMT 2022提供的藏漢綜合領域的平行語料,在transformer-big框架下,通過VOLT改進詞表、探索聯合詞表對翻譯性能的影響,并在mRASP跨語言預訓練模型上進行融合。通過實驗表明,利用VOLT改進詞表可以對藏漢機器翻譯的性能有一定提升;雖然在預訓練時沒有加入藏語語種進行訓練,但是mRASP跨語言預訓練模型仍然可以有效提高藏漢雙向機器翻譯的性能。
在下一步研究中,將計劃收集更高質量、領域覆蓋面更廣的藏漢平行語料,也將探索更好的跨語言預訓練模型來進一步提高藏漢雙向機器翻譯的性能。