哈里旦木·阿布都克里木,侯鈺濤,姚登峰,阿布都克力木·阿布力孜,陳吉尚
(1.新疆財經大學信息管理學院,新疆烏魯木齊 830012;2.北京聯合大學信息服務工程重點實驗室, 北京 100101)
機器翻譯是自然語言處理(NLP)領域重要的研究內容,其借助計算機程序自動地將源語言文本翻譯為具有相同語義的目標語言文本。近年來,機器翻譯發展迅速,尤其是神經機器翻譯(NMT)方法被提出之后[1-3],該領域得到了空前的發展。
維吾爾語是中華人民共和國新疆維吾爾自治區的法定官方語言之一,廣泛分布于中國新疆維吾爾自治區及周邊國家和地區,語系隸屬于阿爾泰語系突厥語族葛邏祿語支[4]。新疆地區作為我國國際貿易的活躍口岸,機器翻譯模型的應用為維吾爾族人民提供了更好的漢語及其他語言的學習工具,進一步促進不同地區和民族之間的文化交流和貿易往來。
本文旨在考察維吾爾語與其他語言之間機器翻譯的研究現狀,從基于規則和實例、基于統計以及基于神經網絡等方面詳細梳理了維吾爾語機器翻譯相關研究。同時,總結歸納了維吾爾語機器翻譯的相關資源,此外使用ChatGPT 模型對維吾爾語-漢語(后文簡稱維-漢)機器翻譯任務進行了初步探索,最后對維吾爾語機器翻譯未來的研究方向進行了展望,為進一步研究提供借鑒和參考。
20 世紀90 年代末,王世杰等[5]對漢語-維吾爾語(后文簡稱漢-維)機器翻譯面臨的主要問題進行初步探索,開啟了維吾爾語機器翻譯領域的研究,早期多數學者將基于規則和基于實例的維吾爾語機器翻譯方法進行結合討論,后續的發展同樣分為基于統計和基于神經網絡的維吾爾語機器翻譯兩個階段。表1 匯總了維吾爾語機器翻譯的方法及其優缺點。

表1 維吾爾語機器翻譯方法優缺點Table 1 Advantages and disadvantages of Uyghur machine translation methods
迄今為止,主流語言的機器翻譯研究主要經歷了基于規則的機器翻譯(RBMT)、基于實例的機器翻譯(EBMT)、基于統計的機器翻譯(SMT)以及基于神經網絡的機器翻譯4 個發展階段。然而,維吾爾語作為一種形態結構復雜多變的語言,其語義通過有限的詞干和詞綴的不同組合表達,主要在詞干后面首先添加構詞詞綴,然后添加構形詞綴而成,具體信息見表2。維吾爾語詞干“???”(“看”)通過添加構詞詞綴“??”生成具有不同語義的新詞匯——動名詞“?????”(“看著”),該動名詞后面繼續添加動詞過去式構詞詞綴可以派生新的詞匯“????????”(“見過面”),然后添加名詞復數構形詞綴“???”來構成新的詞“???????????”(“見過的人”),最后可以添加構形詞綴“??”(“呢”)構成“?????????????.”(“見過面的人呢”)。由此可見,維吾爾語詞干后面添加構詞和構形詞綴可派生出新的詞匯和詞的不同形態形式。在理論上,維吾爾語可以通過此方式產生無限多的詞匯,但也因此會產生更多的未登錄詞(OOV),從而導致嚴重的數據稀疏性問題。由于維吾爾語具有形態復雜、語料稀缺等問題,導致其發展相對緩慢。

表2 維吾爾語語言特性實例Table 2 Examples of Uyghur language features
在機器翻譯領域最早進行基于規則的機器翻譯研究,該方法首先對語言進行分析,然后利用人工抽取的規則將源語言轉換為目標語言,但規則的撰寫需要耗費大量的成本,因此在實際應用中受到一定限制。之后,文獻[6]提出基于實例的機器翻譯方法,受益于計算機處理性能的逐步提升以及雙語平行語料庫規模的不斷擴大,越來越多的語言學信息被直接用于機器翻譯的實例,從而逐漸取代了基于規則的機器翻譯方法[7]。在此發展階段,規則撰寫(規則庫)、語言相似度算法、電子詞典等直接影響翻譯的性能。圖1 所示為基于規則和實例的維吾爾語機器翻譯結構(以維-漢為例)。

圖1 基于規則和實例的維吾爾語機器翻譯Fig.1 Rule-and example-based Uyghur machine translation
在維吾爾語機器翻譯發展的初期階段,研究人員主要采用規則驅動的方法,文獻[8-11]針對維吾爾語人名、專有名詞、動詞后綴等介紹了基于規則的翻譯方法。鑒于維吾爾語和日語在句法結構和詞素等方面具有一定的相似性,文獻[12-13]介紹了維吾爾語和日語詞規則庫的構建,在此基礎上進行維吾爾語-日語機器翻譯任務的探索。在基于詞匯層面的規則基礎上,文獻[14-15]介紹了句子級相似度衡量方法,然而該方法對較長的句子或組成詞頻低的句子存在相似度計算偏差較大等問題。為了解決這些問題,文獻[16]利用單詞信息計算語言相似度來進行改進。電子詞典是基于規則和實例機器翻譯方法的基礎,通過構建維吾爾語詞典[17-18]來探索與漢語、英語[19]以及日語[20]之間的翻譯。為了取得更佳的翻譯效果,文獻[21-24]介紹了將規則、翻譯記憶庫以及詞典相結合的方法。
隨著機器翻譯技術和計算機性能的不斷發展,機器翻譯逐步邁入基于統計的發展階段,維吾爾語統計機器翻譯研究的主要思想是基于維吾爾語雙語語料庫,通過概率算法挖掘平行語料中詞語對應的翻譯關系,尋找將源語言序列轉換為生成概率最高的目標語言序列[25]。圖2 所示為基于統計的維吾爾語機器翻譯結構(以維-漢為例)。

圖2 基于統計的維吾爾語機器翻譯Fig.2 Statistical-based Uyghur machine translation
基于統計的維吾爾語機器翻譯研究主要以短語[26]和句法[27]的統計機器翻譯為主要研究方法;部分研究融入了詞典[28]和詞級別的語法信息[29-30]等外部知識。由于維吾爾語具有主語、賓語、謂語(SOV)的詞序結構以及從右到左的書寫順序等特點,文獻[31-33]介紹了漢語句子重排以及優化解碼時的調序方法來緩解維吾爾語和漢語的句法結構差異,使得兩者在形態上更加相近,以此提升了翻譯性能。文獻[34]介紹了影響漢-維翻譯效果的多種因素(詞對齊、句法結構差異、翻譯調序、翻譯一致性和未登錄詞),并提出了改善翻譯性能的建議。然而,由于基于統計的翻譯方法沒有考慮到語義之間的關系,因此文獻[35-36]介紹了統計機器翻譯與規則和翻譯記憶相結合的方法,以此來改善翻譯效果。基于統計的方法在維吾爾語機器翻譯研究中發揮了重要作用,但仍需要進一步提升翻譯質量。
神經機器翻譯方法已在維吾爾語機器翻譯任務中占據主導地位,其主體結構由編碼器-解碼器兩部分構成。首先使用編碼器將輸入的源語言文本轉化為固定向量,然后使用解碼器對向量逐次解碼,從而輸出目標語言文本。神經機器翻譯的目標是在給定源語言文本x的情況下,找出翻譯概率最大的目標語言文本如式(1)、式(2)所示:
其中:x=(x1,x2,…,xm) 表示源語言文本;y=(y1,y2,…,ym)表示目標語言文本;y 圖3 維吾爾語NMT 訓練框架Fig.3 Uyghur NMT training framework 在神經機器翻譯發展前期,研究人員使用循環神經網絡(RNN)、卷積神經網絡(CNN)以及門控循環單元(GRU)等網絡進行機器翻譯的初步探索。文獻[37]介紹了6 種經典的神經機器模型在維吾爾語-漢語的翻譯效果,為基于神經網絡的維吾爾語機器翻譯工作帶來了啟發。由于維吾爾語存在形態復雜和語料稀缺等問題導致譯文效果不佳是目前研究人員面臨的嚴峻挑戰。基于神經網絡的維吾爾語機器翻譯針對此問題采用不同方法解決,本節主要從以下3 個方面對其進行歸類整理:注意力機制,Transformer 模型和基于預訓練模型的維吾爾語機器翻譯方法。 1.3.1 注意力機制 自從注意力機制[38-39]被提出以來,研究人員將注意力機制與雙向LSTM、RNN 以及GRU 等網絡相結合,構建維吾爾語神經機器翻譯模型,如圖4所示。 圖4 基于注意力機制的維吾爾語機器翻譯模型Fig.4 Model of Uyghur machine translation based on attention mechanisms 同時,充分考慮維吾爾語的語言特點,融入詞級別以及句子級別的語法知識,分別研究了維吾爾語-英語[40]和漢語[41-42]的翻譯;此外,文獻[43]介紹了維-漢人名翻譯數據集的構建,并在此數據集上研究人名翻譯中的不雅詞和譯文不當的問題。為了更好地學習源語言和目標語言的語言理解與生成能力,文獻[44-45]介紹了基于注意力機制的多編碼器-多解碼器結構的大型神經機器翻譯模型,用于研究維吾爾語機器翻譯,該方法明顯優于基于統計的方法和基本的神經機器翻譯模型。 1.3.2 Transformer 模型 Transformer 模型[46]是完全使用注意力機制構建的序列到序列的模型,相較之前神經機器翻譯模型中使用的循環神經網絡而言,具有計算復雜度小、并行度高等優點。文獻[47]在Transformer 模型基礎上提出一種雙編碼器結構,分別對維吾爾語的單詞和語言特征進行編碼,旨在有效地整合語言特征并提升源語言知識的挖掘效果,從而改善維-漢翻譯的質量。 1)不同粒度切分 為了解決維吾爾語形態復雜性對機器翻譯質量的影響,研究人員探索適用于維吾爾語機器翻譯的不同粒度單元,以更有效地利用有限的平行語料資源。文獻[48]給出了維-漢和漢-維組織名(ONs)翻譯任務的對比分析,探討了字符、音節、BPE、標記字符和單詞5 種粒度單元的分詞方法對翻譯結果的影響。文獻[49]介紹了多層次分段粒度訓練方法,包括音節、標記音節、單詞和音節-單詞融合,實驗結果表明,多翻譯粒度訓練優于其他粒度分段的翻譯系統。此外,基于多頭自注意力機制的Transformer 模型也被證明優于基于自注意力機制的RNN 翻譯模型。文獻[50]將維吾爾語單詞切分成音節粒度,并融入BME 標記,結果顯示,音節標記方法明顯優于基于單詞和BPE 切分粒度的方法。 2)數據增強 由于維吾爾語平行語料資源的稀缺性,NMT 模型的訓練受到限制,無法獲得足夠的訓練數據以實現更優的翻譯性能,因此大多數研究者采用各種數據增強技術來解決數據不足的問題,從而提高翻譯質量和性能[51]。反向翻譯[52]是機器翻譯領域一種典型的數據增強技術,其核心思想是利用額外的目標端單語數據構建偽平行語料庫,并與原始語料庫按比例混合,以增加訓練數據量,具體流程如圖5 所示。然而,反向翻譯并非完美方法,當原始平行語料庫規模較小時,通過反向翻譯生成的偽平行語料質量往往不佳,而且將其混合則難以有效利用原始平行語料庫。因此,研究人員通常將反向翻譯技術與其他方法結合使用。 圖5 基于反向翻譯的維吾爾語機器翻譯Fig.5 Uyghur machine translation based on back translation 文獻[53]利用反向翻譯技術構建偽平行語料庫,并通過增量訓練和模型融合生成最終譯文。文獻[54]通過改進的反向翻譯技術將漢語單語數據轉化為不同領域的相似數據,然后分段訓練偽平行語料,利用模型平均和集成方法提高翻譯性能。文獻[55-56]介紹了反向翻譯、數據篩選和知識蒸餾等策略相結合的方法。文獻[57-58]提出了基于回譯和集成學習的方法(BTEM)以及集成修剪算法來緩解維吾爾語語料稀缺、傳統集成方法計算資源消耗大等問題。此外,文獻[59]介紹了基于知識蒸餾的數據增強方法,將教師模型的知識傳遞給學生模型,有效提升了翻譯性能。 3)遷移學習 遷移學習最早被用于機器翻譯任務[60],該方法首先在大規模平行語料庫上訓練一個“父”模型,然后使用“父”模型初始化“子”模型權重,最后在低資源語言上訓練“子”模型作為最終的翻譯模型,從而有效提升了低資源機器翻譯性能,如圖6 所示。 圖6 基于遷移學習的維吾爾語機器翻譯Fig.6 Uyghur machine translation based on transfer learning 文獻[60]提出應在資源豐富的語言上訓練“父”模型,而文獻[61]提出了與其相反的方法,利用相似的低資源語言訓練“父”模型和“子”模型,兩種語言均為突厥語(使用烏茲別克語訓練“父”模型,使用土耳其語和維吾爾語訓練“子”模型)。雖然文獻[61]利用了同類型語言句法相似性的優勢,但在低資源語言上訓練的效果遠不及高資源語言的訓練效果。文獻[62]比較了數據量和語言相似性對遷移學習方法的影響,發現高資源語言的數據量比語言的相似性更重要。相反,文獻[63]介紹了語言相似性對遷移學習的影響,他們認為選擇與低資源語言更相似的語言效果更好。為了平衡這兩個問題,文獻[64]提出了分層遷移學習方法,通過添加中間層,結合高資源語言的數據量優勢和相似語言的句法相似性優勢。NMT 模型依次在不相關的高資源語言對(英語-漢語)、相似中間語言對(土耳其語-英語)和低資源語言對(維吾爾語-漢語)上進行訓練,并逐層傳遞和微調參數,與傳統遷移學習方法相比,該方法在維-漢翻譯任務中的性能有所提高。 數據增強和遷移學習是解決低資源機器翻譯任務的有效方法,文獻[65]介紹了反向翻譯技術與不同的遷移學習體系結構相結合的方法,探索了預處理和訓練方法的差異,并證明了聯合反向翻譯和遷移學習方法的有效性。 1.3.3 預訓練模型 預訓練模型的基本思想是在大規模訓練語料上預先訓練神經網絡模型,從中學習通用的語言學知識,然后通過微調來適應下游任務。在主流語言中,預訓練模型已廣泛應用于機器翻譯領域,研究主要集中在以下2 個方面:1)將現有的預訓練模型與NMT 融合在一起[66-72];2)針對機器翻譯任務設計特有的端到端的預訓練模型[73-81]。 在維吾爾語機器翻譯領域,為了利用預訓練模型中的豐富語言學知識,文獻[82]介紹了基于BERT-fused[66]模型的漢語-維吾爾語的機器翻譯方法,并提出一種兩段式微調的策略進一步提高模型性能,如圖7所示。文獻[83]提出一種新的預訓練方法,其主要思想是對輸入序列掩碼時,不僅對源語言的Token 進行掩碼處理,而且將未掩碼詞按一定比例來替換成目標語言的待翻譯詞,該研究將這種預訓練方法與預訓練模型(XLM 和MASS)相結合,在維-漢和漢-維翻譯任務上實現了明顯的性能提升。 圖7 基于BERT-fused 的維吾爾語機器翻譯Fig.7 Uyghur machine translation based on BERT-fused 隨著機器翻譯領域的不斷發展,低資源機器翻譯受到學者廣泛的關注。2022 年,文獻[81]提出了支持202 種語言之間任意互譯的大規模機器翻譯模型(NLLB),202 種語言中的大部分屬于低資源語言,其中包含維吾爾語語料。NLLB 模型主體架構是在pre-LN 結構的Transformer 模型基礎上融入稀疏門控混合專家(MoE)模塊,MoE 是一種條件計算模型,以最小化不相關語言之間的干擾。此外,文獻[84]提出了針對中國少數民族語言(維吾爾語、蒙古語、藏語)的生成式預訓練語言模型(CMPT),并將其開源,為中國少數民族語言的發展奠定了堅實的基礎。 基于神經網絡的維吾爾語機器翻譯發展早期,其效果不如基于統計的機器翻譯模型[37],為了改善翻譯質量,文獻[85-88]介紹了NMT 模型與SMT 模型相結合的方法,有效提高了維-漢的翻譯質量。此外,在模型結合過程中,引入詞素[89]、詞干詞綴[90]等特征有助于緩解翻譯過程中的數據稀疏問題。另外,文獻[91]提出了基于記憶結構的神經機器翻譯模型(M-NMT),該模型由基于注意力機制的神經網絡和內存組件兩部分構成,使用了SMT 產生的單詞映射,該方法旨在處理維-漢翻譯過程中的未登錄詞問題。 綜上所述,傳統的維吾爾語機器翻譯研究主要采用了基于規則和實例、基于統計兩種方法。其中,基于規則和實例的方法在特定領域和任務中表現出色,例如醫學、法律、金融等,具有特定術語和短語。規則可以針對這些領域中的特殊術語進行優化,以提高翻譯質量,但基于規則和實例方法存在人工編寫成本高、詞典維護困難以及通用領域的適用性差等局限。相比之下,基于統計的方法則對大規模數據有較好的適應性,通過學習大量的雙語平行語料,能夠自動捕捉語言之間的轉換規律。對于較短的句子,基于統計的方法通常能夠提供較好的翻譯質量,因為它們能夠更快地學習到句子中的短程依賴關系。然而,在數據稀缺的情況下,這些方法可能會面臨困難,因為它們的性能很大程度上依賴于可用的訓練數據。此外,需要強調的是,大多數早期研究都是在自行構建的語料庫(未公開)上進行訓練與測試的,這在一定程度上限制了傳統方法的推廣和泛化能力。 隨著深度學習技術的迅猛發展,神經機器翻譯方法逐漸成為機器翻譯任務的核心方法,該方法在大規模平行語料庫下表現優異,能夠從海量數據中自動學習語言之間的轉換規律,適用于處理各種語言對和領域,在高資源語言對中表現更優,但在數據稀缺的情況下性能有所下降。然而,在各種數據增強以及模型優化方法的加成下,神經機器翻譯方法逐漸成為維吾爾語機器翻譯任務的核心方法,這種趨勢也得益于更加規范和客觀的評價標準,如全國機器翻譯大會(CCMT)可以保證評價的客觀性和可比性,為維吾爾語機器翻譯研究奠定了堅實基礎,如表3 所示,基于神經網絡的維吾爾語機器翻譯研究大多使用CCMT 提供的語料庫進行訓練和評估,不同年份提供的語料不完全相同。近年來興起的預訓練模型憑借其強大的表示學習能力和高質量的翻譯輸出受到廣泛關注,但也需要面對計算資源成本高、模型可解釋性差等挑戰。 表3 基于神經網絡的維吾爾語機器翻譯實驗結果Table 3 Experimental results of Uyghur machine translation based on neural network 總之,任何一項技術都有其優勢和局限,對于維吾爾語機器翻譯而言,并沒有一種絕對最優的翻譯方法。當前機器翻譯領域正處于不斷發展和變革之中,目前已出現具有通用能力的大語言模型(LLM),如ChatGPT、GPT-4[92]等,這些模型在各項NLP 任務中取得了重大突破,同時也為低資源機器翻譯研究提供了新的可能性。基于這一背景,第3 節主要分析目前典型的大語言模型ChatGPT 在維-漢機器翻譯任務上的能力。 本世紀以來,國內外機構針對維吾爾語機器翻譯進行了大量研究,國外主要是ACL、EMNLP、COLING 等國際頂級會議,國內有關維吾爾語機器翻譯的相關學術活動,如表4 所示,在國內學術會議中,全國機器翻譯大會(CCMT)在維吾爾語機器翻譯領域作出了巨大貢獻,該會議舉辦了維-漢、蒙-漢等雙語翻譯任務以及其他以中文為核心的翻譯任務,為研究人員提供了實踐平臺。此外,CCMT 免費開源了17 萬左右的語料供學術界研究,這些語料的共享不僅促進了學術界的合作與交流,也為維吾爾語機器翻譯技術的發展奠定了堅實的基礎。 表4 維吾爾語機器翻譯相關學術活動Table 4 Academic activities related to Uyghur machine translation 語料庫是指收集并科學加工后的電子語言材料[93]。維吾爾語作為一種低資源語言,語料稀缺,而神經機器翻譯的發展需要大量語料的支撐。因此,構建大規模、高質量的平行語料庫對維吾爾語機器翻譯研究至關重要。目前維吾爾語平行語料涉及到的語言主要為漢語[94-96]和英語[81,97],也有部分其他低資源語言[98],相關語料資源具體情況如表5 所示。基于規則和實例以及統計的維吾爾語機器翻譯研究大多使用自建的語料庫,并沒有公開相關語料庫,后續的基于神經網絡的維吾爾語機器翻譯大多使用CCMT 提供的語料庫進行維漢機器翻譯研究,不同年份提供的語料不完全相同,具體結果對比見表3。NLLB 模型中維吾爾語訓練語料使用的是TIL 語料庫,測試語料是FLORES-200,漢-維翻譯的最好結果ChrF++值為37.3%,spBLEU(spm-200)值為22%,維-漢翻譯的最好結果ChrF++值為17.7%,spBLEU(spm-200)值為20.4%。 當前大模型技術發展迅速,以ChatGPT 為代表的通用型人工智能模型的出現為低資源機器翻譯帶來了新的可能性。ChatGPT 基于GPT-3.5 模型,通過人類反饋強化學習(RLHF)微調而成。本文實驗主要采用GPT-3.5-turbo 模型進行研究,該模型價格實惠且對話能力較強,適用于大多數任務。實驗旨在多維度挖掘ChatGPT 模型在維-漢機器翻譯任務上的能力,使用上下文學習(ICL)和思維鏈(CoT)方法對維吾爾語機器翻譯任務進行初步探索。 實驗采用自動評價的方法進行評估,使用scareBLEU 開源的機器雙語互譯評估(BLEU[99])、ChrF++[100]以及COMET 3種評價指標分別從詞級、字符級和語義方面進行綜合評估。 BLEU[99]評估方法是使用最廣泛的機器翻譯評價指標,從單詞級對翻譯結果進行評估,它使用n-gram 匹配方法對機器翻譯生成的文本與參考譯文之間的相似性進行度量,n-gram 取值通常為4,表示1~4 個連續單詞組成的單元,BLEU 值分數越高,翻譯質量越好,計算方式如式(3)、式(4)所示: 其中:BBP是短句懲罰因子,防止機器翻譯的文本較短而導致不合理分數,因此對短句進行懲罰;c為機器翻譯的文本長度;r為參考譯文的長度;p n為n-gram 準確率。 CChrF是一種從字符級對機器翻譯的文本質量進行評估的方法,計算方式如式(5)所示: 其中:CChrP為精確率(查準率),表示機器翻譯生成的文本和參考譯文相匹配的字符級n-gram 在機器翻譯生成的文本中所占比例;CChrR為召回率(查全率),表示機器翻譯生成的文本和參考譯文相匹配的字符級n-gram 在參考譯文中所占比例,是調節查準率和查全率之間的權重參數。 ChrF++[100]是ChrF 的一種改進版本,在上述基礎上加入單詞級評估,取平均值,文中提出字符級n-gram 中n取值為6,詞級n-gram 中n取值為2。本文實驗使用ChrF++進行評估。 COMET[101]是一種基于神經網絡模型的評價指標,更貼合人類的評測,該方法將機器翻譯生成的譯文、源語言文本和參考譯文的信息三者相結合進行預測,并且能捕捉翻譯文檔中微弱的差異。實驗使用COMET-22[102](wmt22-comet-da)進行度量。 實驗使用CCMT2021 維-漢驗證數據集中的前100 條數據進行評估,通過調用GPT-3.5-turbo 模型的API 完成,溫度參數設置為0℃,對于ChatGPT 模型而言,溫度參數越高,生成的句子多樣性越強,溫度參數越低,生成的句子越準確。在ICL 實驗中,Zeroshot 實驗主要評估不同的模板對維-漢翻譯任務的影響,并選擇其中最好的模板進行Few-shot 實驗,受ChatGPT 模型最大Token 數限制,ICL 的Few-shot 實驗最大進行20-shot;在CoT 實驗中,Zero-shot 實驗同樣先評估哪種模板效果最好,效果最好的模板進行后續的Few-shot 實驗,CoT 的Few-shot 實驗最大進行12-shot,實驗代碼將被公開發布于Github 平臺,以供廣泛查閱與使用。 3.3.1 Zero-shot 在機器翻譯任務中,Prompt 的格式直接影響LLM 對任務的理解能力[103]。為更好地激發ChatGPT 在低資源語言上的翻譯潛力,本節探討4 種典型模板,分為任務提示和答案提示兩種類型,如表6 所示。 表6 Prompt 模板Table 6 Prompt templates 任務提示型模板(T1 和T2)在輸入過程中明確指示ChatGPT 模型要對輸入的句子進行翻譯任務。答案提示型模板(T3 和T4)雖不直接提示任務,但通過Prompt 的設計能引導出問題的答案。在表6 中,{input_text}表示輸入文本,{src}表示源語言,{tgt}表示目標語言,T1~T4 表示不同的模板。不同Prompt 模板在維-漢翻譯任務上的實驗結果如表7 所示(其中加粗數字表示最優值,下同)。 表7 不同Prompt 模板的實驗結果Table 7 Experimental results of different Prompt templates % 根據表7 所示結果,綜合3 種評價指標,T1 取得了最好的翻譯結果。因此,在后續Few-shot 的實驗中將選取T1 作為主要的Prompt 模板。 3.3.2 Few-shot 本節主要探討ICL 方法在Few-shot 情況下對維-漢機器翻譯任務的影響,實驗結果如表8 所示。 表8 ICL Few-shot 實驗結果Table 8 Experimental results of ICL Few-shot % 從表8 可以看出,隨著示例數的增加,翻譯效果呈現先升高后下降的趨勢,在10-shot 情況下達到最佳效果。在Few-shot 翻譯過程中,有時會在輸出翻譯結果的同時輸出示例句子,因此需要手動刪除多余的示例,確保輸出結果的準確性。此外,隨著示例數的增多,模型可能更容易過度擬合,導致在Few-shot 情況下出現性能下降。然而,在10-shot 時模型能夠更好地利用示例信息,獲得更準確的翻譯結果。因此,找到適當的示例數量對于實現高質量的Few-shot 翻譯至關重要。 3.4.1 Zero-shot 受文獻[104-106]中CoT Prompting 模板的啟發,本節選取了3 種典型的CoT 策略,如表9所示。 表9 CoT Prompting 模板Table 9 CoT Prompting templates 從表10 的實驗結果來看,與ICL 的實驗結果相比,CoT 并未取得更好的翻譯性能,反而導致了性能下降。這可能是因為CoT 的逐字逐句翻譯方式反而削弱了翻譯模型的表現能力。 表10 不同CoT Prompting 模板實驗結果Table 10 Experimental results of different CoT Prompting templates % 在翻譯過程中,相較于CoT1,其他兩種模板更容易出現以下問題:1)只翻譯英文而不生成最終的完整譯文;2)一步一步地翻譯出單詞、短語或部分句子的譯文而沒有進行整體翻譯。此外,還可能出現“讓我們逐步思考”等類似語句的輸出,或者直接輸出維吾爾語而不進行翻譯,這些問題導致了翻譯效果的不佳。 3.4.2 Few-shot 本節主要評估CoT 方法在Few-shot 情況下對維-漢機器翻譯任務的影響。受ChatGPT 模型最大Token 數限制,本節最多進行到12-shot 的實驗,分別設定了1、3、5、10、12 共5 種Few-shot 情況,實驗結果如表11 所示。從表11 可知,10-shot 獲得了最佳結果,12-shot 出現了下降趨勢,然而并沒有超越ICL 實驗的最佳結果。與其他NLP 任務不同,在維-漢機器翻譯任務中,CoT 方法沒能更好地挖掘大模型的潛力。這可能是由于維吾爾語在ChatGPT 的訓練語料中相對較為稀缺,同時中文也非ChatGPT 的主要語言。 表11 CoT Few-shot 實驗結果Table 11 Experimental results of CoT Few-shot % 本文實驗僅是對CoT 方法在維-漢機器翻譯任務上的初步探索,未來的研究將從CoT Prompting 模板的設計入手,并結合維吾爾語的特性,如詞典、語法規則等外部知識,進一步深入研究和優化翻譯性能。 盡管維吾爾語機器翻譯相關研究已取得一定進展,但是由于維吾爾語存在構詞復雜、詞序和書寫順序特殊以及語料稀缺等問題,其發展相對滯后,仍面臨著許多挑戰亟待解決。例如:如何進一步緩解維吾爾語機器翻譯中存在的形態復雜、語料稀缺等問題;如何構建融入更多維吾爾語特色的機器翻譯模型等。 此外,隨著LLM 的出現,為機器翻譯領域帶來了新的可能性。與以往的NMT 方法不同,LLM 在訓練過程中不再嚴重依賴于大規模的平行語料庫。相反,LLM 僅需利用小規模但高質量的語料,通過指令微調和ICL 等技術,便能獲得出色的翻譯效果。然而,在一些類似維吾爾語到漢語這樣的低資源機器翻譯任務中,雖然LLM 在翻譯質量上有所表現,但仍難以與傳統的NMT 模型相媲美。因此,基于LLM 的低資源機器翻譯仍需進一步深入研究和探索。本節主要從5 個方面進行展望。 1)構建高質量維吾爾語平行語料庫 在LLM 時代,機器翻譯已不再過度依賴于龐大的語料庫,而對語料質量的要求愈發突顯。然而,當前公開可用的維吾爾語語料資源仍相對匱乏,在CCMT2023 提供的語料中,藏漢、蒙漢有100 多萬條,而維漢語料僅有17 萬條。此外,目前可供使用的維吾爾語公開語料庫主要集中在新聞領域,缺乏其他領域(如日常生活、醫學等)的語料庫。因此,構建維吾爾語平行語料庫亟需完成,通過自動或半自動的手段構建,并邀請相關語言學專家參與糾錯和提升質量的工作。通過提供更加豐富和準確的訓練數據,幫助改善維吾爾語機器翻譯的質量,并推動其在實際應用中的發展。 2)引入多模態信息 多模態翻譯是當前機器翻譯領域的研究熱點之一,支持文字、圖像、語音等多種模態之間相互翻譯。因此,維吾爾語機器翻譯在未來發展中可以此為切入點進行研究,通過引入圖像和語音等多種信息,可以豐富翻譯模型的輸入,增強其對上下文的理解和表達能力,從而提高維吾爾語機器翻譯的準確性和流暢性。這種方法可以有效緩解維吾爾語機器翻譯中的語料稀缺問題,并更好地滿足實際生活需求。 3)LLM 融入語法知識 LLM 本身積累了大量的多語言知識,然而,其主要在以英文為中心的語料上進行訓練,包含低資源語言(如維吾爾語、蒙古語等)的數據非常有限。因此,在將LLM 應用于低資源機器翻譯任務時,可以考慮在Prompt 設計中引入詞典、句法結構等語言學知識,以幫助模型更好地學習低資源語言的語言學特性,從而提高翻譯性能。 4)構建以中文為核心的多語言機器翻譯模型 新疆作為中國“絲綢之路經濟帶”核心區,擁有獨特地理位置和資源優勢,通過構建以中文為核心的多語言機器翻譯模型(涵蓋維吾爾語、中亞語言等低資源語言)可以更好地促進“一帶一路”倡議的實施,并通過深入挖掘漢語與維吾爾語等語言之間的聯系,優化翻譯性能。 5)基于LLM 的機器翻譯 LLM 參數量巨大,小型研究團隊難以承擔如此龐大的計算資源需求。此外,NMT 蒸餾、剪枝、壓縮等模型小型化技術在LLM 上同樣適用,因此,探索LLM 的參數高效微調方法以及探索大模型的小型化技術,將是未來低資源機器翻譯研究的重要發展道路。 維吾爾語機器翻譯是一項具有重要價值的研究工作,不僅僅局限于簡單的文本翻譯,而是承載著不同地區和民族之間文化、生活、經濟等交流的重要橋梁。本文回顧了維吾爾語機器翻譯的相關研究,并匯總了相關學術活動和語料庫資源。此外,采用ChatGPT 模型對維-漢機器翻譯任務進行了初步探索,為后續學者的研究奠定了一定基礎。最后對維吾爾語機器翻譯未來的發展趨勢進行了展望。總體而言,神經機器翻譯的持續發展為維吾爾語機器翻譯帶來了巨大突破。然而,在語料庫構建、方法創新、語言特色以及翻譯廣度等方面仍存在欠缺,需要進一步進行創新和研究。




1.4 基于統計和基于神經網絡的機器翻譯的結合
1.5 基于統計的維吾爾語機器翻譯總結

2 維吾爾語機器翻譯相關資源
2.1 相關學術活動

2.2 語料庫
3 基于ChatGPT 的維-漢機器翻譯評估
3.1 評估指標
3.2 實施細節
3.3 ICL 實驗結果



3.4 CoT 實驗結果



4 未來展望
5 結束語