王子云,毛 毳
(1.山東理工大學外國語學院,2276758300@qq.com;2.通信作者,山東理工大學外國語學院,kerrymao@163.com)
ChatGPT (Chat Generative Pre-trained Transformer) 是美國人工智能創業公司OpenAI于2022年11月公開發布的聊天機器人,其以多輪對話的形式,通過用戶的提示引導進行內容創作[1]。溯其根源,其模型基礎是最初專為機器翻譯任務打造的Transformer,在此基礎上進一步開發研究形成了GPT模型,并先后經歷了GPT-1、GPT-2、GPT-3、GPT-4等多代升級?;贕PT模型,采用更大規模的訓練數據和更深層的神經網絡結構,ChatGPT橫空出世,它可以遵循特定的提示語 (prompt) 提供詳細的反饋,使得人機交互更加智能化和人性化。
ChatGPT一經推出就引起了各行各業的強烈反響,是人人可用、行行有用的信息助理[2]。作為機器學習大數據深耕的最新成果,ChatGPT通過大數據納入人類語境理解人類語言,具有嚴密的語言邏輯和強大文本生成能力[3],可作為輔助翻譯任務的工具,但其翻譯質量如何有待探究。
陶瓷是中國傳統文化的重要組成部分,具有深厚的歷史底蘊。淄博陶瓷根植于齊魯大地深厚的文化底蘊之中,不僅是淄博的重要名片,也是中國瓷器史的一個縮影[4]。陶瓷文化的對外傳播對促進文化交流、推動產業發展、保護和傳承陶瓷的制作技藝具有重要意義。因此,以淄博陶瓷琉璃博物館相關介紹文本為語料探討如何提升ChatGPT的翻譯質量,對陶瓷相關翻譯工作者、研究者具有一定的價值。
本研究采用基于GPT3.5版本的 ChatGPT模型,以其對陶瓷類文本的漢英翻譯為例,通過與其他機器翻譯軟件譯文的對比分析,評估該模型的譯文質量。同時測試不同提示語對譯文質量的影響,總結可以提升譯文質量的優秀提示語,使ChatGPT成為陶瓷類文本翻譯工作中更好的助手。
本研究采用自動評估方法,對比分析ChatGPT與其他3種機器翻譯軟件處理同一篇陶瓷文本的BLEU值和TER值,判斷ChatGPT的翻譯質量;對比分析不同翻譯提示語下輸出的譯文質量,探究提示語對譯文質量的影響,并篩選能夠提升譯文質量的優秀提示語。
本研究擬回答以下三個問題:
第一,作為機器翻譯工具,ChatGPT輸出的譯文質量如何?
第二,不同的ChatGPT提示語對譯文質量是否有影響?
第三,何種翻譯提示語可以較好地提升譯文質量?
本研究采用機器翻譯質量自動評估法和對比分析法。對于同一個問題,ChatGPT每次都能給出不同的回答,不會千篇一律[5]。因此,為避免同一提示語輸出結果的隨機性,本研究獲取每一條提示語下的3次輸出譯文,報告譯文質量的平均值,以確保測試結果的效度和信度。
1.2.1 測試文本
本研究的翻譯測試文本選自淄博陶瓷琉璃博物館“古齊廳”與“國窯廳”的中英文介紹,共獲取中文文本2770個字符,參考英文譯文1751個字符。
1.2.2 機器翻譯軟件
本研究將ChatGPT與其他3種機器翻譯軟件進行比較,其中包括Google翻譯、Youdao詞典以及DeepL翻譯,這3種機器翻譯軟件可分別支持133、109和29種語言之間的實時翻譯。本研究所用數據均基于GPT3.5版本的ChatGPT,數據收集時間截至2023年3月30日。
1.2.3 自動評估指標
BLEU值和TER值是兩種常見的機器翻譯質量評估指標。BLEU (Bilingual Evaluation Understudy) 由IBM于2001年提出[6],基于n-gram模型,比較機器譯文中的n-gram與參考譯文中的n-gram,計算匹配的n-gram數量占機器譯文n-gram總數量的比例,用于評估機器譯文的充分性和流暢性。BLEU是國際上機器自動翻譯評價系統的流行指標,數值越高,表明譯文質量越好[7]。TER (Translation Edit Rate) 由Snover等于2006年提出[8],基于編輯距離模型,通過統計機器譯文修改為參考譯文的后編輯次數,來分析機器譯文的質量,用于評估機器譯文中詞匯和語法的錯誤率,即詞匯和語法的正確性。機器譯文所需的后編輯次數越少,譯文質量就越高[9]。兩種指標用于評估機器譯文的不同方面,結合使用可以更全面、準確地評估機器譯文質量的優劣。本研究選用“試譯寶——譯文測評工具”對譯文的BLEU值和TER值進行計算。
1.2.4 翻譯提示語
在ChatGPT中,提示語通常指輸入的文本段落或短語,作為生成模型輸出的起點或引導。提示語可以是一個問題、一段文字描述、一段對話或一段任何形式的文本輸入,模型會基于提示語所提供的上下文和語義信息,生成相應的輸出文本。設置提示語就是設置與ChatGPT的對話模式[10]。
本研究在ChatGPT中使用多個翻譯提示語以獲取多個譯文進行比較,其中包括ChatGPT直接翻譯提示語(用“ChatGPT”表示),添加術語限定的翻譯提示語(用“Cp術語”表示),添加“文本來源/語言風格/目標讀者”等背景信息的翻譯提示語(用“Cp背景”表示),以上提示語見表1。另外,筆者將“Cp術語”和“Cp背景”2條翻譯提示語輸入ChatGPT進行優化,分別獲取3條機器翻譯提示語,以“Cp1、Cp2、Cp3”和“Cp4、Cp5、Cp6”表示。本文第2部分將對以上提示語的內容及譯文質量進行詳細介紹。

表1 ChatGPT直接翻譯提示語和“Cp術語”“Cp背景”提示語
與傳統的機器翻譯軟件直接呈現原始輸入句子的翻譯版本相比,大型語言模型 (Large Language Models) 需要應用特定的模板來格式化原始句子以生成譯文。本文以“Please provide the [TGT] translation for these sentences:”作為ChatGPT直接翻譯提示語,獲取直接翻譯譯文,并與其它3種傳統機器翻譯軟件的譯文進行質量比較,分別計算BLEU和TER數值,結果如表2所示。

表2 ChatGPT與其他機器翻譯軟件的譯文質量指標 單位:%
由表2可知,在BLEU指標上,ChatGPT、Google、DeepL和Youdao譯文的數值均高于30%,其中ChatGPT數值最高,其次是Google和Youdao,而DeepL數值最低。周成彬等指出,使用BLEU值對模型進行評估,取得31.4%的BLEU值,譯文質量良好,達到了機器翻譯的效果[11]。由此可知,在譯文的充分性和流暢性上,4種機器翻譯軟件的翻譯質量均為良好,且ChatGPT最為出眾。在TER指標上,ChatGPT和Google譯文的數值均高于70%,其次是DeepL,而Youdao數值最低。這表明在詞匯和語法的準確性上,Youdao譯文表現最佳,DeepL次之,ChatGPT和Google譯文在該方面略有不足。
綜上所述,在陶瓷類文本的漢英翻譯任務中,除Youdao譯文在TER指標上有明顯優勢之外,ChatGPT譯文在充分性和流暢性及詞匯和語法的準確性上與常用的這3種機器翻譯軟件數值相當,譯文質量總體較好。表明在該文本翻譯領域中,基于GPT3.5的ChatGPT已經具備一定的競爭力,可以和現有的機器翻譯軟件相媲美。
分別獲取“ChatGPT”“Cp術語”“Cp背景”以及“Cp1、Cp2、Cp3、Cp4、Cp5、Cp6”這9條提示語下的輸出譯文,對其譯文的BLEU值和TER值進行對比分析,以探究不同翻譯提示語對譯文質量的影響,結果如表3所示。

表3 不同提示語下的 ChatGPT譯文質量 單位:%
由表3數據可知,提示語對于機器翻譯質量具有重要影響,不同提示語所生成的譯文質量存在較大差異。筆者對人工編寫的提示語和ChatGPT優化后自動生成的提示語條件下生成的譯文質量進行分析有以下發現。
第一,在人工編寫的提示語下的譯文質量,相比于“ChatGPT”直接翻譯提示語下的譯文質量,“Cp術語”提示語下輸出譯文的TER值略微下降,BLEU值也有所下降,但“Cp背景”提示語輸出的譯文BLEU值提升了一個百分點,且TER值有所降低。由此可知,當人工編寫的提示語個體主觀因素的干擾較強,表述籠統或難以給出準確和具體的細節時,會影響譯文的翻譯質量。增加具體化背景信息作為翻譯提示語參數的優化方法,可以取得較好的翻譯效果。該方法可以為翻譯模型提供更準確和具體的上下文信息,從而更好地提升翻譯質量,為翻譯實踐提供更好的支持。
第二,在ChatGPT根據人工編寫提示語自動生成的提示語中,除Cp1與Cp5提示語下輸出譯文的TER值稍高于直接翻譯之外,其他機器翻譯提示語下輸出的譯文BLEU值均高于ChatGPT直接翻譯譯文,且TER值均有所降低。值得注意的是,與直接翻譯譯文相比,Cp3和Cp6提示語下輸出譯文的BLEU值均高出至少1個百分點,TER值均降低至少3個百分點。以上結果表明,ChatGPT根據要求自動生成的翻譯提示語下的譯文充分性和流暢性更好,詞匯和語法準確性更高。由此推斷,經過ChatGPT優化后自動生成的提示語更符合機器的語言表達方式,能夠有效提高機器翻譯的準確性,從而提升機器翻譯的整體質量。
綜合以上分析可知,人工編寫提示語會由于表述主觀性和籠統性等原因降低譯文質量,經過添加具體化內容的提示語可以提升譯文質量。但相比之下,經過ChatGPT優化后自動生成的提示語下產生的譯文質量更好,這表明自動生成的機器翻譯提示語更有利于ChatGPT輸出高質量譯文。
要獲取機器翻譯指令,需要人工設定提示語與ChatGPT開啟對話,筆者反復測試,發現“Please provide three concise prompts or templates for ‘human-made prompt’:”這一條提示語下的譯文質量最好,由此獲取機器翻譯提示語結果如表4所示。

表4 添加術語和背景的機器翻譯提示語
由表3、表4可知,在兩組機器翻譯提示語中,Cp3和Cp6提示語下所輸出的譯文BLEU值提升最高,TER值降低最多。表明在添加術語和背景信息時分別采用Cp3和Cp6提示語形式來觸發ChatGPT的翻譯性能,所產生的譯文質量更好。
此外,在添加術語提示語的過程中,筆者發現只有將術語以“源語(譯語)”的形式輸入ChatGPT,它才能完全理解并按照提示語進行翻譯,這一結論可以通過ChatGPT對譯文提取術語進行對比驗證。
為進一步評估優秀提示語的有效性,筆者選用以下具體譯文案例進行對比分析,結果如表5和表6所示。

表5 添加術語的機器翻譯提示語下的譯文比較

表6 添加背景的機器翻譯提示語下的譯文比較
筆者選用了添加術語的三個機器提示語中的典型例句,以說明提示語對翻譯質量差異的影響。由表5可知,原文中“明器”是指古代人們下葬時帶入地下的隨葬器物,即“冥器”,與“隨葬用的陶制模型”所指相同。而Cp1和Cp2提示語下所輸出譯文均未能正確識別該詞的含義,將“明器”完全錯譯為“Ming pottery”和“bright-colored pottery”。此外,在原文“特別是隨葬用的陶制模型,各類陶塑,形象生動的人俑、馬俑、藝俑”中,“各類陶塑”和“形象生動的人俑、馬俑、藝俑”之間是上下義關系而非并列關系,但Cp2提示語下輸出譯文僅按照詞語出現的先后順序,錯譯為并列關系。相比之下,Cp3提示語下輸出譯文雖規避了“明器”這個詞的翻譯,但是“特別是隨葬用的陶制模型,各類陶塑,形象生動的人俑、馬俑、藝俑”的處理使語義更加清晰、完整,并準確再現了原文的上下義關系結構,大大提升了譯文質量。
由表6可知,相較于Cp4和Cp5提示語下輸出的譯文,Cp6提示語下輸出的譯文被動語態使用頻率更高。漢語里的被動語態是借助詞匯手段實現的,由“被、由、為……所、在……中”構成的被動句一般表示較強的被動意義,側重于行為的表達,英譯時通常譯為英語的被動句[12]。所以,Cp5和Cp6提示語下輸出的譯文將“白瓷作為貢品為皇家所享用”譯為英語被動語態更為合適。另外,英語使用被動式,常常是為了表示某種客觀、間接、非人稱的口氣,以迎合某些表達的需要,漢語往往不用被動式,而用無主句、主語省略句、主語泛稱句及其他句式。總之,英語常用被動式,漢語常用主動式。英漢互譯,就要句式轉換[13]。Cp4和Cp5提示語下輸出的譯文根據上下文將原文無主句“在這里形成了以淄川、博山為代表的陶瓷生產基地和產品銷售中心”增譯了主語“Zibo”,符合英語語法,表達意義也正確,但都采用了主動句式,不符合英語多使用被動語態的特征,未能重點突出“淄川”和“博山”這些重要信息,與參考譯文句式差異較大。由以上分析可知,Cp6提示語下輸出的譯文更符合英語表達方式,譯文質量最好。
綜上所述,在陶瓷類文本漢譯英任務中,ChatGPT自身優化的添加術語和背景信息的機器翻譯提示語可以提升譯文質量,但提升指數不一,其中添加術語的優秀機翻提示語為“I need the text to be translated into [target language], with specific attention given to accurately translating these [terms]:”,并保證“terms”的輸入形式為“source language (target language)”;添加背景信息的優秀機翻提示語為“Translate the text into [target language] based on [source of text][language style][target readers]:”,且括號中的內容可根據實際需求進行更改。
作為機器翻譯工具,ChatGPT與其他3種機器翻譯軟件在本次陶瓷文本漢英翻譯任務中的譯文質量不相上下,表明ChatGPT已經在現有的機器翻譯軟件中具備一定的競爭力。同時,相較于傳統的人工編寫提示語,將人工編寫的提示語輸入ChatGPT優化后自動生成提示語下產生的機器翻譯譯文質量更好,表明ChatGPT中自動化提示語生成技術可以提供更高的適應性和翻譯效率。另外,本文總結了2條能夠較好提升譯文質量的優秀機器翻譯提示語,供相關領域的譯者參考使用。
陶瓷類文本翻譯需要考慮眾多專業術語和歷史文化背景等因素的影響,傳統的陶瓷文本翻譯需要耗費大量時間和精力,對相關領域的譯者和機構有較高要求和較大挑戰性。ChatGPT憑借其強大數據庫和深度學習能力,針對這些文本特征可以快速實現譯前資料查詢及譯后術語修正。同時,本研究提出的提示語優化技術——“人工編寫提示語 → ChatGPT優化自動生成提示語 → 獲取譯文”可以使ChatGPT輸出更高質量的譯文。譯后編輯是翻譯服務行業積極采取的翻譯方式,以更高質量的ChatGPT譯文作為其初始處理文本,可以更好地提高譯文質量和翻譯效率,實現人機交互優勢最大化。這給相關博物館、翻譯研究所等帶來了更高的翻譯質量和更低的翻譯成本。同時也要求該領域譯者迅速轉化角色,持續提升自身陶瓷專業知識和翻譯水平與使用提示語駕馭智能化工具的專業能力,進而更好地傳播陶瓷文化。此外,面對ChatGPT及其訓練語言的強大沖擊,語言學者更應在翻譯傳播中確保語言傳達的準確性與合理性,維護漢語語言本真,從而準確傳播中華優秀傳統文化。
綜上所述,在陶瓷類文本漢英翻譯任務中,ChatGPT可以作為我們的有效助手,從譯前準備至譯后編輯,全面提升翻譯質量和翻譯效率。作為一種仍在快速開發的高智能問答機器人,ChatGPT各方面性能都在不斷提升,可以預見,在未來的發展中,ChatGPT的翻譯質量會越來越高,ChatGPT優化后的自動生成提示語技術也將發揮越來越重要的作用。