歷史文化文本翻譯記憶庫建設(shè)研究
——浙江文化走出去之良渚文化綜論英譯為例

2021-11-12 09:30:54祝曉東

散文百家 2021年6期

王璟祝曉東

浙江外國語學(xué)院；寧波城市職業(yè)技術(shù)學(xué)院

鑒于良渚文化之于中華文明的重要性，中國政府正式推薦“良渚古城遺址”作為2019年世界文化遺產(chǎn)申報(bào)項(xiàng)目，并在同年7月6日正式成功通過立項(xiàng)。這意味著良渚文化在世界的影響會越來越大，浙江省文化廳的浙江文化工程項(xiàng)目專門重點(diǎn)規(guī)劃了一系列良渚文化叢書的外譯計(jì)劃，原著《神巫的世界:良渚文化綜論》是該系列叢書中最具特色的代表之一，本書從考古案例回顧了良渚文化發(fā)現(xiàn)與研究的歷史，同時(shí)通過對玉器反映的精神內(nèi)涵解讀巫術(shù)在當(dāng)時(shí)社會的巨大影響力。隨著浙江文化走向世界活動的不斷開展，越來越多的良渚文化相關(guān)作品需要向世界宣傳，翻譯質(zhì)量上也會有更高要求。

一、研究目標(biāo)

在當(dāng)前大數(shù)據(jù)人工智能時(shí)代，大量信息化技術(shù)手段已經(jīng)開始應(yīng)用到翻譯領(lǐng)域。其中最具有代表性的是機(jī)器翻譯和計(jì)算機(jī)記憶翻譯技術(shù)。翻譯記憶工具可以讓譯者循環(huán)利用以前的譯文來提高翻譯工作效率和保證翻譯的一致性。然而，如果對一個翻譯項(xiàng)目是由若干名各自獨(dú)立的譯者共同合作完成，記憶翻譯工具也不能完全保證翻譯的一致性（不同的譯者使用各種的本地翻譯記憶庫），這些譯者使用的翻譯記憶庫，可能會被不定時(shí)地更新或擴(kuò)充，不能保證數(shù)據(jù)的一致性。本研究的目標(biāo)之一是以一個具體項(xiàng)目為例，介紹翻譯記憶庫和語料庫的建設(shè)過程；另一目標(biāo)是討論一種以集成管理的模式對記憶庫進(jìn)行管理的系統(tǒng)，該系統(tǒng)可以使每個用戶都使用同步一致的實(shí)時(shí)更新的翻譯記憶庫數(shù)據(jù)。

二、翻譯質(zhì)量的控制

1.當(dāng)前面臨的問題。

翻譯質(zhì)量問題通常是關(guān)于翻譯的準(zhǔn)確性和一致性的問題。質(zhì)量問題可以細(xì)分為三種：翻譯錯誤、疏忽錯誤和翻譯一致性錯誤。翻譯錯誤往往是由于譯者缺乏相關(guān)歷史背景知識造成的。翻譯疏忽錯誤通常發(fā)生在語法、拼寫、格式等處，尤其是數(shù)字、天數(shù)、月數(shù)、年數(shù)、日期、錢數(shù)量等等。有時(shí)還會出現(xiàn)漏譯某段文本，這屬于另外一種疏忽錯誤（可以借助常用的雙語對齊軟件進(jìn)行檢查）。歷史文化作品中翻譯的不一致性也是一種比較常見的錯誤。對于歷史事件的解釋一定要嚴(yán)謹(jǐn)，同樣的意思應(yīng)該用相同的詞來表達(dá)和描述。當(dāng)同一系列作品包含一個歷史事件時(shí)，對該歷史事件的描述是通過一部作品內(nèi)部以及多部作品之間的方式錯綜復(fù)雜地聯(lián)系在一起。要正確認(rèn)識和翻譯每一條語句，考慮一部作品和系列叢書的相關(guān)性，確保翻譯的一致性。不一致必然會妨礙讀者對內(nèi)容的正確理解。一致性問題同時(shí)也會影響翻譯工作的效率。譯者參照以前的譯文時(shí)，從許多不同的相關(guān)翻譯中選擇最佳的翻譯是非常困難和費(fèi)時(shí)的。

2.翻譯記憶技術(shù)。

在互聯(lián)網(wǎng)+時(shí)代，各種信息化技術(shù)逐漸應(yīng)用到翻譯過程中，其中最有代表性的技術(shù)就是機(jī)器翻譯和翻譯記憶技術(shù)。翻譯記憶與機(jī)器翻譯經(jīng)常被混為一談，但是這是兩種不同的技術(shù)。機(jī)器翻譯是一種計(jì)算機(jī)完成的自動翻譯，是一種正在不斷發(fā)展的技術(shù)，譯文質(zhì)量方面還有許多需要改進(jìn)之處。在大多數(shù)情況下，應(yīng)用機(jī)器翻譯出來的文本需要進(jìn)行人工譯后編輯，全面自動化和高質(zhì)量的機(jī)器翻譯還沒有達(dá)到廣泛應(yīng)用的程度。

翻譯記憶技術(shù)的核心是一個由源語言文本和目標(biāo)語言文本組成的數(shù)據(jù)庫.數(shù)據(jù)以許多條語言對（源語言-對應(yīng)目標(biāo)語譯文）的形式組成，這些文本數(shù)據(jù)都是來自于以往翻譯過的文本資源。翻譯記憶庫是通過將源語言文本和目標(biāo)語言文本分割成片段(通常是句子)來創(chuàng)建的。源語言片段和對應(yīng)的目標(biāo)語言片段組成一對一的語句對存儲在數(shù)據(jù)庫中。數(shù)據(jù)以TMX3格式（一種開放的針對翻譯記憶數(shù)據(jù)的XML標(biāo)準(zhǔn)）或其他格式存儲。如新的源語言片段與過去翻譯過的語言片段相同或類似度較高（可以設(shè)定閾值），此時(shí)計(jì)算機(jī)輔助翻譯工具將從數(shù)據(jù)庫中檢索出對應(yīng)的目標(biāo)語片段提供給譯者參考和選用。

3.建立翻譯記憶庫實(shí)例。

下面以《神巫的世界：良渚文化綜論》英譯過程中建設(shè)翻譯記憶庫和雙語平行語料庫為例，描述建立翻譯記憶庫的核心工作過程。通常翻譯記憶庫可以被視為一種簡單和初級的雙語平行語料庫，本項(xiàng)目在進(jìn)行過程中與漢學(xué)專家（母語為目標(biāo)語的）合作，盡可能獲得恰當(dāng)、正確的譯文，生成準(zhǔn)確的翻譯記憶庫和術(shù)語庫，再對翻譯記憶庫進(jìn)行深加工，建設(shè)高質(zhì)量的小型良渚文化雙語平行語料庫。

傳統(tǒng)的雙語平行語料庫的建設(shè)往往是針對某一主題，收集篩選譯本、雙語語料對齊，建立雙語平行語料庫。翻譯實(shí)踐時(shí)，將已對齊的語料庫直接導(dǎo)入翻譯記憶庫，即可輔助翻譯。而本研究的工作與之不同，首先在翻譯過程中制作高質(zhì)量的目標(biāo)語譯文，生成翻譯記憶庫（即初級雙語平行語料庫），根據(jù)該初級雙語平行語料庫可以再進(jìn)一步進(jìn)行深加工，進(jìn)行分詞、分句、分段和標(biāo)注等深加工，最后生成具有更多用途的雙語平行語料庫。

(1)第三階段，翻譯、生成翻譯記憶庫。翻譯記憶庫建設(shè)是從無到有，規(guī)模逐漸增長的過程。在這一階段的翻譯過程中，會不斷遇到新的源語言文本，產(chǎn)生新的目標(biāo)語譯文，這些語言對將同步存入翻譯記憶庫，如果遇到重復(fù)原語言或者需要修改譯文的情況，新的譯文將覆蓋原記憶庫里的數(shù)據(jù)。整個更新過程由軟件自動完成。完成了所有雙語語言對的對齊，確保沒有出現(xiàn)漏譯，翻譯記憶庫生成工作便基本完成。

(2)第四階段，對翻譯記憶庫進(jìn)行標(biāo)注，生成雙語平行語料庫。利用工具軟件配合人工對詞性進(jìn)行標(biāo)注，由于目前還沒有對句子進(jìn)行標(biāo)注的成熟軟件，句法標(biāo)注基本上還是由人工完成。完成語料標(biāo)注后，雙語平行語料庫進(jìn)入測試和評估，這一系列工作完成后，基礎(chǔ)良渚歷史文化雙語平行語料庫的建設(shè)基本完成。

后續(xù)研究主要包括該語料庫的維護(hù)和語料庫的層次多樣化提升和應(yīng)用工作。

三、集中式翻譯記憶系統(tǒng)關(guān)鍵環(huán)節(jié)

1.系統(tǒng)基本目標(biāo)。

集中式管理方式的翻譯記憶庫系統(tǒng)，可以通過互聯(lián)網(wǎng)免費(fèi)提供翻譯記憶數(shù)據(jù)，所有譯員都可以訪問系統(tǒng)中的數(shù)據(jù)庫，并且能夠下載CSV或TMX格式的翻譯記憶數(shù)據(jù)，利用翻譯記憶工具輔助翻譯，該系統(tǒng)還應(yīng)該具有較強(qiáng)的搜索功能和參考功能。

2.數(shù)據(jù)庫的數(shù)據(jù)類型。

在數(shù)據(jù)庫中，每條記錄由源語言片段、對應(yīng)的目標(biāo)語言譯文片段和其他元信息(如標(biāo)題、文章編號等)組成。數(shù)據(jù)庫由S=M+N個記錄組成，其中M代表的是語言對（源語言-目標(biāo)語）片段數(shù)量，N代表的是源語言片段數(shù)量，其中M>N，意味著對于相同的源語言片段可能有幾種不同的翻譯目標(biāo)語片段與之對應(yīng)，不同的語境對應(yīng)不同的譯文表達(dá)形式。

3.集中式翻譯記憶數(shù)據(jù)庫的升級。

任何數(shù)據(jù)都具有時(shí)效性，隨著時(shí)間推移，會有新的文獻(xiàn)數(shù)據(jù)要添加到數(shù)據(jù)庫中或?qū)?shù)據(jù)庫進(jìn)行修改，因此集中翻譯記憶每間隔一段時(shí)間都要進(jìn)行更新升級。為了編輯集中記憶數(shù)據(jù)庫中的語句片段，就需要編輯相對應(yīng)的XML文件。隨著翻譯過程的進(jìn)展，需要添加新的語言對數(shù)據(jù)到集中翻譯記憶庫，或添加新的附加基礎(chǔ)數(shù)據(jù)，源語言片段和目標(biāo)語言片段對應(yīng)的XML文件必須要拷貝到指定的目錄，以供譯者檢索和下載。更新集中記憶庫的所有工作，從技術(shù)角度來看，就是對其數(shù)據(jù)進(jìn)行更新，確保用戶同步使用最新的數(shù)據(jù)。用戶可以將翻譯記憶數(shù)據(jù)下載保存為CSV格式或TMX格式，主流翻譯記憶工具軟件都可以使用這些格式的文件。當(dāng)修改或擴(kuò)展數(shù)據(jù)庫內(nèi)容時(shí)，這些更改將立即反映在可供下載對應(yīng)的目錄下，所有用戶都可以定期從系統(tǒng)進(jìn)行下載，獲得最新的翻譯記憶數(shù)據(jù)庫數(shù)據(jù)。各個用戶定期向數(shù)據(jù)庫管理人員提交本地翻譯記憶庫更新內(nèi)容，由管理員進(jìn)行審核和更新集中記憶庫供譯員共享，具體更新周期可以根據(jù)時(shí)間各個譯員提交數(shù)據(jù)更新數(shù)量的情況而確定。

4.系統(tǒng)的搜索功能。

用戶能夠直接通過瀏覽器搜索集中翻譯記憶庫中的內(nèi)容。系統(tǒng)允許翻譯記憶庫中的數(shù)據(jù)被下載，供翻譯記憶軟件使用，例如SDLTrados等軟件。然而不是所有的譯員正好都有翻譯記憶工具軟件或懂得如何使用這些軟件。而且，使用翻譯記憶工具搜索相似句子，需要建立項(xiàng)目，打開文件進(jìn)行翻譯，設(shè)置語言對，選擇和導(dǎo)入翻譯記憶數(shù)據(jù)庫等工作，這一系列操作會很耽誤時(shí)間。系統(tǒng)需要具有能夠?yàn)樗械挠脩籼峁┖喗荨⒖焖俸椭苯拥乃阉骷蟹g記憶庫的功能。這意味著用戶可以不借助任何工具，僅僅依靠互聯(lián)網(wǎng)就可以直接使用集中翻譯記憶庫。集中翻譯記憶數(shù)據(jù)庫系統(tǒng)必須提供三種搜索方式：句子、關(guān)鍵詞和規(guī)則表達(dá)式，其中按句子搜索是最常用且和最有效的方法。按句子搜索模式工作時(shí)，系統(tǒng)按用戶提供的搜索語言片段進(jìn)行搜索，最終提供一個模糊搜索結(jié)果的列表清單（所有高于設(shè)定的相似度閾值的語言片段），每個選項(xiàng)包括源語言片段和目標(biāo)語言片段，供用戶選擇使用。搜索結(jié)果界面中包括用戶給出的關(guān)鍵搜索片段、搜索到的（源語言片段-目標(biāo)語言片段）語句對、相關(guān)參考信息（數(shù)據(jù)出處和來源）以及關(guān)鍵搜索片段與結(jié)果的相似度估計(jì)等。

關(guān)鍵搜索語句片段與翻譯記憶數(shù)據(jù)庫中語言片段的相似度估計(jì)值通常是根據(jù)字符編輯距離進(jìn)行計(jì)算的，統(tǒng)計(jì)最小編輯距離。所謂編輯距離是指從一個字符串轉(zhuǎn)變成為另外一個字符串所需要進(jìn)行的編輯次數(shù)（插入、刪除和替換）。字符串編輯距離是當(dāng)前估計(jì)字符串相似度的主流算法之一。在按關(guān)鍵字進(jìn)行搜索時(shí)，系統(tǒng)將顯示源段列表，其中包含與相應(yīng)目標(biāo)段配對的指定關(guān)鍵字。還可以對系統(tǒng)提供其他對集中翻譯記憶庫檢索的方式，用戶還可以通過正則表達(dá)式搜索以指定要檢索的源文本的模式匹配等。

四、總結(jié)和展望

翻譯的一致性問題一直備受翻譯界的關(guān)注，尤其是對于術(shù)語準(zhǔn)確性和一致性要求很高的學(xué)術(shù)文章。本文討論了利用翻譯記憶數(shù)據(jù)庫系統(tǒng)有效解決歷史文化文本翻譯中的不一致性問題。并且列舉了實(shí)例，描述了翻譯記憶庫建立的一般過程。集中式翻譯記憶數(shù)據(jù)庫是一種新型的、可以幫助多人合作項(xiàng)目的、解決一致性問題的技術(shù)。以集中管理模式進(jìn)行數(shù)據(jù)管理，翻譯記憶數(shù)據(jù)庫可以被所有翻譯人員共享。歷史文化文獻(xiàn)通常都是按照某種格式起草的，句子的重復(fù)率很高，計(jì)算機(jī)輔助翻譯在這個領(lǐng)域有廣闊的應(yīng)用前景。

歷史文化文本翻譯記憶庫建設(shè)研究——浙江文化走出去之良渚文化綜論英譯為例