季智璇
?
保密環境下CAT技術的應用探索——以黨的十九大文件翻譯為例
季智璇
(中共中央編譯局 中央文獻翻譯部,北京 100032)
以十九大翻譯工作為例探討了保密環境下計算機輔助翻譯技術的應用模式,并為其進一步技術改進提供明確方向。計算機輔助翻譯軟件在無電子稿件且無網絡環境的條件下,可以通過優化翻譯記憶庫內容及改進翻譯項目設置等方式實現一鍵式檢索、協作式檢索、參考式檢索,有效提升了翻譯效率。通過大會翻譯實踐也可以看出計算機輔助翻譯軟件在檢索界面優化、譯前資料分析、譯后術語提取等方面還存在較大改進余地。
計算機輔助翻譯;保密環境;十九大;中央文獻翻譯
近年來隨著信息技術的發展及全球網絡的一體化趨勢,計算機輔助翻譯(ComputerAidedTranslation,CAT)的研發取得了長足進步,相比較尚未成熟的機器翻譯(MachineTranslation,MT),其在提高翻譯效率、改善譯文質量、后期審校編輯等方面具有獨特的優勢,并在科技翻譯、法律翻譯等領域取得了不錯的應用成果。
隨著我國綜合國力的日益強大,黨和國家領導人越來越頻繁地出現在世界舞臺中央。僅十九大前后短短三個月的時間里,我國先后舉辦了金磚國家領導人第九次會晤、美國總統特朗普訪華、世界政黨高層對話會等多場主場外交活動。面對世界越來越渴望聽到中國聲音、中國智慧、中國方案的新形勢,傳統的手工作坊式翻譯模式顯然已遠遠不能滿足中央文獻翻譯的任務需求。鑒于此,中央編譯局中央文獻翻譯部(以下簡稱文獻部)于2015年正式將計算機輔助翻譯系統引入中央文獻翻譯工作,并與傳統翻譯模式進行了系統整合。
眾所周知,計算機輔助翻譯提升翻譯效率的重要手段之一是網絡環境下集成多個機器翻譯系統及一鍵式搜索多個網絡語言資源,但中央文獻翻譯常常需要在保密環境,即無網絡環境下開展工作。計算機輔助翻譯在無網絡環境下能否有效提升翻譯效率,本文將以中國共產黨第十九次全國代表大會翻譯工作為例,分析保密環境下計算機輔助翻譯系統的運用模式及其進一步改進措施。
文獻部結合新時代中央文獻翻譯工作實際,以網絡化管理推動中央文獻翻譯工作發展,于2015年購買了SDL TradosStudio,SDL MultiTerm以及SDL Groupshare三個組件及計算機輔助翻譯系統專用網絡服務器,為翻譯記憶庫管理、術語庫管理、項目運行等的網絡化運行提供了充分的硬件保障。在實際使用過程中,文獻部協同相關技術單位開發了針對不同語言切分語句用的宏程序,提升了中外文語句對齊的效率,開發了翻譯記憶庫批量轉換插件TMmaker,替代了原有的翻譯記憶庫轉換軟件TMbuilder,提升了翻譯記憶庫轉換效率,并購買術語轉換插件Glossary Converter提升術語轉換效率。

使用TMbuilder時,書名、篇章名、作者、會議名稱等相關句對屬性均需要單獨錄入。以《江澤民文選(第二卷)》為例,僅錄入書名與篇章名就需要8小時人工。

使用TMmaker時,可直接將不同的書名、篇章名、會議名稱等相關屬性直填入EXCLE表格進行轉換。以《江澤民文選(第二卷)》為例,整本書轉化時間僅為2~3分鐘。
按照全員參與、以新代老的思路,文獻部以青年譯員為重點,先后組織了2015年全員基礎培訓、2016年“定稿人+CAT技術骨干”高級培訓、2017年中青年業務骨干高階培訓等專業培訓,累計參訓人員130余人次,部門在職譯員至少參加一次,35次以下青年骨干至少參加2次培訓。以考促訓,組織部門中青年譯員參加SDL公司組織的CAT技能大賽,促進軟件使用技能的提升。以講促訓,安排青年技術骨干為大連外國語大學、國際關系學院等院校實習生講解軟件使用技巧,促進青年譯員業務能力提升。目前,部門各業務處室均在初譯過程中使用計算機輔助翻譯軟件,部分處室實現了全員參與、全程使用。
翻譯記憶(Translation Memory,TM)是計算機輔助翻譯的核心技術之一(蘇明陽,2007)。翻譯記憶的工作原理是,譯者利用已有的原文和譯文建立起一個或多個翻譯記憶庫,在翻譯過程中,系統將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等)給出參考譯文,使用戶避免無謂的重復勞動,只需專注于新內容的翻譯(張宇浩、彭慶華,2014)。
文獻部原計劃第一階段建設段對齊翻譯記憶庫,待技術運用成熟后再開展第二階段句對齊翻譯記憶庫建設。但第一期翻譯記憶庫——江澤民文選段對齊翻譯記憶庫建成試用后發現每個句對單元字符數過多,導致譯文匹配率普遍低于50%,翻譯過程基本與人工翻譯的舊模式無差別。利用軟件檢索詞匯時,由于軟件檢索方式為模糊搜索,導致非 100% 匹配的無效結果過多,毫無參考價值。綜合上述理由,加之翻譯記憶庫轉換插件實現了前文所述的改進,在第二期翻譯記憶庫建設中即轉為句對齊翻譯記憶庫,并取得了良好應用效果。
經過兩年半建設,目前文獻部2000年之后的著作翻譯成果已基本轉化為句對齊翻譯記憶庫資源。截止至十九大召開前,文獻部翻譯記憶庫資源總計為43萬句對、2 600萬字(僅以中文字計),術語庫資源近7萬條。

表1 文獻部翻譯記憶庫資源匯總(截止至十九大召開前)

表2 文獻部術語庫資源匯總(截止至十九大召開前)
大會專用電腦處于物理隔絕的單機狀態,不僅無法發揮計算機輔助翻譯軟件調動互聯網資源的優勢,也無法相互之間構建局域工作網絡實現翻譯資源的實時共享互通。大會保密組僅提供中文版的紙質稿件,嚴禁在電腦中錄入電子版中文稿件,無法發揮計算機輔助翻譯軟件利用翻譯記憶匹配的核心優勢。外文翻譯組人員組成復雜,除牽頭單位文獻部之外,還有很多譯員來自外交部、中聯部、外文局、新華社、國際廣播電臺、北京外國語大學、天津外國語大學等相關機構和院校。
考慮到本次大會翻譯為第一次在無技術支持(雖然部分涉軍機關也在保密環境下使用計算機輔助翻譯軟件,但在發生故障時可以得到相關技術支持)的保密環境下使用計算機輔助翻譯軟件,文獻部在各語言組自主申請的基礎上確定安裝54套計算機輔助翻譯軟件,使用人員占到大會外文翻譯組成員的53%。其中,俄文組、日文組、阿文組實現了全員使用,英文組、法文組、西文組、德文組也覆蓋了定稿人等關鍵崗位。
大會工作期間安裝了Trados Studio和Multi Term兩個組件,其中Multi Term主要安裝了術語庫檢索插件Widget。大會工作期間既無網絡也無電子版稿件,因此文獻部對保密環境下計算機輔助翻譯軟件應用的預期目標為快速檢索中外文對譯資料。在該預期目標指導下,相關工作人員建立了翻譯記憶庫檢索項目和術語庫檢索項目。
通過Trados Studio建立任意一個翻譯項目,利用其檢索功能實現翻譯記憶庫資源的快速檢索,檢索結果包括中文、外文譯文、句對屬性等信息。雖然在翻譯記憶庫界面也就有檢索功能,但其檢索結果并不具備高亮顯示功能,且每次只能檢索圖3中某一個特定翻譯記憶庫。通過Multi Term中的插件Widget可快速檢索術語資源,檢索結果包括中文術語、外文譯文、術語出處等信息。

圖3 檢索項目翻譯記憶庫設置情況(以英文為例)

圖4 翻譯記憶庫檢索結果界面(以英文為例)

圖5 術語檢索項目術語庫設置情況(以英文為例)
傳統的Word檢索方式下,面對少則十幾、多則幾十的Word文檔,即使常年從事中央文獻翻譯的譯員也常常會出現漏查的情況,最終選擇的譯詞有很大出入。而臨時借調的譯員更是無從查起,迷惑之下常常將自己擅長領域的詞匯帶入中央文獻翻譯,結果導致后期要花費大量精力去統一譯詞。通過設置檢索項目后,譯員僅需要在圖4左上角檢索欄輸入檢索內容后即可檢索圖3中顯示的全部參考資料,大大提升了檢索效率。此外,可以通過圖3顯示的界面對翻譯記憶庫進行罰分以實現對檢索結果的人工干預,即根據定稿人意見對各參考資料的權重進行統一調整,確保同一語言組內對同一詞匯的檢索結果相同。圖3中顯示的翻譯記憶庫設置可根據工作需要靈活調整,在實際工作過程中,由于十九大報告中多處引用《毛澤東選集》原文,各語言組后期均將《毛澤東選集》翻譯記憶庫由第二級或第三級參考調整為最優先參考。

圖6 術語庫檢索結果界面(以英文為例)
大會翻譯期間為各語言組均建立了中英對照的檢索項目。中央文獻中相當數量的政治、經濟術語均由英文翻譯而來,在將中央文獻翻譯為其他語言的過程中常常需要先查找其英文原文才能查找到相關語種對應的準確譯文。部分具有中國特色的表述,特別是關鍵表述,如本次大會出現的“習近平新時代中國特色社會主義思想”的英譯方案由文獻部報送至黨和國家領導人得到了認可,因此更具權威性。英文組在近年承擔了更多的文獻外譯任務,其參考資料(13萬句對、500萬字、14 000條術語均為各語言組最多)相比較其他語言組而言更全面。通過為各語言組建立英文檢索項目,保障了各語種在關鍵表述上的一致性,體現了中央政治文獻的政治性和權威性。
部分語言組搜集了大量政治新聞類中外文對照資源,并建立了相關翻譯記憶庫,如日文組搜集的新華社報道及相關中國通信社譯文,僅中文字數就達到200多萬字。凝練精準的中央文獻翻譯一直奉行精品戰略,雖然譯文質量較高,但其每年少則十幾萬字、多則三四十萬字的翻譯規模很難保障最新的時政詞匯及時得到翻譯。政治新聞的展開式報道可以幫助譯員準確理解中央文獻術語的來龍去脈,且其相關譯文解釋性的翻譯風格也可以幫助譯員確定查找更加凝練精準的翻譯方案的方向。日文組在相關參考資料庫的協助下,最快完成了報告的初譯工作。
翻譯記憶庫與術語庫的檢索項目需要分別建立,即一鍵式查詢僅分別針對翻譯記憶庫和術語庫。而從實際使用效果來看,很多譯員往往僅使用翻譯記憶庫進行查詢,很少查詢術語庫。這其中固然有翻譯記憶庫查詢結果有上下文語境支持,而術語查詢結果中很多缺少例句支持的原因,但不能實現真正意義上的一鍵式查詢也是一大重要原因。建議計算機輔助翻譯軟件進一步整合檢索界面,以目前技術成熟程度來看,建議以術語庫查詢插件Widget整合翻譯記憶庫查詢功能,實現真正意義上的全資源一鍵式查詢。
大會翻譯期間,部分翻譯記憶庫在檢索過程中被發現存在錯誤,即中文與外文不相匹配的現象。由于時間緊、任務重,加之計算機輔助翻譯軟件并沒有附帶錯誤糾正或錯誤標記功能,譯員只能選擇忽略錯誤句對。面對每個語言組動輒10余萬句對的翻譯記憶庫,通過全部人工篩查的方式去糾正錯誤不僅效率低下,且容易發生疏漏。建議計算機輔助翻譯系統開發翻譯記憶庫錯誤標記功能,方便譯員對利用過程中發現的錯誤及時標記,并由技術維護人員在后期根據標簽進行更正,確保翻譯記憶庫內容的準確性和權威性。
對于大型翻譯項目而言,譯前準備是一項非常重要的工作。面對中央文獻翻譯精品戰略導致大會期間參考資料不足的困境,如大量搜集政治新聞形成參考資料庫固然是一種可行辦法,但依然不能做到對大會文件精準施策。考慮到大會文件的特點,通過搜集黨和國家領導人近五年間的講話并進行高頻詞匯分析,針對出現頻率最高的50至100個術語在譯前準備中制定出翻譯方案。這對于提升大會翻譯效率而言將是更加治本之策。建議計算機輔助翻譯系統開發文件預分析功能,針對特定文件或文件群開展大數據分析,篩選高頻語句或術語。相關成果將不僅對翻譯策略的制定具有重要參考價值,更將推動語言學、政治學等相關學科的進一步發展。
翻譯的最終目的在于對外傳播。相比較長篇累牘的文章,短小精悍的術語更適合當下以新媒體為主流傳播渠道的媒體環境。過去術語提取工作主要依靠資深譯員人工選取,不僅耗費時間長,而且術語的權威性常常遭到相關領域專家的質疑,因此,如何利用大數據快速提取大會外文術語是中央文獻翻譯面臨的一個緊要課題。相關合作軟件公司提供的術語提取插件并不完善,在之前的翻譯項目中并沒有得到任何有效結果,因此,本次大會未嘗試使用計算機輔助翻譯軟件提取術語。建議計算機輔助翻譯系統增強術語提取功能,在快速準確的前提下提供具有詳實數據支撐的術語表,提升大會翻譯的海外傳播效果。相關成果將不僅對今后中央文獻翻譯實踐產生幫助,也可以結合語料庫語言學等對翻譯理論和翻譯批評的發展產生推動作用。
[1] 蘇明陽. 2007. 翻譯記憶系統的現狀及其啟示[J]. 外語研究, (5): 70-74.
[2] 張宇浩, 彭慶華. 2014. 淺析計算機輔助翻譯中的譯者主體性[J]. 長春工業大學學報(高教研究版), (1): 142-144.
2018-02-11;
2018-02-21
國家社會科學基金重大項目“當代中國重要政治文獻多語種數據庫建設”(17ZDA108)
季智璇,翻譯,研究方向:翻譯理論、計算機輔助翻譯
H315.9
A
1008-665X(2018)2-0053-09