基于句子與基于字符串的兩種翻譯記憶模式的分析

2018-03-27 12:34:28羅煦四川傳媒學(xué)院

傳播力研究 2018年13期

關(guān)鍵詞：記憶文本

羅煦四川傳媒學(xué)院

1966年，自動(dòng)語(yǔ)言處理咨詢委員會(huì)(ALPAC)發(fā)布的一份報(bào)告初步定義了歐洲煤鋼鐵協(xié)會(huì)(CECA)所使用的早期的翻譯記憶系統(tǒng)為：“包含上下文的自動(dòng)字典查詢。[...]翻譯者用下劃線表示他想要的幫助。然后將整個(gè)句子按鍵打開(kāi)并送入計(jì)算機(jī)。計(jì)算機(jī)通過(guò)搜索程序并打印出與問(wèn)題句子最明顯匹配(在詞匯項(xiàng)目中)的一個(gè)句子或多個(gè)句子。譯者然后檢索打印出來(lái)的所需項(xiàng)目的上下文以及它們?cè)谠次募谐霈F(xiàn)的順序?！?ALPAC 1966，27)這個(gè)系統(tǒng)的出現(xiàn)，為了為現(xiàn)代翻譯記憶系統(tǒng)的發(fā)展鋪平道路，一些關(guān)鍵特征如文本對(duì)齊，自動(dòng)匹配和檢索被創(chuàng)造了出來(lái)。

一、翻譯記憶

翻譯記憶(TM)是一個(gè)存儲(chǔ)“段”的數(shù)據(jù)庫(kù)，它存儲(chǔ)著之前翻譯過(guò)的句子，段落或類似句子的單位(列表中的標(biāo)題，標(biāo)題或元素)，借以此幫助翻譯人員。翻譯記憶通常與專用計(jì)算機(jī)輔助翻譯(CAT)工具，文字處理程序，術(shù)語(yǔ)管理系統(tǒng)，多語(yǔ)言字典或甚至原始機(jī)器翻譯輸出結(jié)合使用。雖然翻譯人員可用的技術(shù)范圍包括從電子詞典和詞匯提取工具到高度復(fù)雜的翻譯環(huán)境等各個(gè)領(lǐng)域，但翻譯及一系統(tǒng)存儲(chǔ)和檢索能力以非凡的速度發(fā)展，因而對(duì)翻譯這個(gè)行業(yè)帶來(lái)了變革。因此，就像在翻譯和翻譯之間架起了一座橋梁。當(dāng)翻譯人員使用翻譯記憶庫(kù)工具翻譯新文本時(shí)，該工具會(huì)識(shí)別新文本片段和存儲(chǔ)的源文本之間的相似性。在此過(guò)程中，搜索和檢索功能是所有翻譯記憶工具的基本功能。

現(xiàn)如今，翻譯行業(yè)正在為今后幾年的需求大幅增長(zhǎng)做好準(zhǔn)備。根據(jù)Common Sense Advisory的調(diào)查，語(yǔ)言服務(wù)市場(chǎng)2015年的增長(zhǎng)率為6.46%。雖然語(yǔ)言技術(shù)只占整個(gè)語(yǔ)言服務(wù)市場(chǎng)的2.8%，但它確實(shí)表明了語(yǔ)言技術(shù)發(fā)展的巨大潛力。Common Sense Advisory將名為翻譯自動(dòng)化軟件的三家大型公司列為混合語(yǔ)言服務(wù)提供商，向所有市場(chǎng)利益相關(guān)者銷售服務(wù)，包括SDL，STAR和TransPerfect。他們的套裝包括翻譯記憶庫(kù)，術(shù)語(yǔ)管理和TMS。

而翻譯記憶最新發(fā)展是“文本記憶”，這一概念與翻譯記憶相反。這也是LISA OSCAR(前本地化產(chǎn)業(yè)標(biāo)準(zhǔn)協(xié)會(huì)出臺(tái)的標(biāo)準(zhǔn))的基礎(chǔ)。在xml：tm中的文本內(nèi)存包含“譯者內(nèi)存”和“翻譯記憶”。譯者記憶用于記錄譯者編輯當(dāng)中出現(xiàn)的改動(dòng)。翻譯記憶則使用譯者記憶中的信息來(lái)實(shí)現(xiàn)翻譯記憶匹配。雖然主要針對(duì)XML文檔，但可以將XML：tm用于任何可以轉(zhuǎn)換為XLIFF格式的文檔。

翻譯記憶模式是指翻譯記憶存儲(chǔ)的方式。根據(jù)國(guó)內(nèi)研究人員(王華偉，崔啟良2005,107)的分類，目前有兩種翻譯記憶模式。一種是基于句子的模式(SB)，其中翻譯記憶以翻譯單元的形式存儲(chǔ)。另一種是雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串(CSB)模式。目前，SB模式被應(yīng)用于大多數(shù)翻譯記憶工具。因此，本文在比較兩種模型時(shí)將更重視前者。

二、基于句子的翻譯記憶模式(SB)

就該模式而言，翻譯記憶系統(tǒng)是一種特殊類型的支持工具，它維護(hù)源語(yǔ)言和目標(biāo)語(yǔ)言對(duì)的數(shù)據(jù)庫(kù)，并自動(dòng)檢索數(shù)據(jù)庫(kù)中出現(xiàn)的新文本中的這些句子的翻譯。換句話說(shuō)，每個(gè)源語(yǔ)句與目標(biāo)語(yǔ)句中的語(yǔ)句完全匹配。在這一模式中，翻譯記憶系統(tǒng)將根據(jù)句子級(jí)別搜索和檢索數(shù)據(jù)。

(一)基于句子模式的優(yōu)勢(shì)

為什么句子是大多數(shù)翻譯記憶工具選擇的首選翻譯單元？語(yǔ)料庫(kù)對(duì)在不同層面都差異甚大，比如文本、段落、句子、短語(yǔ)和詞語(yǔ)層面。一些像黃俊紅這樣的學(xué)者(2007,21)認(rèn)為，對(duì)齊單位越小，它傳達(dá)的語(yǔ)言信息就越多。然而，Bowker(2002,56)認(rèn)為，詞匯層次上的對(duì)齊非常困難，容易被誤解，因?yàn)榇蠖鄶?shù)自然語(yǔ)言可以找到它們之間的確切等價(jià)關(guān)系，而段落對(duì)太寬而無(wú)法搜索和檢索。因此，詞匯對(duì)齊應(yīng)該是構(gòu)建雙語(yǔ)平行語(yǔ)料庫(kù)最合適的方法。

此外，通常來(lái)講，這樣的匹配也是高度精確的。盡管能夠訪問(wèn)比句子更小的片段的工具可能會(huì)產(chǎn)生更多的匹配，但使用該句子作為基本單元的顯著益處在于，出現(xiàn)的匹配更有可能是相關(guān)的。這被認(rèn)為是高精度，低召回的搜素形式。

這種基于句子的模型的另一個(gè)優(yōu)點(diǎn)是它基于容易識(shí)別的單位(句子)進(jìn)行操作；系統(tǒng)可以根據(jù)形式標(biāo)準(zhǔn)(例如開(kāi)頭的大寫(xiě)字母，最后的標(biāo)點(diǎn)符號(hào))快速且比較容易地確定每個(gè)句子的開(kāi)始和結(jié)束。但是，當(dāng)文本中出現(xiàn)含有句點(diǎn)的縮寫(xiě)詞時(shí)就會(huì)出現(xiàn)問(wèn)題，但這可以在一定程度上用停用列表來(lái)幫助程序識(shí)別和忽略這些縮寫(xiě)(Bowker 2002,95)。

任何以句對(duì)形式存在的翻譯記憶數(shù)據(jù)庫(kù)都促進(jìn)了翻譯記憶系統(tǒng)在不同系統(tǒng)和用戶之間的可交換性，因?yàn)槭袌?chǎng)上大多數(shù)翻譯記憶系統(tǒng)使用該模式，而另一方面得歸功于本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)(LISA)，因?yàn)樗_(kāi)發(fā)了TMX(翻譯記憶交換)，這是一種標(biāo)準(zhǔn)格式，允許翻譯單元從一個(gè)翻譯記憶程序中導(dǎo)出并在另一個(gè)中重新打開(kāi)，而不會(huì)丟失附加到這些單元的信息。

(二)基于句子模式的劣勢(shì)

最明顯的缺點(diǎn)在于源文本和目標(biāo)文本之間由于句子結(jié)構(gòu)不同而導(dǎo)致的對(duì)齊問(wèn)題。有時(shí)需要將兩個(gè)源語(yǔ)言句子合并成一個(gè)目標(biāo)語(yǔ)言句子，或者將一個(gè)源語(yǔ)言句子分解成兩個(gè)目標(biāo)語(yǔ)言句子，特別是在由很多分句組成的長(zhǎng)句中(Bedard 1998,25)。

第二個(gè)明顯的缺點(diǎn)是匹配算法。匹配是通過(guò)字符匹配過(guò)程實(shí)現(xiàn)的，通過(guò)計(jì)算兩個(gè)段或子段中相同和相同順序的字符串?dāng)?shù)量。此計(jì)算以匹配值的形式表示，通常為百分比。這種匹配方式只考慮了語(yǔ)言因素，而不是語(yǔ)句所表達(dá)的意思。一些研究人員用以下三句話進(jìn)行了測(cè)試：

(1) The wild child is destroying his new toy.

(2) The wild chief is destroying his new tool.

(3) The wild children are destroying their new toy.

事實(shí)證明，(2)和(1)比(3)和(1)匹配得更好，而我們都知道(1)和(3)在意義上更接近的事實(shí)，因?yàn)榭紤]到兩個(gè)句子只有單數(shù) 和復(fù)數(shù)形式。由于TM系統(tǒng)僅考慮共同字的數(shù)量，所以這個(gè)結(jié)果出來(lái)了。這種結(jié)果算法甚至?xí)a(chǎn)生無(wú)用匹配的更大風(fēng)險(xiǎn)，這被稱為“噪聲”。

三、雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串翻譯記憶模式

雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式允許用戶看到更廣泛的匹配上下文(即整個(gè)段落或文本而不僅僅是一個(gè)單獨(dú)的段)。此外，用戶可以利用更大塊的重復(fù)或相似的文本，如段落或頁(yè)面，而不僅僅是在句子層面上運(yùn)作。

(一)雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的優(yōu)勢(shì)

在雙語(yǔ)語(yǔ)料庫(kù)中搜索字符串，而非在單獨(dú)的句對(duì)中查找匹配，這一模式的優(yōu)點(diǎn)在于能夠完整保存句子層面之外的上下文。用戶可以看到更廣泛的上下文匹配內(nèi)容，即整個(gè)段落或文本，而不僅僅是一個(gè)單獨(dú)的片段。

此外，用戶可以利用更大塊的重復(fù)或相似的文本，如段落或頁(yè)面，而不是在句子層面進(jìn)行操作。例如，如果要翻譯的文本中有大量重復(fù)的材料集中在大塊中(可能是更新或修訂的情況)，雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)具有能夠立刻識(shí)別和處理多個(gè)連續(xù)的相同句子。

在基于句子模式的翻譯記憶系統(tǒng)中，精確對(duì)準(zhǔn)非常重要。這意味著創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)必須花費(fèi)更多的時(shí)間。相反，當(dāng)在雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中保留上下文時(shí)，可以在翻譯過(guò)程中用很少額外的努力來(lái)糾正錯(cuò)誤對(duì)齊。

(二)雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的劣勢(shì)

盡管擁有能夠拾取短字符串的優(yōu)點(diǎn)，但該模式可能以子段塊的形式產(chǎn)生更多的“噪音”，因?yàn)樵撓到y(tǒng)可能識(shí)別許多兩個(gè)三字的字符串。

此外，當(dāng)前文本的翻譯通常不會(huì)被添加到翻譯記憶中或者在翻譯過(guò)程完成之后才被驗(yàn)證，從而使用戶難以地利用內(nèi)部重復(fù)。這意味著，對(duì)于基于句子的模型，一旦翻譯完成，新的句對(duì)就可以很容易地從同一個(gè)數(shù)據(jù)庫(kù)中檢索出來(lái)。而在基于雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中，直到整個(gè)翻譯完成并添加到數(shù)據(jù)庫(kù)之前，新文本的內(nèi)容才能以雙語(yǔ)語(yǔ)料的格式進(jìn)行搜索。即使在翻譯過(guò)程中將術(shù)語(yǔ)和表達(dá)方式添加到術(shù)語(yǔ)銀行，除非用戶在每次添加后重復(fù)每個(gè)過(guò)程，否則這些術(shù)語(yǔ)和表達(dá)方式不會(huì)被識(shí)別為內(nèi)部重復(fù)。

最后，雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式不太可能在系統(tǒng)和用戶之間轉(zhuǎn)移，因?yàn)門MX標(biāo)準(zhǔn)格式是基于句子模式發(fā)明的。

本文的主要目的是分析兩種翻譯記憶模型：基于句子的模式和雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式。但是，目前雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)幾乎已經(jīng)在市場(chǎng)上消失了。本文仍詳細(xì)分析了雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式，旨在為翻譯記憶系統(tǒng)的新功能的研究和開(kāi)發(fā)提供參考，因?yàn)樗哂衅洫?dú)特的優(yōu)勢(shì)。

[1]ALPAC，Language and Machines：Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee，Division of Behavioral Sciences，National Academy of Sciences，National Research Council，Washington，DC.1996.

[2]王華偉，崔啟亮.軟件本地化[M].北京：電子工業(yè)出版社，2005.

[3]Bedard，Claude.“Jamais plus vous ne traduirez，ou les memoires des traduction，deuxieme partie”，Circuit，vol.61，1998：23.

[4]Bowker，Lynne.Computer-Aided Translation Technology：A Practical Introduction，University of Ottawa Press，2002.

[5]黃俊紅，范云，黃萍.雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)齊技術(shù)述評(píng)[J].外語(yǔ)電化教學(xué)，2007(118)：21-25.