基于語料庫的東盟博覽會翻譯研究

2009-04-29 00:00:00何正國連建峰史忠志

文教資料 2009年14期

摘要：語料庫不僅為翻譯研究提供了新的工具，而且擴展了翻譯的研究范圍，提出了新的研究思路。本文從翻譯語料庫對翻譯研究的重要意義入手，重點介紹了基于自建的中國東盟博覽會平行語料庫的翻譯批評研究，通過Antconc、Wordsmith等語料庫軟件分析得到中文文本和英文文本這兩者的詞頻、字數(shù)、詞匯類別等信息進行雙語間的比較，找出兩種語言文本的差別，以及其中的翻譯現(xiàn)象。作者認為基于語料庫的翻譯批評方法不僅有助于在整體上比較客觀地把握文本，而且提出了新的研究思路。

關鍵詞：東盟博覽會平行語料庫翻譯批評文本

1.引言

許鈞教授曾歸納過客觀、合理、公允和科學的四種批評方法（1992：43-55），也曾旗幟鮮明地倡導“樹立科學的批評精神”（2003：409）。雖然科學的方法和精神被不斷強調，但迄今為止中國的翻譯批評還多用定性批評方式，以具體數(shù)據(jù)說話的批評仍然不夠。有鑒于此，筆者承擔了一項研究生創(chuàng)新項目，自建語料庫對東盟博覽會指南的翻譯文本進行批評研究，以具體的數(shù)據(jù)為基礎，對其中的規(guī)律性，尤其某些經常為翻譯批評忽略的特點進行探討，以判其得失。本項目掃描《中國東盟博覽會指南》（以下簡稱《東博》）中英文兩個版本，得到TXT格式純文本。另外還到廣州博覽會官方網(wǎng)站下載電子文本，用以與《東博》的文本對比研究。收集好文本后，通過Antconc、Wordsmith等語料庫軟件分析得到中文文本和英文文本這兩者的詞頻、字數(shù)、詞匯類別等信息進行雙語間的比較，以期找出兩種語言文本的差別，以及其中的翻譯現(xiàn)象。

2.創(chuàng)建小型的東盟博覽會平行語料庫的可行性

語言研究者已經可以自行建立中小型語料庫，進行與語言相關的研究，包括翻譯研究。根據(jù)用途，筆者自建的語料庫規(guī)模不需要很大，因為研究對象不是一般的自然語言資源，也就是說，進行翻譯批評研究的語料庫是專用語料庫。同時，與大多數(shù)現(xiàn)有語料庫不同的是，自建的翻譯語料庫是平行語料庫，即是把漢英兩種語言中完全對應的文本輸入計算機，并通過對比分析找出兩者的對應關系。

3.統(tǒng)計分析所利用的軟件介紹

筆者最初選擇著名的商業(yè)軟件Wordsmith Tools，該軟件是基于Windows平臺的索引軟件，是大型語料庫研究的重要軟件。但該軟件價格不菲，免費版只能利用其中有限的一些功能。因此筆者后來選擇免費的Antconc軟件，其是日本早稻田大學Laurence Anthony博士實驗室研發(fā)的基于Windows XP的多平臺的語料庫分析工具包，是目前一個非常有用的文本分析工具。特別的是，Antconc除具有良好的英文文本分析功能外，也可以分析經過分詞處理的中文文本。需要注意的是，利用Antconc 3.2.1w 2007處理中文文本時，需作以下設置：1.語言選擇為中文（cp936）：2.將經過ICTCLAS軟件作分詞處理過的文本中的標注符號隱藏。

眾所周知，英文是以詞為單位的，詞和詞之間靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。把中文的漢字序列切分成有意義的詞，就是中文分詞，或稱為切詞。筆者選用的自動分詞和詞性標注工具是中國科學院計算機漢語詞法分析系統(tǒng)ICTCLAS，其中文分詞準確率高，免去人工分詞耗時耗力之苦。

4.東盟博覽會語料庫在翻譯批評中的實際應用

筆者的自建語料庫語料以電子文本形式儲存，并且通過計算機自動處理或者人機互助加工，進行詞匯密度，詞頻，句子長度，搭配模式，特定詞匯的使用，以及使用頻率的比較研究，等等，致力于多維度、多層面的翻譯批評工作，比如：考察原作和原作者的語言風格和模式；考察譯文和譯者的語言風格和模式；考察某種原語對譯文模式的影響；考察不同翻譯家對相似文本的不同處理和把握；在資料和數(shù)據(jù)充足的條件下，進行譯者的認知過程和翻譯策略等問題的探索。

4.1詞頻（word frequency）

詞頻指各詞形（word form）在文本中出現(xiàn)的頻數(shù)，詞頻統(tǒng)計是語料庫分析中一個基本的統(tǒng)計手段。詞頻統(tǒng)計可以用于教材設計，文本分析和計算語言學等，其結果也可以用于其他更為復雜的統(tǒng)計之中。在翻譯研究中使用詞頻統(tǒng)計對原文的用詞風格，譯文的用詞風格乃至文體進行研究也有一定的幫助。筆者以《東博》中英兩個版本比較為例，簡要介紹自建語料庫進行的詞語分布（parsing）和詞頻統(tǒng)計的研究。

在該項研究中用到是Edict Virtual Language Center提供的在線 Word Frequency Text Profile。第一步，筆者使用Edict的 profile 3，將《東博》、《廣州博覽會手冊》（以下簡稱《廣博》）譯文粘貼在指定的方框內，文本分析軟件自動將輸入的文本分別與英語中的最常用2000詞表和學術詞表作對比，結論如下：

（1）文本中分布的總詞數(shù)（total number of words parsed in this text）=5953；

（2）分布在最常用2000詞表中的總詞數(shù)（number of words in the 2000 Most Frequent Word Family List）=3327（55.89%）；

（3）分布在學術詞表中的總詞數(shù)（number of words in the Academic Word List）=697（11.71%）；

（4）不屬于上述兩個詞表的總詞數(shù)（total number of words not in either list）=1992（33.46%）。

第二步，對《廣博》譯本進行類似處理，得出的四項相關數(shù)據(jù)如下：（1）1047；（2）641（61.22%）；（3）136（12.99%）；（4）270（25.79%）。

對照兩個處理結果，有一些差異（卡方值為1.02）的項目是第三項，據(jù)此基本可以認為《廣博》的譯文用詞更學術化，行文更書面化，而《東博》的譯文次之。

筆者采用按照詞的頻率遞減排列列表，并與《紅樓夢》回目楊憲益英譯作對比，見下表：

以上第一列是百分比（%），第二列是頻數(shù)，第三列是類符（types，指語篇一共有多少個不同的詞）。限于篇幅，上表僅為原始表格的極小一部分，但僅憑這一部分表格就可以發(fā)現(xiàn)不少問題。of在三個譯文中出現(xiàn)的頻數(shù)差異比較明顯，《廣博》中出現(xiàn)頻率最多，達到5.3%，這可以證明，《廣博》使用的語言較為復雜，《東博》次之，《紅樓夢》回目楊憲益英譯排最后，因為書面語言或學術語言中of出現(xiàn)的頻率一般僅次于the。通過以上這個簡單的例子可以說明詞頻表能在一定程度上使研究者從整體把握譯文發(fā)現(xiàn)一些局部的具體分析容易忽視或無法證明的問題。

4.2中英文版本詞頻對比

詞頻統(tǒng)計一般可以產生三種詞頻表（wordlist），一種按照詞的字母順序排列（sort alphabetically），一種按照詞的頻率遞減排列（sort most frequent words first），一種按照詞的頻率遞增排列（sort least frequent words first）。這三種詞頻表各有所長，都可能是進一步研究所需要的。這里筆者采用第二種列表，見下表：

把兩個文本用Antconc軟件進行統(tǒng)計，Antconc中的詞頻統(tǒng)計產生了一些有趣數(shù)據(jù)，Antconc中出現(xiàn)的有關這兩個文本的前100個出現(xiàn)頻率最高的詞的詞頻（以詞的頻率大小排列）能幫助我們了解文本的大意。在對以上資料進行分析后，從有意義的實詞中得出結論，東盟博覽會發(fā)生于廣西，指南中提供大量的酒店信息，并且時間（月，日）和地點（VENUE）也是重點信息。

從中英文兩個版本的詞頻對比中，可以看到詞匯層面的不對應。對應詞（又稱“對等詞”）指某一語言中的一個詞與另一語言中的一個詞是對等的，盡管詞形和詞義不完全一致。如日語的“野球”和漢語的“棒球”為對應詞。語料庫中，“中國”的對應詞“China”，頻數(shù)就不一樣，這與譯者的翻譯策略有關，可以看出譯者并不追求嚴格的形式對應。

4.3詞匯類別統(tǒng)計

語言學并不是語料庫檢索軟件應用的惟一領域，它也可以用于翻譯批評領域來分析原語文本和譯入語文本。為進一步探討語料庫檢索軟件在分析翻譯文本中的應用，筆者選用《東博》英文版本，對其文本用Wordsmith軟件統(tǒng)計，它提供了有關這個文本的一些簡略統(tǒng)計數(shù)字：

在這個文本中，形符數(shù)（tokens）指語篇一共有多少個詞。類符形符比（type/token ratio）指形符與類符的比率，即用詞的變化性。從其字節(jié)數(shù)，形符數(shù)和句子數(shù)可以斷言這是個較短的文本，把其類符形符比（17）與標準類符形符比數(shù)（29.53）相比較，可以推斷此文本的詞匯變化量為中等程度，因為單純的形符數(shù)和類符數(shù)不能反映語篇的本質特征，但兩者的比率卻在一定程度上反映了語篇的某種本質特征，即用詞的變化性。它的句長為20.15，與平均句長35相比，意味著它比一些簡易文本句子要長。平均詞長為5，因而可以推斷這個文本屬中等難度水平，句子較長，篇幅較短。

6.結語

從以上的各種分析來看，《東博》的英文翻譯文本難度適中，語言簡潔。這種譯本容易閱讀，而又不失嚴謹，對閱讀者即參展商和參觀者來說是合適的。我們還可以得知，譯者靈活翻譯，不追求嚴格的形式對等，使譯文流暢，達到功能對等，是一種較好的翻譯。

本項目研究只是小范圍、試驗性的嘗試，但是可以看到，自建語料庫進行研究，有助于客觀地分析原著和譯者的風格，也有助于原文與譯文的對比分析，能為翻譯批評提供可靠的量化依據(jù)，能比較令人信服地說明問題。但是該翻譯批評研究還有不少問題需要進一步探討和探索。比如對索引軟件的功能有限。此外，在語法結構，語言外的因素研究尚差強人意，我們不能讓語料庫的優(yōu)越性擋住了眼睛，看不見在翻譯研究中質的分析往往比數(shù)量的分析更加重要（廖七一，2000：384）。

參考文獻：

［1］卡特福德著.穆雷譯翻譯的語言學理論［M］.北京：旅游出版社，1991.

［2］廖七一.語料庫與翻譯研究［J］.外語教學與研究，2000，（9）：380-384.

［3］許鈞.文學翻譯批評研究［M］.南京：譯林出版社，1992.

［4］許鈞.翻譯論［M］.武漢：湖北教育出版社，2003.

［5］肖維青.自建語料庫與翻譯批評［J］.外語研究，2005，（4）.

本文屬于廣西大學研究生科研創(chuàng)新項目（項目編號：）2008105930502M101

文教資料2009年14期

文教資料的其它文章: 完善我國高校貧困生認定機制的思考; 海門市初高中音樂教師現(xiàn)狀調查研究; 關于高校實驗室建設與管理的一些思考; 案例教學法在《思想道德修養(yǎng)與法律基礎》課教學中的應用; 以積極組織行為學為視角探析大學生的學習行為; 主觀真理的價值之維