國內外翻譯語料庫漫談

2012-08-15 00:45:05熊杰

長春教育學院學報 2012年4期

熊杰

國內外翻譯語料庫漫談

熊杰

語料庫翻譯研究興起于20世紀90年代，并在隨后的十年迅猛發展。經過十幾年的發展，國內外學者已開發和建立起了多種類型和用途的翻譯語料庫，并且有很多已被運用到了翻譯的研究中，成為翻譯研究中的一種新范式。通過檢索CNKI和萬方數據庫，對零星地分散在學術期刊論文中的國內外所建立的各種翻譯語料庫進行了梳理和總結，旨在為使用語料庫來研究翻譯的學者在語料庫的選擇上提供便利，同時對今后翻譯語料庫的建立和開發提出自己的建議和構想。

語料庫；翻譯研究；語言學

語料庫語言學經過30多年的發展，已成為了現代語言學的一個重要分支。語料庫作為語言學的實證研究手段，幾乎可以應用于語言研究的所有領域，如詞匯、語法、語篇、語言變異、文體學、歷史語言學等。“語料庫幾乎在語言學所有的領域引發了一場革命”。[1]語料庫翻譯研究興起于20世紀90年代。1993年，英國學者Mona Baker發表了《語料庫語言學與翻譯研究：啟示與應用》一文，她在文中提出：利用大型的原文加譯文的語料庫，加上語料庫研究方法的探討，將使翻譯研究者得以揭示翻譯文本作為溝通媒介的本質[2]。翻譯語料庫的誕生拓寬了翻譯研究的新視野，現已成為當今描述翻譯研究領域的一種新的研究范式。隨著研究范圍的發展和擴大，國內外學者已開發和建立起了多種類型和用途的翻譯語料庫，并且許多已被廣泛應用于實際的翻譯研究中。Baker(1995)把為不同研究目的設計的翻譯語料庫分為三類:第一類是平行語料庫(parallel corpus)。它是收集某種語言的原創文本和相應翻譯成另一種文字的文本。第二類是多語語料庫(multilingual corpus)。它按照類似設計標準建立兩個或多個不同語言單語種語料文本組成的復合語料庫。它完全是原文文本,沒有翻譯文本。第三類是可比語料庫(comparable corpus)。它收集某種語言如英語的原文文本，同時也收集從其它語言翻譯成英語的文本。

一、研究目的

本研究選取中國知網（cnki）的《中國期刊全文數據庫》和萬方數據的《數字化期刊全文庫》作為調查范圍，對分散在各學術期刊論文中的國內外所建立的各種翻譯語料庫進行梳理和詳盡介紹，旨在為使用語料庫來研究翻譯的學者在語料庫的選擇上提供便利，同時對今后翻譯語料庫的建立和開發提出可資借鑒的建議和構想。

二、國外翻譯語料庫

語料庫翻譯研究的范式最早是在西方發展起來的。它的發展與描述性翻譯研究有著密不可分的關系，可為描述性的翻譯研究提供大規模真實的描述性語料，從而促進描述翻譯研究的理論發展。因此，它已成為了描述性翻譯研究強有力的武器。目前，國外建立的比較有影響的翻譯語料庫主要有以下幾種。

1.英國翻譯英語語料庫（Translational English Corpus）。這是世界上第一個可比語料庫。它是1995年以貝克(Baker)為首的英國曼徹斯特大學科技學院語言工程系的翻譯研究中心(Centre for Translation Studies,Department of Langua Engineering,UMIST)創建起來的。截至目前，它的庫容為1000萬詞次。語料來源于英美翻譯家從德語、法語、西班牙語(包括西班牙的國語、南美洲和中美洲的西班牙語)、葡萄牙語(包括葡萄牙本國和巴西的葡萄牙語)、意大利語、希伯來語、威爾士語等翻譯過來的英語文本。這些英語來源于傳記、小說、報紙和飛機上的休閑雜志(in-flight magazines)等。其中小說占了文本的80%以上，它同飛機上的休閑雜志總占95%。TEC文本譯者都是以英語為母語的人，譯者中男女都有，而且多數文本都是1983年以后翻譯的，代表了當代英語譯文的一般特征。另外，這些翻譯文本還負載了許多超語言特征，包括原文作者、譯者以及譯本本身的一些相關信息等，如，姓名、性別、國籍、地點和年代，文本的類型和字數、譯文的源語和出版社/商名等。

2.加拿大議會會議錄英法平行語料庫(Hansard Canadian English-French Parallel Corpus)。該庫是世界上第一個，也是最有名氣的平行語料庫。它主要由幾個子庫組成：會議錄樹庫(Hansard Tree bank)，會議錄LDC平行語料庫(Hansard LDC Parallel Corpus)和翻譯搜索會議錄語料庫(TransSearch Hansard)。它的語料主要來源于1973-1986年加拿大議會會議的官方記錄，庫容為5000萬字。它的主題并不僅限于法律方面，還包括即興討論、書面材料和預備講演稿等多種文體。

3.ECI/MCI語料庫(European Corpus Initiative Multilingual Corpus)。該庫容量大，語言豐富，標注完備。它的容量為9800萬字,涵蓋了27種語言(如西班牙語、挪威語、葡萄牙語、俄語、漢語、日語等)，由46個子語料庫組成，并用SGML語言標注。

除去以上的翻譯語料庫之外，國外還開發建立了其它一些翻譯語料庫，如Lancaster大學開發的MILLE項目、日本建成的英日翻譯語料庫(English-Japanese Translation Corpus)、英語-意大利語雙語語料庫、伯明翰大學建立的漢英平行語料庫、Maryland大學的圣經平行語料庫(Bible of University of Maryland Paralle-l Corpus)、奧斯陸大學的英語/挪威語平行語料庫(ENPC:English-Norwegian Parallel Corpus)等。

三、國內翻譯語料庫

國內的翻譯語料庫雖然發展較晚，卻取得了巨大的可喜的成績。迄今為止，國內建立的并被廣泛運用的翻譯語料庫有如下一些。

1.面向新聞領域的漢英翻譯語料庫。該庫是由北京大學計算機語言研究所、清華大學智能技術國家重點實驗室和中國科學計算技術研究所共同開發建立的，包括中文語料約2000萬字，英文語料約1000萬單詞，涵蓋了新聞、科技文獻、政府公文、學術論文等內容。

2.當代漢語翻譯小說語料庫(CCTFC)。該庫是一個單一語種語料庫。它庫容量為130萬詞，收入54部長篇翻譯小說和2部短篇小說集。這些小說主要是由1980年至2000年間正規出版的長短篇小說集中挑選出來的，譯自英、美、法、俄、德、日等11個國家8種語言。

3.漢英和漢日平行語料庫。本語料庫是由北京外國語大學中國外語教育中心建設的，包括3000萬字/詞的漢英平行語料庫和2000萬字漢日平行語料庫。漢日平行語料庫收錄范圍包括中日近現代各時期的小說、詩歌、散文、傳記、政論、法律法規、政府工作報告等，譯文主要來自國家圖書館及日本學研究中心圖書館等藏有的日譯本和漢譯本。為兼顧多種研究目的，收錄中日名作共80種。原文和譯本全文收錄，部分名著收錄了多個譯本。全部語料原文與譯文實現了段落層面的對齊。本語料庫具備字符串檢索、句型檢索、特定組合詞語檢索、正則表達式檢索等適應各種語言研究和翻譯研究要求的檢索功能，能夠對中日文進行雙向檢索，并能提取檢索結果對應的譯文語料，實現同平臺中日文的同屏顯示。

4.漢英雙語語料庫。該庫由香港科技大學開發和建立，收集和加工了香港立法委員會1997年以來的漢英雙語法庭判決。這是最早的包含漢語的大型平行語料庫之一。該語料庫文本經過了預處理、切分、雙語對齊和標注。

除了上述所提及的語料庫之外，國內還有Sinorama漢英平行文本語料庫(Sinorama Chinese-English Parallel Text Corpus):較早的平行語料庫，由高照明收集臺灣Sinorama(光華)雜志雙語文章所建立的；蘭開斯特漢英平行語料庫(Chinese-English Parallel Corpus:CEPLC)；Babel英漢平行語料庫(The Babel English-Chinese Parallel Corpus)；漢外多語翻譯庫(Multiple-Translation Chinese Corpus)；香港新聞平行文本語料庫(Hong Kong NewsParallel Text Corpus)；漢英會議口譯平行語料庫（Chinese-English conference interpreting corpus）等。

從以上所搜集到的語料庫來看，目前全世界的翻譯語料庫以平行語料庫居多，單一語種語料庫較少。然而，他們大多為印歐語系的語料庫，并且他們中可以真正用于研究的并不多。當前，我們缺乏大規模的印歐語系與其它語系(特別是亞洲語系之間)以及亞洲語系之間的平行語料庫。這是因為語系不同，開發和構建平行語料庫所使用的工具及對齊技術也各異，且每種對齊技術各有優缺點，這就使大型平行語料庫的建設變得相當困難。就中國國內目前的翻譯語料庫來看，英漢的雙語平行語料庫居多，漢語與其他外語以及國內少數民族語言的翻譯語料庫都還處于初創階段。另外，專門用途的翻譯語料庫所涉及的學科門類還有待拓展。因此，在未來翻譯語料庫的建設上還有極大的發展空間，我們應當將注意力集中放在漢語與其他外語以及國內少數民族語言的翻譯語料庫的開發和建設上，同時加大對專門用途翻譯語料庫的開發。

[1]McEnery,T.Xiao,R.and Tono,Y.Corpus-Based Language Studies——An advanced Resource Book,Routledge,2006,4.

[2]黃俊紅，黃萍，范云.專門用途語類翻譯平行語料庫研究述評[J].重慶大學學報(社會科學版)，2004，（6）.

責任編輯：郭一鶴

H313

1671-6531（2012）04-0028-02