李哲
內容摘要:本文緊密結合俄語界對平行語料庫的需求,概述了國內外平行語料庫的發展現狀,論證了俄漢-漢俄平行語料庫的應用價值,闡釋了現存平行語料庫的普遍問題以及從中得到的啟示。在平行語料庫建設和研究蓬勃發展的當今世界,我國俄語界不應再止步不前,各學科之間應該加強合作,充分借鑒國內外成熟平行語料庫的建設經驗,加快、加強俄漢-漢俄平行語料庫的建設與研制刻不容緩、勢在必行。
關鍵詞:俄漢-漢俄平行語料庫 建設與研制 應用價值 意義
一.引言
平行語料庫是指兩種或多種語言在段落、句子甚至單詞短語層面上實現同步對譯的互動語料庫。近三十年來,隨著語料庫創建和應用的不斷發展,平行語料庫也展現出廣闊的應用前景,已成為語料庫研究的一個重點。
近年來,世界各國都投入了大量的人力、物力和財力用于平行語料庫的建設。其中,在歐美,平行語料庫已建成有十多個,涉及近20個語種;在中國,雙語平行語料庫的發展勢頭也非常迅猛,但主要以漢英平行語料庫為主。俄漢一漢俄平行語料庫的建設依然是個空白,雖然國內有些學者已經在自建小型的俄漢平行語料庫,但都未開放。
二.國內外平行語料庫發展現狀
平行語料庫的構建與應用研究從20世紀90年代就已經開始。世界上第一個雙語語料庫——加拿大議會會議錄英-法平行語料庫(the Canadian Hansard Cor-pus)于90年代初在加拿大建成。另外,如蘭卡斯特大學早期創建的I-TU/Crater平行庫、歐洲委員會聯合中心的JRC-ACQUIS多語種平行語料庫、PAROLE語料庫等,這些語料庫基本上都是文本來源單,標注也簡單的歐洲語言專用語料庫。
除此之外,比較大規模的、具有代表性的平行語料庫還包括克姆尼茨英-德翻譯語料庫(Chem-nitz E-G Translation Corpus)、德英文學文本平行語料庫(Ger-man-English Parallel Corpus of Literary Translation,GEPCOLT)、英語一挪威語平行語料庫(Eng-lish-Norweigian Parallel Corpus,ENPC)等。
在國內,雙語平行語料庫的建設研究起步相對較晚,但近10年來也取得了很大的進展,其中最值得一提的是北京外國語大學中國外語教育研究中心王克非主持和研制的北外“通用漢英對應語料庫”,該語料庫是目前世界上規模最大的雙語平行語料庫,容量約為3000萬字詞。
專門用途語料庫的建設也獲得了一定的關注,如上海交通大學的莎士比亞戲劇英漢平行語料庫、燕山大學的《紅樓夢》譯本平行語料庫、哈爾濱工業大學計算機學院語言技術研究中心面向奧運的漢英日三語語料庫、內蒙古大學建立的漢蒙對照政府文獻語料庫等。
涉及俄語的平行語料庫主要有俄語國家語料庫(Национапъныйкорпусрусскогоязыкл-НКРЯ)的平行文本語料庫(Корпуспараллельныхтекстов)模塊,收錄有俄英、英俄、德俄、烏俄、俄烏5個文本對庫,總量約為2400萬詞次。
相比之下,俄漢一漢俄平行語料庫的建設與研究還很滯后。雖然國內有些學者已經開始嘗試構建俄漢雙語平行語料庫,比如崔衛和張嵐目前已設計研制好的俄漢翻譯語料庫中的子庫——軍事外宣漢俄翻譯子庫(崔衛等2014:1)、劉淼和邵青創建的基于契科夫小說的俄漢文學翻譯語料庫(劉淼等2016:1)、解放軍外國語學院碩士研究生創建的俄漢新聞句庫等。但是這些語料庫大都沒有實現對外開放,數量太少,而且也尚待完善。因此,緊密結合實際需求,借鑒其他語種平行語料庫的建設經驗,將認識不深、技術不硬、資源不足等問題徹底解決,進行俄漢領域平行語料庫的建設與研制是當務之急。
三.俄漢-漢俄平行語料庫建設的應用價值和意義
平行語料庫的建設和研究代表了當今基于語料庫方法進行語言對比研究、翻譯研究和外語教學研究的發展趨勢。加強俄漢一漢俄平行語料庫的構建與研究,也必定會促進俄漢語言對比研究和翻譯研究的發展,改進俄語教學,提高翻譯質量,改進俄漢雙語詞典的編纂,促進俄漢雙語信息檢索和機器翻譯的開發。
1.俄漢-漢俄平行語料庫與語言對比研究
平行語料庫承載著相互對應的兩種語言,與語言對比研究有著天然的聯系,成為語言對比研究中的默認數據源。(王克非2012:23)基于語料庫的方法是俄漢對比中最常用的定量統計方法,它一般是根據語料實例觀察,提出假設,然后由研究者以對應語料庫為數據源對假設進行驗證。(崔衛等2014:5)平行語料庫可以為俄漢對比提供更多的可能性,讓我們發現很多以前在語言對比認識上的錯誤,甚至獲得新的發現。
2.俄漢-漢俄平行語料庫與俄語教學
基于語料庫的教學方法可以提高俄語教學的有效性。通過利用平行語料庫及其相關檢索工具,對特定的語料進行分析,可以有效地引領學生對同義詞進行真實準確的辨析、了解詞語真正的含義、學習詞語的搭配和短語結構以及了解文章的結構、表達、語境和修辭信息等。特別是在翻譯課教學中,平行語料庫更是不可替代的參考工具或工作平臺。首先,利用平行語料庫便于查找特定表達方式的譯法,使術語和短語的翻譯更加準確、地道。其次,它還有豐富的譯例,可以提供多個翻譯參考,使翻譯文本更加真實、更加豐富。
3.俄漢-漢俄平行語料庫與詞典編纂
在詞典編纂領域使用語料庫被視為詞典編纂手段的一次革命,而平行語料庫在雙語詞典編纂中的作用更是不可估量的:平行語料庫中的兩種語言互為對應,記載著兩種語言中的對應詞和對應單位(王克非2012:23),不僅可以提供最可靠的數據來源,而且還可以幫助詞典編纂者對詞進行義項分析、排序、提供例句、發現新詞義等。而俄漢-漢俄平行語料庫的建設也必定會為俄漢雙語詞典的編纂帶來革命性的突破。
4.俄漢-漢俄平行語料庫與翻譯研究
語料庫研究方法在翻譯領域的應用使得一門新的交叉學科——語料庫翻譯學誕生,而雙語語料庫則是該學科的基礎。基于俄漢一漢俄平行語料庫,人們可以研究俄漢語翻譯語言特征、翻譯文體、作家語言翻譯特點、特定結構或表達方式在對應語言中的體現以及譯者的翻譯策略和方法。除此之外,平行語料庫對于機器翻譯也極為重要。對齊的平行語料庫能為基于例句和統計的機器翻譯提供實證模型,同時也可以為基于規則的機器翻譯提供驗證,為機助翻譯提供大量翻譯記憶。(王克非2012:23)我國的科大訊飛公司已經根據語音語料庫和海量語料庫資源開發出了國內首款智能便攜翻譯機。由此可見,平行語料庫在機器翻譯方面的應用價值不可估量。
四.現存平行語料庫的普遍問題及對俄漢-俄漢平行語料庫的啟示
1.平行語料庫建設各自為政導致重復建設問題嚴重
盡管國內外現有的雙語平行語料庫各自己具備一定的規模,但大都各自為政,缺乏一定的綜合性,而且重復建設問題嚴重。以國內的《紅樓夢》漢英平行語料庫為例,比較有代表性的至少就有三個。(崔衛等2014:1)語料庫的建設本身就是一項既費時又費力的工作,重復建設只會造成力量的分散,限制語料庫的規模和加工深度。
有鑒于此,在俄漢-漢俄平行語料庫的建設中,筆者認為初始階段不應求大求全,可以選擇核心語料庫的一個具體方面為起點,各研制團隊之間加強交流溝通,分工合作,最后對現有資源進行整合,實現共享。
2.平行語料庫的研究切入點不足,專門語料庫類型單一
平行語料庫不僅可用于跨語際的語言轉換研究,還可進行不同翻譯方向上譯出與譯入文本的類比研究,以及翻譯語言與非翻譯語言的類比研究等。但目前此類研究主要局限于文學作品領域,對于非文學文本類似考察并不多見,這與專門語料庫類型單一的問題不無關系。目前國際上大多語料庫還僅限于文學和非文學兩種,而且非文學文本中的新聞、財經、法律、醫藥等文類細化遠遠不夠。
因此俄漢-漢俄平行語料庫的創建既要不斷拓展文本類型,又要進一步發掘新的研究對象,比如對不同文本類型翻譯策略的對比研究以及在歷時的角度下考察翻譯語言或翻譯給原創語言帶來的變化等。
其它如平行語料庫深加工程度不夠、相關技術開發不足等問題也是一直以來亟待解決的難題,這就更要求相關學科之間加強溝通與合作。語言研究者和翻譯研究者可以為計算機專業人士提供新的研究課題,反過來,計算機專業人士又能為語言研究者和翻譯研究者提供研究手段的支持,二者相互促進,共同發展。結語
平行語料庫作為語料庫的一種具體類型,是重要的語言資源,它的建設與使用也是今后語料庫翻譯學以及機器翻譯取得新突破的硬件基礎,雙語平行語料庫在語言學研究中的潛力還有待于進一步開發。因此,如何更好地構建俄漢一漢俄平行語料庫也自然成為俄語界學者勢在必行的研究課題。同時,進一步注重各研制團隊之間的合作,建設超大規模、綜合性、多用途的國家級語料庫也成為平行語料庫發展的新趨勢。