劉曲 楊天地
摘 要:翻譯語料庫的建設和研究探索始于上世紀中期,經過幾十年的發展,國內外翻譯語料庫的建設已經取得了豐碩的成果,并在計算機技術的輔助下不斷向專業性和個性化的方向發展。
關鍵詞:翻譯語料庫;建設現狀;發展趨勢
0 引言
語料庫語言學和語料庫建設的研究是一個相對起步較晚的領域,自上世紀五十年代以來,隨著計算機科學研究的推廣和深入,各門類語料庫的建設研究逐漸進入高速發展階段,并成為推動語料庫語言學發展的源動力。
1 翻譯語料庫與平行語料庫
翻譯語料庫是指按照一定的語言學標準,在隨機采樣的基礎上,廣泛收集具有代表性、真實性和典型性特征的連續語言運用材料文本或話語使用片段的具有一定包容性和可分析行的大型電子語料文本的集合。語料庫可為語言運用提供學習范本,也可用于不同層面和領域的相關語言研究和語言教學。專業語料庫的建設更是專業語言研究不可或缺的有利工具。
平行語料庫屬雙語語料庫的一種,是目前雙語翻譯語料庫中最典型、使用最為廣泛的一種形式。平行語料庫主要收集原語與譯語的對照預料,“按設定的標準對語料進行句子或段落的對齊,常用于考察原文中的某些語言現象如何在譯文中得到反映”(李德超,2010)。
2 國外翻譯語料庫研究建設現狀
國外翻譯語料庫研究大體經歷了三個階段:第一階段,20世紀60年代至70年代第一代電子語料庫時期,以Quirk、Francis、Leech 等語言學家的研究為代表,誕生了BROWN、LOB和LLC三大經典語料庫。這三大語料庫建立過程中形成的基本方法和基本原則,為建立更大規模的語料庫奠定了基礎,標志著語料庫研究進入電子時代。第二階段,20世紀80至90年代第二代電子語料庫時期。出現了一批容量更大、標注及檢索統計手段更先進新型電子語料庫。最典型的是COBUILD、Longman、BNC、ICE等,與第一代電子語料庫相比容量更大,通常以億為單位,采用了更加先進的計算機技術,檢索統計能力更強,速度更快。第三階段,20世紀90年代至今的第三代電子語料庫時期。計算機標注技術、索引技術和檢索技術極大地提高了對超大規模語料庫的處理和查找能力。以上三方面為特大型語料庫、監控語料庫、多模態語料庫及多功能語料庫的建設提供了物質基礎,這一時期的主流語料庫主要有COCA、BNC、ANC、OEC和BOE。特大型語料庫為基于語料庫的語言學研究提供更全面、更豐富和更可靠的數據支持,由于語料規模巨大,概率統計更趨于平衡,語料采集時就更容易保證語料的典型性和代表性,從而降低平衡語料庫的平衡度對語料庫的代表性的影響。
3 國內翻譯語料庫的研究建設現狀
國內翻譯語料庫研究從20世紀70年代末80年代初興起,20世紀90年代后,隨著語料庫語言學研究的深入,廣泛開展了語料庫建設研究,并形成了一批高水平的語料庫研究團隊,建成了JDEST、CEEC、CLEC、COLSEC、SWECCL 等較大型的英語學習者語料庫,并基于這些語料庫開展了廣泛的英語語言學及教學研究。我國近30年語料庫研究實踐具有兩個共性特征:第一,語料主要來源于各級各類英語考試。SWECCL的語料采集于全國大學英語四級考試作文,COLSEC語料采集于全國大學英語口語考試錄音,SECCL采用了全國英語專業四級口語錄音,CEEC則采用全國英語高考廣東省考生抽樣的英語作文。采用來自各級各類英語考試的語料不僅使語料搜集更加容易,而且保證語料的代表性,客觀反應我國不同級別英語學習者的實際水平。第二,語料標注及檢索均采用國際通用軟件與自行研發軟件相結合的方式,國際通用軟件包括CLAWS、Wordsmith、TACT、Paraconcordancer、ICECUP、OCP、SARA。國內語料庫研究者也根據需要,自主開發了一些檢索及標注工具,如CEEC研制的中英文檢索系統Project,CLEC研制的Corfind用于標注、Cbrower用于檢索、Cleantxt用于清除漢字符號、Pargraph用于清除轉行符用、Merge用于合并和統計詞。自主開發的標注系統和檢索工具,彌補了國外常用語料庫工具處理中文的缺陷,使語料庫研究更為客觀全面。
4 語料庫的未來發展趨勢
首先,迄今為止,國內外學者、研究機構高校院所等所建立的語料庫多以通用型語料庫為主,容量巨大,標準明確,其語料來源多基于國內外規模成熟的標準化考試材料,但是隨著專業領域研究的不斷深入,通用型語料庫已不能滿足不同專業領域研究的需要,不能為專業研究提供更精準的數據支撐。因此,研究并建立一批專業性強的小型語料庫顯得勢在必行。
其次,隨著計算機技術的不斷深入發展和推廣,個人計算機能力的不斷增強,借助計算機實現更加智能化的語料庫標注和分類操作將成為可能,而且研究者也可以根據個人的研究條件和特色,在計算機的輔助下自行建立更有效輔助研究工作的個性化語料庫。
參考文獻
[1]李德超,王克非.新型雙語旅游語料庫的研制和應用[J].現代外語,2010,(1).