代思師 蔡容齡 吳恒
一、語料庫的定義
在語言學中,語料庫是指大量文本的集合。在語料庫語言學中,他們是主要用來進行統計分析與假設檢定,在某一領域中,測試語言規律的出現或有效性。語料庫可以是某一單獨語種的文本(單語語料庫),又或者是多種語言中的文本數據。
二、語料庫的分類
1.多語種語料庫
多語種語料(Multilingual corpora)經常經過格式特殊處理進行比對研究,也被稱作平行語料庫。它是由大量的平行文本(parallel text)組成。平行文本通常是幾種語言放在一起,有原文有譯文,對齊放置。較為著名的平行文本有洛布古典叢書和克萊梵語叢書。平行文本不僅僅是兩種語言的平行,有時會有多種語言集合。如圣經研究中,關于圣經的譯文可以有多種版本。較為著名的便是俄利根的《圣經六國譯文合璧》,其中為舊約提供了六個版本。
在多語種語料庫中,一定要注意多語種語義的平行對齊,這是保障語言學研究的前提條件。一般情況下,雙語平行語料庫中,主要有兩種類型,翻譯語料庫(translation corpus)和對比語料庫(comparable corpus)。在翻譯語料庫中,一種語言的文本會是另外語種語言文本的翻譯。在翻譯過程中,翻譯人員可以對句子進行拆分、合并、刪除、插入或重新排列。翻譯語料庫現如今廣泛運用于機器翻譯中,機器翻譯實際屬于計算機語言學中的一類,其方法是通過某種程序將一種語言翻譯成另外一種語言。借助語料庫,便可以提供大量準確而地道的目標語言文本,從而使計算機可以生成更加復雜的自動翻譯,處理更復雜的語言翻譯。
在對比語料庫中,文本都是同種類型,覆蓋同種內容,但是他們并不是互相翻譯的關系。為開發平行語料庫,有些文本需以一個短語或句子組成的語塊進行匹配。其中,經常會運用由兩種語言語料庫組成的平行語塊對雙語的機器翻譯進行訓練。為使語料庫能夠對語言學研究更能有用,他們通常會運用到注釋程序,比如,對演講的部分內容進行注釋或是詞性標注。
2.數圖資料庫
一些語料庫還可用于分析文本結構水平。尤其是一些較小的語料庫,有可能全部都有解析。這些語料庫通常稱為數圖資料庫(Treebanks)或者解析語料庫(Parsed Corpora)。在語言學中,數圖資料庫就是一個文本的解析語料庫,對句法或語義結構進行注釋。在二十世紀九十年代初期的解析語料庫的建造使計算機語言學發生了翻天覆地的變化,使他們從大范圍經驗數據中獲益。世界上規模最大的數圖資料庫是賓夕法尼亞大學數圖資料庫(The Penn Treebank)。自從該資料庫建立以后,數圖資料庫的運用便顯得十分重要。雖然該類型語料庫是源于計算機語言學,但是其研究領域范圍已經涉及整個語言學研究。在數圖資料庫中,會對所有文字進行注解。
3.考古語料庫
考古語料庫(Archaeological corpora)被用作研究歷史文檔,破譯古老的文本,或運用于宗教學領域研究??脊耪Z料庫并不是新興的產物,在考古學中,古時候存在的大量文字語言的書籍或材料便可組成一個考古語料庫,如前文所說的羅塞塔石碑。石碑制作于公元前一九六年,原本只是一塊刻有古埃及法老托勒密五世詔書的石碑,但由于這塊石碑同時刻有同一段內容的三種不同語言版本,使得近代的考古學家得以有機會對照各語言版本的內容后,解讀出已經失傳千余年的埃及象形文之意義與結構,而是研究古埃及歷史的重要里程碑。
三、結語
對于英語學習者來講,語料庫的用途也十分廣泛??捎糜谀繕苏Z言的學習,同時也可以用作外文寫作的輔助工具,通過語料庫呈現的權威文本來掌握目標語言的語句形成習慣。
參考文獻:
[1]王克非,秦洪武.論平行語料庫在翻譯教學中的應用[J].外語教學與研究,2015(5).
[2]王克非.中國英漢平行語料庫的設計與研制[J].中國外語,2012(6).