摘要:隨著計算機技術的發展,語料庫開創了新的研究方向,引起了越來越多的注意。本文將簡單介紹語料庫的概念、分類、創建和檢索及其在應用中的優越性和局限性,使相關愛好者初步了解語料庫這一新的范疇。
關鍵詞:語料庫;平行語料庫;類比語料庫;創建;檢索
中圖分類號:H002文獻標志碼:A 文章編號:1002—2589(2010)03—0090—01
1.引言
自20世紀中期, 美國布朗大學創建了世界上第一個語料庫,即標準美國英語布朗語料庫,開創了語料庫研究的先河,到20世紀80年代,這一星星之火開始漸漸有燎原之勢,上海交通大學楊惠中教授便在這一嶄新的浪潮之下,于80年代中期率先建成中國第一個真正意義上的語料庫,即上海交大英語科技語料庫、接著像中國學習者英語語料庫、大學英語學習者口語英語語料庫、北外的漢英漢日平行語料庫等陸續建成,并且還吸引了一些教授、博士生、碩士生的目光,開始把研究方向轉向語料庫研究,為中國語料庫研究的發展注入了新的力量,同時也推動了基于語料庫的語言學研究和翻譯研究的發展.
2.語料庫的定義及分類
語料庫是以計算機儲存大量的真實語料,對語料做各種帶有研究目的的加工標注,利用研制的檢索工具對標注語料進行快捷的搜尋和分類,以發現并分析以往因條件限制而未能注意的語言現象(王克非,2004)。研究的性質和需要決定著語料庫的性質,根據語料庫中收集語料的種類多少可以分為,單語語料庫、雙語語料庫和多語語料庫(王克非,2004)。單語語料庫指只收集一種語言的語料庫,早期開發的語料庫大多都是單語的,如布朗語料庫。雙語語料庫指收集兩種語言文本的語料庫。多語語料庫指收集兩種以上語言文本的語料庫。而雙語和多語語料庫又可以分為平行語料庫、類比語料庫和翻譯語料庫三類。平行語料庫又可稱為對應語料庫,是由原文和它對應的譯文文本構成的,可以有詞語、句子和段落三種級別的對應關系;類比語料庫是由同一語言不同變體的文本或不同語言的文本構成;翻譯語料庫是由具有翻譯關系的不同語言的文本構成,它和平行語料庫的區別在于,它僅僅只是篇章上的對應關系,不一定有其它級別的對應關系如詞語、句子和段落等。這三類語料庫的區別主要在于語料庫的文本之間是否具有對應關系和翻譯關系。
3.語料庫的創建
語料庫建設過程包括規劃階段、需求分析階段、數據庫框架設計、語料收集、語料導入、雙語句子對齊、雙語句子分詞、語料校對。語料庫的總體設計和框架設計是語料庫研究和創建的第一步,決定著今后語料庫研究和應用,是和研究需要和目的緊密相關的。在通過分析研究需求明確建庫目的后,要設計語料庫的規模和語料收集范圍,在對語料進行收集和加工整理過程中要系統地整理,清理雜志,去除多余的無用信息,統一格式和存放方式。在完成清理入庫工作后,還要對語料做校對工作,以確保庫中語料質量,語料庫的自動對齊準確率有一定差異,所以要在進行人工校對,這在段落對齊和句子對齊上也是必須的。
4.語料庫的檢索
建語料庫的目的是進行分析研究,可以通過檢索系統進行關鍵詞檢索、模糊檢索、搭配檢索、句型檢索、對譯詞檢索、多作品聯合檢索、多譯者聯合檢索和檢索結果自動排序等,根據檢索結果進行實證性研究,如模糊檢索中,定義運算符“!”,輸入“!人”可檢索出“人民”、“人口”等含有人的詞,輸入“!be”可檢索出“is”、“are”等一些be動詞對應變化的單詞。如檢索“A……B”句型,可以再表達式中出現數字,輸入“不僅+5而且”,是允許在“不僅”“而且”中有10個詞范圍內出現。通過檢索可以進行詞頻統計,這對語言和翻譯研究都有不可比擬的作用,通過對檢索結果排序還可以方便研究人員研究詞語的搭配特點。通過對比分析一系列的檢索結果,可以從中發現并歸納語言規律,在充分描寫的基礎上揭示語言本質。
5.語料庫在應用中的優越性和局限性
語料庫作為一種新的研究工具,它規模大、運算快捷、檢索方便,基于語料庫的研究尊重語言事實,通過實證性的研究分析,從語言事實中去尋找語言規律,揭示語言本質,使研究更具說服力。語言學和翻譯研究中運用語料庫的前提是在自身的理論框架基礎上,汲取語料庫定性與定量相結合的實證性的優勢。但語料庫的創建也受到現有計算機發展水平和相關應用軟件開發以及語料庫使用平臺的限制,由于語料的選擇和語料庫的界定沒有統一標準,也使基于語料庫的研究局限于現有語料庫所收集的語料,使研究結果略顯片面。隨著信息技術日新月異,語料庫研究的發展定會克服重重障礙,跨入新的階段。
參考文獻:
[1]王克非等.雙語對應語料庫:研究與應用[M].北京:外語教學與研究出版社.2004.
[2]衛乃興,李文中,濮建忠.語料庫應用研究[M].上海:上海外語教育出版社.2005.
[3]王立非,王金銓.計算機輔助翻譯研究方法及其應用[J].外語與外語教學,2008,(5).
(責任編輯/王麗君)