【摘要】英語語料庫的出版和使用滿足了英語學習者的需要,英語語料庫的出版使用具有廣闊的前景,為實現英語學習的多元化搭建了新型平臺。本文探討了英語語料庫的興起、建設出版和英語語料庫在出版使用中的優點、不足與對策。
【關鍵詞】英語語料庫;出版;優點;使用
【作者單位】甘瑩,天津城建大學。
一、英語語料庫的興起與出版
電子網絡等新媒介的出現滿足了英語學習這種跨語言、跨地域活動的訴求。電子語料庫以其完整性、科學性和語言的真實可靠性成為人們學習語言的很好平臺。語料庫是一種真實可靠的資源及信息檢索和處理平臺,可以與語言的應用性研究建立關聯。它提供了真實語境中的自然語言及其實證性的描述分析方法,注重運用能力,注重量化分析而非定性分析。
1.國外英語語料庫的建設出版
真正意義的現代語料庫是指大型的以電子文檔為主要構成的計算機語料庫,其一般分為語料庫本體(即語料庫電子文本)和語料庫引擎(即語料庫索引程序)。近幾十年來,許多英語國家都相繼建設出版了大規模、多品種的英語語料庫,為英語的研究、學習和使用提供了便捷的途徑和豐富的資源。如20世紀60年代至70年代,世界上最先建立出版的BROWN布朗語料庫是代表當代美國英語的語料庫, LOB語料庫是代表當代英國英語用法的語料庫,1975年建成出版的LLC倫敦—朗德語料庫則是英語口語語料庫。這三大經典語料庫系統地收集了大量在現實生活中使用的書面語和口頭語,并用先進的電腦科技手段進行儲存和檢索。20世紀80年代,Sinclair教授主持建成COBUILD柯林斯—伯明翰大學國際語料庫,該語料庫于2003年擴容到5億詞次。20世紀90年代,國外具有代表性的語料庫為BNC英國國家語料庫和ICE國際英語語料庫。進入21世紀以來,通過互聯網檢索的在線語料庫已經出現,美國當代英語語料庫COCA是當今世界上可在線免費使用的最大英語平衡語料庫,涵蓋美國1990年至2007年間的各種類型語料。由此可見,國外英語語料庫大多由諸如英美等以英語為母語的國家建設出版,語料真實鮮活,具有代表性,為英語學習者提供了豐富的資源并搭建了良好的平臺。
2.國內英語語料庫建設出版現狀
目前,國內已經建成出版的英語語料庫類型主要有專門用途英語語料庫、學習者英語語料庫、英漢—漢英平行語料庫和英語教材語料庫等。如我國在20世紀80年代中期建立的上海交通大學科技英語語料庫JDEST是當時世界上第一個同類語料庫,也是國內最大最完備的英語語料庫之一。2003年,由上海外語教育出版社出版的中國學習者英語語料庫CLEC是世界上第一部正式對外出版的含有言語失誤標注的英語學習者語料庫。2005年,由外語教學與研究出版社出版的中國學生英語口筆語語料庫SWECCL是國內首個大型英語專業學生口筆語語料庫,包含1000余個口語語音樣本、100萬詞的語音轉寫文本、100萬詞的書面作文樣本和語料庫簡介。2005年,由上海外語教育出版社出版的中國學習者英語口語語料庫COLSEC包含70萬詞量和語音、語調、話語結構等口語信息。這三大語料庫是我國經典的英語學習者語料庫,也是我國中介語研究和英語學習者語言特征分析的重要平臺。2008年,上海外語教育出版社出版了中國高校外語專業多語種語料庫—英語語料庫。該語料庫首次涵蓋了翻譯內容。由北京第二外國語學院開發研制的全國公示語翻譯語料庫亦于2008年并網發行。與國外英語語料庫的出版方向不同,我國英語語料庫的出版主要涵蓋了專用、翻譯、雙語平行、英語教材和學習者領域。它們既是國外英語語料庫的有益補充,又滿足了我國以英語為第二語言的學習者和英語研究者的需求。
二、英語語料庫出版使用的優點
英語語料庫通常以光盤或者在線形式發行,出版規模大,檢索功能強,同時附帶使用說明。
首先,英語語料庫的出版具有立體化和電子化的特點。語料庫使英語資源不僅僅局限于書本文字,而是拓寬到電子網絡和多媒體的各個層面上。這種電子閱讀的閱讀界面獨特,提倡選擇性、跳躍性閱讀,在凸顯關鍵信息和提供語言使用頻數方面有著強大的優勢。讀者積極主動地參與有原始語境的電子閱讀,既提升了語言輸入質量,又優化了閱讀手段,還可以提高閱讀效率。語料庫中語料格式多樣,加之自帶的檢索分析軟件,使其與傳統的紙質出版相比具有明顯的生動性和交互性。
其次,在線發行或電子出版的語料庫還具有開放式的特點。與紙質出版物的修訂和再版不同,英語語料庫可不斷在線更新和補充。這一特點可以彌補語料庫在容量和時效性方面的不足。新鮮語料可以不斷被充實到語料庫內。學習者可隨時隨地上網使用免費在線的權威英語語料庫或已購買版權的語料庫。
再次,英語語料庫的出版使用具有明顯的跨學科特點。英語語料庫融合了計算機技術和語料庫語言學的理論與技術,在語言的索引分析方面功能強大。目前,較為成熟的語料庫索引分析軟件包括Word Smith Tools,AntConc,Sketch Engine等,可實現索引定位、文件查看、詞表生成、語篇統計、排序和搭配詞統計等功能。
最后,英語語料庫的使用具有個性化的特點。語料庫使使用真實英語的習慣、學生學習習慣與系統化教學相結合,增強了語言學習的科學性和創新性。不同種類的英語語料庫有利于讀者尋找適合自己的語料文章,對學習者在自我監控和自我評價方面大有裨益。學習者甚至可自建個人學習者語料庫來不斷實現自主學習。語料庫使用的自由度高,信息量大而高效。快速性檢索和批量化語例閱讀可以使讀者在短時間內簡單地提取大量分類信息,方便讀者進入閱讀狀態,提高讀者整體和局部閱讀的能力。
三、我國英語語料庫出版使用存在的不足和對策
1.英語語料庫的市場開發不足,需進一步挖掘其市場潛力
英語語料庫的用途廣泛,具有強大的市場潛力。語料庫可為英語教學和教材編撰提供權威的語用依據。教材編寫可以語料庫為內容引導,甄選出使用頻率最高的口頭英語與書面表達,從根源上杜絕教材選材的隨意性,最大程度確保教材的權威性。然而,在我國基于英語語料庫研發的教材和工具書并不多。2010年,我國從劍橋大學出版社引進,由北京語言大學出版社出版了第一套基于語料庫技術的權威英語教材—《劍橋標準英語教程》,其編纂原則、大綱設計及主線內容都優化運用了語料庫研究技術,為英語語料庫的市場開發提供了經驗方法。在國際化背景下,我國專業英語培訓的市場缺口很大,而專業英語語料庫可提供實際的語言支持。我國英語語料庫亟待在教材、教學設計和教學方案等方面進行市場開發。
2.國內英語語料庫的出版普及不足,需加大普及力度
語料庫是一種新興的媒介,分析方法和技術手段需要進一步突破,出版規模和范圍需進一步加大。目前,我國英語語料庫方向性和專業性較強,主要由高校和科研機構建設。我國不同領域、語體、語篇特色的英語語料庫出版并不均衡。我國英語語料庫的出版和使用還沒能發揮其在英語資源上的優勢。絕大多數英語語料庫的使用仍然停留在少數專家學者和研究人員上,現有的英語語料庫還應進行深層次的開發普及和充分利用。此外,除去免費在線使用的語料庫,很多大型的語料庫費用較高,需由相關機構購買版權才能供學習者使用,而很多學者自建的語料庫則缺乏統一的標準規范。
3.英語語料庫版權保護不到位,需完善相關法律法規
不經過原出版者和原作者的同意將他們的知識產品匯集在一起制作成數據庫,這種行為違反了《中華人民共和國著作權法》的基本精神;而要取得他們的同意并支付報酬,因為英語語料庫涉及的知識產權所有人數量比較龐大,語料庫制作商又難以完成。《中華人民共和國著作權法》以及相關法律法規中尚未界定語料庫的內涵,也沒有將其列入保護的產品之列。這種情況給語料庫及數據庫的知識產權保護帶來了一定困難。鑒于對英語語料庫知識產權的立法難度,我們一方面要堅持版權保護的基本原則;另一方面要正視收錄的英語語料所有人數量是龐大的,無法逐一獲得版權所有人授權的現實。學界建議參考歐盟數據庫保護指令、世界產權組織數據庫條約的建議和美國數據庫保護提案中提出的對數據庫的特殊保護原則來保護我國語料庫或數據庫建設者的合法權益,主要從“實質性投入”和數據庫“內容保護”兩方面對語料庫進行強制保護,并賦予其“摘錄權”和“再利用權”。
綜上所述,語料庫精細標注的結構化知識片段真正實現了從保存信息到保存知識的跨越,為傳統的出版流程提供了知識結構層面的幫助和推動。這些英語語料庫與英語學習研究緊密相連,是推動我國應用語言學發展的重要媒介,其出版使用不僅標志著英語研究手段的技術進步,還標志著英語研究思想的重大轉變。英語語料庫已成為英語出版的新興領域,并日益呈現出普遍性和縱深性的特點,正逐漸受到整個出版行業的重視。由此,英語語料庫為實現英語學習的多元化搭建了新型平臺,在出版領域具有廣闊的發展前景。
[1]王建新. 計算機語料庫的建設與使用[M]. 北京:清華大學出版社,2005.
[2]戴煒棟,馮輝. 寫在《中國高校外語專業多語種語料庫建設與研究——英語語料庫》出版之際[J]. 外語界,2008(4).