楊永青
摘 要:截至目前,中國英語語料庫還未在中國語言學界的語料庫中建立,這在一定程度上阻礙了中國英語的發展與進步。中國英語語料庫的建設可以根據中國的具體發展國情,積極參考國際英語語料庫的分庫建設經驗,逐步構建具有中國特色的中國英語語料庫。基于此,本文擬從中國英語語料庫建設的必要性出發,分析中國英語語料庫建設存在的問題,探討中國英語語料庫的建設路徑,旨在推動中國英語語料庫的建設,提高中國英語的國際地位與影響力。
關鍵詞:中國;英語語料庫;建設;英語語言;中國英語
中圖分類號:H310.1 文獻標識碼:A 文章編號:1673-2596(2016)10-0207-03
隨著英語語言的國際化發展,英語的中國本土化趨勢也在不斷加深。世界學術領域越來越開始關注與世界英語聯系緊密的中國英語,其中相當一部分學者對中國英語的客觀存在事實進行了論證,并深入討論了中國英語的理論意義、社會價值以及教學啟示,即中國英語不但有助于中國文化的傳播,以及彌補漢語語言在全球領域影響廣度有限這一缺憾,而且還有助于提升社團成員的作用與功能,具有十分重要的社會意義。近些年來,針對中國英語本土化的語音、詞匯、語篇與語法等描述頗多,但在論述過程中總是無法提供具有說服力的數據,也難以探究產生各種問題的深層原因。然而,語料庫的迅速發展為中國英語語料庫的研究提供了更為有力的工具,有效促進了中國英語語料庫的建設,最大化的填補了中國英語領域的研究空白。
一、中國英語語料庫建設的必要性
(一)促進中國英語語言研究的需要
中國英語語料庫具有反映真實英語語言數據的功能,通過分析大規模的中國英語語言資料,從中總結出中國英語語言的應用規律,屬于一種全新的中國英語語言研究模式。中國英語語料庫的建設為中國英語語言的研究提供了豐富的英語語言資料,涉及到英語語言的各個領域與各個方面。中國英語語料庫的建設,能夠為中國英語語言研究發揮重要的積極作用,有效促進中國英語語言研究的思維方式與研究手段,可以最大程度滿足相關研究者的語料需求,而且能夠促進研究手段的靈活化與方便化[1]。
(二)強化中國英語語言發展的需要
中國英語語料庫的建設有助于中國英語詞典的編撰,詞典編撰人員可以根據中國英語語料庫中的統計結果,給出相關詞條的實際頻率信息,以及對排列順序與狹義定義進行取舍等。同時,中國英語語料庫建設還可以為詞匯搭配方面的研究提供幫助,為英語語言學習者提供更加權威與地道的詞匯搭配方式,進而促使學習者對詞匯搭配的習慣、用法、文化、詞義等因素有更為深入的了解。另外,中國英語語料庫的建設還對英語語言的教學具有重要的推動作用,即廣大學生可以通過中國英語語料庫對英語語言在中國的具體應用有更為全面深刻的認知,從而提升學生的英語語言應用技能。
(三)提升中國英語國際地位的需要
隨著全球經濟一體化的飛速發展,世界各國之間的相互聯系日益頻繁,語言作為一國對外開展交流的重要工具,對國家的國際影響力具有重要的影響意義。英語作為國際通用語言之一,加強英語的中國本土化發展對于增強中國的對外貿易,以及提升國際社會對中國的認知與了解具有不可替代的意義。而中國英語語料庫的建設,作為提升中國英語研究與發展的重要途徑,更是增強中國英語國際地位的關鍵舉措[2]。
二、中國英語語料庫建設存在的問題
(一)語料庫的基礎建設較為滯后
中國英語語料庫的起步時間較晚,從一些研究論文中所采用的英語語料庫可以發現,采用國際大型語料庫的研究較少,以中國自主研究與開發的英語語料庫應用居多。然而,作為我國最具代表性的學習者英語語料庫“CLEC”,其詞級規模只有百萬,只包括頭標注與錯誤類型標注兩種[3]。從中可以看出,與世界數以億計的詞級規模語料庫相比,中國的英語語料庫基礎建設還有相當大的差距。世界著名語言學家約翰·辛克萊曾指出,只有大型的語料庫才有可能推動語言理論的進步與發展,小型的語料庫只能位居語言學領域的邊緣。所以,大力改變中國英語語料庫基礎建設的滯后問題,提高中國英語語料庫的規模是當前的重要任務之一。
(二)語料庫的技術水平相對薄弱
語料庫建設中的賦碼和各種標注可以為相關研究提供更為豐富的信息,而人工標注則難免會出現主觀性等問題,且速度比較緩慢,對大型語料庫的標注而言,人工標注技術是行不通的。目前,中國在英語詞類方面的自動賦碼技術已經相當成熟,幾乎可以達到精準的水平,但在語義、句法等方面的自動分析水平還不夠成熟。一些語言專家建議使用句法賦碼技術,即首先通過計算機對詞類進行自動標記,用人工校對予以輔助,然后再通過計算機幫助人工分析語料的方式對語法進行標記。這種技術雖然具有一定的可行性,但依然無法滿足語料庫快速的發展規模需求。人工標注技術終將會被淘汰,特別是目前北京語言大學語言研究所新研制出的CCRL檢索系統,可以對30G以上的生語料進行實時檢索、分詞與詞性標注,這一技術發現使得中國英語語料庫建設突破了技術薄弱的瓶頸局限,并使得語料庫建設步入自動化處理階段變得指日可待。
(三)語料庫的專業設計不夠精細
當前中國英語語料庫的建設工作還處于初級階段,各方面的發展還不夠成熟與完善,尤其是英語語料庫的專業化建設還未引起足夠的重視。與普通語料庫有所差別,專業化的英語語料庫會涉及到計算機、語言學、專業英語等更多的專業化知識。這就使得在對專業化英語語料庫進行設計的過程中,需要進行更深入、更全面的考慮,比如語料篩選標準、語料功能、語料代表性等等。同時,專門化的英語語料庫由于往往涉及到多個專業的子語料庫,所以,如何對英語語料庫實施分類,如何對英語語料庫加以編碼等都是需要考慮到的設計細節。然而,目前中國針對專業化的英語語料庫設計還存在不夠精細的問題,只是簡單的、未加分類的對英語語料進行堆積,這不僅使更為符合要求的語料獲取難度加大,而且嚴重降低了英語語料的實用性與代表性[4]。
三、中國英語語料庫的建設路徑
(一)明確語料庫的設計思路
中國英語語料庫的建設工作需要制定明確的設計思路,具體包括四個方面:一是明確中國英語語料庫的建設目的。即建設中國英語語料庫的根本目的在于滿足中國英語的應用、語言研究以及教學等需要。二是明確中國英語語料庫的構成方向。通過明確中國英語語料庫建設是應用于研究領域還是實用領域,然后對其構成方向進行確定。諸如,實用領域要以語言運用、英語理論與英語基礎知識作為主要結構。三是明確中國英語語料庫的建設規模。比如,依據取樣分析對取樣的時間跨度進行明確,定位英語語料庫建設是否歸屬于開放性的語料庫,初步設計包含多少詞匯量的規模等等。四是明確中國英語語料庫的采集范圍。英語視頻、英語書籍、英語雜質、英語廣播等都是英語語料的采集資源,對各個范圍的英語語料的組成結構與限制性條件進行明確,對填充英語語料庫的內容具有至關重要的意義。
(二)重視語料庫的網絡建設
隨著互聯網科學技術的迅猛推進,計算機網絡已經滲入到了現代社會的方方面面。近年來,網絡語言對語言演化的影響愈來愈多,而要想收集那些日新月異的網絡語言資源,就必須構建科學合理的網絡語料庫對之進行儲存。中國英語同樣如此,只有積極建設網絡化的中國英語語料庫,才能最大化中國英語語料庫的規模。同時,網絡化的英語語料庫還可以實現中國英語語料庫的自動化發展,即語料資源的選取將突破傳統的人工操作,通過計算機網絡便可以自動完成。網絡中國英語語料庫作為虛擬英語語料庫的一種形式,可以使整個網絡變成重要的英語語料庫資源,通過百度、搜狗、谷歌等搜索引擎對相關網頁的搜索,然后再應用相關軟件對各種英語信息進行篩選[5]。在新世紀初期由伯明翰大學牽頭建設的“WebCorp”(網絡語料庫)是最具代表性的網絡語料庫,通過網絡該語料庫搜集到的語料已經達50億規模,每日更新的語料網頁可達200萬,同時支持十幾種語言的檢索。因此,建設網絡化的中國英語語料庫是未來必然的發展趨勢。
(三)推動語料庫的智能發展
智能化的語料庫形式是新時代語料庫的新興形式,主要以“Monitor corpus”(監控語料庫)形式為主,該語料庫具備自動監控與及時更新的功能,可以自動更新語料、發現新語料、報告新語料以及淘汰過時語料。其中,及時發現語言應用中的新變化與新現象是“Monitor corpus”的重要功能之一,比如COCA語料庫作為監控語料庫的一種形式,其加入了一個動態性元素,致使新文本可以被持續不斷的加入進去,然后通過相應的軟件分析,對新詞匯或者新詞的用法進行發現與識別[6]。全球英語語言監控語料庫項目建設自2001年底正式啟動,其研究目標是讓該語料庫具備報告專有名詞與術語在現階段意義的功能,以及對世界各國的英語發展趨勢可以進行及時報告,通過現階段英語語言的應用與以前英語語言的應用比較,對英語語言的最新變化進行報告。所以,大力推進中國英語語料庫的智能化發展,是建設中國英語語料庫的重要構成部分,而走智能化的英語語料發展之路,是實現中國英語與國際接軌的重要路徑。
(四)強化語料庫的專業功能
與大規模的通用英語語料庫建設相比,當前中國的專業英語語料庫建設少之又少,這在很大程度上限制了中國英語語料庫的功能發揮。所以,積極促進中國英語語料庫的專業化建設已成為語料庫建設的重點。中國英語語料庫的專業化建設涉及到的范圍十分廣泛,其中包括計算機技術、語料庫理論、語言學知識、專業知識等。因此,要想設計出代表性強、科學合理的英語語料庫就必須鼓勵計算機專業人員、英語教師、英語行業資深人員等加入進來,對檢索軟件開發、語料收集、語料標注、語料分析、語料采樣等諸多問題進行深入分析與研究,實施跨學科、跨領域的合作交流。另外,由于中國英語語料庫的專業化發展與英語行業聯系十分緊密,這就使得在建設中國英語語料庫的時候,有必要邀請行業人士或者相關專家參與到語料庫的設計與監督工作中來。
總而言之,語料庫已發展成為新時代語言學應用、理論以及語言工程研究等所必須的基礎性資源。其中,一些發達國家在英語語料庫方面的研究起步時間較早,已經構建起了比較完善的英語語料庫理論體系與應用規范。尤其是近些年來語料庫的迅速發展,促使世界各國都在著手語料庫的建設,各種各樣的語料庫應用軟件也不斷涌現。中國在積極借鑒其他國家語料庫建設經驗的基礎上,緊密結合中國的發展國情以及廣大英語學習者的實際情況,對英語語料庫的研究與建設進行了深入研究,并卻得了一定的成績。然而,中國英語語料庫的建設還面臨著一系列的壓力與問題,這就要求英語語料庫的建設者必須不斷創新思路與方式,持續提升英語語料庫的建設質量,才能真正推動中國英語語料庫的發展進程。
參考文獻:
〔1〕黃大網,等.數據驅動學習與英語寫作教學中的語域知識傳授——基于CLEC語料庫的個案研究[J].外語電化教學,2003,(12).
〔2〕王海.21世紀以來我國基于語料庫的英語研究述評[J].湘潭示范學院學報,2007,(03).
〔3〕曾祥玲,李志遠.近十年來英語語料庫研究現狀與發展趨勢[J].外語教學與研究,2013,(55).
〔4〕胡開寶,吳勇,陶慶.語料庫與譯學研究:趨勢與問題——2007語料庫與譯學研究國際學術研討會綜述[J].外國語(上海外國語大學學報),2007,(05).
〔5〕胡開寶,陶慶.漢英會議口譯中語篇意義顯化及其動因研究——一項基于平行語料庫的研究[J].解放軍外國語學院學報,2009,(04).
〔6〕任文,楊平.邁向國際化:中國口譯研究發展的現狀與趨勢——第八屆全國口譯大會暨國際研討會述評[J].中國翻譯,2011,(01).
(責任編輯 賽漢其其格)