摘 要:以動態語料庫理論為基礎,探討作為第三代語料庫的網絡動態語料庫的研究和此語料庫未來的基本發展方向。語料庫以其科學有效的方式為語言學習提供了很好的平臺。就網絡動態語料庫建立的可行性和實用性進行探討,希望能夠對語言學語料庫的人才培養有一定的啟發。
關鍵詞:語言理論;二語習得;網絡資源
一、語料庫研究綜述
隨著現代網絡技術的積極推廣和廣泛應用,外語教學與研究也發生了翻天覆地的改變。現代語言學研究最前沿的方法就是基于語料庫的建立,可以在網絡環境下創造一個更為全面而科學的二語習得環境。可以利用先進的網絡技術,為語言研究者構建真實而全面的語言學習和研究的素材。眾所周知,動態語料庫是一個機器可讀的文本數據庫,包括在不同上下文的自然話語。也就是說,語料庫語言學是對語言所表達的樣本的“真實世界”的文本研究。最初的語料庫基本由語言研究者手工完成,語料庫現在基本上發展到了一個自動化的過程。語料庫語言學的研究者認為真實的可靠的語言分析最好采用的是在現場采集的樣本,因為在自然真實的語言環境中,有著最少的實驗因素的干擾。語料庫發展大致經歷了三個階段:20世紀60年代興起的小型語料庫,80年代的大型語料庫,從20世紀90年代開始出現的動態語料庫。動態語料庫的特點是對早期語料庫實行的內容更新,建立開放式、滾動式、動態的歷時性語料庫。
現代語料庫語言學的一個里程碑是Henry Kucera和 W. Nelson Francis在1967年基于布朗語料庫的分析得出的“當今美國英語的計算分析”。該研究是兩位研究者對從多種來源獲得美國英語精心的分析工作,共約一萬字。他們的工作融合了語言學、語言教學、心理學、統計學、社會學的元素,分析計算了多樣而豐富的文本。另一個現代語料庫語言研究重要的出版物是Randolph Quirk的 “英語用法的說明”,其中他對英語用法進行了詳盡調查,并作出了系統的分析。
另外,自布朗語料庫誕生以來,許多類似的結構語料庫也出現了, 比如20世紀60年代研究英式英語的LOB語料庫,以印度英語為語料分析的Kolhapur語料庫,以新西蘭英語為研究對象的Wellington語料庫,還有Australian Corpus of English(澳大利亞英語)以及Frown Corpus(20世紀90年代初美國英語)甚至FLOB語料庫(20世紀90年代英式英語)。當然還有另外一些語料庫代表了不同的語言、品種和方式,包括英語國際語料庫和英國國家語料庫,是各種口頭和書面文本約有一億字的語料收集。第一臺由電腦轉錄口語的語料庫是Montreal French Project,建于1971年,這一語料庫含一百萬字。
近年來大量的語言學學習一直致力于調查研究如何利用計算機促進語言學習。COCA語料庫研究選用的是美國當代英語語料庫,這是由楊伯翰大學Mark Davies教授開發的。COCA具有其他語料庫望塵莫及的突出優勢。首先作為語料庫資源,COCA語料庫是一種動態的語料庫資源,它沒有最后固定的版本,也就是說語料庫資源處于不斷的更新與補充中。該語料庫是美國最新當代英語語料庫。另外,該語料庫檢索界面同時提供英國國家語料(BNC)、時代周刊(TIME)、美國歷史語料庫(COHA)、美國當代英語語料庫(COCA)四個語料庫的檢索選擇。語言學習者可以根據研究需求選擇合適的語料庫,或者通過比較檢索結果,必要時可借助通配符擴大搜索結果,保證檢索的有效性和科學性。
在20世紀六七十年代就建立起的布朗語料庫(Brown University Standard Corpus of Present-Day American English Corpus)和 LOB 數據庫(Lancaster-Oslo-Bergen Corpus),分別匯集了一百萬詞次的美國英語和英國英語。接著在20世紀80年代年代建成了LLC語料庫(London-Lund Corpus of Spoken English),這一語料庫則是第一部匯集了五十萬詞次的英語口語語料庫。50萬詞次的廣州石油大學石油英語語料庫和一百萬詞次的上海交通大學科技英語語料庫是20世紀八九十年代在國內首批建成的語料庫。1999年,由廣東外語外貿大學桂詩春教授和上海交通大學楊惠中教授負責主持、國內十幾個院校合作完成的容詞量為一百萬詞的中國學習者英語語料庫,他們廣泛搜集了專業英語、大學英語以及中學英語學習者的各種書面語資料,匯編成語料庫。語料庫的建立為各種語言學研究和語言學工程提供了很大的便捷,尤其是在辭典編撰、基本詞匯表繪制、機器翻譯和自然語言處理以及人工智能等方面有著重要的作用。
二、動態語料庫的作用
動態語料庫的構建與英語教學語料庫研究就是要通過對英語語篇的統計分析對語言進行客觀地描述。Gavioli曾指出語言研究者利用語料庫進行學習和研究,他們的自主學習能力增強。學會觀察語言現象,總結語言規律,這不僅遵循語言學習理論,并且還能提升他們的語法意識,從而促進二語習得過程。另外Izaskun曾指出憑借詞頻比較手段,搜索到與原文本最接近的文章,進行對比并建立語料庫,可拓展高水平語言學習者的閱讀和詞匯習得途徑。研究表明,語料庫教學可以對聽說讀寫各個方面進行輔助教學,尤其是在同義詞辨析方面,語料庫表現出了其不俗的學習輔助功能。語料庫研究方法可以有效地分析對比同義詞因部分義素重疊而產生的理解和運用的疑惑,這種方法可以說是對傳統的基于直覺判斷的同義詞辨析方法的一種很好的補充。李娜、陳德生、徐啟龍和王家義曾指出傳統意義上的語義學和語體學視角下的同義詞辨析大都采用直覺判斷,主要依靠對詞匯定義的描述,而在語料庫語言學研究角度下,定性和定量相結合的方法可以解釋類聯接、搭配關系和語義韻等方面的語言特征,從而實現對語言中同義詞的科學辨析。根據現在的研究現狀來觀察,將語料庫應用于語言教學的研究正在蓬勃發展,國內相關研究不算很豐富,大都只局限于同義詞辨析,幾乎很少涉及語言中的短語和句法層面。
語料庫的研究和應用可以上溯到19世紀末,然而對龐大的語料資源進行計算機化的處理,也就是利用電腦和因特網進行注釋、加工、解碼以及檢索、取樣到最后統計分析等研究工作則是近三十年來的事。計算機的使用為語料庫在人文科學的應用上開辟了新的道路,使語篇分析和語體研究更為科學準確而可靠。針對語料庫在歷時和共時兩個角度上的使用所表現出來的規律性或傾向性,很多學者從詞匯和句法的層面、篇章結構以及篇章類型對研究出發點進行了深入的探討。目前國內對利用動態語料庫的手段輔助語言教學的研究尚不成熟和多見。最早是何安平在國內語言學界引入語料庫的概念,他從宏觀上探討了語料庫在外語教育中的應用理論與實踐。另外,楊節之結合外語課堂實踐,討論了網絡語料庫對實際問題解決的促進作用等。
三、動態語料庫的建立
為了進行基于語料庫的語言學習,就必須獲得語料庫和字詞檢索程序。語料庫一般包括一個數據庫的自然文本,從寫作或錄制語音轉錄編制的。
基于動態語料庫的互動式的設計與構建的可行性,對國內語言教學研究而言,語料庫的研究和開發十分有益于深化外語教學研究。此外,隨著計算機網絡技術的高速發展,基于網絡的動態語料庫使用日益廣泛,利用網絡資源中的語料庫資源進行對外漢語教學和研究的輔助已成為可能,同時也是一種必要。
動態語料庫的建立必須利用網絡這一動態的資源。當今網絡時代,各大報紙和雜志在因特網上也發布其電子文本,用戶可以點擊相應的網址進入網站進行檢索。許多網站都設有兩條檢索路徑,一個鏈接外部互聯網,一個鏈接報刊的內部資料庫。“本網檢索”將會鏈接到本網報紙或雜志庫,在自己的資源系統中檢索。第二條路徑是“互聯網檢索”,用戶可在此鏈接到互聯網,這是利用搜索引擎在互聯網中進行檢索。我們可以選擇“本網檢索”,進入報紙庫內部檢索語料。在報紙或雜志網絡系統中進行檢索,這本身就將報紙或雜志資源變成了語言研究者的語料庫。在這種資源庫中搜索,優點是出處具體、語言文字相對規范。每一個搜索的結果都有對應的報紙來源,也就是我們在獲取語句的同時能得到關于語句的其他信息,包括時間和報紙的名稱,這對于語料庫的建立是至關重要的。
利用搜索引擎也可以建立語料庫,例如Google和Baidu。利用這種方式進行搜索,優點是方便快捷、信息量大。二者強大的搜索功能得到了廣大用戶的認可,一般情況下輸入詞條即可得到諸多相關信息,利用它們搜索語料資源,比如流行語,不能不說是一種便捷的手段。但是這么做,缺點也是非常突出的。最突出的問題就是信息源重復和引用的不規范。搜索出來的結果往往是網站上的文字不少新聞相互轉貼,信息重復自然不可避免。
利用網絡動態語料庫實現對語言教學研究的輔助,利用語料庫科學、量化的特點對語料進行解析、重組、保存、分析等自動操作即可構建動態的實時語言學習語料庫。本文主要探討了語料庫的發展、文獻綜述和動態語料庫建立的可能性和可行性。為網絡動態語料庫的開發與自動構建提供了一些思路。利用網絡構建開放的、動態的、連續的新型動態語料庫是語料庫語言學發展的一個趨勢。面對浩瀚的網絡語料,如何實時利用,辨析網絡語料是語料庫構建首要面對和解決的問題,希望本文能對網絡動態語料庫的發展和探索起到一定的作用,并且對網絡語料庫英語高層次創新型人才培養起到指導性的作用。
參考文獻:
[1]韓朝陽.網絡數據挖掘在平行語料庫中的應用研究[D].河南師范大學,2012.
[2]黃志輝.中國英語新聞網站研究[D].南昌大學,2006.
[3]梁茂成,李文忠,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2004-08.
[4]羅永勝.基于詞典和自建小型語料庫的WITH使用對比分析[J].廣東醫學院學報,2011,29(3):336-338.
[5]王曉東,王靖.基于Ontology 的Web 語料的挖掘[J].河南師范大學學報: 自然科學版,2006(4):43-45.
[6]楊惠中,衛乃興.中國英語學習者英語口語語料庫建設與研究[M].上海外語教育出版社,2004:1-4.
注:本文為2014年山西省軟科學課題《基于動態語料庫的英語高層次創新型人才培養策略研究》,2014年山西省科技廳軟科學課題《山西省對外宣傳中文化負載語匯的翻譯研究》階段性研究成果。
作者簡介:李言實(1972—),女,山西臨汾人,太原理工大學外國語學院講師,主要從事翻譯學研究。武曉杰(1976—),男,山西介休人,太原理工大學外國語學院講師,主要從事翻譯學研究。張慧(1978—),女,山西太原人,太原理工大學外國語學院講師,主要從事翻譯學研究。
?誗編輯 趙飛飛