摘 要:語料在語言研究中起著非常重要的作用,隨著計算機技術的發展和應用,數據庫在語言學研究中得到了廣泛的應用,并表現出對語料進行收集、加工、處理的強大優勢。將大量的、真實使用下的語言信息經過科學的收集和組織而集成的專供研究使用的語料庫已成為語言學家進行學術研究的重要工具。
關鍵詞:數據庫 語言學 語料庫
一、引言
語言學是一門既古老又年輕的學科,語言學的研究不只是理論和分析方法的創新。現代科學表明,研究方法和操作手段的更新往往成為理論發展的契機。語言學的研究需要收集、加工、處理語料,并強調語料的真實性和客觀性。語言學研究的學者都能感受到語料處理方式和手段的重要性。
語言學研究者面對大規模的文本語料,要從這些語料中發掘新的語言規則或需要的信息,首要任務就是對大規模真實的文本語料進行加工、篩選。采用手工的處理方法對海量語料數據進行統計、分類、分析等操作,工作效率會非常低,而且勞動強度非常大。這也促使處理語言材料的工作方法和操作手段發生變化。數據庫技術是一門數據管理自動化的綜合性技術,數據庫是組織、存儲和管理數據的倉庫。隨著計算機技術的廣泛應用和網絡的普及,數據庫在生產、生活、科技領域得到了廣泛地應用和推廣,在語言學研究中也表現出了強大的優勢,已成為語言學家的重要工具[1]。
二、數據庫與語言學
數據庫,顧名思義,就是存放數據的倉庫。只不過這個倉庫是在計算機存儲設備上按一定的格式存放的,具有強大的數據組織、數據處理和數據管理能力。語言學研究的語料具有規模大、類型多、異構性、零散性等特點,使用數據庫管理可以提高語言學研究者的工作效率。要想高效地使用數據庫來存儲、管理各種語言材料,語料庫設計的首要任務就是對語言材料數據進行合理地定義,建立便于對數據進行加工、處理的語言材料數據庫。數據在數據庫中的定義包括定義數據存儲的格式、數據的存儲類型和數據之間關聯關系。數據的定義是數據庫使用的關鍵,好的定義可以方便用戶對數據進行統計、檢索和處理。數據庫管理系統具有強大的數據定義功能,為語言學研究者提供使用數據庫的可能。
數據庫在語言學中的應用主要體現在對語言材料的加工和處理方面。數據庫強大的數據定義功能為語言材料的存儲提供了可能,更重要的是語言學研究者可以通過定義的語言材料對海量的語料進行加工和處理。數據庫有強大的數據處理功能,語言學研究者可以通過多種操作方法獲取語言材料信息,如篩選語料、語料排序、語料分類、語料統計和語料的更新等。譬如,何樂士的《<左傳>虛詞研究》中的文章大都寫于二十世紀六十年代[2],當時主要靠手抄卡片積累資料、分析統計,這些工作何先生需要花費大量的時間和精力,幾天甚至十幾天才能獲得結果,而現在研究者大都使用數據庫或語料庫,輸入檢索內容瞬間就能準確無誤地得到結果。這也是數據庫的最大益處,省時省力。
目前,隨著計算機網絡的普及和各種語言材料數據庫的建設,使語言學研究者最大限度地占有語言資料成為了可能,充分體現了數據庫的資源共享性。語言學研究也有不同的研究目標和語料需求,要想使數據庫能夠滿足不同的主題需求,需要建立更加廣泛的數據資源庫。當然,語言材料的來源不同,類型不同,要讓這些異構異質資源進行合理定義集成。語言學的研究需要現有的語言學研究成果,語言材料的數據庫可以保證語言材料的可靠性,同時也可以滿足語言學不斷發展更新的需要,這也是數據庫本身的特征。
隨著計算機的發展,數據庫在語言學中得到了廣泛的應用,已成為語言學家的重要工具。利用數據庫技術使其具有結構化、關系化、集成、穩定等特點,建立語言材料的數據倉庫——語料庫。語料庫(Corpus)就是存放原始語言材料的數據倉庫,就是一個由大量在真實情況下使用的語言信息經過科學的收集和組織而集成的專供研究使用的資料庫。近年來計算機技術的發展,相關研究者和組織建立了廣泛的語料庫。
三、語料庫語言學
語料庫的設計需要大量真實語料的不斷搜集、積累。所謂的語料庫(corpus),就是存放大量事實語料的倉庫。但嚴格定義的語料庫,僅指“由大量收集的書面語或口語構成,并通過計算機儲存和處理,用于語言學研究的文本庫”。[3]語言學研究者在語料庫的基礎上開展語言學研究。
“語料庫語言學”反映兩個層次的含義:一是語言學研究的一個新的手段,即利用語料庫對語言學的某個方面進行研究;二是語料庫反映出來的語言學的新觀點和新理論,相當于語言學的一個分支,如社會語言學、語用學等學科。從現有文獻資料看,大都將其作為語言學利用語料進行科學研究的一種新的手段。
(一)語料庫的作用和發展
語料庫是按照一定的語言學原則,對語言文本信息進行收集、加工、處理以電子計算機為載體承載語言知識的基礎資源庫。
傳統的語言學研究是通過手工方法獲取語言材料,任何語言學研究者都不可能記憶和處理全部語言數據。建立語料庫后,可以快速地從浩如煙海的語言資料庫中獲取準確的信息。語料庫最直接的用途就是為編纂字典提供大量真實準確的例句,例如,根據COBUILD語料庫編寫的詞典就有7種。除此之外,Leech(1993)還列舉了語料庫進行語言理論研究、語法研究、語義研究、語篇分析研究等十幾種用途[4]。說明了語料庫中的語料對語言學研究領域的重要性以及語料庫對語言學研究領域的促進作用。
20世紀90年代以來,語料庫的建設和研究迅速發展,規模從百萬字發展到千萬字、億萬字,語料加工的深度發展到篇章級,實現了語料庫的定量分析、機器翻譯、詞典編纂等。如英國的COBUILD語料庫,在該語料庫基礎上出版了語法、詞典、英語教材二十多種。[5-6]漢語語料庫的起步較晚,如北京語言文化大學的“現代漢語語法研究語料庫”、北京大學CCL語料庫和北語中介語語料庫等。
(二)基于語料庫的語言學研究endprint
語料庫已經成為語言學家研究語言學的強有力工具,基于語料庫的語言學研究具有以下特點:
(1)語料的真實性:學習者語料庫中的全部材料都是通過隨機采樣所收集的學生實際作文,是真實的語言運用。通過對學習者中間語的分析得出的結論都是有根有據的,是從實際出發的。我國的英語教學成績很大,但問題也不少,只有通過對教學現狀的科學分析、深入研究,才可能提出有針對性的、切合實際的改進方案,收到實際效果,避免無的放矢,避免無謂的爭論。
(2)定量分析:基于語料庫的研究,一個顯著的特點就是數據驅動。計算機的存儲和語言處理能力為觀察語言包括學習者提供了以前難以想象的強有力手段,定量分析使描寫具有客觀性,通過統計推斷也可以避免判斷的主觀性。數據驅動的定量分析使我們有可能看到以前憑直覺無法發現的問題。這些統計數據使我們有可能從量化的角度來探討中國學生英語學習的特點。當然定量分析還必須輔以定性分析,才能為怎樣學好英語提出切合實際的解決辦法。
(3)群體分析:通過數據驅動的定量分析,我們還可以發現,有些言語失誤是個別學生語言運用中的問題,是個體行為。有些言語失誤則帶有普遍性,是中國的英語學習者中普遍存在的現象,這就促使我們不得不認真研究其發生的原因。是因為母語遷移?還是由于過度概括?或者是出于教材或教學中的疏漏?只有找到了原因,才能找到改進教學的方法,提高教學質量。
(4)縱向分析:學習者語料庫中收集了各個層次學生的語言產出,他們處于不同的學習階段,有的是初學者,有的已經到了學習的較高級階段,這樣就使我們有可能對英語學習的發展過程進行縱向分析,看看哪些是初學者容易出現的言語失誤,哪些言語失誤到高級階段就很少出現,而另一類言語失誤的出現頻率卻又增加了,從而發現學習者中間語發展的規律。
(5)對比分析:所謂言語失誤是指中間語中不合目標語規范的地方。有了學習者語料庫,我們可以采用定量分析的方法,通過把學習者語料庫與本族語者語料庫進行對比分析,不但能夠找出那些不合規范的地方,而且可以找出哪些語言現象過度使用(即超用)了,哪些現象又過少使用(即少用)了,這些都是憑經驗和直覺很難發現的。
語料庫為語言學研究者提供真實的語料、統計數據、現行理論的驗證和構建新的研究理論,為語言學研究從高度抽象轉向語言實際應用起到了非常重要的支持作用。
四、結束語
語言學的研究必須以語言事實為依據,詳盡地、大量地占有語言資料。數據庫的出現使得語言材料的收集、整理和加工從枯燥無味、費時費力的手工勞動中解脫出來,語料庫已成為語言學研究者的重要工具。近年來,語料庫已經逐漸從語言學研究的輔助工具逐漸演變為一門多角度分析語言現象的一個學科。這也反映了語言學研究領域的思想觀念的更新和趨于科學性的發展趨勢。[7]語料庫的使用已逐步滲透到語言研究的各個領域,已成為自然語言研究者、詞典編纂者和語言學研究者必不可少的研究工具。
[本文為洛陽理工學院青年基金資助項目(2011QR02)。]
注釋:
[1]江獲:《數據庫是語言學家的重要工具》,中國社會科學院院報,2004年,第6期。.
[2]黎路遐:《從語言學的角度談數據庫在學術研究中的應用》,云夢學刊,2008年,第3期。
[3]馬納琴:《語料庫語言學在語言研究中的作用》,甘肅聯合大學學報(社會科學版),2007年,第23期。
[4]李文翔等:《基于內容主題的語料庫系統設計與實現》,計算機應用研究,2004年,第21期。
[5]穆曉莉,尹轉云:《語料庫在語言研究方面的應用綜述》,西安外國語學院學報,2001年,第9期。
[6]高鳳英:《語料庫語言學在詞匯和話語研究中的運用》,山西大同大學學報(社會科學版),2010年,第24期。
[7]賈雯:《國內語料庫庫語言學研究述評》,阜陽師范學院學報,2006年,第5期。
(常國萍 河南省洛陽理工學院中文系 471023)endprint
現代語文(學術綜合) 2014年3期