[摘要]本文主要從研究目的、研究方法、研究工具、分析結果幾方面淺析了南京大學外國語學院高超博士如何運用語料庫方法對研究對象進行定量研究分析,探討了語料庫在其文章中是怎樣發揮研究作用,從而得出明晰、高效的分析結果的。通過以上分析,歸結出了采用語料庫去研究相關問題是一種非常客觀、有效的新興研究方法。對這種研究方法的廣泛使用可以使語料庫在語言分析領域發揮更大的作用,產生更大的價值。
[關鍵詞]《基于語料庫的中國新聞英語主題詞研究》;語料庫;主題詞;語言研究
[中圖分類號]H313.1 [文獻標識碼]A [文章編號]1005-3115(2014)14-0059-02
在2006年第6期《北京第二外國語學院學報》(外語版)上,南京大學外國語學院高超博士發表了題為《基于語料庫的中國新聞英語主題詞研究》的論文。作者指出其研究采用基于CENAC語料庫(中國英語新聞語料庫)和BNC語料庫(英國國家語料庫),來分析中國的英語新聞中詞匯與主題表達之間的相互關系,以及詞匯的使用和語言學特征。其論文旨在以中國的英語新聞為例,通過對數據庫數據統計方法探究中國人在中國本土使用英語的現狀、所用語料庫中材料與主題之間的關系,從而進一步從新的視角來分析探索中國的英語新聞特征。本文簡要分析其文章中對語料庫研究方法的運用以及語料庫在當今語言研究中的重要性。
一、語料庫簡介
語料庫(corpus,復數corpora),指經科學取樣和加工的大規模電子文本庫,借助計算機分析工具,研究者可開展相關的語言理論及應用研究。關于語料庫有三點基本認識:語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。
語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源,應用于詞典編纂、語言教學、傳統語言研究、自然語言處理中基于統計或實例的研究等方面。
二、研究簡述
(一)研究目的
中國英語在英語家族中是很重要的一員。擁有傳奇英語學習經歷的復旦大學教授葛傳規是“中國英語”概念的最早提出者,這一概念是葛傳規教授于1980年在《翻譯通訊》期刊中發表的《漫談由漢譯英問題》一文中首次提出。1993年,北京外國語大學中國外語教育研究中心的李文中教授指出,中國英語的出現是英語在中國被很好地運用的現實。
高超在其文章引言中首先介紹了“中國英語”這一概念的由來和現狀,從而引出了通過數據統計的方法,對中國英語新聞的主題詞進行研究分析,并探討了中國的英語新聞中詞匯與主題表達之間的相互關系以及詞匯的使用和語言學特征,還有作者的文章對教材開發、詞典編撰、世界英語的研究等所提供的借鑒作用。
(二)研究方法
《基于語料庫的中國新聞英語主題詞研究》一文作者高超采用了微型語料庫CENAC(中國英語新聞語料庫)和英國國家語料庫BNC。她的分析步奏明晰,分為三個步驟:制定標準,收集文本并轉換成純文本格式;運用統計軟件處理文本,生成主題詞詞表和數據庫;標注漢語借詞、造詞、發生語義轉換的詞。微型語料庫CENAC是中國英語語料庫(China English Corpus)的一個子語料庫,是由李文中博士領導創建的一個觀察語料庫。它包含來自《中國日報》、《北京周末》和《上海星報》2002年的2296個新聞文章的文本,共計1263211個詞。作者將英國國家語料庫BNC設為用來對比的參照語料庫,包括4124個現代英語文本,共計100106008個詞。作者所運用的兩個語料庫所包含的語料豐富,可以為她的分析研究很好地發揮作用。
(三)研究工具
作者所采用的語料庫分析軟件是Word Smith Tools,主要用來生成詞表和主題詞數據庫(顯著性水平設定為p<0.0000001)。作者主要是對CENAC和BNC中的主題詞和關鍵主題詞進行主題分析和語言學特點分析。CENAC的文本共分為十二類:文化生活、政治、經濟、法律、環境、教育、科學、體育、交通通信、廣告、工業、農業。經過數據處理可以提取語料庫中的主題詞、關鍵主題詞和它們的聯想詞。Word Smith Tools是一個在Window下運行的用來觀測文字在文本中的表現的功能強大的綜合軟件包。它共包含Concord(語境共現檢索工具)、Word List (詞頻列表檢索工具)、Key Words(關鍵詞檢索工具)、Splitter(文本分割工具)、Text Converter (文本替換工具)、Viewer(文本瀏覽工具)六個程序,其中前面三個程序是主要文本檢索工具,后面三個程序屬于輔助性工具。
4.分析結果
作者文章的主題分析和語言學特征分析顯示出四點結果:其一,在CENAC語料庫中的詞匯運用與中國社會文化環境有緊密的聯系,詞匯幾乎涉及到了中國社會文化各個領域,例如文化、政治等;其二,詞匯運用與主題表達也密切相關,主題詞、關鍵主題詞和它們的聯想詞之間有聯想和共現關系,共同構成一定的語義網絡;其三,CENAC數據庫中出現大量本土化詞匯(主要用來表示與中國相關的人名、地名和中國特有的事物,以及中國人的文化價值觀等),其中包括漢語外來詞、造詞、共享的英語詞匯等等,而這些里面漢語外來詞的數量是最多的;其四,中國英語的詞匯極其富有創造力,尤其是本土化詞匯。另外,作者的此研究對教材開發、詞典編撰、世界英語的研究等也有一定的借鑒作用。
三、研究分析
運用語料庫進行語言類研究分析是非常有效、非常必要的。在《基于語料庫的中國新聞英語主題詞研究》一文中,若同樣是對中國新聞中的英語主題詞進行研究,但卻不運用語料庫進行分析,這項研究是很難順利進行下去的。
首先,中國新聞英語詞匯的數量是非常龐大的。中國是一個超級大國,無論人口、地域、文化等,其數量都是驚人的。在社會越來越發達的21世紀,不管是經濟、政治還是文化領域,中國都越來越多地與世界中的各個國家產生來往。因此,可想而知,在文化和信息高度發展的今天,英語新聞報刊和視頻的數量是數不勝數的。想對這樣一個數量無法統計的文本進行研究并分析,如果沒有一個數據庫來作為基礎支撐,將會步履維艱。
其次,如果沒有運用語料庫,即使勉強得出了一個結果,這個結果的正確率和清晰度也是無法肯定的。對數據庫的運用不僅使得研究得以進行,并且在使用數據庫進行分析后會發現得出的結果一目了然、清晰明了。譬如作者在使用CENAC語料庫分析得出的與政治相關的主題詞結果中,“China”、“United”、“States”三詞高頻出現,這個現象向我們傳達了一個很清晰的信息,那就是中美關系在中國政治新聞中的重要性。另一個例子,在與人物相關的主題詞中,唯一出現的一位古代帝王是“Kangxi”,這個主題詞的分析結果顯示了在中國英語新聞中出現的與人物有關的詞中,最受公眾關注的帝王是康熙——中國古代最有名的帝王之一。
第三,如果沒有運用語料庫,其得出的結果中,不會映射出與所查主題詞相關聯的其他高頻關聯詞,也不會得出相應的有關各個領域(政治、經濟、文化、飲食等)的結論。例如文中指出的與交通運輸和住房相關的詞“Lu”(路)、“Hutong”(胡同)、“Dajie”(大街)等,通過索引我們會發現,在中國,胡同的歷史很悠久,可以一直追溯到元朝(1271~1368)。胡同的名字也是五花八門、各有特色,譬如“Guirenguan Hutong”——貴人關胡同、“Gouyiba Huton”——狗尾巴胡同、“Yaba Hutong”——啞巴胡同、“KoudaiHutong”——口袋胡同、“Mashenmiao Hutong”——馬神廟胡同。再例如“sides”一詞在數據庫所選文本中共出現66次,其中35次與“both”搭配使用,27次與“two”搭配使用。說明在中國的新聞中,“side”是與“both”和“two”常做搭配使用的,“both sides”和“two sides”被稱作“liang’an”(兩岸),在中國,這兩個詞當然特指的是臺灣海峽兩岸。這三個英文單詞在中國新聞中如此高頻率地被用到,說明“兩岸”話題在中國備受關注。
作者高超充分運用數據庫研究分析法探究了中國的英語新聞中詞匯與主題表達之間的密切聯系,英語新聞中主題詞的出現不僅是一種語言或信息上的傳入,更重要的是它體現了與之相關的中國文化、政治、社會等各個方面的隱射意義。
四、結語
語料庫語言學是一門新興學科,它是在20世紀中后期才嶄露頭角的,它像一名富有活力的少年經歷了多年的成長,現在正在走向成熟并散發出強大的魅力。語料庫現已成為一個重要的研究手段,它不僅為語言的定量研究提供了更加科學的研究方法和更加廣泛的言語素材,也使得語言研究的傳統觀念、方法得到了更好的更新。通過對《基于語料庫的中國新聞英語主題詞研究》一文中語料庫方法運用的分析,語言研究者將更加明確,采用語料庫去研究相關問題是非常客觀的一種新興、有效的研究方法。對這種研究方法的廣泛使用可以使語料庫在言語分析領域發揮更大的作用,產生更大的價值。
[參考文獻]
[1] Scott,M.R.Word Smith Tools[M].Oxford University Press,1996.
[2]Thomas,J主編,何安平導讀.用語料庫研究語言[M].北京:外語教學與研究出版社,2001.
[3]高超.基于語料庫的中國新聞英語主題詞研究[J].北京第二外國語學院學報,2006,(6).