


摘要:美國當代英語語料庫(Corpus of Contemporary American English,COCA)由美國Brigham Young University 的Mark Davies教授開發,目前單詞容量在4.5億,是美國當前最新的當代英語語料庫,也是當今世界上最大的英語平衡語料庫。該語料庫的語料來自1990-2012年,每年更新,檢索功能強大,是最佳的英語學習助手。本文以sorry為例介紹了如何在美國當代英語語料庫中查詢單詞及對單詞sorry的檢查與研究結果。
關鍵詞:美國當代英語語料庫,平衡語料庫,sorry
Abstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark Davies of Brigham Young University,and it is used by tens of thousands of users every month (linguists,teachers,translators,and other researchers).COCA is also related to other large corpora that we have created.
The corpus contains more than 450 million words of text and is equally divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012.
Key words: the Corpus of Contemporary American English,parallel corpus,sorry
中圖分類號:H319.3文獻標識碼:A文章編號:1006-026X(2013)12-0000-02
一、 引論
美國當代英語語料庫(Corpus of Contemporary American English,COCA)由美國Brigham Young University 的Mark Davies教授開發,目前單詞容量在4.5億以上,是美國當前最新的當代英語語料庫,也是當今世界上最大的英語平衡語料庫,且與其他所建語料庫相連。訪問者可利用COCA查詢單詞,短語,通配符,詞形,詞性,或任何以上的結合。幫助訪問者對比詞在不同類型,如口語,小說,雜志或報紙中的用法,或對比從1990年至今的該詞的用法。每個月COCA的訪問量都在好幾萬,其中有語言學家,教師,翻譯,也有其他研究人員和英語學習者。與其他語料庫需要注冊或付費使用所不同的是,它是免費在線供大家使用,且每年更新,最新更新于2012年夏季。涵蓋了1990-2012年的口語、小說、流行雜志報紙和學術期刊五大類型的語料,是觀察及研究美國當代英語使用變化的一個良好平臺。
二、 關于COCA的界面及使用
COCA的查詢界面由四部分組成:基本顯示區,顯示語料庫名稱和語料庫容量;顯示及查詢條件界定區,查詢結果數據顯示區和例句顯示區。下面以sorry為例,對其使用做詳細闡述。使用COCA查單詞:直接在顯示及查詢條件界定區的查詢欄中輸入所要查詢的單詞sorry,其他項忽略,點擊search即在查詢結果數據顯示區得到下面(圖表一)的查詢結果:
此表表明COCA中所有關于sorry的詞條總數為40036條。再在上圖的sorry上點擊一下,將在例句顯示區得出100個有關sorry的例句,且顯示例句的來源,如是選自雜志還是報紙,名稱(即雜志或報紙的名字)和年份(語料庫默認從當前向1990年排列),每頁例句顯示為100條。但這樣籠統的查詢并不能具體直觀的顯示sorry的用法。
在其他項忽略的情況下,將顯示方式(display)選為圖表顯示(chart),則得到下圖的顯示結果:(圖表二)
此圖左半部分表明sorry一詞在COCA五大類型語料中的使用頻率,在小說中的使用頻率最高,其次為口語中,在雜志、報紙和學術刊物中甚少使用;右半部分是從1990至2012年每五年的使用情況,圖中顯示sorry的使用變化差別不大。分別點擊各個單項可在例句顯示區得到五大語料類型下的sorry的例句,其中普遍看到的有以下四種情況:
1.sorry與系動詞構成 be sorry的句子單獨使用;
2.sorry單獨成句;
3.sorry后搭配to;
4.sorry后接for;
以上結果只是用戶的推斷,對sorry前后的具體搭配并不清楚。如果想要弄清sorry經常前后與何種詞搭配頻率高,則可以在顯示方式(display)中選擇KWIC(前后文關鍵字)。在其他項忽略的情況下,系統的sorting and limits 項將自動變更為display/sort項,且display默認為按字母排列(Alphabetical),排序(sort)項默認為L。。。-。。。R,-表示關鍵字,L表示排序關鍵字左邊三個詞,R表示排序關鍵字右邊三個詞。點擊查詢,則得出的結果與上面用戶的推斷有很大的出入:例句顯示區中的例句中關鍵字sorry左右三個詞都出現了顏色標示,通過顏色標示可清楚的看出與sorry經常構成的搭配的單詞中,按頻率由高往低排列:
1.sorry與系動詞構成be sorry 的句子;
2.sorry后接for;
3.sorry后接to;
4.sorry state of;
5.sorry that…;
由上圖看出該詞在學術期刊上的使用頻率最低,所以應盡可能避免在學術期刊中該詞的使用。
在顯示及查詢條件界定區中的字符串查詢區(search string)有最后稱之為random的一項,在語料庫中這是用來隨機查詢瀏覽新詞的。
在顯示及查詢條件界定區中的語料庫分類區(sections),若點擊選擇則可看到所查單詞在五大語料中各分區的使用頻率及年代排列;若默認則顯示的是所查單詞在語料庫中總的使用情況。Section中有兩個內容相同的部分,但其功能是不一樣的。此區可對所查詢的字符串限定語料類型和時段,并可以明確到查詢某一個子語料庫,時段也可以查詢任何一年的某個字詞的使用情況。可以在點選了一個語料庫后按住CTRL鍵繼續選擇多個語料庫或時段,另外在CHART顯示結果后,可在查詢結果顯示區點擊SEE ALL SECTIONS也可以看到所查詢的字符串在每個子語料庫和每年中的細節信息。選擇顯示方式(display)為圖表顯示(CHART),Section 1選擇口語(Spoken),Section 2也選擇相應項則sorting and limits 項自動變更為按相關排列(Relevance),最低出現頻率(minimum)為10.得到下圖結果(圖表三):
從此圖中可以看出,sorry的詞頻為12260,每百萬詞頻是128.27,右半部分是在每個年代分布中的使用情況;
Sorting and Limits這一項中,可選擇查詢結果的排序方式,系統默認為按字符串總詞頻排列,即最頻繁使用的最先顯示。也可以選擇按相關度。
若點擊查詢結果排列方式區(Click to see options),可看到Group by(按詞形排列)、Display(顯示方式)、Save Lists(存儲結果)和#HITS(最多顯示條數)。其中Group by中有五小項:LEMMAS、WORDS、NONE、BOTH WORDS和BOTH LEMMAS,默認為WORDS.由于本文查詢的是單個詞sorry,且sorry只有一個詞性,因此這一項并沒有起作用。BOTH WORDS和BOTH LEMMAS 可以查詢到詞的多重搭配,在比較同義詞時效果明顯。Display(顯示方式)包括以下四項:RAW FREQ(字符串總詞頻)、PER/ML(每百萬詞頻)、RAW FREQ+(總詞頻和每百萬詞頻)和PER/ML+(每百萬詞頻和總詞頻)。表示查詢結果在查詢結果數據顯示區的顯示方式,圖表二中的上兩項分別就是總詞頻和每百萬詞頻的查詢結果,且五個語料類型的查詢結果是分開顯示的。用存儲結果區(SAVE LISTS)可以將查詢結果存入自己的列表,做多顯示條數(#HITS)的默認值是100,可修改的最大值為1000.
若想知道sorry這個形容詞都與那些名詞搭配時,在查詢欄中輸入sorry.[n*],collates中輸入[n*],默認數字選擇5,則得到下圖(圖表四):
前五項即為與本詞經常搭配的名詞詞語。
三、 結論
通過以上查詢和說明,表明美國當代英語語料庫(COCA)詞量豐富。功能強大,對于英語語言學習者是不可多得的研究和學習助手。它不僅可以做簡單的單詞查詢,還可以對關鍵字進行查詢,并對各年代段的單詞使用頻率做直觀的圖表顯示。
參考文獻:
[1]Davies,Mark.The Advantage of using relational databases for large corpora: speed,advanced queries,and unlimited annotation.International Journal of Corpus Linguistics,2005,10
[2]Davies,Mark.Semantically-based queries with a joint BNC/WordNet base.In Corpus Linguistics Twenty-five years on,ed Roberta Facchinetti Amsterdam: Rodopi,2007