一、語料庫的基本知識(shí)
語料庫通常是指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。
語料庫已經(jīng)成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源,這是因?yàn)榻?jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫能夠反映語言的實(shí)際使用情況,人們可以通過語料庫觀察和把握語言事實(shí),分析和研究語言系統(tǒng)的規(guī)律。語料庫是以電子計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源,其語言材料是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的,真實(shí)的語料需要經(jīng)過加工、分析和處理才能成為有用的資源。
二、語料庫在英語詞匯教學(xué)中的應(yīng)用
1、詞頻統(tǒng)計(jì)
根據(jù)大學(xué)英語教材語料庫的統(tǒng)計(jì)結(jié)果可以看出,如果能夠掌握頻率表中出現(xiàn)頻率最高的詞匯,在閱讀時(shí)就可識(shí)別出整篇文章詞匯的一半左右。而在英語詞匯的教學(xué)過程中,應(yīng)著重講授這些頻率最高的詞匯。掌握詞頻統(tǒng)計(jì)表中的常用的大約8000個(gè)詞匯,就可以覆蓋語料的90%以上。
所謂的高頻詞匯,就是一個(gè)文本中出現(xiàn)頻率較高的詞匯,是根據(jù)語料庫中的語料統(tǒng)計(jì)研究得出的高頻詞匯,并不是憑感覺或主觀經(jīng)驗(yàn)來確定的詞匯。只有通過語料庫中的詞頻統(tǒng)計(jì)研究得到的詞匯,即高頻詞匯才是真正的常用詞匯。通過英語詞匯的高頻詞匯表,可以確定英語詞匯學(xué)習(xí)的主要內(nèi)容,找出詞匯學(xué)習(xí)的重點(diǎn),為學(xué)習(xí)者提供參考,因此,在學(xué)習(xí)英語詞匯時(shí),應(yīng)該首先學(xué)習(xí)出現(xiàn)頻率較高的常用詞匯,把與詞匯有關(guān)的語言規(guī)律作為學(xué)習(xí)的重點(diǎn)從而減輕詞匯學(xué)習(xí)中的不必要的負(fù)擔(dān)。
2、詞類分布
在英語中,詞類分為開放詞類和封閉詞類兩大類。開放詞類指各種實(shí)義詞,包括名稱、形容詞、副詞和動(dòng)詞。封閉詞類指所有的功能詞或結(jié)構(gòu)詞,包括介詞、代詞、限定詞、連詞和助動(dòng)詞。此外還有基數(shù)詞、序數(shù)詞、感嘆詞是介乎“封閉”與“開放”之間的詞類。
在詞匯研究中,可以利用標(biāo)注后的語料對(duì)哪些詞類是經(jīng)常使用和語料庫中詞類的出現(xiàn)頻率和分布情況進(jìn)行研究,從而在英語學(xué)習(xí)中選擇合適的內(nèi)容和學(xué)習(xí)的先后次序,找出學(xué)習(xí)的重點(diǎn),避免由于選擇過時(shí)的表達(dá)方法而造成學(xué)習(xí)的滯后性。通過語料庫研究可以得出,開放詞類比封閉詞類分布性廣,開放詞類如名詞、動(dòng)詞、形容詞的使用詞次數(shù)都超過了千次,而封閉詞類如限定詞和量詞的使用詞次數(shù)只有幾十個(gè)詞次,另外,從統(tǒng)計(jì)的數(shù)據(jù)中還可以看出,語料庫中出現(xiàn)在句首和句尾的最常用的詞類搭配中頻率最高的三個(gè)分別是形容詞+名詞,定冠詞+名詞,介詞+名詞,從語法的角度來看句尾的詞類搭配比句首的詞類搭配更容易檢測(cè)。因此,基于語料庫的詞匯研究對(duì)進(jìn)一步的句法研究有很大程度上的借鑒作用。
3、詞匯復(fù)雜度
詞匯復(fù)雜度即詞匯的變化程度是用文本中的詞形和詞次的比例來表示的。詞形是文本中使用到的詞匯,詞次是這些詞匯在文本中出現(xiàn)的總次數(shù)。同一詞形在真實(shí)的文本中可能被多次使用,因而詞次一般要比詞形多,語料庫的總次數(shù)是指語料庫所含的總詞次。詞匯復(fù)雜度可以通過以下兩種方法進(jìn)行計(jì)算:詞匯復(fù)雜度 = 詞形/詞次
把文本分成層次或分成段落,然后將結(jié)果平均,得出文本的詞匯復(fù)雜度,這樣詞匯的變化程度也是比較準(zhǔn)確的。詞形/詞次的比值越高,表明文本中使用的詞越多,重復(fù)詞相對(duì)越少。另外,詞匯復(fù)雜度與文本的長度有關(guān),因此,文本越短,詞匯重復(fù)少,詞匯復(fù)雜度越高;文本越長,詞匯重復(fù)使用越嚴(yán)重,詞匯復(fù)雜度會(huì)降低。
通過大學(xué)英語教材語料庫研究可以得出,一般英語教材中的詞匯復(fù)雜度較低,文本長度大致相同,所以詞形大約都在300-500個(gè)之間,詞次,也就是這些詞匯在文本中出現(xiàn)的總次數(shù)大約在3000-6000次之間,所以詞匯復(fù)雜度 = 詞形/詞次,大約為0.1左右。而學(xué)生在寫作中,文本使用到的詞匯也就是詞形,大約在200-400個(gè)之間;詞次,也就是這些詞匯在文本中出現(xiàn)的總次數(shù)大約在2500-5000之間,所以詞匯復(fù)雜度也是大約為0.1左右。由此可見,英語教材中的詞匯復(fù)雜度與學(xué)生的寫作中的詞匯復(fù)雜度較為接近,學(xué)生完全可以在平常的學(xué)習(xí)中,通過背誦教材中的課文,而沒有必要閱讀過多的課外讀物來加強(qiáng)自己的詞匯量。
4、詞匯密度
詞匯密度是指文本中所含的實(shí)詞和功能詞的百分比。所謂實(shí)詞是指內(nèi)容性詞匯,包括用以傳達(dá)信息的名詞、動(dòng)詞、形容詞、副詞等開放類性詞匯;功能詞主要包括助動(dòng)詞、冠詞、介詞、連詞等。一般情況下,稱實(shí)詞為TW,功能詞為FW,則 LD = "TW/FW。 實(shí)詞與功能詞的比例越高,則詞匯密度越大。根據(jù)研究表明,LD取決于文本的類型,與文本長度無關(guān)。
一篇文章中所含有的信息量的高低是可以通過句子的詞匯密度來進(jìn)行比較的。如果語篇的詞匯密度大,這就說明,這篇文章中使用的實(shí)詞比較多,含有較多的信息量,即信息含量大;如果語篇的詞匯密度小,則說明該語篇虛詞使用的較多,而實(shí)詞使用的少。大學(xué)英語教材語料庫中語料句子的詞匯密度比學(xué)生寫作中句子的詞匯密度高,也就是說,大學(xué)英語教材語料庫中使用的實(shí)詞較多,含有較多的信息量,而學(xué)生寫作語料庫中的虛詞使用的較多,而實(shí)詞使用的少,所含的信息量較少。
參考文獻(xiàn):
[1]王建新.計(jì)算機(jī)語料庫的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社,2005
[2]汪榕培.英語詞匯學(xué)教程讀本[M].上海:外語教育出版社,2005
[3]穆惠峰.基于語料庫的詞匯教學(xué)研究與英語詞匯教學(xué)[J].宿州教育學(xué)院學(xué)報(bào),2007,04
作者簡介:張晨(1982.3-),女,山東聊城人,甘肅政法學(xué)院人文學(xué)院助教,研究方向:外國語言學(xué)及應(yīng)用語言學(xué)。
(作者單位:甘肅政法學(xué)院)