陳乾峰 宋 倩
(杭州師范大學錢江學院,浙江 杭州 310016)
基于語料庫的《綜合教程》詞匯廣度和深度分析
陳乾峰 宋 倩
(杭州師范大學錢江學院,浙江 杭州 310016)
本研究運用語料庫的研究方法,以英語專業四級詞匯表為參照詞表,對英語專業教材《綜合教程》的詞匯進行廣度和深度分析。結果表明,教材中的詞匯密度、詞匯類型呈現逐冊遞增趨勢,但是新增詞匯類型的復現率偏低,不利于學習者習得。此外,整套教材詞匯基本覆蓋了專業四級詞表,適合學習者學習。
詞匯 語料庫 詞表
“沒有語法,人們可以表達的事物寥寥無幾;而沒有詞匯,人們則無法表達任何事物”(胡壯麟,李戰子,2004:47),因此可見英語學習中詞匯學習的重要性。英語教材對于專業學習者的重要性不言而喻,但是教材兼顧單元、話題、主題、任務、結構等因素,系統合理地選擇和呈現詞匯確非易事,“常常缺乏系統性”(Sheldon,1988:239)。因此,分析和評估教材中課文涵蓋的詞匯選擇、詞匯特點及詞匯分布等是一項意義重大的研究課題。
但是,以前的教材詞匯評估大多通過人工閱讀、統計和分析,不僅耗盡人力和物力,而且收效甚微。更有學者憑借經驗和印象,進行主觀分析和片面臆斷,其信度和效度很難得到保證。近年來,隨著語料庫技術的發展,通過大量的真實語料,一次性批量統計和分類,能更加全面、客觀、高效地呈現教材中的詞匯特點,成為教材詞匯評估的一種重要手段和方法。國內外學者也逐漸開始進行此類研究,Koprowski(2005)對英國三套英語中級教材(New Headway,Innovations,Inside Out)的詞塊做了研究;謝家成(2010)評估了中學英語教材詞匯。為了更好地培養英語人才,提高其英語綜合能力,進行符合本專業特點的教材詞匯評估研究迫在眉睫,意義重大,但到目前為止,鮮有相關實證性量化研究。
本研究以何兆熊主編的《綜合教程》四冊128篇課文(包括Text 1和2)為研究語料,借助語料庫技術對它們進行批量導入、提取和分析,客觀和直觀地呈現出教材中的詞匯分冊分布特點,并將這套教材課文詞匯和《大綱》規定的英語專業四級詞匯(參見姚乃強等學者的《英語專業四級詞匯表》)進行覆蓋率測試,以檢測本系列教材詞匯與大綱詞匯的相關性。
本研究基于《綜合教程》(1-4冊),每一單元涉及Text A和Text B兩篇課文,共收集到了128篇課文,總字數為128975。隨后,對所有語料進行了*txt純文本處理和標記,以便于計算機軟件檢索、識別和統計,如B1U1T1表示第一冊第一單元Text A。我們將每冊課文放入單獨的文件夾,這樣便于進行冊與冊和整體的對比分析。
傳統的課文閱讀勢必會占據研究者太多的時間和精力,且往往存在片面性和主觀性,而采用語料庫技術提取語料的方法恰恰能彌補傳統閱讀的缺陷。本研究采用AntConc語料庫檢索軟件一次性地檢索和提取所有文本。提取好語料后,可以通過軟件的基本程序,檢索和分析每冊教材的詞匯特點,并探究教材詞匯與大綱詞匯之間的覆蓋率。
3.1類符、詞次和類符/詞次比
利用檢索軟件AntConc對《綜合教程》教材四冊進行單詞列表(WordList)統計,從而得出每一冊書出現的類符、詞次和它們之間的比值。從理論層面來講,隨著年級的上升和學習時間的增加,學生對于英語詞匯學習的能力和大綱對其要求的高度逐步遞增,因此每一冊的課文難度應該逐步遞增,也就是說,第二冊要比第一冊難,第三冊要比第二冊難,第四冊要比第三冊難。這種難度可以體現為類符數的增加,詞次的增加,以及類符/詞次比的增加。我們將詞表統計的數據列入表1,并針對這些數據稍作探討和分析。

表1 類符/詞次(TTR)的統計結果
3.1.1類符數的統計從表1
來看,《綜合教程》1-4冊的單詞類型(類符)總數分為:第一冊共5171類;第二冊為5885類;第三冊為6095類;第四冊為6623類。從中可以發現,第二冊比第一冊增加714個;第四冊比第三冊增加528個;第三冊比第二冊略微增加120個。這種學期之間的高梯度增加及學年之間的低梯度增加恰恰反映了學生的學習規律:寒假較暑假時間短1個月,學生的寒假詞匯遺忘率比暑假要低,所以難度可以適度增加;相反,過了一個暑假,學生需要更長的時間來恢復遺忘的詞匯。因此,這種類符數在每一冊的體現是比較科學的,也是值得提倡的。
3.1.2詞次的統計
從表1來看,1-4冊的單詞詞次總數分為為:27377、32018、34414及35166;每冊每篇課文的平均長度為:27377/ 32=856個;32018/32=1001個;34414/32=1075個;35166/32= 1099個??梢姡S著學期的推移、年級的上升、學習時間的增加,綜合教程教材的課文總字數逐學期增加,每篇課文的平均長度也相應遞增。當然,這種遞增反映在每一冊的總數和平均數上,冊內的32篇課文各篇的長度并非一定逐漸遞增,同一單元中有時Text B要比Text A要長,有時要短;后一單元有時比前一單元要短。這些需要根據課文的題材、類符數、教學目的、教學內容和教學效果等而定。
3.1.3類符/詞次比統計
類符/詞次比這個指標反映出了所選課文中詞匯出現的難度和密度?!毒C合教程》教材的類符/詞次比按照第一到第四冊分別為:18.9、18.4、17.7和18.8,可見,它們都基本維持在18.5左右,就第三冊的比值低于18.0。當然,這個指標無法很好地反映出詞匯的復雜度。
3.2課文詞匯與專四大綱詞匯對比
詞匯是英語學習中的一個重要部分,詞匯出現的類型、出現的次數,以及其在每篇文章及每冊書中的分布都直接關系到英語專業學生對于詞匯的習得。本研究主要探討一套廣泛使用的《綜合教程》四冊的詞匯特點,并與姚乃強、鄒申等主編的《英語專業四、八級詞匯表》中的四級詞匯表進行對比分析,主要探討兩個問題:第一,《綜合教程》冊與冊之間的詞匯類型特點;第二,《綜合教程》詞匯與專四大綱詞匯對比。
要進一步探討以上兩個問題,首先要提取《綜合教程》各冊詞匯表。具體是用AntConc工具從自建語料庫中提取出詞匯表并進行削尾處理(如had/has/have/having/'ve就 會自動歸到同一個詞簇have里面),在進行詞頻統計后生成頻率詞表,作為目標詞表。其次將英語專業四級大綱詞表作為參考詞表,與目標詞表進行對比分析。
3.2.1《綜合教程》冊與冊之間的詞匯類型特點通過
上述步驟,共計生成目標詞匯表5個,分別為每冊目標詞表1個,以及四冊總詞表1個。具體如表2

表2 目標詞表中的詞簇統計結果
從表2可以看到,《綜合教程》第一冊有詞簇共計3827個,第二至第四冊則分別為4286、4546和4846個,每冊分別增加詞簇為:459個,260個和300個,呈現逐冊遞增趨勢。這一趨勢較符合學生的學習規律,因為隨著學期的推進,年級的上升,專業學生習得詞匯的能力和實力理應逐年、逐學期遞增。
但是,純粹從每冊詞簇的數量來判斷教材詞匯編排的科學性和合理性還顯得比較牽強,缺乏一定的說服力。我們應該看冊與冊之間詞簇類型的重復性和差異性。通過關鍵詞統計(Keyword List),分別以前一冊的詞簇為參照詞表,得出如下數據:第二冊要比第一冊新增詞簇2254個,如abound(B2U14T1),abundant(B2U13T1),abut(B2U13T2),accommodate(B2U2T2),adamant(B2U15T1)等;第三冊比第二冊新增2395個,如abatement(B3U4T2),abhor(B3U14T2),abolish(B3U5T2),abridge(B3U10T1),accomplice(B3U16T2)等;第四冊比第三冊多2528個,如ablaze(B4U12T1、B4U16T2),accessory(B4U5T1),accrue(B4U10T2),adhere(B4U4T2),aggression(B4U11T2),alienate(B4U3T1)等。這個顯著的增加很客觀和直觀地反映了《綜合教程》冊與冊之間詞匯難度編排的梯度性、科學性和合理性。
此外,英語教材中詞匯的重復率和重復模式直接影響學生的詞匯習得(陳瀟瀟,2011:9)。詞匯重復頻率是語言習得的關鍵(Ellis 2002:145-148)。因此,我們有必要檢測每一冊新增的詞匯在后面幾冊中的出現頻率。從上文可以看出,第二冊新增的2254個新詞,有1663個沒有出現在第三冊、1308個未出現在第四冊中,復現率分別為26.2%和42.0%,如afflict,aftermath,altruistic,ammunition,anonymous等都未出現在后面兩冊中;第三冊新增的2395個詞匯中有1786個未再次出現,復現率也僅為25.4%,如adrift,advent,aesthetic,affluent等。從這個低復現率或重復率來看,《綜合教程》還不能完全為英語學習者提供足量的語言輸入,也較難幫助學習者將短時記憶的詞匯轉化為長期記憶,容易導致詞匯量不足。
3.2.2《綜合教程》詞匯與專四大綱詞匯對比
本研究所使用的語料為全國諸多高校英語專業采用的精讀教材,具有很強的代表性。英語專業四級詞匯是教育部對英語專業低段學習的詞匯要求,具有很強的指導性。那么比較教材詞匯與專四詞匯表具有很強的教學實踐意義。
對目標詞表與專四詞表的相關性統計后可以看到,教材第一冊有詞簇3827個,其中461個超出專四大綱詞匯,如abstinence,anguish,animate,assortment等;第二冊有523個超出專四大綱詞匯,如abut,afflict,appendix,atonement等;第三冊和第四冊分別超出587和622個,如abatement,accomplice,admixture,anthology等,共計有2193個詞簇超出專四詞表。反過來,我們有必要探究專四大綱詞匯在本研究語料中的出現頻率,經過關鍵詞表對比,共計有2397個詞簇未出現在四冊教材中,如sprout,abdomen,abolition,acupuncture等。
但是細細分析,我們發現兩個詞表之間的差異可以進一步縮小,如allotment出現在目標詞表,而allot出現在專四詞表,但是統計時分別為兩個不同的詞;還有目標詞表中的differently和專四詞表中的different分別被視為兩個詞。因此,有必要更進一步地分析它們的詞綴,進一步“去噪”,使得對比更加具有信服力。但是就本研究而言,我們可以發現目標詞表超出專四詞表2193個單詞,而專四詞表超出目標詞表2397個詞,兩者相差不大,具有一定的互補性。因此,從很大程度上而言,四冊教材詞匯基本覆蓋了大綱所要求的專四詞匯,覆蓋率高達87.0%。
本研究基于《綜合教程》四冊教材對其進行詞匯量化分析,并通過與英語專四大綱詞匯表對比,檢驗其詞匯的覆蓋率。結果顯示,四冊詞匯的密度和數量、詞簇的類型等都是逐冊遞增,符合學習者詞匯習得規律。但是,通過冊際詞類對比分析后發現詞匯的復現率和重復率偏低,不利于學生重復學習,加深印象,真正習得詞匯。此外,通過與專四大綱詞表對比后發現,教材詞匯基本覆蓋了大綱所要求的詞匯,并有少數詞匯超出專四詞表。因此,學習者能通過學習本套教材來認識專四詞匯,但是要真正習得詞匯還需要教材編寫者在詞匯的重復率上再下工夫。
[1]Ellis,N.2002.Frequency effects in language processing:A review with implications for theories of implicit and explicit language acquisition[J].Studies in Second Language Acquisition,24:143-188.
[2]Kennedy,G.1998.An Introduction to Corpus Linguistics[M].London:Addison Wesley Longman.
[3]Koprowski,M.2005.Investigating the usefulness of lexical phrases in contemporary coursebooks[J].ELT Journal 59:322-332.
[4]Sheldon,L.1988.Evaluating ELT textbooks and materials[J].ELT Journal 42/4.
[5]陳瀟瀟.大學英語教材課文詞匯分布特征實證研究[J].外語電化教育,2011(3):9-14.
[6]何兆熊.綜合教程(第一冊至第四冊)[M].上海:上海外語教育出版社,2005.
[7]胡壯麟,李戰子.語言學簡明教程(中文版)[M].北京:北京大學出版社,2004.
[8]謝家成.基于語料庫的英語教材虛化動詞對比研究[J].外語教學理論與實踐,2010(3):13-17.
[9]姚乃強,吳古華,鄒申.英語專業四八級詞匯表[M].上海:上海外語教育出版社,2004.
本論文為杭州師范大學錢江學院2015年度科研項目研究成果,項目編號:2015QJJW02。