王 晶
(河南大學大學外語教研部/二語寫作研究中心,河南 開封 475001)
雅思考試(International English Language Test System,IELTS),即國際英語語言測試系統,是中國學生走進世界名校的必備考試,全面考查學生的英語聽、說、讀、寫能力。其中,閱讀是學生望而生畏的科目,尤其是在雅思閱讀中有大量的生僻詞。詞匯是閱讀的基石,考生經常反映雅思閱讀文章詞匯量大且難度高,但究竟雅思閱讀詞匯的豐富度如何?雅思閱讀詞匯比大學英語四六級閱讀詞匯的復雜度高多少?這些問題通過教師的肉眼觀察和經驗分析很難得到準確答案。
隨著計算機技術的發展,語料庫技術被越來越多地運用在教學和研究中。語料庫是按照一定的采樣標準采集而來的、能代表一種語言或者某語言的一種變體或文類的電子文本集(梁茂成,2010)[1]。由于語料庫基于大量的真實語言,正日益成為語言研究和外語教學的重要方法,近年來國內外基于語料庫的研究方興未艾。近年來國內基于語料庫的研究主要集中以下三個方面:第一,基于語料庫的教材研究,如張軍,劉艷紅(2022)[2]基于語料庫研究《大學思辨英語教程》的文化內容特征,分析了其文化配置及語篇選擇。第二,基于語料庫的學術英語研究,如陸小飛,劉穎穎(2019)[3]基于語料庫研究學術英語程式語及其在教學中的應用。第三,針對學習者語料庫的研究,如梁茂成,鄧海龍(2020)[4]設計和構建了適用于建設大規模英語學習者語料庫的自動拼寫檢查系統。目前基于語料庫的研究主要集中于教材研究、學術英語研究及學習者語料庫研究。
本研究通過自建小型語料庫,運用語料庫統計方法對比分析雅思、大學英語四級及六級閱讀文章的詞匯特點,試圖得出雅思閱讀文章在詞匯豐富度、詞匯復雜度、平均詞長和平均句長等方面的特點,并根據分析對比結果為雅思閱讀教學提供建議,以期助力學生提升雅思成績。
劍橋雅思是由劍橋大學考試委員會從之前的雅思考試真題中抽取出來的一些真題集,是最權威的雅思考試備考書籍[5]。由于《劍橋雅思真題1~3》出版時間早,且考試題型已經發生較大改革,故本研究采用《劍橋雅思真題4~16》中的閱讀文章。將雅思閱讀文章電子版轉換為TXT文本文件,并將轉換過程中出現的亂碼及識別不準確的地方進行人工校對,以保證文章的準確性。之后,對所有的文件進行整理,建成雅思閱讀文章小型語料庫,庫容156篇。
大學英語四六級考試于2016年改革,故本研究收集了大學英語四級2017至2020年閱讀真題和大學英語六級2016至2020年閱讀真題,用同樣的方式分別建成大學英語四級閱讀文章語料庫和大學英語六級閱讀文章語料庫,庫容分別為96篇和120篇。
衡量文本的詞匯豐富度的常用方法是類符/形符比,又稱形次比(梁茂成,李文中,許家金,2010)。形符(token)即我們日常所說的“詞”,類符(type)作為一個統計量,是指語料庫中任何一個獨特的詞形,即在一個文本中重復出現的形符只能記作一個類符。由于英語中有大量的功能詞,故文本越長,功能詞重復的次數也越多,類符/形符比就會越低,若單純以類符/形符比來測量不同長度文本的詞匯豐富度難免不夠準確。故本研究采用標準化類符/形符比(每千詞的類符/形符比的均值),利用軟件WordSmith來測量雅思及四級、六級閱讀文章的詞匯豐富度,所得數據見表1。

表1 三個語料庫的詞匯豐富度分析結果
在表1中,Tokens used for word list是形符,即三個語料庫以詞為單位的庫容,可見雅思閱讀文章語料庫的庫容為136,487詞;四級閱讀文章語料庫的庫容為52,162詞;六級閱讀文章語料庫的庫容為77,219詞。Types是類符;type/token ratio(TTR)是類符/形符比;Standardised TTR(STTR)是標準化類符/形符比,即標準化形次比。可見,六級閱讀的標準化形次比最高,為47.66%;雅思閱讀的標準化形次比稍次之,為47.04%;四級閱讀的標準化形次比最低,為46.07%。標準化形次比也說明了三個語料庫的詞匯豐富度,可見六級閱讀與雅思閱讀的詞匯豐富度不相上下,四級閱讀的詞匯豐富度稍次之。
詞匯復雜度,也稱為詞匯罕見度,指的是文本中相對不尋常或高級詞匯的比例(Read 2000)。為了比較雅思閱讀與四六級閱讀的詞匯復雜度,本研究以目前較常用的分級詞表GSL通用英語詞表[6](West,M.P.1953)和AWL學術英語詞表[7](Coxhead Averil 2000)為判定詞語難度的基礎詞表,也稱底表。GSL通用英語詞表是英語中最常用的2000詞族的詞表,它又分為兩個詞表:英語中最常用的前1000詞,被認為是難度最低的1000詞,即底表1;其次最常用的1000詞,即底表2。AWL學術英語詞表為底表3。通過對比雅思和四六級閱讀文章的詞匯在三個底表中的比例以及超出底表的高級詞匯的比例,可以直觀地對比出它們的詞匯復雜度。
本研究利用軟件AntWordProfiler1.4.0對比三個語料庫的類符和詞族(同時包含屈折和派生形式的組合)在分級詞表中的比例來對比雅思閱讀文章與四、六級閱讀文章的詞匯復雜度,融合三個語料庫所得數據繪制表2。

表2 三個語料庫的詞匯復雜度對比
由表2可以看出,在LEVEL 1一級詞表中,雅思閱讀語料庫的類符比例(TYPE%)和詞族比例(GROUP%)分別為21.81%和10.31%;四級閱讀語料庫為31.47%和19.18%;六級閱讀語料庫為26.15%和14.32%。一級詞表是GSL通用英語詞表的前1000詞,即生活中最常用的1000詞,可以認為是簡單詞匯。可見,四級閱讀包含的常用詞匯最多,其次是六級閱讀,雅思閱讀包含的常用詞匯最少。
在LEVEL 2二級詞表中,四級閱讀的類符比例和詞族比例依然最大,分別為15.04%和12.44%;雅思閱讀的類符比例次之,為12.9%,而其詞族比例為三者中最低8.4%;六級閱讀的類符比例稍小于雅思閱讀語料庫,為12.7%,而詞族比例為9.55%。二級詞表是GSL通用英語詞表的后1000詞,即生活中次常用的1000詞。結果依然顯示:四級閱讀包含的次常用詞匯最多,而六級和雅思閱讀文章包含的次常用詞匯差別不大,其中六級閱讀使用的次常用詞族更多一些。
在LEVEL 3三級詞表中,四級閱讀語料庫的類符比例和詞族比例也最大,分別為13.65%和9.57%;六級閱讀語料庫次之,為13.42%和7.66%;雅思閱讀語料庫的類符比例和詞族比例最低,為12.21%和5.73%。可見,四級閱讀包含的學術英語常用詞匯最多,其次是六級閱讀,雅思閱讀包含的學術英語常用詞匯最少。
最后,在LEVEL 0四級詞表(超出三級詞表的超綱詞匯)中,雅思閱讀語料庫的類符比例和詞族比例占比最大,分別為53.08%和75.56%;其次是六級閱讀文章語料庫,為47.72%和68.47%;占比最小的是四級閱讀語料庫,類符比例和詞族比例為39.85%和58.81%。可見,雅思閱讀的超綱詞匯最多,六級閱讀次之,四級閱讀的超綱詞匯最少。
綜合以上表格的數據不難看出,整體上雅思閱讀的詞匯復雜度最高,六級閱讀次之,四級閱讀的詞匯復雜度最低。
將雅思及四級、六級閱讀文章三個語料庫導入WordSmith軟件,得出三個語料庫的平均詞長、平均句長等信息,所得數據見表3。

表3 三個語料庫的平均詞長、平均句長
在表3中,mean word length是三個語料庫的平均詞長,可見雅思閱讀詞匯的平均詞長最長,為4.97個字母,其次是六級閱讀的平均詞長為4.82個字母,四級閱讀的平均詞長最短,是4.6個字母。表3中的sentences是三個語料庫的句子數量,mean(in words)是三個語料庫的平均句長。平均句長是一個語篇中句子的平均長度,以詞數為統計單位。結果依然顯示,雅思閱讀文章的平均句長最長,為22.25個單詞,其次是六級閱讀文章,為17.89個單詞,四級閱讀文章的平均句長最短,為17.6個單詞。
此表可以看出,雅思閱讀文章的平均詞長和平均句長均為最長,其次為六級閱讀文章,四級閱讀文章的平均詞長和平均句長最短。平均詞長也在一定程度上反映了詞匯的難度,平均句長反映出句子的復雜程度。同時也可以推斷出雅思閱讀的詞匯難度更高,句子的復雜程度更大,長難句更多。
根據AntWordProfiler對三個語料庫的詞匯復雜度的分析對比結果:雅思閱讀的詞匯復雜度最高。可見雅思閱讀考試所需的詞匯量大于大學英語六級閱讀。詞匯是閱讀的基礎,因此在雅思閱讀教學中,教師應注重幫助學生擴大單詞量,儲備雅思詞匯。
當然,雅思閱讀中的一些生僻詞可以通過文章上下文推斷詞義或找出答案,不需要學生專門背誦和記憶,因此教師在雅思教學中還要注重培養學生根據上下文推斷詞義的能力,加強詞義推測的練習。
通過WordSmith對三個語料庫的標準化形次比分析得出:六級閱讀與雅思閱讀的詞匯豐富度不相上下,四級閱讀的詞匯豐富度稍次之。可見雅思閱讀詞匯的多樣性高、重復率低,在考查學生閱讀理解能力的基礎上,還加入了對閱讀內容概括和轉述能力的考查,學生在解答雅思閱讀題目時需要充分理解文章內容,并儲備大量的同近義詞,才能輕松得出正確答案。這就要求教師在雅思閱讀教學中,幫助學生積累同近義詞,理解句子意思,并加強句子轉述和改寫的練習,以幫助學生在雅思考試中快速識別題目中的同近義詞轉換,提高做題效率和正確率。
根據WordSmith軟件對三個語料庫的平均句長分析:雅思閱讀文章的平均句長最長。這與教師平時教學的發現是一致的,在雅思閱讀文章中的長難句不勝枚舉。這對學生的閱讀和理解造成了較大影響,也是學生對雅思閱讀考試望而生畏的原因之一,尤其是在短時間內既要完成閱讀任務,又要準確解題,給學生帶來了很大壓力。故教師在雅思閱讀教學中要注重語法分析,幫助學生正確分析句子結構和成分,關注句子的重要成分和主要內容,略讀或跳讀次要成分或內容,熟練運用閱讀技巧,以高效、準確解答試題。
教師憑借個人經驗和肉眼觀察總結雅思閱讀詞匯的特點難免不夠客觀或準確,通過客觀科學的語料庫分析方法分析總結雅思閱讀詞匯的特點,并與大學英語四六級閱讀詞匯進行直觀比較,再結合教師多年的雅思教學經驗,可以科學準確地為雅思閱讀教學提供有針對性的教學建議,進而幫助學生提高雅思成績,實現留學夢想。