張詩雨
(西安外國語大學英語教育學院 陜西 西安 710128)
英語專業四級考試(TEM4)是按照英語專業教學大綱和四級考試大綱針對英語專業學生的重大英語標準化考試。[1]《高校英語專業四級考試大綱》指出,英語專業四級考試旨在檢查已學完英語專業四級課程的學生是否達到教學大綱所規定的各項要求,考核學生運用各項基本技能及學生對語法結構和詞語用法的掌握程度,既測試學生的綜合能力,又測試學生的單項技能。本研究選取2009—2019年英語專業四級考試真題中的閱讀理解部分,并自建微型語料庫,使用AntConc軟件生成詞表,考察文本中的重點與難點詞匯,為英語專業閱讀教學和考生備考提供參考。
目前,國內英語專業四級考試閱讀部分的研究并不少見,但是主要集中于文本難度分析、內容效度等方面。唐美華[2]運用Wordsmith及SPSS對自建專四、專八語料庫對文本結構、語法隱喻等進行對比,發現理解語篇的必要條件是詞匯的積累。高博、趙海娟[3]通過對比自建四級庫、八級庫發現,英語專業八級考試難度在詞匯、句法層面均高于英語專業四級考試,從而對教學提出了建議。張珊[4]統計了2012—2016年專業四級考試閱讀原文,分析了選文題材、體裁、生詞數量、篇幅長度等特征,發現專業四級考試題目要求基本符合《高校專業四級考試大綱》的要求,貼近考試目的。楊衛健[5]通過收集調查問卷,從答題效度角度檢驗了專業四級考試試卷的效度。從現有研究來看,對于英語專業四級考試中的閱讀理解題目研究更多著眼于對篇章的分析,如對比分析英語專業四級和八級考試的篇章,鮮見英語專業四級考試閱讀理解篇章中對詞匯的專門研究。
本研究選取了2009—2019年英語專業四級考試真題閱讀理解部分,并自建了小型語料庫:其中2009—2015年每年4篇文本,2016—2019年每年3篇文本,共計40個文本。將這40個PDF文件保存為DOC文件,把這些DOC文件分別保存為對應的純文本TXT格式文件,并分別命名;同時刪除每篇閱讀理解之后的題干和選項。使用文本整理器(TextEditor5.0)對轉換格式后的純文本進行清理,再使用分詞軟件Tokenizer進行分詞處理,然后使用AntConc 3.4.1w對以上語料進行統計。結果見表1。表中的“類符形符比”欄小數點后保留3位數。

表1 2009—2019 年英語專業四級考試 閱讀理解部分語料庫數據統計表
在語料庫語言學中,類符(type)指詞形相同的詞,而形符(token)指詞語的總量,即日常所說的“詞”。類符/形符比(type-token ratio,TTR,又稱形次比或類形比)則指類符與形符的比值,可用來衡量文本中的詞匯密度。表1顯示,2009—2019年英語專業四級考試閱讀理解試題中類符數4074個,形符數20036個,開次比為0.203。過去11年真題中,英語專業四級考試閱讀理解部分形次比2015年最高,達到0.449,2016年最低,為0.366。經過對比發現,從2016年起,閱讀理解部分改為3篇文章之后,較改革之前的4篇文章,類符/形符比明顯下降,也就是說,詞匯密度明顯降低了。
本研究使用AntConc 3.4.1w軟件面板中的Word List功能生成詞表(1),見圖1。

圖1 2009—2019 年英語專業四級考試閱讀理解語料庫詞表(1)
從圖1可以看出,類符數總共4074個,形符數為20036個,但是頻率最高排名靠前的詞匯都是些常見的冠詞、介詞、代詞、連詞、be動詞等;這些詞,英語專業學生早已經掌握,并不是學生備考需要準備的單詞。我們還發現,詞表中有些詞如am、is、are、was本來是be動詞的不同形式,卻被計作不同的單詞,這樣類符數就會變得很多。為了篩選考生需要的單詞,我們采用以下兩種方法:一是先從這個詞表中選出學生已經掌握的常見詞匯1793個,制作一個停用詞表;二是在Tool Preferences選項中加載制作好的停用詞表(stop list),以期過濾掉這些常見詞匯,結果如圖2所示。

圖2 2009—2019年英語專業四級考試 閱讀理解部分語料庫詞表(2)
在詞表(2)中,常見詞已經被過濾掉,類符和形符數大大減少,均變為2281個。然而,詞表(2)中的一些詞如absorbing和absorbs是同一詞匯的不同曲折形式;為了把這類詞匯合成一個單詞,我們在Tool Preferences功能中勾選了Use lemma list file選項,將詞形還原,生成詞表(3),如圖3所示。

圖3 2009—2019 年英語專業四級考試 閱讀理解部分語料庫詞表(3)
從詞表(3)中可以看出類符數變為 2067個,形符數未變,這是因為有些詞如avoided、avoiding、avoids已經還原為一個單詞avoid,所以類符數減少了。而且這個詞表中的詞匯都是實詞,如avoid、break、choose、define、display等,這類詞幾乎是英語專業四級詞匯大綱所覆蓋的詞匯,也是考生必須熟練掌握的詞匯。接下來,我們著重選取了考生難以理解且容易出錯的詞匯進行深入分析。
該詞最常見的兩個釋義為“書,書籍”或“預定(位子,膳宿等),預購(票等)”;但是,當在自建的小型語料庫檢索框中輸入book這一單詞時,發現除了這兩條釋義如下圖中的第2、第3、第4、第5條,還出現了其他釋義的情況,如第1條。聯系上下文可知該詞應為動詞,但不是預定位子、膳宿或預購票等意義。那么,這個詞的真正意義是什么呢?筆者在牛津高階英漢雙解詞典中查找釋義,找到“engage or hire(sb)in advance”,即預約或雇傭(某人)。因此,如果考生不能注意到該詞的罕見釋義,可能造成閱讀文本的理解困難。

圖4 book 在2009—2019 年英語專業四級考試 閱讀理解部分的檢索結果
rush也是專業四級閱讀常考詞匯之一。在檢索欄內搜索rush,得到如下結果:

圖5 rush 在2009—2019 年英語專業四級考試 閱讀理解部分的檢索結果
由檢索結果可知,rush常見詞性有兩個:名詞和動詞。rush做名詞時,通常解釋為“a violent forward motion”,即匆促的動作;而做動詞時,通常解釋為沖、奔、疾馳等。但觀察第6條檢索結果發現,“rush”作為名詞解釋為“大量急需,爭相搶購”;在檢索結果9中,則解釋為“忙碌、繁忙”。對比不同的詞條發現,在英語專業四級考試中,rush的釋義也不盡相同;雖然出現在多年的試題中,所考察的意義、詞性都是不同的。
bud的釋義在詞典中(牛津高階英漢雙解詞典、Merriam-Webster詞典)有兩條:花苞,芽;半開的花,未長大的葉。在本文建立的語料庫中,bud一詞共出現兩次,在第二條檢索結果中,bud可解釋為芽,苞,花蕾,是bud的常見釋義。而在第一條檢索中,“wearing the white bud”理解為芽、花苞這類生物則講不通,因此bud此處一定有其他意義。細讀原文,該文的話題是耳機研發過程。根據上下文可以推測,bud應理解為“嵌入式耳機”或“耳塞”。而這個意義在詞典中尚未收錄。這提示我們,語言是不斷變化的,單詞的義項也會隨著時代的發展而不斷增加,尤其是科技類詞匯日新月異,需要考生加以注意,在備考過程中不能只關注考綱詞匯,更要擴大自己的知識面,僅僅依靠現有詞典中的解釋可能無法理解。
詞匯是導致閱讀理解障礙的重要原因;因此,詞匯量大小直接影響著考生的閱讀水平。本文首先在建立英語專業四級考試2009—2019年真題閱讀理解部分語料庫的基礎上,運用語料庫軟件進行統計分析,觀察了過去11年中閱讀理解語篇的類符數和形符數及詞匯密度的變化規律。在此基礎上,生成了真題詞表,讓考生熟悉了真題中出現的詞匯和頻數。通過對語料庫中三個重點詞匯的分析,提醒考生備考階段要擴大閱讀量,根據語境理解詞匯的確切意義。
通過以考試真題為文本建設的專門用途的語料庫,不僅可以洞察命題規律,對英語專業教師把握閱讀理解部分的詞匯教學和學生備考也有一定的指導意義和價值。本研究只是在這一領域做了初步探索,還有許多工作值得去做。今后,我們將會在現有語料庫基礎上進行標注賦碼,以進一步觀察詞匯或短語的搭配規律。