張薇





摘 ?要:閱讀理解是高考英語的重要組成部分,而詞匯是構成文本的基礎。本研究使用Wordsmith 8.0、CLAWS等語料研究軟件及Excel等統計方法對近五年全國卷I閱讀理解文本詞匯進行整理、處理、分析和統計,通過研究總結了其文本詞匯的形符、類符、詞匯類型及詞匯特點:考綱內詞匯重復率高,高頻詞多為功能詞,從屬連詞及情態動詞對文本難度的增加有直接作用。因此,對詞匯教學的啟示有:總結高考高頻詞匯表,重視詞匯分層教學;在一輪復習階段,重視功能詞教學。
關鍵詞:閱讀理解;命題規律;詞匯類形符;體裁
閱讀理解能力作為獲取信息的重要技能,也是全國卷的重要組成部分。而縱觀近年來的研究,其重心主要集中在答題技巧(楊延從,2007)、試題效度(辜向東、王秋艷,2008),對高考英語試題命制及復習備考都極大的積極作用,但對于具體的高中教學來說指導作用較小,尤其對高三年級的詞匯教學來說,意義不大。而且近些年也出現了一些自建語料庫對閱讀理解文本的研究(付向東,2016;王蓉,2018),但都沒有涉及對全國卷I的閱讀理解文本的詞匯分析。因此本研究嘗試建立小型語料庫并借助語料分析軟件,對近五年全國卷I高考英語閱讀的詞匯進行研究,旨在尋找閱讀理解命題規律并以此優化英語教學實踐尤其是詞匯復習提供更有針對性的參考。
一、研究框架
基于語料庫的研究通常由類符形符比、詞表與高頻詞等指標構成。本研究的文本詞匯研究也基于5年閱讀理解文本中的類符形符比、高頻詞統計,探討全國I卷高考英語閱讀理解的命題規律及對高三復習教學的指導意義。
類符/形符比(TTR)指特定語料中類符(type)與形符(token)的比率。類符是指語料庫文本中任何一個獨特的詞形(word form),形符類似于我們日常說的“詞”。類符/形符比是衡量文本中詞匯密度(lexical density)的常用方法。較高的類符/形符比意味著文本詞匯量廣泛,反之則說明文本的詞匯量較為有限。但較長的文本會出現更多重復的功能詞,因此類符/形符比會降低。
詞表(wordlist)是按類符的頻率高低的表格。該表列出所有類符的頻率(frequency)和在總詞頻數所占百分比。據Laviosa的定義,高頻詞為出現頻率至少占語料0.1%的詞。
二、研究方法
(一)文本來源及歸類
本研究語料來源于2015~2019年普通高等學校招生全國統一考試I卷中閱讀理解部分(包括七選五部分),共收集到20個內容文本(除問題部分),所有文本共計有7132個詞。按體裁分類,其中說明文有9篇、記敘文有6篇、應用文有5篇、議論文有4篇。
(二)數據收集及處理
根據年份將每年試卷的五篇文本單獨建立獨立的TXT文件,如2015年五篇文本命名為“2015”;再根據年份和篇目,每個閱讀文本建立一個獨立的TXT文本,總共25個文本,如2015年A篇命名為“2015-1”;將每年試卷所有閱讀文本匯成一個大文本。每一年份單獨設立文件夾,最后將5年的文件夾放入一個文件夾中,這樣就形成了小型的閱讀文本語料庫。
(三)分析工具
1.Wordsmith 8.0
Wordsmith 8.0由英國語言學家Mike Scott研發而成,用于處理和分析數據,主要分為三大類Wordlist(詞頻列表檢索工具)、Concord(語境共現檢索工具)、keyword(關鍵詞檢索工具)等。具體而言,Wordlist可以提供文本的類符、形符數及類符/形符比,統計高頻詞;Concord可以提供某個特定詞所在的語境。
2.CLAWS
CLAWS是由蘭卡斯特大學計算機語料庫研究中心(University Centre for Computer Corpus Research on Language)研制并開發的CLAWS詞形賦碼器,可以用來對文本進行詞形賦碼,使用第七代賦碼集(C7 tagset)。其賦碼準確率可達96%~97%。
3.數據分析
筆者在使用文本整理器對收集到的語料進行處理后利用CLAWS4的免費網絡服務對語料進行詞形賦碼,并進行檢查,進一步提高準確率,再使用WordSmith軟件對數據進行統計,并利用Word及Excel軟件統計和分析。
三、研究結果
(一)詞匯類符/形符比
近五年來,全國卷1英語閱讀理解部分共有25篇文本(包括七選五部分)。從單個文本的類符數來看(見表1),最大值為202詞(2018年閱讀理解文本D篇),最小值是120詞(2016年七選五文本及2019年閱讀理解文本A篇);而從單篇閱讀理解的形符數來看,最大值為340詞(2018年閱讀理解文本D篇),最小的是213詞(2015年C閱讀理解文本C篇)。從單個文本的TTR值來看,最大值為66.55%(2015年閱讀理解文本C篇說明文),最小值是46.69%(2016年閱讀理解文本C篇說明文)。說明文和應用文的TTR值相對較低,一方面是因為說明文篇幅較長,功能詞重復的詞數較多,TTR值有所降低;另一方面也說明應用文形符數較低,使得TTR值與說明文相差無幾。
再者,2015~2019年全國卷1英語閱讀理解閱讀理解文本的形符數表現為波動中上升的勢態,形符數最大值出現在2018年(1461詞)。類符/形符比有先降后升、后趨于穩定的趨勢,最大值出現在2015年(52%),最小值出現在2016年(42.11%),近三年基本穩定在47%左右。在某種程度上,類符/形符比體現詞匯多樣性,TTR值越高,文本不同詞匯越多,難度越大。2015年閱讀理解包括應用文、說明文、記敘文各一篇,2篇議論文,難度較大。
最后,從體裁的類符/形符比來看(見表2),說明文TTR值最低,部分因為近年來高考閱讀理解說明文有9篇,降低了TTR值;議論文TTR值最高,說明其信息量大,難度高。
從表3可以看出,近5年的高頻詞中,前5個均為功能詞,且the和to是頻率最高的兩個詞。研究結果如下:
功能詞詞頻高。2015~2019年全國1卷閱讀理解文本中,占總詞頻0.1%以上的高頻詞共有167個。前30位的高頻詞在總詞頻的占比達32.26%:基本為功能詞(主要為冠詞、介詞、連詞和代詞);動詞僅有be和have的各種形式;僅有的一個名詞是people(23)。筆者又對前100位高頻詞進行統計,總詞頻數為3262,占總詞頻的45.71%。發現其中出現了38個實詞,共計頻次為647次,而剩余62個功能詞共計頻次位2615次。在前50位高頻詞中,僅出現了9個實詞(is,are,be,have,was,people,has,been),共計頻次為240次。其他41個功能詞共計出現2354次,其中介詞12個共出現876次,分別為to(220)、of(177)、in(149)、for(83)、with(55)、on(50)、at(31)、by(29)、from(29)、up(20)、about(18)、out(15);代詞15個共出現436次,分別為that(58)、I(50)、you(50)、it(45)、they(33)、your(28)、we(25)、all(22)、one(21)、this(21)、my(19)、me(17)、our(17)、some(15)、their(15);連詞4個共出現289次,分別為and(211)、but(33)、or(30)、if(15);冠詞2個共出現570次,分別為the(374)、按(196);情態動詞can出現18次;其他7個出現165次,分別為as(40)、more(25)、when(25)、who(21)、how(18)、not(18)、than(18)。可以看出,功能詞在前30、前50、前100 位高頻詞的比重很高,說明學生對于頻繁出現的功能詞的掌握對解構和分析文本有很重要的意義及作用。
(一)高考試題命制規律
篇幅及難度有改變:2018年高考C篇議論文及D、E篇說明文篇幅長,TTR高,也反映出2018年試題難度較大,2019年高考D、E篇說明文篇幅較2018年有所降低,與C篇議論文持平,且說明文TTR值也有所降低,說明試題難度有改變,使考生在做題時穩扎穩打,而這也體現了命題人以人為本的宗旨。
(二)對詞匯教學啟示
詞匯教學應重視詞匯分層教學。目前高考一輪復習多從單元詞匯進行復習,或從考綱詞匯入手進行復習,任務多且繁復,缺少側重點,也增加了詞匯復習教學難度。結合語料庫,對高考高頻詞進行詞性及常見搭配分類總結,形成詞匯分層表,可以幫助教師在高三一輪復習更有針對性開展詞匯復習。
參考文獻
[1]楊延從.高考英語閱讀理解題的特點及解題技巧[J].中小學外語教學(中學篇),2007(3):1-6.
[2]辜向東,王秋艷.高考英語全國卷與各省市自主命題卷閱讀理解試題內容效度分析[J].考試研究,2008(3):102-114.
[3]付向東.自建文本語料庫輔助高考英語詞匯復習[J].基礎教育外語教學研究,2015(9):42-48.
[4]王蓉.2008—2017年江蘇省高考英語閱讀理解文本的詞匯研究[J].考試研究,2018(1):19-25.
[5]梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010.
[6]Biber,D.,S.Johansson,G. Leech,S. Conrad & E. Finegan.Longman Grammar of Spoken and Written English [M].London:Pearson Education Limited,1999.
[7]Laviosa,S..Core Patterns of Lexical Use in Comparable Corpus of English Narrative Prose[J].Meta,1998,43(4):1-15.
本文系2018年度江西省基礎教育研究課題“大數據下的高考英語命題規律研究——以語料庫為基礎”的階段性成果(課題編號GZYY2018-508)。