2015—2017研究生英語入學(xué)考試（一）閱讀部分內(nèi)容效度研究

2018-12-27 02:03:34牟欣

課程教育研究 2018年45期

【摘要】研究生英語入學(xué)考試是大規(guī)模高風(fēng)險考試，其閱讀部分占總分值60%，對整個考試的效度水平影響巨大。本文以考試大綱作為依據(jù)，采用Bachman的任務(wù)特征框架理論以及Flesche易讀度參考量表2015-2017年試卷閱讀部分進行內(nèi)容效度分析，發(fā)現(xiàn)在題材和體裁上試題分布并不均勻，偏重議論文和社會科學(xué)類文章。對閱讀速度沒有設(shè)置考察，但是三年的體量相差較大，因此對閱讀速度的隱含考察也有差異。可讀性差異也很明顯，呈兩年高一年低的數(shù)據(jù)，同時閱讀技能考察也偏向淺層次的細節(jié)查讀，而對深層次的閱讀能力考察較少。這些數(shù)據(jù)反映出的問題必將會影響考試的公平性和可靠性。

【關(guān)鍵詞】內(nèi)容效度研究生英語入學(xué)考試任務(wù)特征框架

【基金項目】X5018013201603，學(xué)術(shù)英語大規(guī)模讀寫測試的效度研究，校人文社科基金。

【中圖分類號】H319 【文獻標(biāo)識碼】A 【文章編號】2095-3089（2018）45-0120-02

一、研究背景

研究生英語入學(xué)考試（NETEM）是一種尺度相關(guān)——常模參照性考試，是由教育部高等教育司主辦的全國性教學(xué)考試。其考試性質(zhì)是“為高等學(xué)校和科研院所招收碩士研究生而設(shè)置的具有選拔性質(zhì)的全國統(tǒng)一入學(xué)考試科目，其目的是科學(xué)、公平、有效地測試考生，對英語語言的運用能力”[1]根據(jù)2015-2017年NETEM考綱的描述，考試分為聽力，閱讀和寫作三個部分，閱讀部分占到總分比值的60%，占比遠超“英語知識運用”（10%）和“寫作”（30%）[1]。鑒于此考試是一個大規(guī)模高風(fēng)險的考試且關(guān)系到諸多學(xué)子的教育公平，對其內(nèi)容效度進行研究十分必要。

有關(guān)考試內(nèi)容效度的研究在國內(nèi)外已經(jīng)十分成熟，相關(guān)理論及成果層出不窮。早在1998年楊惠中和Weir.C.J.進行了大學(xué)英語四、六級考試效度研究[2]。他們以1987-1995年的四、六級考試為材料，通過對比考試，實證研究，問卷調(diào)查和座談等形式研究了其構(gòu)念效度，內(nèi)容效度和其他效度；2009年楊惠中做了此項研究的后續(xù)歷時研究，內(nèi)容涵蓋1996至2007年的閱讀考試，采用Bachman提出的任務(wù)特征框架[3]。他們的研究均證實四、六級考試的閱讀部分具有很高的內(nèi)容效度，基本涵蓋大綱的要求。陳燕（2007）[4]研究了2003至2006年閱讀部分多項選擇題的內(nèi)容效度；鄧會（2014）研究了2010-2014年考研英語（二）閱讀部分的內(nèi)容效度[5]。

本文對2015-2017年度的研究生英語入學(xué)考試（NETEM）閱讀部分進行效度研究，采用Bachman（1990）[6]的任務(wù)特征框架理論，驗證試卷內(nèi)容是否符合考試大綱要求，內(nèi)容效度如何。

二、研究方法及結(jié)果

關(guān)于效度和內(nèi)容效度的研究有豐富的理論成果，大部分學(xué)者都認可Haynes（1995）[7]提出的定義，即內(nèi)容效度是一種指標(biāo)或程度，旨在衡量某個有特定目的的測試其構(gòu)念的相關(guān)度和代表性。而一個測試或者測試工具的代表性是指對目標(biāo)構(gòu)念的各個因素的吻合度（Lynn，1986；Nunally&Bernstein;，1994；Suen&Ary;，1989）[8-9]。其中“構(gòu)念”是指目標(biāo)測試的概念，屬性和各種變量（鄧會，2014）[5]。

Bachman（1990）[6]提出的任務(wù)特征框架理論是被眾多測試研究學(xué)者認可的，成熟的效度測量理論。此理論認為測試的內(nèi)容效度有六個考核標(biāo)準：測試環(huán)境，測試說明，文本輸入，預(yù)期回答，以及文本輸入和預(yù)期回答的關(guān)系。

2015-2017年考綱閱讀部分要求變化很小，對閱讀能力的要求如下：

“考生應(yīng)能讀懂選自各類書籍和報刊的不同類型的文字材料（生詞量不超過所讀材料總詞匯量的3%），還應(yīng)能讀懂與本人學(xué)習(xí)和工作有關(guān)的文獻資料，技術(shù)說明和產(chǎn)品介紹等[1]”。

結(jié)合任務(wù)特征模式理論和考綱要求，考慮到NETEM考試的穩(wěn)定性和規(guī)范性，本文著重從文本輸入和預(yù)期回答兩個方面來進行研究。

1.文本輸入

文本輸入包括體裁，題材，文本長度，閱讀速度和可讀性五個方面[6]。

體裁一般分為四個大類：描寫文（描述人，事物，場景，反映作者的內(nèi)心世界），記敘文（描述事件或人物的發(fā)展），說明文（旨在說明事物的結(jié)構(gòu)，屬性，特征，范圍等等）和議論文（通過運用抽象的思想來揭示事物本質(zhì)，使讀者接受作者的思想并有所行動）。

題材按常見類型分為自然科學(xué)，社會科學(xué)和人文科學(xué)。

閱讀速度在考試大綱和考試說明中都沒有明確的要求，而且題型設(shè)置上也沒有對閱讀部分的時間加以單獨設(shè)計，所以只能按照閱讀部分占總成績60%折合。總考試時間為180分鐘，因此認為閱讀部分的總答題時間為108分鐘。根據(jù)楊惠中和Weir.C.J.[2]的研究結(jié)果，閱讀題中文本閱讀和答題的時間比例大概是1：0.75，所以本研究認為閱讀文本時間理論上應(yīng)為62分鐘。

從統(tǒng)計結(jié)果不難看出，近三年的閱讀題材主要集中在議論文，也有少量的說明文出現(xiàn)，但是英文四大文體中的描寫文和記敘文則完全沒有出現(xiàn)。題目選擇則偏社會科學(xué)，偶爾也有美國歷史或是狄更斯生平這種主題的人文類閱讀，但是自然科學(xué)類型的材料完全沒有出現(xiàn)。根據(jù)考試大綱對閱讀能力的要求“考生應(yīng)能讀懂選自各類書籍和報刊的不同類型的文字材料（生詞量不超過所讀材料總詞匯量的 3%），還應(yīng)能讀懂與本人學(xué)習(xí)或工作有關(guān)的文獻、技術(shù)說明和產(chǎn)品介紹等。” [1]三套題的體裁和題材分布都是不均衡的，沒有照顧到多樣性。特別是考慮到研究生入學(xué)后需要大量閱讀和使用學(xué)術(shù)英語，在“與本人學(xué)習(xí)或工作有關(guān)的文獻、技術(shù)說明和產(chǎn)品介紹等”方面的閱讀材料，應(yīng)有所加強。閱讀篇幅差異也很明顯，16年閱讀題篇幅只有15年和17年的65%左右，因此在閱讀速度要求上也會不同。

關(guān)于閱讀材料的難度，使用Microsoft的易讀度統(tǒng)計。結(jié)果顯示，三年閱讀部分難度波動比較大（見表二），15年和17年達到了“較難”的程度，而16年則是在“難”的范圍內(nèi)。同一份試卷內(nèi)不同題目之間的難度差異也很大，特別是17年的翻譯題，難度驟降到18.1。閱讀題難度不穩(wěn)定也是一個對信度的干擾因素，雖然易讀性不是衡量文本難度的唯一標(biāo)準，但是僅此一項的大幅度變化，對考試信度和公平性也會帶來損害。

2.預(yù)期回答

預(yù)期回答主要研究閱讀能力考查和題型。根據(jù)考綱要求，NETEM應(yīng)該考核的閱讀技能有8項[1]。

1）理解主旨要義；2）理解文中的具體信息；3）理解文中的概念性含義；4）進行有關(guān)的判斷、推理和引申；5）根據(jù)上下文推測生詞的詞義； 6）理解文章的總體結(jié)構(gòu)以及上下文之間的關(guān)系；7）理解作者的意圖、觀點或態(tài)度；8）區(qū)分論點和依據(jù)。

為了統(tǒng)計方便，我們將這八種技能標(biāo)號為S1-S8，這八種閱讀技能在三年考題中分布如下：

其中S1、S6和S7考核整體閱讀技能，而S2、S3、S4、S5和S8考查細節(jié)閱讀技能。

從百分比可以看出，細節(jié)閱讀技能在考試中占有壓倒性優(yōu)勢，達到總體比例的66%，說明在考試中，學(xué)生關(guān)注細節(jié)信息比較容易得到高分，而對文章整體主旨結(jié)構(gòu)的掌握要求偏低。特別是對S2的考查，占38%之多。在涉及S2的考題里，學(xué)生只要較好的理解了信息點出現(xiàn)的一句或者幾句話，就可以作對大部分的閱讀題，而對文章的整體結(jié)構(gòu)并不需要明確掌握。S3在三年的閱讀題中沒有明確的考查到，這可能與題材和體裁的偏向性有關(guān)。由于缺乏說明文和描寫文，也少見自然科學(xué)類的文章，所以也沒有涉及理解概念性信息的題目出現(xiàn)。S8的考查也很少，在2017年的最后一題中有間接的考查。這兩種技能的考查程度和考綱要求的有一定差異。

此外，閱讀理解也是一種涉及不同層面的認知過程，根據(jù)Barrett（1974）提出的一個由易到難的閱讀技能水平。從NETEM的考查技能來看，目前的考核范圍仍然主要集中在前三個層次，這三個層次也被稱為直接陳述信息（explicitly stated information），而對深層次的閱讀能力考查基本沒有涉及。

三、結(jié)論

從以上分析可以看出，2015-2017年研究生入學(xué)英語考試（一）的閱讀部分，在體裁上較偏重議論文，說明文也有一定涉及，但是描寫文和記敘文完全沒有，與考綱要求有差異。題材上偏向社會科學(xué)，自然科學(xué)類文章沒有涉及，與考綱要求有差異，對于不同專業(yè)參加考試的考生也顯失公平。在閱讀速度上篇幅差異較大，尤其是16年篇幅明顯偏短；而且題型設(shè)計里沒有速度要求的設(shè)置，所以不能排除考生會以犧牲其他題目的做答時間為代價完成閱讀。綜合八種閱讀技能的覆蓋程度，閱讀部分對查讀的考查十分充分，而對略讀以及文章總體結(jié)構(gòu)的考查則涉及較少，考查層次偏淺。這些數(shù)據(jù)反映出的問題必將會影響考試的公平性和可靠性。

參考文獻：

[1]教育部.全國碩士研究生招生考試英語（一）考試大綱：非英語專業(yè)：高教版2016[M]. 高等教育出版社，2015.

[2]楊惠中.大學(xué)英語四、六級考試效度研究[M].上海外語教育出版社， 1998.

[3]蔣淑均.大學(xué)英語四、六級考試閱讀理解測試內(nèi)容效度研究（1996-2007）[D].重慶大學(xué)，2009.

[4]陳燕.全國碩士研究生入學(xué)統(tǒng)一考試英語考試的閱讀理解內(nèi)容效度研究[D].西南交通大學(xué)，2007.

[5]鄧會.全國碩士研究生入學(xué)統(tǒng)一考試英語（二）的閱讀理解內(nèi)容效度研究[D].華中師范大學(xué)，2014.

[6]Bachman，L.F.（1990）.Fundamental Considerations in Language Testing[M].Oxford： Oxford University Press，1990

[7]Haynes，S.N.，&Edward;， S.K， et al. Content Validity in Psychological Assessment： AFunctional Approach to Concepts and Methods[J].American Psychological Association，1995，3，238-247

[8]Lynn，M.R.Determination and Quantification of Content Validity[J]. Nursing Research， 1986，35，382-385

[9]Nunnally， J.C.& Berstein， I.H. Psychometric Theory （3rdED.）[M].New York：McGraw-Hill，1994.

作者簡介：

牟欣（1978.2.9-），女，漢族，甘肅省蘭州市人，碩士研究生學(xué)歷，講師，研究方向為教育測量，英語測試的效度與信度，二語習(xí)得的認知診斷。

課程教育研究2018年45期

課程教育研究的其它文章: 優(yōu)化信息技術(shù)教學(xué)，提高小學(xué)數(shù)學(xué)教學(xué)效率; 高校英語教學(xué)中翻轉(zhuǎn)課堂教學(xué)模式的應(yīng)用研究; 以問題為導(dǎo)向的建筑設(shè)計基礎(chǔ)課程教學(xué)研究; 《微波技術(shù)與天線》實驗的信息化教學(xué)設(shè)計; 需求分析理論下的高職葡萄酒營銷專業(yè)英語課程設(shè)計; 數(shù)據(jù)挖掘技術(shù)在成人教學(xué)管理中的應(yīng)用