兩篇新版ＴＥＭ４完形填空的信度考查

2009-04-29 00:00:00李傳益魏海晶

考試周刊 2009年15期

摘要：完形填空是英語專業(yè)四級(jí)考試的一種題型，其目的是測量考生的綜合語言知識(shí)和技能。自2004年新大綱實(shí)施以來，完形填空在題量上發(fā)生了變化，由原來的15個(gè)空增至20個(gè)空。但它是否就具有較高的信度？本文采用復(fù)本測試法對(duì)兩篇新版英語專業(yè)四級(jí)考試完形填空的信度進(jìn)行了檢驗(yàn)。從試驗(yàn)的結(jié)果來看，這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。

關(guān)鍵詞：英語專業(yè)四級(jí) 考試完形填空信度

作為應(yīng)用語言學(xué)的一個(gè)分支學(xué)科，語言測試學(xué)現(xiàn)已發(fā)展成為一個(gè)相對(duì)獨(dú)立的學(xué)科。其中作為評(píng)價(jià)英語學(xué)習(xí)者學(xué)習(xí)水平的英語測試在語言測試界和社會(huì)上都發(fā)揮著重要的作用。作為大規(guī)模標(biāo)準(zhǔn)化英語測試——英語專業(yè)四級(jí)考試（TEM4）的一種題型，完形填空通過學(xué)生掌握的語音、詞匯、語法等知識(shí)考查學(xué)生生成、理解句子乃至語篇的綜合能力，其評(píng)分為客觀評(píng)分，因而信度一般而言會(huì)較高。但由于信度會(huì)受到很多因素的影響，因此，對(duì)信度的考查也就成了測量界關(guān)注的焦點(diǎn)之一。本文對(duì)兩套新版TEM4完形填空試題進(jìn)行了信度的檢驗(yàn)，從檢驗(yàn)結(jié)果來看，這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。

一、完形填空簡介

完形填空測試又稱填詞測試，它經(jīng)歷了一段短暫而豐富的歷史。完形填空的研究始于1953年，由泰勒引進(jìn)，其目的是為了檢驗(yàn)一個(gè)測試的可讀性和試題的難度。但是在不到三年的時(shí)間里泰勒就提議：完型測試可以用于測試被試的閱讀理解能力和綜合語言水平。此后完形填空測試也被第二語言學(xué)習(xí)者和外語學(xué)習(xí)者所接受。20世紀(jì)60年代早期，完形填空除了檢驗(yàn)被試的閱讀理解能力和試題的可讀性外，還被廣泛地用于測試聽力、口語和綜合英語技能（紀(jì)春，2001）。我國自1978年在MET考試中首次采用此題型后，國內(nèi)的大型考試，如EPT、CET、TEM等均廣泛采用這種題型。完形填空幾乎成為我國外語考試的必考題型之一。其中TEM4作為英語專業(yè)基礎(chǔ)階段教學(xué)的導(dǎo)向，屬于我國外語測試中的一級(jí)測試，在評(píng)估英語專業(yè)學(xué)生的基礎(chǔ)能力水平中占有不可替代的地位。

現(xiàn)在，完形填空不僅用于分班測試和診斷測試，而且用于水平測試。其目的是通過從語篇線索中提供最佳選項(xiàng)，從而檢測被試對(duì)混亂的篇章進(jìn)行編碼的能力。

完形填空的出題方法一般有兩種：隨機(jī)法和系統(tǒng)法。隨機(jī)法就是從一篇特定的文章中隨機(jī)性地刪詞，然后被試把原有的詞歸位。系統(tǒng)法是機(jī)械性地固定刪詞。一些測試者呼吁刪詞率要與所刪詞的長度一致。其刪詞率通常在5—10個(gè)詞語之間，廣泛采用的刪詞率是每隔5—7個(gè)單詞就刪掉一個(gè)詞。但是如果在開始的幾句中刪詞率是7個(gè)單詞的話，其余的部分也要沿用這種方法（Heaton，1988）。另外，選用的完形填空的材料難度要與被試的水平相當(dāng)。

二、信度檢驗(yàn)方法

信度也稱可靠性、一致性。即使測量的場合、測量工具、測量對(duì)象本身發(fā)生變化而進(jìn)行重復(fù)測量時(shí)，也能獲得類似的結(jié)果（Henning，1987）。信度關(guān)心的是在測試中被試的能力水平在多大程度上是由誤差造成的，其檢驗(yàn)方法一般包括邏輯分析和實(shí)證研究（Bachman，1990）。它可分為：

1.重復(fù)測試法

重復(fù)測試法也稱再測信度，是用同一份試卷對(duì)同一批被試施測兩次，兩次施測之間有一段間隔時(shí)間，兩次測試結(jié)果的相關(guān)系數(shù)就是該考試的信度。重復(fù)測試法實(shí)際上是對(duì)受試者信度的測量，因?yàn)樗磻?yīng)的是被試在不同場合語言行為的一致性程度。然而用這種方法評(píng)估測試信度容易受到一些其他因素的影響，如：如何選擇適宜的時(shí)間間隔；被試的動(dòng)力、記憶力、精神狀態(tài)是否一致；兩次施測的環(huán)境是否相同等。

2.復(fù)本測試法

復(fù)本測試法可以避免重復(fù)測試法由于人為因素帶來的一些弊端，其施測過程與重復(fù)測試法大致相同。唯一不同的是使用兩套或多套試卷，這兩套或多套試卷在題型題量、難度等方面都一致。復(fù)本測試法常用于大型的標(biāo)準(zhǔn)化考試，因?yàn)樗粌H可以測試被試的語言能力，而且可測評(píng)同一類考試試題之間的一致性程度。然而，復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相同的試卷。

3.對(duì)半測試法

對(duì)半測試法評(píng)估試題內(nèi)部的一致性程度，這種方法避免了重復(fù)測試和復(fù)本測試法因施考兩次所帶來的一些問題。它只需一份試卷，而且只需測試一次。對(duì)半測試法是把一份試卷分成相等的兩半，通常試題編號(hào)奇數(shù)的為一組，偶數(shù)的為另一組，然后計(jì)算這兩組試卷之間的相關(guān)性，之后再用spearman-brown公式進(jìn)行校正。對(duì)半測試法雖然避免了兩次施測所帶來的不便，但是同一份試卷如果折半的方法不同，得出的信度也就會(huì)有所不同。

4.評(píng)分者信度

評(píng)分者信度也是評(píng)估語言測試信度不可忽略的一個(gè)重要因素。但評(píng)分者信度不同于上述幾種測試信度，它主要是相對(duì)于試卷中的主觀題評(píng)分而言的。

上述幾種方法雖然都可用來評(píng)估測試的信度，但它們的著眼點(diǎn)不盡相同。因此使用哪種方法取決于研究者的目的，各種信度的意義和用途，以及測試的類型，等等（黃永紅，2006）。

三、實(shí)驗(yàn)設(shè)計(jì)

1.實(shí)驗(yàn)?zāi)康?/p>

本研究用復(fù)本測試的方法檢測兩篇TEM4-2005和TEM4-2008完形填空的信度，并盡可能地分析本研究中測驗(yàn)誤差的因素。

2.被試

參加本實(shí)驗(yàn)的被試是隨機(jī)抽取的30名英語專業(yè)大二學(xué)生，他們將于2009年5月參加全國英語專業(yè)四級(jí)測試，這些被試在年齡、教育背景方面相似，每個(gè)被試的能力水平相當(dāng)。

3.實(shí)驗(yàn)材料

兩篇用于實(shí)驗(yàn)研究的完形填空來源于2005年和2008年的全國英語專業(yè)四級(jí)考試真題。每篇完形填空大約有260個(gè)單詞，各刪掉了20個(gè)詞語，被試要求在15分鐘內(nèi)完成一篇完形填空（詳見下表）。

4.施測

在測試之前，告知所有被試測試材料來源于2005年和2008年的真題，以確保被試認(rèn)真對(duì)待此次測試。此次實(shí)驗(yàn)環(huán)境與真正的TEM4考試的施測環(huán)境完全相同：（1）測試從上午9 00開始；（2）被試在15分鐘之內(nèi)完成第一篇完形填空后有兩分鐘的休息時(shí)間，然后在15分鐘之內(nèi)完成第二篇完形填空；（3）本校是TEM4考點(diǎn)。

5.評(píng)分

本實(shí)驗(yàn)所用的是Exact-Word客觀評(píng)分法（胥云，2005），也就是說只有唯一一個(gè)正確答案，評(píng)分過程客觀且不需任何評(píng)分技巧。

6.計(jì)算信度的方法

本實(shí)驗(yàn)采用復(fù)本測試法計(jì)算信度。上文提到，用這種方法計(jì)算信度就是要求這兩篇完形填空由同一組被試完成，同一組被試所得結(jié)果的相關(guān)系數(shù)就是測驗(yàn)的信度。雖然復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相等的試卷，但是運(yùn)用復(fù)本測試法計(jì)算信度的測試必須符合一些要求。首先，是試題難度上的等值。其次，是方差的等值。再次，是協(xié)方差的等值（Henning，1987：81）。也就是兩份或多份考試在考試性質(zhì)、內(nèi)容、題數(shù)、難度等方面都一致或相等。因?yàn)橄馮EM4這樣的大規(guī)模標(biāo)準(zhǔn)化考試在題型、難度、試題長度等方面都是相等的，所以在不同年份、不同地區(qū)，不同年份、同一地區(qū)，同一年份、不同地區(qū)，或是同一年份、同一地區(qū)施測的TEM4都是等值的。但由于TEM4在2004年后將完形填空的長度由原來的15個(gè)空增至20個(gè)空，因此我們選用了兩篇2004年后的完形填空作為本實(shí)驗(yàn)的材料。綜上所述，本實(shí)驗(yàn)中的兩篇完形填空符合復(fù)本信度檢驗(yàn)的要求，可用下面的公式來計(jì)算（王孝玲，2004）。

四、實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

由于人工計(jì)算比較復(fù)雜，我們運(yùn)用SPSS16.0軟件進(jìn)行了數(shù)據(jù)處理，所得結(jié)果如下表所示：

從表中可以看出，完形填空2的平均分要低于完型填空1，由此可知，完形填空2比完形填空1的難度要大，表中的方差、標(biāo)準(zhǔn)差和難度系數(shù)也印證了這點(diǎn)。根據(jù)信度公式（1）可以算出兩篇完形測試的信度r為0.75。通常情況下，大規(guī)模標(biāo)準(zhǔn)化考試的信度應(yīng)該在0.9以上（張凱，2002）。但從本實(shí)驗(yàn)的結(jié)果來看，這兩篇TEM4完形填空的信度仍有提高的空間。其信度低可能有以下幾方面的原因：

1.完形填空試題本身的質(zhì)量不高

試題本身的質(zhì)量是影響測試信度的最直接原因。如果測試的內(nèi)容不是試題研發(fā)者最終所期待的，那么它也就不能檢測被試的真實(shí)水平。例如，高水平學(xué)習(xí)者可能得到低分，低水平者反而得到高分。這樣就會(huì)導(dǎo)致測試的信度不高。其次是所選的語言材料，比如文章的難度。對(duì)于一組被試來說，過于容易或難的試題都會(huì)導(dǎo)致信度不高。這在很大程度上并不是因?yàn)檠邪l(fā)者的粗心大意，而是由于試題的難度不適合被試的能力水平。本實(shí)驗(yàn)中的兩篇完形填空的難度分別是0.46和0.42，而大規(guī)模的標(biāo)準(zhǔn)化考試的難度應(yīng)該在0.5左右。從難度系數(shù)來說，第二篇完形填空偏難了些，同一組被試在做第二篇完形填空時(shí)能力水平差異也較大。

2.試題的長度

試題的長度就是題數(shù)，在本實(shí)驗(yàn)中指所刪掉的詞語的數(shù)量，它也可以在很大程度上影響測試的信度。試題的長度與測試的信度成正比。也就是說，題目越多，測試的信度就會(huì)越高。例如：一個(gè)測試有20個(gè)題目，信度是0.75。如果要得到0.9的信度，我們就可以用下面的公式計(jì)算出應(yīng)該增加多少個(gè)題目（張凱，2002）。

r_c是測試所期望得到的信度值；r_i是測試現(xiàn)有的信度值；k是要達(dá)到所期望的信度時(shí)測試應(yīng)該具備的長度。按照該理論，我們把各個(gè)數(shù)據(jù)帶入公式（2）中，得到k=3。也就是說，要使測試達(dá)到0.9的信度，該測試的題數(shù)應(yīng)該是現(xiàn)有題數(shù)的3倍，或者說還應(yīng)該增加40個(gè)題目才能達(dá)到0.9的信度。

2004年后，TEM4完形填空的刪詞量由15個(gè)增至20個(gè)（高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組，2004），這就是提高測試信度的一個(gè)標(biāo)志，也讓我們有理由相信現(xiàn)存的20個(gè)刪詞量還有可能沒有達(dá)到一個(gè)較高的信度。對(duì)于這一點(diǎn)，我們還需在將來作進(jìn)一步研究。

3.被試

測試的低信度還有可能是由被試引起的。例如：（1）我們?cè)诒緦?shí)驗(yàn)中選用的樣本為30人，可能不夠大。（2）由于本實(shí)驗(yàn)不是真正的TEM4考試，被試的對(duì)待態(tài)度和積極性可能都不太高。（3）被試的水平同質(zhì)性太高。前面我們介紹過，參加本實(shí)驗(yàn)的被試水平?jīng)]有太大差異，再加上最近幾年，我校英語專業(yè)學(xué)生的英語水平在TEM4考試中都呈上升趨勢(shì)。比如，2008年我校TEM4通過率為80.16%，高于全國高校平均通過率20%。因此，同質(zhì)性如此高、差異性不大的被試能力水平當(dāng)然會(huì)導(dǎo)致本次實(shí)驗(yàn)的信度不高。

4.評(píng)分

評(píng)分是確保信度的最后一個(gè)環(huán)節(jié)，也是非常重要的影響信度的因素。雖說本實(shí)驗(yàn)屬于客觀評(píng)分，評(píng)分員不需要接受培訓(xùn)，但在評(píng)分過程中，如果評(píng)分員不夠細(xì)心，沒有足夠的耐心和責(zé)任心，或者說評(píng)分員沒有認(rèn)真對(duì)待此次評(píng)分，這些都會(huì)影響到本實(shí)驗(yàn)的信度。

五、結(jié)語

信度是測試必備的條件之一。如果一個(gè)測驗(yàn)不受試題、被試、評(píng)分員和測驗(yàn)環(huán)境等諸多因素的影響，它對(duì)同一組被試的重復(fù)測試結(jié)果應(yīng)該是一樣的。但由于種種原因，這種高信度的測試實(shí)際上是不存在的。本文基于語言測試的信度理論對(duì)英語專業(yè)四級(jí)考試完形填空的信度作了一次實(shí)證研究，研究結(jié)果符合測試信度理論的假設(shè)。我們也希望語言測試研發(fā)者能不斷地完善測試質(zhì)量，并且能更好地將語言測試應(yīng)用于教學(xué)，對(duì)教學(xué)產(chǎn)生良好的反作用。

參考文獻(xiàn)：

［1］Bachman，Lyle，F(xiàn).Fundamental Considerations in Language Testing［M］.Oxford：Oxford University Press，1990.

［2］Heaton，J.B.Writing English Language Teats［M］.北京：外語教學(xué)與研究出版社，1988.

［3］Henning，G.A Guide to Language Testing：Development，Evaluation and Research［M］.北京：外語教學(xué)與研究出版社，1987.

［4］高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組.高等英語專業(yè)四級(jí)大綱［M］.上海：上海外語教育出版社，2004.

［5］黃永紅.英語專業(yè)四級(jí)口語測試的信度與效度［J］.外語研究，2006，（3）.

［6］紀(jì)春.完形填空的效度研究［J］.外語研究與教學(xué)，2001，（8）.

［7］王孝玲.教育測量［M］.上海：華東師范大學(xué)出版社，2004.

［8］胥云.The Study of Open Cloze as a Testing Format［M］.北京：北京師范大學(xué)出版社，2005.

［9］張凱.語言測驗(yàn)理論與實(shí)踐［M］.北京：北京語言文化大學(xué)出版社，2002.

考試周刊2009年15期

考試周刊的其它文章: 轉(zhuǎn)喻與語篇的連貫; 利用ＰｏｗｅｒＰｏｉｎｔ制作教學(xué)課件的一些技巧; 如何找好高考中的鑒賞詩歌的切入點(diǎn); 淺析英語單詞記憶法之單詞的故事; 如何改革《機(jī)械基礎(chǔ)》課程的課堂教學(xué); 談職校班級(jí)管理精致化策略