摘 要: 完形填空是英語專業(yè)四級(jí)考試的一種題型,其目的是測量考生的綜合語言知識(shí)和技能。自2004年新大綱實(shí)施以來,完形填空在題量上發(fā)生了變化,由原來的15個(gè)空增至20個(gè)空。但它是否就具有較高的信度?本文采用復(fù)本測試法對(duì)兩篇新版英語專業(yè)四級(jí)考試完形填空的信度進(jìn)行了檢驗(yàn)。從試驗(yàn)的結(jié)果來看,這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。
關(guān)鍵詞: 英語專業(yè)四級(jí) 考試完形填空 信度
作為應(yīng)用語言學(xué)的一個(gè)分支學(xué)科,語言測試學(xué)現(xiàn)已發(fā)展成為一個(gè)相對(duì)獨(dú)立的學(xué)科。其中作為評(píng)價(jià)英語學(xué)習(xí)者學(xué)習(xí)水平的英語測試在語言測試界和社會(huì)上都發(fā)揮著重要的作用。作為大規(guī)模標(biāo)準(zhǔn)化英語測試——英語專業(yè)四級(jí)考試(TEM4)的一種題型,完形填空通過學(xué)生掌握的語音、詞匯、語法等知識(shí)考查學(xué)生生成、理解句子乃至語篇的綜合能力,其評(píng)分為客觀評(píng)分,因而信度一般而言會(huì)較高。但由于信度會(huì)受到很多因素的影響,因此,對(duì)信度的考查也就成了測量界關(guān)注的焦點(diǎn)之一。本文對(duì)兩套新版TEM4完形填空試題進(jìn)行了信度的檢驗(yàn),從檢驗(yàn)結(jié)果來看,這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。
一、完形填空簡介
完形填空測試又稱填詞測試,它經(jīng)歷了一段短暫而豐富的歷史。完形填空的研究始于1953年,由泰勒引進(jìn),其目的是為了檢驗(yàn)一個(gè)測試的可讀性和試題的難度。但是在不到三年的時(shí)間里泰勒就提議:完型測試可以用于測試被試的閱讀理解能力和綜合語言水平。此后完形填空測試也被第二語言學(xué)習(xí)者和外語學(xué)習(xí)者所接受。20世紀(jì)60年代早期,完形填空除了檢驗(yàn)被試的閱讀理解能力和試題的可讀性外,還被廣泛地用于測試聽力、口語和綜合英語技能(紀(jì)春,2001)。我國自1978年在MET考試中首次采用此題型后,國內(nèi)的大型考試,如EPT、CET、TEM等均廣泛采用這種題型。完形填空幾乎成為我國外語考試的必考題型之一。其中TEM4作為英語專業(yè)基礎(chǔ)階段教學(xué)的導(dǎo)向,屬于我國外語測試中的一級(jí)測試,在評(píng)估英語專業(yè)學(xué)生的基礎(chǔ)能力水平中占有不可替代的地位。
現(xiàn)在,完形填空不僅用于分班測試和診斷測試,而且用于水平測試。其目的是通過從語篇線索中提供最佳選項(xiàng),從而檢測被試對(duì)混亂的篇章進(jìn)行編碼的能力。
完形填空的出題方法一般有兩種:隨機(jī)法和系統(tǒng)法。隨機(jī)法就是從一篇特定的文章中隨機(jī)性地刪詞,然后被試把原有的詞歸位。系統(tǒng)法是機(jī)械性地固定刪詞。一些測試者呼吁刪詞率要與所刪詞的長度一致。其刪詞率通常在5—10個(gè)詞語之間,廣泛采用的刪詞率是每隔5—7個(gè)單詞就刪掉一個(gè)詞。但是如果在開始的幾句中刪詞率是7個(gè)單詞的話,其余的部分也要沿用這種方法(Heaton,1988)。另外,選用的完形填空的材料難度要與被試的水平相當(dāng)。
二、信度檢驗(yàn)方法
信度也稱可靠性、一致性。即使測量的場合、測量工具、測量對(duì)象本身發(fā)生變化而進(jìn)行重復(fù)測量時(shí),也能獲得類似的結(jié)果(Henning,1987)。信度關(guān)心的是在測試中被試的能力水平在多大程度上是由誤差造成的,其檢驗(yàn)方法一般包括邏輯分析和實(shí)證研究(Bachman,1990)。它可分為:
1.重復(fù)測試法
重復(fù)測試法也稱再測信度,是用同一份試卷對(duì)同一批被試施測兩次,兩次施測之間有一段間隔時(shí)間,兩次測試結(jié)果的相關(guān)系數(shù)就是該考試的信度。重復(fù)測試法實(shí)際上是對(duì)受試者信度的測量,因?yàn)樗磻?yīng)的是被試在不同場合語言行為的一致性程度。然而用這種方法評(píng)估測試信度容易受到一些其他因素的影響,如:如何選擇適宜的時(shí)間間隔;被試的動(dòng)力、記憶力、精神狀態(tài)是否一致;兩次施測的環(huán)境是否相同等。
2.復(fù)本測試法
復(fù)本測試法可以避免重復(fù)測試法由于人為因素帶來的一些弊端,其施測過程與重復(fù)測試法大致相同。唯一不同的是使用兩套或多套試卷,這兩套或多套試卷在題型題量、難度等方面都一致。復(fù)本測試法常用于大型的標(biāo)準(zhǔn)化考試,因?yàn)樗粌H可以測試被試的語言能力,而且可測評(píng)同一類考試試題之間的一致性程度。然而,復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相同的試卷。
3.對(duì)半測試法
對(duì)半測試法評(píng)估試題內(nèi)部的一致性程度,這種方法避免了重復(fù)測試和復(fù)本測試法因施考兩次所帶來的一些問題。它只需一份試卷,而且只需測試一次。對(duì)半測試法是把一份試卷分成相等的兩半,通常試題編號(hào)奇數(shù)的為一組,偶數(shù)的為另一組,然后計(jì)算這兩組試卷之間的相關(guān)性,之后再用spearman-brown公式進(jìn)行校正。對(duì)半測試法雖然避免了兩次施測所帶來的不便,但是同一份試卷如果折半的方法不同,得出的信度也就會(huì)有所不同。
4.評(píng)分者信度
評(píng)分者信度也是評(píng)估語言測試信度不可忽略的一個(gè)重要因素。但評(píng)分者信度不同于上述幾種測試信度,它主要是相對(duì)于試卷中的主觀題評(píng)分而言的。
上述幾種方法雖然都可用來評(píng)估測試的信度,但它們的著眼點(diǎn)不盡相同。因此使用哪種方法取決于研究者的目的,各種信度的意義和用途,以及測試的類型,等等(黃永紅,2006)。
三、實(shí)驗(yàn)設(shè)計(jì)
1.實(shí)驗(yàn)?zāi)康?/p>
本研究用復(fù)本測試的方法檢測兩篇TEM4-2005和TEM4-2008完形填空的信度,并盡可能地分析本研究中測驗(yàn)誤差的因素。
2.被試
參加本實(shí)驗(yàn)的被試是隨機(jī)抽取的30名英語專業(yè)大二學(xué)生,他們將于2009年5月參加全國英語專業(yè)四級(jí)測試,這些被試在年齡、教育背景方面相似,每個(gè)被試的能力水平相當(dāng)。
3.實(shí)驗(yàn)材料
兩篇用于實(shí)驗(yàn)研究的完形填空來源于2005年和2008年的全國英語專業(yè)四級(jí)考試真題。每篇完形填空大約有260個(gè)單詞,各刪掉了20個(gè)詞語,被試要求在15分鐘內(nèi)完成一篇完形填空(詳見下表)。

4.施測
在測試之前,告知所有被試測試材料來源于2005年和2008年的真題,以確保被試認(rèn)真對(duì)待此次測試。此次實(shí)驗(yàn)環(huán)境與真正的TEM4考試的施測環(huán)境完全相同:(1)測試從上午9 00開始;(2)被試在15分鐘之內(nèi)完成第一篇完形填空后有兩分鐘的休息時(shí)間,然后在15分鐘之內(nèi)完成第二篇完形填空;(3)本校是TEM4考點(diǎn)。
5.評(píng)分
本實(shí)驗(yàn)所用的是Exact-Word客觀評(píng)分法(胥云,2005),也就是說只有唯一一個(gè)正確答案,評(píng)分過程客觀且不需任何評(píng)分技巧。
6.計(jì)算信度的方法
本實(shí)驗(yàn)采用復(fù)本測試法計(jì)算信度。上文提到,用這種方法計(jì)算信度就是要求這兩篇完形填空由同一組被試完成,同一組被試所得結(jié)果的相關(guān)系數(shù)就是測驗(yàn)的信度。雖然復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相等的試卷,但是運(yùn)用復(fù)本測試法計(jì)算信度的測試必須符合一些要求。首先,是試題難度上的等值。其次,是方差的等值。再次,是協(xié)方差的等值(Henning,1987:81)。也就是兩份或多份考試在考試性質(zhì)、內(nèi)容、題數(shù)、難度等方面都一致或相等。因?yàn)橄馮EM4這樣的大規(guī)模標(biāo)準(zhǔn)化考試在題型、難度、試題長度等方面都是相等的,所以在不同年份、不同地區(qū),不同年份、同一地區(qū),同一年份、不同地區(qū),或是同一年份、同一地區(qū)施測的TEM4都是等值的。但由于TEM4在2004年后將完形填空的長度由原來的15個(gè)空增至20個(gè)空,因此我們選用了兩篇2004年后的完形填空作為本實(shí)驗(yàn)的材料。綜上所述,本實(shí)驗(yàn)中的兩篇完形填空符合復(fù)本信度檢驗(yàn)的要求,可用下面的公式來計(jì)算(王孝玲,2004)。

四、實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析
由于人工計(jì)算比較復(fù)雜,我們運(yùn)用SPSS16.0軟件進(jìn)行了數(shù)據(jù)處理,所得結(jié)果如下表所示:

從表中可以看出,完形填空2的平均分要低于完型填空1,由此可知,完形填空2比完形填空1的難度要大,表中的方差、標(biāo)準(zhǔn)差和難度系數(shù)也印證了這點(diǎn)。根據(jù)信度公式(1)可以算出兩篇完形測試的信度r為0.75。通常情況下,大規(guī)模標(biāo)準(zhǔn)化考試的信度應(yīng)該在0.9以上(張凱,2002)。但從本實(shí)驗(yàn)的結(jié)果來看,這兩篇TEM4完形填空的信度仍有提高的空間。其信度低可能有以下幾方面的原因:
1.完形填空試題本身的質(zhì)量不高
試題本身的質(zhì)量是影響測試信度的最直接原因。如果測試的內(nèi)容不是試題研發(fā)者最終所期待的,那么它也就不能檢測被試的真實(shí)水平。例如,高水平學(xué)習(xí)者可能得到低分,低水平者反而得到高分。這樣就會(huì)導(dǎo)致測試的信度不高。其次是所選的語言材料,比如文章的難度。對(duì)于一組被試來說,過于容易或難的試題都會(huì)導(dǎo)致信度不高。這在很大程度上并不是因?yàn)檠邪l(fā)者的粗心大意,而是由于試題的難度不適合被試的能力水平。本實(shí)驗(yàn)中的兩篇完形填空的難度分別是0.46和0.42,而大規(guī)模的標(biāo)準(zhǔn)化考試的難度應(yīng)該在0.5左右。從難度系數(shù)來說,第二篇完形填空偏難了些,同一組被試在做第二篇完形填空時(shí)能力水平差異也較大。
2.試題的長度
試題的長度就是題數(shù),在本實(shí)驗(yàn)中指所刪掉的詞語的數(shù)量,它也可以在很大程度上影響測試的信度。試題的長度與測試的信度成正比。也就是說,題目越多,測試的信度就會(huì)越高。例如:一個(gè)測試有20個(gè)題目,信度是0.75。如果要得到0.9的信度,我們就可以用下面的公式計(jì)算出應(yīng)該增加多少個(gè)題目(張凱,2002)。

rc是測試所期望得到的信度值;ri是測試現(xiàn)有的信度值;k是要達(dá)到所期望的信度時(shí)測試應(yīng)該具備的長度。按照該理論,我們把各個(gè)數(shù)據(jù)帶入公式(2)中,得到k=3。也就是說,要使測試達(dá)到0.9的信度,該測試的題數(shù)應(yīng)該是現(xiàn)有題數(shù)的3倍,或者說還應(yīng)該增加40個(gè)題目才能達(dá)到0.9的信度。
2004年后,TEM4完形填空的刪詞量由15個(gè)增至20個(gè)(高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組,2004),這就是提高測試信度的一個(gè)標(biāo)志,也讓我們有理由相信現(xiàn)存的20個(gè)刪詞量還有可能沒有達(dá)到一個(gè)較高的信度。對(duì)于這一點(diǎn),我們還需在將來作進(jìn)一步研究。
3.被試
測試的低信度還有可能是由被試引起的。例如:(1)我們?cè)诒緦?shí)驗(yàn)中選用的樣本為30人,可能不夠大。(2)由于本實(shí)驗(yàn)不是真正的TEM4考試,被試的對(duì)待態(tài)度和積極性可能都不太高。(3)被試的水平同質(zhì)性太高。前面我們介紹過,參加本實(shí)驗(yàn)的被試水平?jīng)]有太大差異,再加上最近幾年,我校英語專業(yè)學(xué)生的英語水平在TEM4考試中都呈上升趨勢(shì)。比如,2008年我校TEM4通過率為80.16%,高于全國高校平均通過率20%。因此,同質(zhì)性如此高、差異性不大的被試能力水平當(dāng)然會(huì)導(dǎo)致本次實(shí)驗(yàn)的信度不高。
4.評(píng)分
評(píng)分是確保信度的最后一個(gè)環(huán)節(jié),也是非常重要的影響信度的因素。雖說本實(shí)驗(yàn)屬于客觀評(píng)分,評(píng)分員不需要接受培訓(xùn),但在評(píng)分過程中,如果評(píng)分員不夠細(xì)心,沒有足夠的耐心和責(zé)任心,或者說評(píng)分員沒有認(rèn)真對(duì)待此次評(píng)分,這些都會(huì)影響到本實(shí)驗(yàn)的信度。
五、結(jié)語
信度是測試必備的條件之一。如果一個(gè)測驗(yàn)不受試題、被試、評(píng)分員和測驗(yàn)環(huán)境等諸多因素的影響,它對(duì)同一組被試的重復(fù)測試結(jié)果應(yīng)該是一樣的。但由于種種原因,這種高信度的測試實(shí)際上是不存在的。本文基于語言測試的信度理論對(duì)英語專業(yè)四級(jí)考試完形填空的信度作了一次實(shí)證研究,研究結(jié)果符合測試信度理論的假設(shè)。我們也希望語言測試研發(fā)者能不斷地完善測試質(zhì)量,并且能更好地將語言測試應(yīng)用于教學(xué),對(duì)教學(xué)產(chǎn)生良好的反作用。
參考文獻(xiàn):
[1]Bachman,Lyle,F(xiàn).Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[2]Heaton,J.B.Writing English Language Teats[M].北京:外語教學(xué)與研究出版社,1988.
[3]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].北京:外語教學(xué)與研究出版社,1987.
[4]高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組.高等英語專業(yè)四級(jí)大綱[M].上海:上海外語教育出版社,2004.
[5]黃永紅.英語專業(yè)四級(jí)口語測試的信度與效度[J].外語研究,2006,(3).
[6]紀(jì)春.完形填空的效度研究[J].外語研究與教學(xué),2001,(8).
[7]王孝玲.教育測量[M].上海:華東師范大學(xué)出版社,2004.
[8]胥云.The Study of Open Cloze as a Testing Format[M].北京:北京師范大學(xué)出版社,2005.
[9]張凱.語言測驗(yàn)理論與實(shí)踐[M].北京:北京語言文化大學(xué)出版社,2002.