999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

兩篇新版TEM4完形填空的信度考查

2009-04-29 00:00:00李傳益魏海晶
考試周刊 2009年15期

摘 要: 完形填空是英語專業(yè)四級(jí)考試的一種題型,其目的是測量考生的綜合語言知識(shí)和技能。自2004年新大綱實(shí)施以來,完形填空在題量上發(fā)生了變化,由原來的15個(gè)空增至20個(gè)空。但它是否就具有較高的信度?本文采用復(fù)本測試法對(duì)兩篇新版英語專業(yè)四級(jí)考試完形填空的信度進(jìn)行了檢驗(yàn)。從試驗(yàn)的結(jié)果來看,這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。

關(guān)鍵詞: 英語專業(yè)四級(jí) 考試完形填空 信度

作為應(yīng)用語言學(xué)的一個(gè)分支學(xué)科,語言測試學(xué)現(xiàn)已發(fā)展成為一個(gè)相對(duì)獨(dú)立的學(xué)科。其中作為評(píng)價(jià)英語學(xué)習(xí)者學(xué)習(xí)水平的英語測試在語言測試界和社會(huì)上都發(fā)揮著重要的作用。作為大規(guī)模標(biāo)準(zhǔn)化英語測試——英語專業(yè)四級(jí)考試(TEM4)的一種題型,完形填空通過學(xué)生掌握的語音、詞匯、語法等知識(shí)考查學(xué)生生成、理解句子乃至語篇的綜合能力,其評(píng)分為客觀評(píng)分,因而信度一般而言會(huì)較高。但由于信度會(huì)受到很多因素的影響,因此,對(duì)信度的考查也就成了測量界關(guān)注的焦點(diǎn)之一。本文對(duì)兩套新版TEM4完形填空試題進(jìn)行了信度的檢驗(yàn),從檢驗(yàn)結(jié)果來看,這兩篇英語專業(yè)四級(jí)考試完形填空的信度仍有待提高。

一、完形填空簡介

完形填空測試又稱填詞測試,它經(jīng)歷了一段短暫而豐富的歷史。完形填空的研究始于1953年,由泰勒引進(jìn),其目的是為了檢驗(yàn)一個(gè)測試的可讀性和試題的難度。但是在不到三年的時(shí)間里泰勒就提議:完型測試可以用于測試被試的閱讀理解能力和綜合語言水平。此后完形填空測試也被第二語言學(xué)習(xí)者和外語學(xué)習(xí)者所接受。20世紀(jì)60年代早期,完形填空除了檢驗(yàn)被試的閱讀理解能力和試題的可讀性外,還被廣泛地用于測試聽力、口語和綜合英語技能(紀(jì)春,2001)。我國自1978年在MET考試中首次采用此題型后,國內(nèi)的大型考試,如EPT、CET、TEM等均廣泛采用這種題型。完形填空幾乎成為我國外語考試的必考題型之一。其中TEM4作為英語專業(yè)基礎(chǔ)階段教學(xué)的導(dǎo)向,屬于我國外語測試中的一級(jí)測試,在評(píng)估英語專業(yè)學(xué)生的基礎(chǔ)能力水平中占有不可替代的地位。

現(xiàn)在,完形填空不僅用于分班測試和診斷測試,而且用于水平測試。其目的是通過從語篇線索中提供最佳選項(xiàng),從而檢測被試對(duì)混亂的篇章進(jìn)行編碼的能力。

完形填空的出題方法一般有兩種:隨機(jī)法和系統(tǒng)法。隨機(jī)法就是從一篇特定的文章中隨機(jī)性地刪詞,然后被試把原有的詞歸位。系統(tǒng)法是機(jī)械性地固定刪詞。一些測試者呼吁刪詞率要與所刪詞的長度一致。其刪詞率通常在5—10個(gè)詞語之間,廣泛采用的刪詞率是每隔5—7個(gè)單詞就刪掉一個(gè)詞。但是如果在開始的幾句中刪詞率是7個(gè)單詞的話,其余的部分也要沿用這種方法(Heaton,1988)。另外,選用的完形填空的材料難度要與被試的水平相當(dāng)。

二、信度檢驗(yàn)方法

信度也稱可靠性、一致性。即使測量的場合、測量工具、測量對(duì)象本身發(fā)生變化而進(jìn)行重復(fù)測量時(shí),也能獲得類似的結(jié)果(Henning,1987)。信度關(guān)心的是在測試中被試的能力水平在多大程度上是由誤差造成的,其檢驗(yàn)方法一般包括邏輯分析和實(shí)證研究(Bachman,1990)。它可分為:

1.重復(fù)測試法

重復(fù)測試法也稱再測信度,是用同一份試卷對(duì)同一批被試施測兩次,兩次施測之間有一段間隔時(shí)間,兩次測試結(jié)果的相關(guān)系數(shù)就是該考試的信度。重復(fù)測試法實(shí)際上是對(duì)受試者信度的測量,因?yàn)樗磻?yīng)的是被試在不同場合語言行為的一致性程度。然而用這種方法評(píng)估測試信度容易受到一些其他因素的影響,如:如何選擇適宜的時(shí)間間隔;被試的動(dòng)力、記憶力、精神狀態(tài)是否一致;兩次施測的環(huán)境是否相同等。

2.復(fù)本測試法

復(fù)本測試法可以避免重復(fù)測試法由于人為因素帶來的一些弊端,其施測過程與重復(fù)測試法大致相同。唯一不同的是使用兩套或多套試卷,這兩套或多套試卷在題型題量、難度等方面都一致。復(fù)本測試法常用于大型的標(biāo)準(zhǔn)化考試,因?yàn)樗粌H可以測試被試的語言能力,而且可測評(píng)同一類考試試題之間的一致性程度。然而,復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相同的試卷。

3.對(duì)半測試法

對(duì)半測試法評(píng)估試題內(nèi)部的一致性程度,這種方法避免了重復(fù)測試和復(fù)本測試法因施考兩次所帶來的一些問題。它只需一份試卷,而且只需測試一次。對(duì)半測試法是把一份試卷分成相等的兩半,通常試題編號(hào)奇數(shù)的為一組,偶數(shù)的為另一組,然后計(jì)算這兩組試卷之間的相關(guān)性,之后再用spearman-brown公式進(jìn)行校正。對(duì)半測試法雖然避免了兩次施測所帶來的不便,但是同一份試卷如果折半的方法不同,得出的信度也就會(huì)有所不同。

4.評(píng)分者信度

評(píng)分者信度也是評(píng)估語言測試信度不可忽略的一個(gè)重要因素。但評(píng)分者信度不同于上述幾種測試信度,它主要是相對(duì)于試卷中的主觀題評(píng)分而言的。

上述幾種方法雖然都可用來評(píng)估測試的信度,但它們的著眼點(diǎn)不盡相同。因此使用哪種方法取決于研究者的目的,各種信度的意義和用途,以及測試的類型,等等(黃永紅,2006)。

三、實(shí)驗(yàn)設(shè)計(jì)

1.實(shí)驗(yàn)?zāi)康?/p>

本研究用復(fù)本測試的方法檢測兩篇TEM4-2005和TEM4-2008完形填空的信度,并盡可能地分析本研究中測驗(yàn)誤差的因素。

2.被試

參加本實(shí)驗(yàn)的被試是隨機(jī)抽取的30名英語專業(yè)大二學(xué)生,他們將于2009年5月參加全國英語專業(yè)四級(jí)測試,這些被試在年齡、教育背景方面相似,每個(gè)被試的能力水平相當(dāng)。

3.實(shí)驗(yàn)材料

兩篇用于實(shí)驗(yàn)研究的完形填空來源于2005年和2008年的全國英語專業(yè)四級(jí)考試真題。每篇完形填空大約有260個(gè)單詞,各刪掉了20個(gè)詞語,被試要求在15分鐘內(nèi)完成一篇完形填空(詳見下表)。

4.施測

在測試之前,告知所有被試測試材料來源于2005年和2008年的真題,以確保被試認(rèn)真對(duì)待此次測試。此次實(shí)驗(yàn)環(huán)境與真正的TEM4考試的施測環(huán)境完全相同:(1)測試從上午9 00開始;(2)被試在15分鐘之內(nèi)完成第一篇完形填空后有兩分鐘的休息時(shí)間,然后在15分鐘之內(nèi)完成第二篇完形填空;(3)本校是TEM4考點(diǎn)。

5.評(píng)分

本實(shí)驗(yàn)所用的是Exact-Word客觀評(píng)分法(胥云,2005),也就是說只有唯一一個(gè)正確答案,評(píng)分過程客觀且不需任何評(píng)分技巧。

6.計(jì)算信度的方法

本實(shí)驗(yàn)采用復(fù)本測試法計(jì)算信度。上文提到,用這種方法計(jì)算信度就是要求這兩篇完形填空由同一組被試完成,同一組被試所得結(jié)果的相關(guān)系數(shù)就是測驗(yàn)的信度。雖然復(fù)本測試最大的缺點(diǎn)是無法編制兩套各方面都完全相等的試卷,但是運(yùn)用復(fù)本測試法計(jì)算信度的測試必須符合一些要求。首先,是試題難度上的等值。其次,是方差的等值。再次,是協(xié)方差的等值(Henning,1987:81)。也就是兩份或多份考試在考試性質(zhì)、內(nèi)容、題數(shù)、難度等方面都一致或相等。因?yàn)橄馮EM4這樣的大規(guī)模標(biāo)準(zhǔn)化考試在題型、難度、試題長度等方面都是相等的,所以在不同年份、不同地區(qū),不同年份、同一地區(qū),同一年份、不同地區(qū),或是同一年份、同一地區(qū)施測的TEM4都是等值的。但由于TEM4在2004年后將完形填空的長度由原來的15個(gè)空增至20個(gè)空,因此我們選用了兩篇2004年后的完形填空作為本實(shí)驗(yàn)的材料。綜上所述,本實(shí)驗(yàn)中的兩篇完形填空符合復(fù)本信度檢驗(yàn)的要求,可用下面的公式來計(jì)算(王孝玲,2004)。

四、實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

由于人工計(jì)算比較復(fù)雜,我們運(yùn)用SPSS16.0軟件進(jìn)行了數(shù)據(jù)處理,所得結(jié)果如下表所示:

從表中可以看出,完形填空2的平均分要低于完型填空1,由此可知,完形填空2比完形填空1的難度要大,表中的方差、標(biāo)準(zhǔn)差和難度系數(shù)也印證了這點(diǎn)。根據(jù)信度公式(1)可以算出兩篇完形測試的信度r為0.75。通常情況下,大規(guī)模標(biāo)準(zhǔn)化考試的信度應(yīng)該在0.9以上(張凱,2002)。但從本實(shí)驗(yàn)的結(jié)果來看,這兩篇TEM4完形填空的信度仍有提高的空間。其信度低可能有以下幾方面的原因:

1.完形填空試題本身的質(zhì)量不高

試題本身的質(zhì)量是影響測試信度的最直接原因。如果測試的內(nèi)容不是試題研發(fā)者最終所期待的,那么它也就不能檢測被試的真實(shí)水平。例如,高水平學(xué)習(xí)者可能得到低分,低水平者反而得到高分。這樣就會(huì)導(dǎo)致測試的信度不高。其次是所選的語言材料,比如文章的難度。對(duì)于一組被試來說,過于容易或難的試題都會(huì)導(dǎo)致信度不高。這在很大程度上并不是因?yàn)檠邪l(fā)者的粗心大意,而是由于試題的難度不適合被試的能力水平。本實(shí)驗(yàn)中的兩篇完形填空的難度分別是0.46和0.42,而大規(guī)模的標(biāo)準(zhǔn)化考試的難度應(yīng)該在0.5左右。從難度系數(shù)來說,第二篇完形填空偏難了些,同一組被試在做第二篇完形填空時(shí)能力水平差異也較大。

2.試題的長度

試題的長度就是題數(shù),在本實(shí)驗(yàn)中指所刪掉的詞語的數(shù)量,它也可以在很大程度上影響測試的信度。試題的長度與測試的信度成正比。也就是說,題目越多,測試的信度就會(huì)越高。例如:一個(gè)測試有20個(gè)題目,信度是0.75。如果要得到0.9的信度,我們就可以用下面的公式計(jì)算出應(yīng)該增加多少個(gè)題目(張凱,2002)。

rc是測試所期望得到的信度值;ri是測試現(xiàn)有的信度值;k是要達(dá)到所期望的信度時(shí)測試應(yīng)該具備的長度。按照該理論,我們把各個(gè)數(shù)據(jù)帶入公式(2)中,得到k=3。也就是說,要使測試達(dá)到0.9的信度,該測試的題數(shù)應(yīng)該是現(xiàn)有題數(shù)的3倍,或者說還應(yīng)該增加40個(gè)題目才能達(dá)到0.9的信度。

2004年后,TEM4完形填空的刪詞量由15個(gè)增至20個(gè)(高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組,2004),這就是提高測試信度的一個(gè)標(biāo)志,也讓我們有理由相信現(xiàn)存的20個(gè)刪詞量還有可能沒有達(dá)到一個(gè)較高的信度。對(duì)于這一點(diǎn),我們還需在將來作進(jìn)一步研究。

3.被試

測試的低信度還有可能是由被試引起的。例如:(1)我們?cè)诒緦?shí)驗(yàn)中選用的樣本為30人,可能不夠大。(2)由于本實(shí)驗(yàn)不是真正的TEM4考試,被試的對(duì)待態(tài)度和積極性可能都不太高。(3)被試的水平同質(zhì)性太高。前面我們介紹過,參加本實(shí)驗(yàn)的被試水平?jīng)]有太大差異,再加上最近幾年,我校英語專業(yè)學(xué)生的英語水平在TEM4考試中都呈上升趨勢(shì)。比如,2008年我校TEM4通過率為80.16%,高于全國高校平均通過率20%。因此,同質(zhì)性如此高、差異性不大的被試能力水平當(dāng)然會(huì)導(dǎo)致本次實(shí)驗(yàn)的信度不高。

4.評(píng)分

評(píng)分是確保信度的最后一個(gè)環(huán)節(jié),也是非常重要的影響信度的因素。雖說本實(shí)驗(yàn)屬于客觀評(píng)分,評(píng)分員不需要接受培訓(xùn),但在評(píng)分過程中,如果評(píng)分員不夠細(xì)心,沒有足夠的耐心和責(zé)任心,或者說評(píng)分員沒有認(rèn)真對(duì)待此次評(píng)分,這些都會(huì)影響到本實(shí)驗(yàn)的信度。

五、結(jié)語

信度是測試必備的條件之一。如果一個(gè)測驗(yàn)不受試題、被試、評(píng)分員和測驗(yàn)環(huán)境等諸多因素的影響,它對(duì)同一組被試的重復(fù)測試結(jié)果應(yīng)該是一樣的。但由于種種原因,這種高信度的測試實(shí)際上是不存在的。本文基于語言測試的信度理論對(duì)英語專業(yè)四級(jí)考試完形填空的信度作了一次實(shí)證研究,研究結(jié)果符合測試信度理論的假設(shè)。我們也希望語言測試研發(fā)者能不斷地完善測試質(zhì)量,并且能更好地將語言測試應(yīng)用于教學(xué),對(duì)教學(xué)產(chǎn)生良好的反作用。

參考文獻(xiàn):

[1]Bachman,Lyle,F(xiàn).Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.

[2]Heaton,J.B.Writing English Language Teats[M].北京:外語教學(xué)與研究出版社,1988.

[3]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].北京:外語教學(xué)與研究出版社,1987.

[4]高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員英語組四級(jí)考試大綱修定小組.高等英語專業(yè)四級(jí)大綱[M].上海:上海外語教育出版社,2004.

[5]黃永紅.英語專業(yè)四級(jí)口語測試的信度與效度[J].外語研究,2006,(3).

[6]紀(jì)春.完形填空的效度研究[J].外語研究與教學(xué),2001,(8).

[7]王孝玲.教育測量[M].上海:華東師范大學(xué)出版社,2004.

[8]胥云.The Study of Open Cloze as a Testing Format[M].北京:北京師范大學(xué)出版社,2005.

[9]張凱.語言測驗(yàn)理論與實(shí)踐[M].北京:北京語言文化大學(xué)出版社,2002.

主站蜘蛛池模板: 日本成人一区| 国产另类乱子伦精品免费女| 九九热精品视频在线| 91久久青青草原精品国产| 永久免费AⅤ无码网站在线观看| 国产在线小视频| 无遮挡国产高潮视频免费观看| 亚洲精品视频免费| 亚洲最大综合网| 天天干天天色综合网| 国产成人乱无码视频| 国产91高清视频| 美女视频黄又黄又免费高清| 国模私拍一区二区| 日本午夜在线视频| 亚洲欧美日韩中文字幕在线一区| 91热爆在线| 亚洲综合第一区| 国产精品性| 一区二区午夜| 精品久久香蕉国产线看观看gif| 亚洲第一黄片大全| 18禁不卡免费网站| 视频一本大道香蕉久在线播放| 色成人亚洲| 精品小视频在线观看| 中国精品自拍| 色婷婷成人| 国产在线观看成人91| 亚洲AⅤ综合在线欧美一区 | 亚洲视频一区在线| 三上悠亚精品二区在线观看| 超清无码一区二区三区| 色婷婷在线播放| 久久这里只有精品免费| 免费在线色| 欧美a级完整在线观看| 国产高清色视频免费看的网址| 午夜老司机永久免费看片| 国产亚洲精| 精品国产电影久久九九| 国产剧情无码视频在线观看| 国产成人AV综合久久| 91精品免费高清在线| 女同久久精品国产99国| 无码精油按摩潮喷在线播放| 毛片手机在线看| 国产高潮视频在线观看| 婷婷丁香色| 一本一道波多野结衣一区二区| 波多野结衣中文字幕一区二区| 国产区91| 亚洲国产成人无码AV在线影院L| 99热这里只有精品久久免费| 久久国产亚洲欧美日韩精品| 性色在线视频精品| 婷婷六月激情综合一区| 毛片在线播放网址| 呦视频在线一区二区三区| 国产精品 欧美激情 在线播放| a天堂视频在线| 72种姿势欧美久久久久大黄蕉| 日本午夜网站| 中文字幕啪啪| 日韩欧美视频第一区在线观看| 日韩经典精品无码一区二区| 久久伊人操| 99热这里只有精品在线播放| 亚洲成A人V欧美综合天堂| 91黄视频在线观看| 亚洲欧美成aⅴ人在线观看| 蝌蚪国产精品视频第一页| 99在线免费播放| 在线看片国产| 精品亚洲欧美中文字幕在线看| 亚洲第一在线播放| 亚洲国产一区在线观看| 欧美日韩动态图| 色综合狠狠操| 亚洲伊人久久精品影院| 无码网站免费观看| 欧美成人国产|