關于高級英語期中測試效度的個案研究

2011-12-31 00:00:00董敏

大觀周刊 2011年21期

摘要：英語期中測試是反映半學期以來學生的學習情況，學習中還存在的漏洞及考察學生的能力，是一個重要的信息來源。因此，測試對于教師以后的教學活動具有指導作用。而要真正有效地反饋這些信息，需要一份高質量的試卷。評價一份試卷，效度是一個重要的指標。本文將對07級英語專業的一份期中試卷做效度分析，旨在指出試卷的成功之處和有待改進的地方，以期對以后試卷設計有所啟示。

關鍵詞：期中測試效度試卷分析

1、引言

語言測試有四種類型：水平測試、成績測試、診斷性測試和編班測試。成績測試考查學生對所學知識的掌握，它一般要參照某種教學大綱，甚至考慮到教學方法。隨堂測試、期中考試和期末考試都屬于成績測試，因為它們都是針對以前所學的內容而設計的(劉潤清，2004) 。本文是針對學生期中測試做的分析，因此，本文要分析的試卷是屬于成績測試，是根據半學期以來的教學內容而設計的。

Bachman 提出，語言測試的有用性包括六個方面的特性:信度，效度，真實性，交互性，影響和可實踐性。效度是評價一份試卷有效性的重要指標，所謂效度，就是指一份試卷是否測出了它所要測的東西，是否達到了它所預定的測試目的。效度表明的是一種相關性，即測試與測試目標的關聯程度。

2、效度研究

2.1效度研究的種類

效度研究包括內部效度和外部效度，其中內部效度又包含了表面效度、內容效度、反應效度、構念效度。外部效度包含了同時效度和預測效度。

2.2 影響效度研究的因素

影響效度研究的因素有很多，如考試內容選擇不恰當和樣本代表性不夠會影響到試卷的表面效度和內容效度，模棱兩可的題目、考試指令的不清、試題難度的不當、考生對考試任務和模式的不熟悉和考生對考試的不配合都會影響到表面效度，考試任務設計不當和試題區分度不當則會影響到構念效度。在這次試卷分析中，有的因素如考生對考試任務和模式熟不熟悉我們無從得知，其他的因素我們可以從試卷的設計和考生答題的結果中分析出來，在這次的試卷分析中，就從影響試卷效度的因素如考試內容選擇、試卷難度和區分度等著手來分析試卷的效度。

3、具體分析

3.1 測試對象

參加考試的學生為2007級26名英語專業大三學生，均屬全日制本科生。因此，本研究有效試卷是26份。

3.2試卷構成

3.3 考試結果

如圖所示，學生得分普遍較低，62%的學生得分在70分以下，只有一個學生得分在80分以上，高分段人數太少。通過計算得知，學生的平均分為67.2，本試題難度值為0.33，學生的普遍低分影響了學生之間的區分度，拉不開他們的距離，另外試題的難度偏大，影響了學生的答題。為了方便后面各組區分度的計算，把這26個成績分成了3組，71～85.5為高分組，共8人，63.5～70.5為中間分數組，共11人，56～62.5為低分組，共7人。

3.4 各個題目的分析

孫成崗（2000）指出，試卷分析中最重要的就是題目分析，即對試卷中的每一道題目的答題情況進行分析。一般的題目分析軟件（主要是對客觀題進行分析的軟件對每道題目主要提供個指標難易度、通過率答對率和區分度。對每道題的每個選擇項也提供個指標人數、標準分、區分度，在這個指標中，區分度最重要。下面就將對各道題目的答對率、難度、區分度一一做出分析。在分析之前首先就區分度與項目質量的關系做一展示。

項目區分度指數與項目的質量評價

譯自（Ebel Frisbie， 1986:234）（鄒申， 2005）轉引自董立泉等

第一大題是由兩道題型組成，題型A是選擇詞組填空，題型B是根據提供的詞匯做詞形變換填空，考察的是學生的詞匯和語法知識，還有理解能力。在題型A中，A1，A2，A4都不需要考慮語法的問題，只要理解了句子和詞組的含義都能做對，所以這是很基礎的題，這3道題正確率是100%。A3考察了學生的過去完成時時態，由于這道題前面有had作了提示，所以也沒有人答錯。而A5答對率是0.04，只有一個學生回答正確，We would like the opportunity to ____________ on our latest work and the possibilities available for our upcoming custom projects.要用選項中的keep sb. posted做變形填空，大部分學生用keep us posted來填，這樣表明大部分學生都沒有理解到題目的含義，可能看到題目中有we、our，于是受到了干擾。正確答案是keep you posted，大意是“有了新的工作信息我們會通知你”。

題型B中，B1和B4完成的較好，各有一個學生做錯，做得最差的是B5，Miss Moylan accused them of leaking _________ information about her private life. (confide) 泄露的是“confidential information”而不是“confident information”。

第二大題是paraphrasing，難度值是0.29，難易比較適度，一共10道小題，全是選自教材中的原文，讓學生在理解的基礎上用比較簡單的說法表達出來，考察的是的理解能力和表達能力。高分組和低分組的平均分相差3.5分，且低分組平均分明顯低于整個大題的平均分，因此這道題的價值還是體現出來了，能夠區分出學生的水平。

從上表可見，第三大題即短文改錯題，在區分度上面，第5題區分度為0.61，這是最理想的值。第2題和第4題的值在0.2左右勉強可以接受，第1、3、8、9都是小于0.19這個值的，這些題的區分度很低，不利于區分出學生的水平。第10題，沒有一個學生回答正確，第6、7題區分度為負值，這更是不可取的，嚴重地影響了整套試題的效度。

第四大題是閱讀理解題，共4篇文章，每篇文章有5～7道小題，第一篇文章是一篇說明文體裁，向大家解釋了笑的發生，本篇文章設置了7個小題，從該題的答對率和難度來看，第1、4和5都是比較簡單的題，88%的學生都回答對了。從區分度來看，第2、4和6題都是區分度高的題，這對測試效度是有利的，而第3和5題區分度卻是負值，表明很多高水平的學生的作答沒有低水平的學生好，這類題在選題中是不可取的。在從干擾項來看，第7題正確率是0.42，這表明58%的學生在這道題上丟了分

從區分度來看，第8、9和10題都是區分度比較高的題，12和13題區分度低于了0.19，需要對選項做一些調整。而11和14題區分度均為負值，這兩道題在試題中是不可取的。

第五大題是考察學生的常識，出題的范圍來自教材，如果學生的知識面廣又對教材知識有所延伸，那么這道題做起來是相對輕松的，這考察的不是學生的語言能力而是知識面的寬度。而第六大題考察的確是學生的理解能力和語言的運用能力了，從表中可以看出，高分組的學生平均分在20分以上，高出了全班的平均分3分，說明這部分學生語言能力確實很強，而低分組的學生在理解和表達方面都有所欠缺，這道題考出了學生的水平，總的來說是很有價值的。

4、小結

一份效度好的試卷要充分考慮到很多因素，在試卷的設計方面，題型要滿足所要考察的內容，而且難度也要適度，太難的試卷不僅不利于區分學生的水平而且容易打擊學生學習的信心。在試題的選擇上，區分度高的題可以提高試卷的效度。從上面的分析中可以看出，這套試卷題型是豐富的，考試內容一部分來自教材，一部分來自課外，讓學生在理解所學的基礎上再提升水平。在個別題目的區分度上，有些區分度很低甚至是負值，有的選項干擾度過大，導致答題正確率很低，所以這些題還需要進一步改進。

參考文獻：

[1]Bachman L F ，A S Palmer. Language Testing in PracticeOxford :OUP ，1996.

[2]董立泉，肖惜，楊林. 一份英語競賽試卷分析[J].科技信息，2009

[3]戴煒棟.外語教育求索[M].上海外語教育出版社，2007

[4]劉潤清，韓寶成. 語言測試和它的方法[M]. 北京:外語教學與研究出版社，2004.

[5]孫成崗現代語言測試與試卷分析[J].解放軍外國語學院學報，2000

大觀周刊2011年21期

大觀周刊的其它文章: 對《歷史與階級意識》中盧卡奇總體范疇的認識; 淺談春秋決獄; 日本女性天皇初探; 余光中與二十世紀中期臺灣現代詩確立過程中的兩次論戰; 如何安頓我們的身體; 淺論《人力資源管理》課程網絡化教學模式的建設與研究