[摘要]本文作者采用由廣東外語外貿大學自主研發的項目分析軟件GITEST,對大學英語非英語專業本科一定數量期末試卷中的多項選擇題進行了分析,包括其信度、效度、難度及區分度等,得出定量分析數據,對同類考試起到一定的參考和借鑒作用。
[關鍵詞]多項選擇題 GITEST 信度 效度
一、引言
本文所采用的期末試卷屬于成就考試的一種。用于分析的試卷來自于2008年1月的非英語專業本科二年級上學期期末考試。參加本次考試的學生有1021人,筆者在自己所教班中(共132人)通過系統隨機抽樣選出40名學生的試卷作為本項目分析的對象。試題包括寫作(二選一)、聽力理解(30題)、閱讀理解(20題)和詞匯(10題)四個部分。筆者將采用由廣東外語外貿大學自主研發的試題分析軟件GITEST對本份試卷中多項選擇題做項目分析(其中聽力20題,閱讀理解15題),包括平均分、難度、區分度、信度等各項數據和效度分析,并對所得出的數據進行分析解釋,對同類考試起到參考和借鑒作用。
二、項目分析
1.名詞解釋
(1)信度:測試的信度,指它的結果分數對受試者的表現而言的可靠程度……具體說來,就是代表分數與試題,及試題與受試者(test population)的關系。(李筱菊,2001)
(2)效度:亦稱有效性,指測試所考的,是否就是所要考的。效度總體上來說可分為四大類,包括內在效度,外在效度,使用效度和超考試效度。其中,內在效度是指測試本身的效度,包括內容效度和結構效度。前者是指測試是否考了考試大綱規定要考的。后者指考試的原則理論的效度。外在效度指利用測試之外的標準,包括同期效度和預測效度。同期效度要求兩次考試在同一時段進行,或時間相近,為的是讓受試者不發生什么變化。預測效度則剛好相反,為的是讓受試者在目標能力上有所發展或發生變化。使用效度指使用者反應效度,包括表面效度和反應效度。表面效度指受試者是否覺得它是一份有效的試卷。反應效度指受試者是否按試題設計的要求去做題。超考試效度指超出考試的目的,說明受試者的目標能力狀況的為實效效度,對教學是不是有良好的作用的為反撥效應。(李筱菊,2001)
(3)GITEST:為項目分析軟件,由廣東外語外貿大學自主研發,用于試卷分析。
2.數據分析
本次分析的多項選擇題題數有35道,按照每題1分來算,總分為35分。表1:
通過數據輸入,并運用GITEST軟件分析,可以得出(表1):被分析的試題平均分為25.20分,總區分度較好,Rbis=0.52。SD=3.01,偏態值Skew=0.04,峰值Kurt=-0.10,全距為13,總體呈正態分布(Skew>0),分數分布正常。試題R11=0.40,a值為0.26,標準測量誤差為+- 2.34,表明所分析試題的信度不夠好,理想的R11值為0.9,a值為0.8。另外,所分析項目難度(pd)為10.66,P值為0.72,表明試題趨向容易。
表2:
從表2可以看出,在35道題當中,非常難的題目占5%,較難的題目占15%,中等難度的題目占60%,15%的屬于較容易的題目,非常容易的題目占5%。此外,有8道題目沒達到考試要求,屬于不適宜試題,需要進一步修改。
3.效度分析
根據效度的定義,可以看出,本次考試是基于大學英語考試大綱并圍繞教材內容出題,因此具有較好的內在效度。由于考試本身的性質,無法將考試對同一類受試者分兩次進行,故不具有外在效度。本次考試完全按照學校規定時間進行,并以正規的書面試卷呈現給受試者,因此,具有表面效度,試卷各部分題目要求表達清晰,沒發現受試者有誤答和錯答現象,所以也具有較好的反應效度。本套試卷沒有涉及到口語測試,實效效度較差。但本次考試為公共英語考試,有著無可否認的反撥效應(李筱菊,2001)。
4.對不適宜試題的分析
鑒于篇幅,筆者從8道不適宜試題中選出兩道有代表性的題來做具體分析。
20.(A) History of Western dress.
(B) Functions of Western fashion.
(C) Western fashion and its future trend.
(D) Types of Western fashion.
表3:
本題是聽力理解題,考的是對短文聽力篇章的理解。本題難度系數P=1.00,屬于非常容易題,無人答錯。本題要求學生選出最符合短文主題的一項。A, B, D選項同正確選項C的主題相差甚大,因此都可以排除,沒有起到干擾項的作用。建議將C選項后半部分的its future trend加在其他三個選項中,讓各選項結構一致,從而起到干擾項的作用。
40. It can be inferred from the passage that.
(A)the best way of avoiding sharks is to put on heavy clothes
(B)the Great White sharks are the most dangerous
(C)taking sea fish as their rich diet, sharks no longer want to kill people
(D)most of the shark’s brain is used for looking for food in water
表4:
本題為閱讀理解題,難度系數P值為0.57,屬中等難度題。本題考的是邏輯推理能力。從表中可以看出,選A選項和C選項的人數極少,分別只有2人和1人,說明A和C兩項基本上沒有起到干擾項的作用。從試題上來看,A選項和C選項明顯跟正常的邏輯相悖,就算沒有看閱讀文章,也可以排除掉。筆者建議,對于閱讀理解題,最好不要出現用正常邏輯思維就可以排除掉的無用的選項。
三、對未來研究的建議
1.該項目分析的不足之處
(1)被用于本次分析的試卷份數較少,且都來自同一個學校和年級,因此具有一定的局限性。(2)本次分析僅對多項選擇題做了項目分析,因此,不一定能反應出整套試卷的情況。
2.未來研究的建議
建議在此類項目分析的基礎上,運用更先進更完善的分析手段,如利用Rasch模型對主觀題等進行信度和效度的相關分析,進一步完善整個語言測試的制度。
四、小結
通過分析表明,本套期末試卷呈正態分布,分數分布正常,但整體難度較小,信度、效度和區分度不高。導致的原因是多方面的,主要因素為考試出題時,沒有對其進行有效的信度和效度測試,出題過程過于簡單化,并不是通過幾套模擬試題的機械組合就能達到測試的最終目的。
參考文獻:
[1]李筱菊.語言測試科學與藝術.湖南教育出版社,2001.
[2]教育部高等教育司.大學英語課程教學要求(試行).外語教學與研究出版社,2004.
(作者單位:華南師范大學南海校區)
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。