高遠靜 吳炳光



形形色色的考試是備受老師、學生和家長關注的熱點,然而在這個強調逐漸淡化分數的新課改時代,大家關注的依然是卷面成績.一張不起眼的試卷,一個小小的數字為什么常年在老師學生和家長心目中占有重要的一席,甚至引其他問題?無非就是大家都認可的試卷對學生學習能力的重要測量和評價功能.可是很多老師往往在命題時忽略了試卷本身的教育測量與評價目的,甚至評價觀念是模糊的,導致試卷本身的命題質量不高,測量結果的可信度就大大降低了.目前我國普遍教師的命題能力都亟須提高,如此才能保證產出優質試卷以供學生的學習評價使用.
教師命題能力的評定需要引入量化指標使教學評價可視化,試卷作為命題的可視化產出結果,以試卷質量分析入手,利用教育統計學手段進行評價指標量化是教師命題能力研究的切入點.中學階段大規模考試引發大規模的試卷數據,在大數據背景下中學老師缺乏試卷挖掘的數據力成為制約教師命題能力發展的一個重要瓶頸.本文以廣東省最近一次高二期末聯考數據為例,基于SPSS數據方法分析教師的命題質量.
1 命題質量統計分析
從教育測量與評價的角度看,學校的期末考試其實是一種終結性評價,應該凸顯其對學生該階段相應學力水平的評定功能,同時還對后階段的學習有預測和評估的作用.要實現從考試到評價的轉變,科學的考試評價體系應該從理念、方法和技術三個維度構建,而通俗易懂、操作便利、分析功能強大的數字化統計軟件無疑是迫切的現實需求之一.SPSS軟件是一款通用的數據處理軟件,筆者利用它來分析本次高二期末三校聯考試卷的命題質量.
1.1 命題基本情況
本次聯考物理試卷共8道選擇題、1道實驗題、2道計算題和1道選做題,考試時間為60分鐘,命題人是佛山市某特級教師,聯考考生為廣佛兩地三所市屬名校的高二學生.本次研究選取考試后的625份有效樣本數據進行質量分析,樣本容量大,分析結論可信度高.
1.2 信度和效度分析
期末考試過程采取嚴格的監考管理,測試結果可靠度高,具有較高的測試信度.客觀題全部機評,主觀題每道題都有詳細的評分標準,物理試題的答案比較單一,客觀性強,評分者信度高.由于試題無法考察分半信度,故本研究采用Cronbach的а系數方法來評估試題的內部一致性信度,SPSS分析總體樣本的а系數值為0.663,在可接受范圍內.
為了保證測試的準確性,測試卷要具有較高的內容效度.本次考試由業內專家命題,具有一定的專家效度,可是沒有編制命題雙向細目表,也沒有審稿人,暴露了一線教師命題缺乏科學性問題,試卷的內容效度有待商榷.由于無法考察效標關聯效度,在此用SPSS軟件統計相關系數來檢驗試卷的構想效度.表1給出第9~11題與總分相關性檢驗試卷效度.
統計結果表明,不同題目得分與總分之間的所有相關系數在0.285至0.539之間,而且顯著性p值(Sig)均在0.001以下,有99.9%的置信概率,其中客觀題與總分的相關系數偏低,說明試卷題目并不能十分準確地考查學生的學力水平.而各題目與總分的相關性超過各題目之間的相關系數,即該試卷命題做到了題目之間的關聯度不會太高,各題目考查的知識能力不同.總體而言該試卷的構想效度一般.
1.3 難度和區分度
難度往往是命題者最重視又較難把控的一項試卷質量指標,它具有個人風格特質,命題者需要對測試對象的平均學力水平和題目的匹配程度有較準確的把握才能使難度控制在理想范圍之內.單項選擇題的難度一般是指通過率,即該題目的通過人數和總人數的比例.主觀題則以得分率作為難度系數,即該題總體平均分和滿分的比,系數越高,難度越小.難度系數算法簡單,用Excel即能處理,不需要用統計軟件.
良好的區分度也是命題者的一個理想試卷質量追求,它比難度系數更難把控在于它需要命題者對不同層次的學生的學力水平都要有準確的甄別能力.區分度同時也是篩選試題的重要指標.一般的測試可以用極端分組法來算區分度,即考慮高分組和低分組的得分率的差值.但是這種方法沒有使用全部數據,分析不夠科學,通常在大規模標準化測試中不采用這種方法,而采用相關分析法,即以試題與總分的相關系數作為區分度的指標,相關性越高,區分能力越好.即本文提及的檢驗構想效度的方法.
由此可見,在教育測量研究中,難度系數和區分度對測試卷的信度和效度都有直接影響.
在此采用一般的方法計算本次聯考物理試卷的難度和區分度,如圖1所示.
全卷來看難度是0.541,區分度是0.362,兩項指標都不太理想.各題區分度總體偏低,除了第5題其余都低于0.4.各題難度不一,有2道題難度過大,難度系數低于0.3,而系數高于0.7有2道題,難度太低,不合理難度試題占總試題的36%.試卷的難度分布不均,沒有體現難度梯度變化.從這兩項指標的分析可以看出,首先命題者沒有明確定位此次考試的評價功能,期末考試旨在檢驗學生是否達到本學期的教學目標,作為一種終結性評價,應該弱化考試的選撥功能,試題難度不宜太高;其次,普遍較低的區分度說明試題的甄別評價功能較差,選題不合適;最后,從較混亂的難度分布可以看出,命題有隨意拼湊的嫌疑,或者命題者沒有難度梯度意識,只想著利用難題和易題來平衡平均分.科學的命題應該是在選題之后把所有題目由易到難進行排序,保證測試者有較穩定的心理狀態才能提高試題的信度.
1.4 正態分布檢驗
一份好的試題能夠符合被試的能力特質呈正態分布的自然規律,同時正態分布也是試題做描述統計分析的基本前提.次聯考數據樣本量大于50,可以用SPSS的非參數檢驗的獨立樣本K-S檢驗其正態分布情況(圖2)偏度0.158,峰度0.201,漸進顯著性p值0.471,近似符合正態分布.
2 命題質量凸顯的問題及對策
由上述的統計分析發現目前教師的命題質量仍然有待提高,體現有三個主要問題:第一,命題缺乏規范.無論是平時的測驗還是大規模考試,很多老師都沒有編制雙向細目表命題的習慣,覺得細目表的編制工作繁瑣,主要憑個人經驗和直覺去進行組卷編題,導致試卷的內容效度無保障.除此之外,大多數老師也不重視試卷格式的規范整理工作;第二,命題缺乏科學性.教師在命題時往往忽略考慮考試的評價目標,容易把選拔性考試和過程性評價混淆,沒有明確的目標導向.很多老師的命題過程是“信手拈來”的,沒有系統的編制流程作依托,試題漏洞百出.試題最關鍵的難度和區分度把控仍然依靠主觀經驗,缺乏科學把控方法;第三,命題缺乏反思.考試數據輸出是命題質量的體現,教師們對試卷分析僅停留在“看”數據的階段,忽視挖掘數據評價試卷質量,同時忽視總結命題經驗和教訓,沒有發揮大規模測試應有的數據力作用.
針對以上三個主要問題提出以下建議措施:首先,教研室和學校層面要重視對老師的命題規范操作培訓和命題質量監管.教師本人要形成良好的命題習慣,只有提高普遍教師的命題能力,編制優質的試題,才能發揮考試的評價功能;其次,亟須進行提高教師命題能力的相關策略研究,把資深教師豐富的主觀經驗整合成科學操作化技術,形成一套科學的命題策略體系,作為命題操作和質量把控的重要依據;最后,引入教育測量與評價方法到試卷質量分析中,尤其是物理學科的定量特點使其試卷評價的量化操作更容易實現.通過考試后的大數據挖掘,形成多維數據模型,有利于形成優質試題庫,總結命題經驗,提升命題質量.