廖先祥+莫海浪
前面我們已經知道了一份試卷需要符合一定的可靠性和有效性要求,否則用這份試卷來考查學生就沒有太大的意義,反而會加重學生的學習負擔。但是,終究我們是需要考試的,在中小學,我們或者把它作為學生畢業評判的依據,或者把它作為學生升學的依據,或者把它作為了解學生單元學習目標是否達成的依據,等等。也就是說,我們所命制的試題,要起到判別和篩選的作用,要具有與測試目的相符的區分學生不同水平的功能。
問題5:我們所用的試卷能否區分出學生的不同學業水平?
在經典測量(考試)理論里,區分度是我們特別關注的一個重要指標。區分度又叫鑒別力,用以表示試題對學生實際學業水平的區分程度。做同一道試題,如果實際水平高的學生得分高,實際水平低的學生得分低,就說明這道題具有良好的區分度。圖1中“按分數的特性曲線(S)”是某次考試第10題(即項目10)學生不同能力水平所能答對該題的概率圖,從左到右,它說明隨著學生能力的變化,學生答對該題的可能性在增大。對于一道題的檢測如此,對于一份試卷的區分度檢測與此大同小異。圖2的“測試特性曲線”就是我們組織某次自治區大型考試時數學卷所表現出來的區分度水平曲線圖。所以說,試題的區分度是我們編制試卷篩選試題和評價試題質量的一個重要依據。
在經典測量理論中,區分度常用D來表示。研究教育測量的專家們煞費苦心地設計出計算區分度的好多種方法,其中有一種常用的方法,叫做鑒別指數法。鑒別指數法先將考生測驗所得成績按從高到低排序,再按照一定的比例分出高分組與低分組(一般按成績前27%與后27%的考生的成績分組),并計算出高分組和低分組在某道或某些試題上通過率的差,用這個差值來確定這道或這些試題的區分度,即D值。在互聯網上,關于鑒別指數的文章可謂汗牛充棟,我們很容易找到計算D值的公式和例子。但是,因為這種方法只使用高分組和低分組的數據,浪費了中間超過三分之一的數據,所以,其所得結果其實并不夠準確。為此,教育測量專家們又想出了一種更適合在大規模的測驗或標準化測驗中采用的方法,這就是相關系數法。相關系數指的是題目與效標的相關度。由于效標分數不容易取得,我們常以考生總分作為效標,下面就是專家們給出的一個叫“Pearson相關系數”的計算公式:
r=
“Pearson相關系數”的計算公式已經廣泛應用于各種類型的測試分析。這個公式看上去很復雜,但其實它是操作最簡單的一種方法。我們不需要懂得公式里各個字母的含義,只需在計算機里安裝一個“SPSS”軟件,點幾次鼠標,就可以求出各題與總分的相關系數(以下稱“題總相關”),即各題的“r”值了。下面我們以2014年柳州市的中考語文試卷為例,用SPSS軟件來計算各道試題的題總相關系數。
第一步:把每個學生的每道題的得分輸入或導入到SPSS軟件中,如圖3。
圖3
第二步:在SPSS菜單中選取“分析”→“度量”→“可靠性分析”,如圖4。
圖4
第三步:把左邊的代表各小題的變量名都選放到右邊項目欄中,如圖5;然后點擊統計量按鈕,出現如圖6的窗口。
圖5
第四步:
在圖6中,用鼠標勾選“如果項已刪除則進行度量(A)”選項后,點擊繼續,回到上一窗口,然后點擊“確定”即可。
第五步:在軟件的輸出查看器中,可以查看各題的題總相關系數,如圖7。
圖7
細心的你可能已經發現,上面的操作跟前面討論信度時的操作差別不大。我們把各題的題總相關系數單獨列表,如表1。
表1
各題的題總相關系數求出來以后,接下來的問題,就是判斷相關系數多大的題才算是具有良好的區分度。我們可以參考一位叫艾伯爾的測驗專家給出的判斷指標,見表2。
表2
由表1和表2可以看出,上面那份語文試卷的絕大部分試題的區分度都是優良的、令人滿意的,只有第3、6、8題的分值較低,區分度不夠理想。
最后,我們需要對區分度作出幾點說明:第一,當區分度的值介于-1至1之間時,一般來說,數值越大,區分度越好;如果數值小于0,說明題目本身可能存在問題。第二,區分度是有相對性的,它與計算方法、考生能力、試題難度甚至考生數量等都有關系。舉個例子,同一道試題,如果在全市中考中有良好的區分度,但用來測試一個能力水平較高的群體時,它的區分度有可能會很低。第三,對試題的區分度進行評價,并沒有一定的標準,艾伯爾的表格只是一個常用的參照。如果要求很嚴謹,還可以對各題的題總相關系數進行統計顯著性檢驗,或者換一種方法進行計算。能在不同算法中都獲得良好評價的試題,其區分度一定是理想的。測量專家告訴我們,對大規模測試,相關系數法是多數情況下首選的方法。第四,通常我們篩選試題時,都要考慮測驗的目的、功能以及考生群體的總體水平,而區分度作為篩選試題的重要指標,并不是唯一的標準。正如前面例子當中,柳州市的中考語文試卷同時承擔了初中生畢業與升學兩項測試功能,出現個別區分度不甚理想的試題是正常和允許的。第五,通常一道試題對不同分數段人群都有區分能力,并且會對某個能力水平的人群有較強的區分能力。一份試卷亦然,一份試卷是由若干道試題組合而成,前面的圖2便是整份試卷的區分度圖形。不過,如果簡單地用“試卷的區分度”這一概念去評價一份試卷,就顯得比較粗糙了。
問題6:怎樣衡量試題的難易程度和整份試卷的難易程度?
我們希望一份試卷具有很高的信度,能夠比較全面地考查出我們想要考查的內容,還能讓我們看出哪些考生處在什么水平,把考生的學業水平逐個地甄別出來,理想的做法當然是出很多道試題,每一道試題有不同的難度,從很容易到很難,然后再看看考生能做到哪一道試題、做對到哪一道試題,這樣我們就很容易甄別出他們的不同學業水平了。然而,新的問題又出現了:我們該怎樣衡量試題的難易程度呢?endprint
比如我們在一次對廣西普通高中部分高三學生(樣本為14 575人)進行英語水平測試時有這樣兩道題:
22.— I use your dictionary for a while?
—Yes,of course.
A.May B.Must C.Need D.Will
24.—Oh,Susan,you look very beautiful in this new skirt!
—
A.No,not so beautiful. B.I dont think so.
C.Of course not. D.Thank you.
這兩道題中究竟哪道題難一些呢?其難度相差有多大,我們又該如何判斷呢?
難度是指考生做試題時所遇到的困難程度。一道試題,如果大部分考生都能順利做對,試題的難度就小;如果大部分考生都不能做對,試題的難度就大。你可能會問,一道試題究竟難到什么程度,或者這道試題比那道試題究竟難了還是容易了,應該有一個衡量的標準吧?是的,在經典測量理論里,通常以一個數值來定量地刻畫試題的難易程度,并用字母P表示,P就是試題的難度系數,簡稱難度(不同的書里有時用不同的字母表示)。
測量學的專家們給出的試題難度的計算方法不止一種,如通過率法、極端分組法等,甚至在測量多項選擇題的難度時還要作出相應的校正。而在各種算法中,最為常用也最好理解的難度計算公式是P=.其中[x] 是全體考生在某試題上的平均得分,xmax是該試題的賦分值。比如:有一道考查一年級學生兩位數以內加減法運算能力的應用題,題目賦分是5分,10名學生做該題分別得出了下面的分數,見表3。
表3
根據表3,我們可以求出10名學生在該題上的平均得分[x] ==3.6。由于該題賦分為5分,于是我們就可以用上面給出的公式求出這道題的難度值P==0.72。
對于一道試題來說,賦分值是一定的,學生越容易得分,平均得分就越高,P值也就越大。所以說,試題難度系數越大,表示這道題越容易。如果所有學生都得了滿分,題目難度值就是1;如果所有學生都沒得分,題目難度值就是0。
也許你又要反駁我們了:“你們這個例子太理想化了,哪里會只有10名學生參加考試呀?一個年級說不定有幾百個學生呢。退一步說,即便是10名學生,我換10名學生來做,題目的難度未必就是0.72。”是的,你已經看出來了,一道題的難度與參加考試的學生群體是緊密相關的,離開考試對象談試題難度是沒有意義的,這就是經典測量理論中關于難度這一指標的局限性。我們會在后續的項目反應理論的相關內容中再來談談這個問題。不過在實際運用中,由于每次考試的考生群體是事先確定的,這便可以保證試題難度的相對穩定了。
我們再來討論一個問題。假定在上面的例子中,我們同時算出了另外兩道題的難度值分別為0.82和0.92,也就是說,有三道題,其難度值分別是0.72、0.82、0.92,那么是不是可以斷定第一、第二題的難度之差與第二、第三題的難度之差是相等的呢?這是個很有意思的問題。三道題的難度依次相差0.10,但是卻不能下這個結論。實際上,難度指標P只是表示了試題的相對難度順序,卻不能指出難度差異的大小,我們可以說,第一題最難,第三題最容易,僅此而已。如果需要更多的信息,首先得把它轉成等距量表才能作進一步分析。關于什么是等距量表、怎么分析,這就不是我們今天要討論的內容了。
我們分析試題的難度,目的是篩選題目。那么,要多大難度才算是好的試題呢?這取決于考試的目的和性質。值得一提的是,難度和區分度是密切相關的。例如,一道題如果學生都做對了或都做錯了,難度P是1或0,也就無法區分學生的學業水平了,試題的區分度是0。表4顯示了試題的區分度與難度的關系。
由表4可以看出,難度過大或過小的題,其區分度都不夠理想;題目難度越接近0.50,它的潛在區分度就越大。
整份試卷的難度,同樣可以用公式P=算出來,只不過其中的[x] 是全體考生的平均成績,xmax是該份試卷的滿分值。當然,和一道試題的難度一樣,試卷的難度同樣跟考生群體有關。
(責編 白聰敏)endprint