王曉榮 錢旭升



SPSS是世界上最具影響力的統計軟件之一。綜合考慮操作簡易程度與數據分析效果,SPSS是幫助歷史教師提高數據分析能力的最佳選擇,本文具體采用SPSS20.0中文版。
一、數據的來源、錄入
本文數據以桐廬富春高中高一期末歷史考試為例。該校學生成績在全縣居于中等水平,其數據分析結論可推論至全縣乃至全市。這是本文以其為數據來源的原因。
SPSS的數據錄入通過數據窗口的變量視圖和數據視圖實現,有手動輸入和自動導入兩種方式,后者以前者為基礎。數據視圖與excel相似,可導入excel,在導入時勾選“從第一行數據讀取變量名”。導入后,對自動產生的其他變量屬性做必要修改。教師可根據要分析的變量的數量對原excel進行刪減,只保留各題題號、總分作為變量,每位學生作為一個觀察項??蓪⒃揺xcel命名為“高一學生的各題及總分表”。
本次歷史考卷有30道選擇題每題2分,3道材料題各為15分、13分、12分,共100分。參考學生643名。故本次導入SPSS的變量有34個,觀察項有643個,在數據視圖中形成34×643個單元格。
二、數據的分析
SPSS的操作是手段,讓其跑出我們需要的統計結果是目的。我們無需學會SPSS的所有功能,甚至無需知道其計算、分析的統計學原理,而只需在明確具體分析目的后正確點擊、勾選、輸入即可。
(一)總分、主觀題得分的頻數分布分析
總分、主觀題得分是多值的,其頻數可能呈正態分布。點擊分析—描述統計—頻率,將“總分”、“t31”、“t32”、“t33”移入“變量”中,點擊圖表—直方圖,勾選“在直方圖上顯示正態曲線”,跑出直方圖。
觀察可得,總分、31題略顯負偏態,32題、33題為明顯負偏態。教師也可通過K-S檢驗對正態分布進行量化判定。點擊分析—非參數檢驗—單樣本,點擊“運行”跑出結果。結果顯示四個sig.的值都小于0.05,所以四個原假設都被拒絕,即總分、31題、32題、33題的分值頻數都不呈正態分布,見表1。
(二)總分、主觀題得分的集中、離散趨勢分析
集中趨勢分析是指用一個代表值來反映一組數據的一般水平,常用統計量有均值、中位數、眾數。如表2顯示本次考試總分的平均分、中位數、眾數分別是47.51分、47分、52分。離散趨勢分析是指用一個特別值來反映一組數據相互之間的離散程度,用這個值來說明變量的各個值從這組數據的中間位置向兩端離散的程度,常用統計量有全距(又稱極差)、標準差、離散系數(標準差與均值的比,又稱差異系數)。如表2顯示本次考試總分的全距為76﹣22=54分,標準差為10.231分,離散系數10.231÷47.51=21.5%。點擊分析—描述統計—頻率,將“總分”、“t31”、“t32”、“t33”移入“變量”中,點擊統計量,勾選集中趨勢下的“均值”、“中位數”、“眾數”,勾選離散下的“標準差”、“最小值”、“最大值”,跑出結果,見表2。
(三)試卷全卷及各題質量分析
試卷質量分析的指標主要有:難度系數(P)、區分度(D)、信度(α)、效度(V)。
1. 難度系數
難度系數為平均分與滿分之比。一般認為,p≥0.7為較易,0.4≤p<0.7為中等難度,p<0.4為較難。全卷平均分47.51分,難度系數0.48,屬中等難度。教師可將各題的平均分、滿分做成一個新excel直接導入SPSS。此時SPSS中有變量2個、觀察項33個,在數據視圖中形成2×33個單元格。SPSS可以根據已有變量“轉換”得出新變量。點擊轉換—計算變量,在“目標變量”框中輸入:p的值,在“數字表達式”框中移入或輸入:各題的平均分 / 各題的滿分,跑出結果,在數據視圖增加了一個新變量:p的值。
再對新變量“p的值”進行“轉換”,得出另一個新變量:難易程度。點擊轉換—重新編碼為不同變量,在“輸出變量”框中輸入:難易程度,點擊舊值和新值,設置舊值和新值的對應關系:0.7 thru Highest 對應3,Lowest thru 0.3999對應1,0.4 thru 0.6999對應2。然后在變量視圖中設置新變量“難易程度”的值標簽,1=較難、2=中等難度、3=較易。點擊分析—描述統計—頻率,跑出難易程度的頻率表,見表3。
2. 區分度
區分度是指試題對不同水平考生的區分程度。一般認為,區分度最好大于0.3。教育統計學中利用某試題得分與總分的相關關系作為該試題的區分度,客觀題用Spearman等級相關系數,主觀題用Pearson積差相關系數。導入excel“高一學生的各題及總分表”,點擊分析—相關—雙變量,將“t1”到“t30”及“總分”移入“變量”中,勾選相關系數下的“spearman”,跑出結果。主觀題的操作相似,區別是將“t31”到“t33”及“總分”移入“變量”中,勾選相關系數下的“pearson”,得出結果,見表4。
結果顯示12、13兩道客觀題的區分度為負數,3道主觀題區分度分別為0.707、0.641、0.553。
3. 信度
信度是指測量工具對同一被試進行兩次或多次測量的一致程度,是檢驗試卷反映考生水平可靠性或穩定性的指標。信度有內在信度、折半信度、重測信度等。教育統計學中通常用Cronbachs Alpha系數(簡稱α系數)測量試卷內部題目一致性來實現對試卷內在信度的檢驗。一般認為,α≥0.8時信度較好,0.6≤α<0.8時信度相當,α<0.6時信度較差。導入excel“高一學生的各題及總分表”,點擊分析—度量—可靠性分析,將“t1”到“t33”移入“項目”中,跑出α的值為0.66。
4. 效度
效度是指測量的有效程度,是檢驗試卷是否考查了原定考查內容的指標。信度檢驗穩定性,效度檢驗精準性,兩者常配合使用。效度有內容效度、關聯效度。教育統計學中,將結果與效標之間的一致性程度作為試卷效度,這屬于關聯效度。SPSS中具體使用Pearson積差相關系數,其操作過程與主觀題區分度的操作相同。以什么為效標,是SPSS中跑出效度的關鍵。隨著學習推進,會有部分學生進步或退步較大,這會對效度的分析結果產生一定影響,可利用不同效標多跑幾次Pearson系數,再綜合判定。在效標適當的情況下,效度值要求在0.3~0.7之間,不得低于0.3。如以期中歷史考試成績為效標,先在excel中將每位學生的期中成績與期末成績成對,刪除因缺考使成績無法成對的學生后剩下學生606位。在SPSS中導入該excel,變量為期末成績、期中成績,觀察項為606位學生,得出效度值為0.679。
三、討論與建議
通過學生成績、試卷質量兩個維度的分析,我們可作如下討論與建議:
(1)學生成績??偡?、主觀題分值頻數都呈負偏態分布,說明平均分及上下人數過少,而低于平均分人數過多尤其是32題、33題。頻率表顯示32題0分有145人占總人數22.6%之多。期末考試作為合格性考試,總分、主觀題分值的頻數應呈正態或正偏態分布,即中等分值或高分值學生應盡量多。
全卷47.51的平均分、0.48的難度系數,偏低偏難。尤其32題、33題的平均分過低,中位數或眾數都只有2分、3分,直接影響區分度。我們建議應適當提高難度系數,降低難度。10.231分的標準差、21.5%的離散系數可以接受,但全距偏大,說明學生的兩極分化比較嚴重,建議教師對低水平學生進行針對性教學。
(2)試卷質量。我們認為期末試卷全卷難度系數控制在0.6~0.7比較適宜。本試卷33道題較易、中等難度、較難的比例為10:15:8,中等難度和較難占比69.7%,應增加較易題。我們認為三者比例5:3:2比較合適。
12、13題的區分度為負數,說明有很多高水平同學反而選錯,需要命題者注意,也需要教師反思教學。3道主觀題的區分度都較高,說明區分度在主觀題的內部分配不很合理。區分度與難度系數有一定關聯,為提高難度系數可適當降低區分度。中等難度題的區分度高,過易或過難的題都無法將不同水平學生區分開從而使區分度偏低。
信度為0.66可以接受。全卷信度與各題的區分度有一定關聯,當各題的區分度提高后,同一水平學生回答同一題的答案趨向一致,全卷信度隨之提升。作為合格性考試,區分度、信度可適當降低。0.679的效度值,反映了本試卷的效度比較理想。