陸念 王曉軍
現代測量理論為實現地理核心素養的有效測評提供了測量模型基礎。地理核心素養的培養應該落實在日常教學中,而地理核心素養的日常測評則落腳于地理診斷性試卷。依據地理新課標對學生地理核心素養的評價建議和要求、地理核心素養在實際教學中的測評情況,從現代測量理論的視角出發,利用Rasch模型對地理診斷性試卷進行定量評價,對地理核心素養的科學測評進行探索,試圖為核心素養評價、診斷性試卷優化提供一定的幫助和參考。
一、理論基礎
Rasch模型是丹麥數學家拉希(Rasch)在20世紀60年代基于IRT所提出的模型。Rasch模型可以將人的參數(能力)和項目參數(難度)放在同一個緯度上來進行比較。
Rasch模型可以測算出被試在每一項目上的具體表現,地理核心素養的載體就是不同情境的試題,不同試題項目正確與否又間接反映地理核心素養的水平高低。因此,從理論上講,Rasch模型可以較好地滿足現代地理核心素養定量測評的要求。基于Rasch模型設計的Winsteps軟件,具有能對試題項目進行單維性檢驗、擬合度分析、信效度檢驗等優點,對診斷性試卷質量評價、核心素養水平及發展狀況評估能提供較好的指導作用。
二、診斷性試卷中地理核心素養體現
從項目反應理論的觀點來看,個體的作答反應可以反映出個體真實的行為表現。試題本身很難直接測量出核心素養水平,但可以通過選擇測試內容、創設情境等來考查學生在不同情境中綜合運用地理概念、知識、思維模式、探究方法與技能解決地理問題的能力,分別達到了何種程度與水平等。因此,通過學生的作答反應可體現其地理核心素養水平。
參考地理新課標中的“測試內容、試題情境、地理學科核心素養水平劃分”等維度,對某中學高三年級第一學年期中地理考試試卷進行梳理與分析,構建本次診斷性試題的命題情境、考查內容、核心素養及水平考查框架(見表1)。
三、研究數據與方法
本次研究數據來源于某全日制高中高三全體選考地理學生第一學年期中考試的地理成績數據,樣本數量共計為731份。選擇題共15道,共計45分,主觀題共4道,每道主觀題分值不一,共計55分。
根據學生的主觀題得分,使用評分量表對學生的考試成績進行分類。
最后使用Office Excel將處理后的評分數據制成表格,再用Rasch軟件Winsteps3.72.3進行分析。
四、Rasch模型檢驗結果與分析
(一)試題的單維性分析
單維性檢驗的目的是檢驗評估數據能否被單一Rasch緯度充分解釋。當項目標準殘差系數值在[-0.4,0.4]之間時,表示對應項目符合單維性要求,Rasch模型能夠對其進行準確的分析。大部分試題都在可接受范圍[-0.4,0.4]內,只有項目A(第6題)和項目a(第2題)這兩個項目沒有通過,超過了標準范圍,需要單獨分析。總體上本次測試滿足Rasch單維性檢驗,可以進行進一步分析。
(二)模型數據擬合程度分析
使用Rasch模型進行分析時還需考慮數據與模型的擬合情況。Outfit MNSQ和Infit MNSQ這兩個指標分別表示標準殘差的均方和加權后的殘差均方,Outfit MNSQ和Infit MNSQ的取值若在[0.7,1.3]范圍內,則表示數據與模型擬合。本次測試的學生與試題的MNSQ值(表4)均在[0.7,1.3]范圍之間,表明測試試題與Rasch模型充分擬合,測試結果具有可信性。
(三)信效度分析
信度數值越接近1說明信度越高,分離指數越大說明區分度高。本次期中地理考試測驗試題信度和試題分離指數(表3)分別是1、39.09,本次測驗試題信度高,區分度好,說明本次測試能夠反映學生真實水平且能夠很好地對不同水平的學生加以區分。
效度主要考察指標包括單維性、模型-數據擬合情況、學生能力和項目難度的分布。數據單維性和擬合程度表現較好,且通過Winsteps軟件生成的項目-被試圖發現,項目難度跨度范圍較大,且分布較為均勻,整體覆蓋了被試的能力范圍,試題結構基本效度合理。
(四)試題數據分析
Rasch模型可以把學生考試的原始分數轉換為Logit分數,將學生水平放在等距量尺上進行比較。為了便于統計,將個體與試題的原始對分數值轉換為[0,100]范圍內(表4),轉換后不影響統計結果。
試題的擬合數據范圍為[0.7,1.3],說明試題與模型擬合較好。試題的難度范圍為[46.81,58.73],跨越范圍較大,表明試題難度能與不同水平的學生進行匹配;模型誤差范圍為[0.15,0.4],測量誤差很小,在模型可接受范圍之內;在點-測量(PTME corr.)方面,第1、2、7、9、11、12、13題的值小于0.3,說明這幾道試題的區分度較低。
學生的能力測量平均值為45.6,試題難度平均值為49.63,試題測量值略大于學生測量值,說明本次測試對學生來說略難。最難的試題為E、B、A1(第19題、第16題、第1題),最簡單的試題為D、A6、A9(第18題、第6題、第9題)。
(五)結果討論
由數據分析可知,未通過單維性檢驗的試題是第2題與第6題;難度過高的試題是第1、6、9題;區分度較低的試題是第1、2、7、9、11、12、13題。通過觀察學生在各個項目中異常表現,不僅可以揭示學生在該地理情境表現不好的原因,還能為未來教學提供一定的方向。
五、結論
由以上Rasch模型定量分析可知,該診斷性試卷具有良好的信度和區分度,能較好地反映學生地理核心素養水平,試卷總體質量較好。
試題難度偏高,學生整體得分低于項目難度,部分項目水平和被試能力不能完全對應,說明本套試題在命題和組卷上還存在問題,應結合學情對部分難度較大、區分度較低的試題酌情替換或優化,以便更全面地考查與評估學生的能力。
在試題命制中,通過學生在創設的不同情境中的作答反應可以反映出學生的能力水平,不僅可以直觀反映學生的核心素養水平、具體知識掌握情況,還能將不同能力學生放在同一尺度上進行比較,一目了然對比學生差異。結果分析表明,本套診斷性試卷對于學生地理核心素養的測量是合理的。
(作者單位:濟南大學 水利與環境學院)