關鍵詞: 數學學業成就;標準參照性評估;項目反應理論;信息函數;實證分析
摘 要: 對不同類型學校的774名有效被試實施數學學業成就水平測試,并應用IRT參數模型方法進行分析,得出四點判斷:(1)測驗分數、最優分數呈負偏態分布;(2)測驗信息函數負向偏移,大體呈現雙峰波形;(3)主觀性試題與邏輯斯蒂模型的擬合性較差;(4)不同類型學校學生的數學學業成就水平存在顯著性差異。
中圖分類號: G44 文獻標志碼: A 文章編號: 10012435(2012)01006707
An Empirical Analysis on Mathematical Academic Achievement Test Based on IRT
SHEN Nanshan ( Dept of Math,West Anhui University, Lu’an Anhui 237012, China)
Key words: mathematical academic achievement; criterion-referenced evaluation; IRT; information function ; empirical analysis
Abstract: Mathematics academic achievement of proficiency test is based on the national mathematics curriculum standards, which is criterion-referenced evaluation that constructed professionally in order to assess student mathematics learning quality in basic education. Through stratified sampling, 774 valid subjects distributed in the different types of schools are to be for mathematics academic achievement testing. We analysis Analyse the test dates in applying the IRT parameter model and obtain four judgments:(1) Test scores and the best scores should be positively distributedshow negative skewness; (2) the test information function should be offset to the negative direction, so that there would be generally show a double waveform. (3)The subject item is poorly fit with the logistic models; (4) There is an obvious difference among the mathematics academic achievement levels of different types of schools.
學生學業成就水平測試是教育心理學研究中一個重要課題,它的定位是“國家課程測驗”,測試結果及其分析是評價學生、教師和學校教育質量的重要依據,滿足改善學生學習和教育問責兩大功能。學生學業成就水平測試在歐美國家已形成了比較完備的學業評價體系,如,美國中小學學業評價測量體系,定期對4、8、12年級學生的閱讀、數學、科學、寫作等學科的學業成就和學習能力進行測試,客觀分析和描述美國學生的學習狀況;英國“資格與課程局”監管國家課程測驗,負責制訂國家課程和各種教育證書標準,組織統一的學業水平檢測等。我國學生學業評價研究起步較晚,[1]就數學學科而言,我國還沒有真正意義上的國家級數學學業成就水平測試,其測試內容、測試框架及測試功能均處于研究的初始階段。隨著項目反應理論(Item Response Theory,IRT)分析技術的推廣與應用,學生學業成就水平評價的理念、方法及其實踐范式將發生根本性的轉變,IRT模型可以很好地描述學生學業成就的數據特征,其科學性和有效性得到了可靠的保證,本文以此為主要研究方法,對數學學業成就水平測試進行研究,以期對我國基礎教育數學學業評價改革提供參考。
一、研究方法
項目反應理論于50年代初正式創立,[2]20世紀70年代以來,成為現代測驗理論研究的重點。近二三十年來,以項目反應理論為代表的考試理論研究取得了長足進展,對促進我國基礎教育考試評價方式的改革具有方法論意義。[3]通常,IRT模型建立在一維強假設理論基礎之上,即被試的能力表現為一種\"潛在特質\",且與他們在測驗項目上的正確反應概率之間存在一種特殊的函數關系。研究表明,這種函數關系所刻畫的項目特征曲線可用多種數學模型來描述,如單參數、雙參數、三參數及多維IRT模型等。[4]項目反應理論研究表明:[5]229-241在三參數邏輯斯蒂模型的參數估計中,一個基本條件是要求高能力的被試和低能力的被試樣本需要足夠大,否則算出的猜測參數c有時大于0.9,有時小于0.1,這與猜測參數c的意義不符。
至于多維IRT模型的理論和實踐更為復雜。因此,本分析研究基于樣本容量大小和可操作性方法的考量,選擇雙參數模型的參數計算軟件(IRTP軟件)計算項目參數。
研究假設是:(1)測試結果分析能夠解釋與推論基于國家課程標準的數學學業成就水平的評估;(2)IRT參數模型方法應用于數學學業成就水平測試具有科學性和有效性。
本研究選擇的測試對象為義務教育八年級學生。為探討不同層次和類型學校學生的數學學業成就水平,樣本通過分層抽樣,在安徽省L地區的農村和城市抽取三種類型學校(農村學校、城區學校和私立學校)840名學生參加了測試私立學校在義務教育中發揮了較好的作用和辦學優勢,本研究在抽樣設計時充分考慮到這一因素,將其從城區學校的抽樣中單列為一類學校加以分析。
,三種類型學校平均發放樣本。試卷回收后,得有效樣本數為774份,有效率92.14%。其中農村學校有效樣本數264份,有效率94.3%;城區學校有效樣本數253份,有效率90.4%,私立學校有效樣本數257份,有效率91.8%。
測試工具為測試試題和調查問卷兩部分。測試試題為“標準參照性評估”試題,其編制是基于國家數學課程標準和國內五套不同教材的比較分析,本研究比較了人民教育出版社、北京師范大學出版社、`華東師范大學出版社、江蘇科學技術出版社和浙江教育出版社出版的教材。
共列出義務教育八年級數學內容評測指標細目計有63個,扣除9個未出題,測試試題共針對54個細目指標出題(包含間接性應用細目知識),命題內容覆蓋率達85.7%。測試試題在某市進行了300名被試的預測,根據預測分析報告,確定試題的難度系數為0.75-0.85之間,試題的容易題、中度題和難度題的比例為6:3:1,比較符合整體性的數學學業成就施測要求,以此數據為參量標準校正改編試題。[6] 本測試試題共設計17個試題項目,所有試題項目用M1,M2,……,M17編碼。調查問卷用學生父母的收入、職業以及文化程度作為學生家庭社會經濟地位的測量,用學校環境問卷對學校學習環境進行測量。
二、測試數據分析與處理
所有測試數據用EXCEL格式和“記事本”格式輸入,利用 SPSS和IRTP工具軟件計算測試項目的相關參數,如難度和區分度、信息函數、測驗分數分布、能力參數估計、與邏輯斯蒂(logistic)模型的擬合性檢驗以及非參數顯著性檢驗等。
(一)項目難度和區分度
測驗試題的難度和區分度是反映試題項目信息的一個最基本的數據特征。全卷17個試題項目共分劃為37個節點(步驟)評分,選擇題和填空題為二級評分項目,解答題為多級評分項目,每一個試題項目通過項目特征曲線和節點得分曲線準確刻畫每一個項目(節點)的難度和區分度。例如,一道滿分為9分的多級評分試題項目 有三個節點,該試題項目為四級評分:0分、3分、6分、9分,其項目特征曲線和節點得分曲線如圖1所示。
圖1是項目特征曲線,表明三個節點的難度系數分別為1.65、0.83、0.01,對應的區分度分別為1.89、1.31、0.78。下圖是節點得分概率曲線,可以看出被試能力小于1.5,得0分概率逐漸增大,答其他分的概率較小;被試能力位于(1.5,0.5)之間,得3分概率
b=1.65,0.83,0.01 a=1.89,1.31,0.78
圖1 試題項目特征曲線和節點得分曲線圖
最大,答其他分的概率較小;被試能力大于0.5,得9分的概率逐漸增大。
(二)測驗信息函數
測驗信息函數是IRT模型中用來表示被試能力水平估計值的測量精度,反應整個測驗總體信息量的走勢特征。信息函數從根本上改變了經典測量理論依賴于樣本的測量誤差分析的方法和技術,將試題的難度與被試的能力特質水平置于同一個度量系統上,對被試的“能力參數”進行測量。測驗信息函數反應整個測試
項目的總體信息量,具有疊加性,是每一個試題項目信息量的
圖2 測驗信息函數圖
和。每一個測驗項目的信息量取決于該試題項目的區分度和被試的能力水平與試題難度之差。區分度越大,被試的能力水平與試題難度之差越小,測驗項目提供的信息量越大。[7]
本次測驗信息函數如圖2所示,圖像大體呈現雙峰波形。整個來看,對于被試能力位于區間(3,1.5)范圍內的被試提供了較大的測驗信息,對被試能力值在2.8附近提供了極大信息量,在1.4附近達到一個較小峰值,而對被試能力在其他區間的被試所提供的信息量較小。
(三)測驗分數、最優分數及能力參數、能力分數參數估計
1.測驗分數、最優分數呈負偏態分布
IRT模型中,能力分數是由能力參數轉化而來,是一個參數不變量。測驗分數是被試的實
測分數,最優分數是按“最優評分權”①
評定的分數,即只有當被試的能力參數與測驗項目的難度充分匹配的時候,被試才能在該項目上得高分。[8]統計數據分析顯示:能力分數呈正態分布,而測驗分數、最優分數呈負偏態分布(如圖3-圖5所示)。被試的最優分數分布與測驗分數分布也存在一些差異。統計表明,最優分數在(80,90)的高分段的比例占總數的14.5%,與測驗分數同段高分比例21.8%相差了7.3個百分點。
2.能力參數、能力分數參數估計置信區間
能力參數、能力分數參數估計置信區間是保證測驗有效性的重要參量指標。項目反應理論研究表明:當測驗項目的樣本容量足夠大時,能力
計精度較好,其估計誤差在0.6個θ0左右,這與信息函數所反映的測量指標具有一致性。就是說,在95%的置信度下,如果某個被試的能力估計值為零,其真值將位于區間(0.6,0.6)范圍內.而對于能力估計值大于1.5或小于3的被試,其估計誤差都大于0.6個θ0以上。
同理,當測驗項目的樣本容量足夠大時,能力分數估計量的極大似然估計漸進服從正態分布,
即當n∞時,AX^G3漸進服從N(X0,400/I(θ0))。[5]155156
所以,對置信水平α=0.05,由正態分布表,可查得雙側分位值
uα2=1.96,于是在95%的置信度下,有不等式
|AX^G3-X0|<1.96×20I(θ0)
成立,這樣,能力分數X0的95%置信區間為
(AX^G3-1.96×20I(θ0),AX^G3+1.96×20I(θ0))。
一般地,X0通常是未知的,可用X0的極大似然估計AX^G3代替。圖7是該次測驗的信息函數得到的置信區間,圖中的帶形區域就是能力分數參數估計值95%的置信區間,圖中的橫坐標表示能力分數估計值,縱坐標表示能力分數真值,下曲線是能力分數置信區間
(AX^G3-1.96×20I(θ0),AX^G3+1.96×20I(θ0))
的左端點曲線,上曲線是右端點曲線。
我們看到,該次測驗對能力分數值位于區間(20,80)內的被試的估計精度較好,其估計誤差在10分左右。就是說,在95%的置信度下,如果某個被試的能力分數估計值為20,其真值將位于區間(10,30)范圍內。
3.測試數據的擬合性檢驗
(1) IRT邏輯斯蒂模型的卡方擬合檢驗
本研究中,我們對17個測試項目的37個節點項目進行了卡方擬合性檢驗,如表1所示:
從表1可以看出:有11個試題項目(主要是客觀題)完全擬合邏輯斯蒂模型,有3個試題項目基本或部分擬合邏輯斯蒂模型,基本或完全擬合邏輯斯蒂模型約占83%以上;但有3個試題項目完全不擬合邏輯斯蒂模型。
(2) 測試數據的擬合優度非參數檢驗
邏輯斯蒂模型的擬合性檢驗是對單個項目(節點)的有效性檢驗,然而單個項目的有效性并不足以保證測試一定是有效的,反過來,個別項目擬合性不好,如節點劃分、隨機誤差等因素的影響,也不能得出整個測試是無效的結論,還需對整個測驗進行顯著性檢驗。
* 單樣本K-S擬合優度的非參數檢驗
從表2結果可看出: 測驗分數、最優分數K-S的Z統計量分別為3.281、3.329,對應的相伴概率都為0.000,小于顯著性水平0.05,因此,測驗分數、最優分數都不服從正態分布,而呈負偏態分布。而能力分數K-S的Z統計量為1.275,對應的相伴概率為0.077,大于顯著性水平0.05,因此, 能力分數服從正態分布。能力分數是一個參數不變量,對于大樣本來說,學生的能力參數呈正態分布是自然的。
檢驗結果表明,三種類型學校的均值和平均秩有較大差別(表3),私立學校大于城區學校,城區學校大于農村學校。平均秩的卡方檢驗值為79.595,其相伴概率0.000小于顯著水平0.05(表4),所以,這三種類型學校的分數分布具有顯著差異。中位數統計結果表明,農村、私立學校、城區學校的測試分數大于中位數的個數分別為88、174、119(表3)而三種類型學校的有效樣本數相差不大,農村學校的有效樣本數還略高于其他兩類學校。卡方檢驗值為62.27,其相伴概率0.000小于顯著水平0.05(表4),同樣說明這三種類型學校的分數分布有顯著差異。
三、 研究結論及建議
(一)結果分析與討論
1.測驗分數、最優分數呈負偏態分布。數學學業成就水平測試是一種標準參照考試,不同于選拔性的常模參照考試,考試功能之一是國家層面上的基礎教育質量評估監測,決定了評測性質主要在于考察學生基礎知識和基本技能的掌握能力。
因此,就數學學業成就水平測試的考試性質和功能定位來說,測驗分數、最優分數呈負偏態分布具有合理性。同時,我們看到,在最優評分權下,高分段的比例下降7.3個百分點,
原因之一是最優分數受測驗難度的影響要小一些,雖然最優分數和測驗分數都依賴于測驗樣本的難度,但在最優評分權下,如果被試的能力參數與測驗項目的難度不匹配,被試在項目上的得分就會降低。由于這一原因,使用“最優評分權”方式評分,能夠去掉了一些由于測驗因素造成的虛假高分,從而使分數的分布更為合理。
2.測驗信息函數負向偏移,大體呈現雙峰波形。統計分析表明:17個項目中有15個項目(約占88%)在被試能力小于零的參數點附近達到峰值,這個數據走勢反映學業成就水平測試對于測查“能力弱”的被試所提供的信息量較大,對測查“能力強”的被試所提供的信息量較小。數學學業成就測試考慮的是整體性的基于課程標準的“達標”水平測試,試題編制控制了較難的題目,對于能力較好的被試可能區分度較差,
測試的信息函數峰值向能力較弱的被試群體偏移。從項目反應理論觀點來看,測試的整體信度函數負向偏移是正常的合理的,也與測驗分數、最優分數呈負偏態分布具有一致性。本次測試對被試能力在-2.8附近提供了極大信息量,表明測試的難度與學生能力較弱群體比較充分匹配。一般常模參照測驗,較理想的信息函數曲線應當是正態分布曲線。但對于學業成就水平測試,顯然“正態分布” 信息函數曲線是不足取的,因為它不是甄別選拔考試,它與數學學業水平測試設置的“合格”分數線有關。理論上,可以通過變更試題項目難度達到任何要求的精度。
3.主觀性試題與邏輯斯蒂模型的擬合性較差。
完全不擬合邏輯斯蒂模型和部分擬合邏輯斯蒂模型的的一個共同特點是主觀性試題占很大成分,
如“方法探究題、解釋性開放題、操作性測查題”等,問題的背景知識較多,多屬于文字說明性和數學知識性混合式解答。出現這種結果筆者認為主要有兩個原因:(1)主觀性試題難以滿足IRT的一維性假設(即被試的能力表現為一種“潛在特質”),因為數學主觀題在解題能力方面,涉及多知識因素、多能力思維等的綜合,難以用一種因素作概括,這樣以IRT中的一維性假設確定的數學模型,顯然難以得到理想的擬合。(2)多級評分理論建立在每一個試題項目節點的劃分上,對于主觀性試題,節點邏輯關系不甚明顯,劃分起來相對比較困難,“準確度”相對較差,而且節點之間包含關系不強,甚至成平行邏輯關系,這個因素也極大影響測驗數據與邏輯斯蒂模型的擬合程度。
4.不同類型學校學生的數學學業成就水平存在顯著性差異。在農村、私立、城區三個不同類型學校的檢驗結果顯示,不同類型學校學生的數學學業成就水平有顯著性差異,且為私立學校學生為最佳,城區次之,農村學生則有很大的落后趨勢。究竟為何有此一結果?是教學方式的不同、學生的學習習慣的差異或是其他原因值得進一步探究。但從試題上反映,大多數學生對
試題的內容、結構特點和策略方法訓練不夠,元認知調控能力較差,尤其農村學生表現更為突出。調查問卷也表明,私立學校和城區學校實施素質教育的重視程度和課程教學的落實情況均較農村好。由此,我們也可不完全推論,數學素質教育成效與學生的學業成績呈“正相關”的推論。
(二)研究建議
1.建構完整的義務教育數學學業成就水平評估檢測系統。義務教育學業成就水平檢測是一種大規模的教育評價考試,其評測體系是我國基礎教育質量監測的一項重要而又艱巨的任務。就數學學科而言,我國迫切需要在專業化水準上建設義務教育階段的數學學業水平檢測系統,應用IRT理論開發數學學業成就水平測查題庫,并利用IRT“垂直等化”方法將不同年級的試題連結起來,逐步實現應用計算機“自適應”測驗,大規模測試不同能力學生的學業成就水平。
2.探索多元測評理論有機整合的學業測評模式。學業水平考試是一項專業化的工作,學術性很強,經典測量理論和項目反應理論各有其優缺點,需要根據不同教育測評理論的測量模型估計方法,嘗試不同的測驗設計方案在實踐應用過程中的比較研究,探索出適用于我國義務教育教學質量監控與評價的最優方案。例如,在試題項目的題型選項設計、多級評分項目閱卷、分數推論與解釋等,盡量避免項目反應理論在主觀題上的不利因素,可將經典測量理論和項目反應理論有機地結合起來,科學地分析學業水平測試數據,為學業評價提供具體可靠的數據信息。
3.中小學要進一步轉換數學教與學的方式。轉變教育觀念,改進教學方式,提高學生綜合解決數學問題的能力仍然是基礎教育教學的一個盲點,沒有真正得到落實。測試表明,學生對探究性、開放性等“能力型”數學問題的解答元認知調控能力較差,對這類問題心存畏難情緒,不能形成良好的數學認知結構。主要原因之一是中小學數學教學缺乏必要的“問題解決”思維訓練,忽視學生的實踐能力和創新思維的培養。
4.實施數學素質教育需要城鄉教育均衡發展。從數學學業水平測試中,我們感悟到,農村和邊遠地區學生學業水平有待提高,素質教育沒有得到真正落實。因此,加強農村教育教學工作是全面實施素質教育的中心任務,教育部門應科學決策,以農村教育課程、教學與評價為重點,促進課程與教學評價的專業化,整體提高我國教育評價的科學性和有效性,推動我國義務教育學生學業評價事業的科學發展。
參考文獻:
[1] 崔允漷等.基于標準的學生學業成就評價[M].上海:華東師范大學出版社. 2008:172.
[2] 戴海琦.基于項目反應理論的測驗編制方法研究[J].考試研究,2006,(4):31-32.
[3] 辛濤.項目反應理論研究的新進展[J].考試研究,2005,(7上).
[4] Frederic M. L.Applications of Item Response Theory to Practice Testing Problems [M].New Jersey:Lawrence Erlbaum Associates,Inc.Publishers,1980:12-14.
[5] 杜文久.高等項目反應理論[M].重慶:西南師范大學出版社,2007.
[6] 沈南山,楊豫暉,宋乃慶.數學學業成就評價測查試題編制研究[J].教育研究,2009,(9):57-63.
[7] 雷新勇.大規模教育考試:命題與評價[M].上海:華東師范大學出版社. 2006:75-79.
[8] 漆書青,戴海崎.項目反應理論及其應用研究[M].南昌:江西高校出版社,1992:168-175.
[9] 張敏強.教育測量學[M].北京:人民教育出版社,1998:169.
責任編輯:王俊恒