王立東,郭 衎,孟 夢
?
認知診斷理論在數學教育評價中的應用
王立東1,郭 衎2,孟 夢3
(1.中國人民大學附屬中學,北京 100080;2.北京師范大學數學科學學院,北京 100875;3.西南大學數學與統計學院,重慶 400715)
質性地比較論證了基于認知診斷理論的數學教育評價工具開發的可行性.通過分析實際測試數據,比較幾種不同認知診斷模型中的參數估計方法實際應用于分析數學評價測驗的可能性.研究發現,認知屬性概念可以幫助研究者和實踐者分析影響學生解答數學題目背后的認知結構.人工神經網絡模型能夠充分利用理論設計的認知模型,克服測驗題目有限、題型多樣、認知屬性差異大等不易分析的困難,較好評價學生的數學學業成就,為后續教學提供診斷性信息,達到了診斷性測驗的目的.
數學教育評價;多維評分;認知診斷模型;屬性層次模型;人工神經網絡模型
通常的數學測驗只給出一個籠統的測驗分數,而對于具有相同分數的學生,既不易區分他們可能具有的不同數學認知結構[1],也沒有具體給出學生在數學學習的哪個方面存在不足.在教育研究中,這種測驗分數無法提供精細化的學生學業成就評價;在教學實踐中,這種測驗分數對于后續數學教學的指導,也往往依賴于教師對于試卷的經驗性分析.
心理測量學中的認知診斷理論(Cognitive Diagnose: CD)依據測量學理論和統計分析技術給出了對于學生學習狀況的標準化多維評價,為后續的教學實踐提供了精細化的指導信息.心理學工作者開發了多種認知診斷模型和技術,如規則空間模型(Rule Space Model: RSM)[2]、DINA模型[3]、屬性層次模型(Attribute Hierarchy Method: AHM)[4]等.在具體的模型下,又有多種不同的統計分析方法,如在AHM模型的理論框架下,就有多種屬性掌握概率的參數估計方法[5].
研究將以大規模七年級學生代數學業成就測試的編制與實施為案例,嘗試將認知診斷理論中的AHM模型應用于數學學業成就的診斷性評價中,通過質性分析論證其應用于數學教育理論與實踐的可行性.
2.1 AHM模型概述
AHM模型是在規則空間模型的基礎上發展起來的一種重要的認知診斷模型.該方法的核心概念是認知屬性(Attribute),對于該概念,心理測量界有多種描述,但詳細考察其間沒有本質上的區別.綜合Tatsuoka(2009)、Leighton等(2004)的觀點,認知屬性可以被認為是一般性的知識與認知技能,或程序與陳述性知識,在課程標準為教學目標的教學系統中,可以將屬性等同于課程標準中的具體教學目標的條目.在數學背景下的認知屬性可以是具體的數學知識(如掌握有理數的定義)、技能(如能夠求解二元一次方程組),也可以是相對抽象的數學思想(如數學類比的思想)等.它是一種將考生在測驗項目上的作答情況與特定認知屬性掌握情況建立數量關系的統計方法,進而能夠對于學生學業成就進行多維度評價,為后續的教學提供診斷信息(指出學生在哪個認知屬性的掌握上存在不足)[6].
該方法以認知結構理論為基礎,在操作上,先由學科專家確定要測量的各個認知屬性及其層次關系,將此作為指導測驗編制的認知結構模型.如:圖1表示分別被稱為直線型和收斂型的認知結構模型,各自由4個和6個需要測量的認知屬性組成.

(直線型)

(收斂型)
圖1 屬性層次結構圖示例
在數學學習上,這若干個認知屬性應存在邏輯先決關系(由箭頭表示),如A1A2表示學生掌握A2屬性必須是以掌握A1屬性為前提(如掌握二元一次方程組的解法必須是以掌握一元一次方程解法為基礎),即直接的先決關系.
這樣在測量高級屬性的過程,可以提供低級屬性的測量信息.如,正確回答二元一次方程題目的學生,可被判定是掌握了二元一次方程屬性,同時,也在一定程度上掌握了一元一次方程屬性.此外,正確回答了一元一次方程題目,但錯誤回答二元一次方程題目的學生,要比錯誤回答了一元一次方程題目和二元一次方程題目的學生在二元一次方程屬性的掌握情況上更好(雖然他們錯誤地回答了二元一次方程題目).
在屬性層級關系的基礎上,可以獲得一個可達矩陣(Reachability Matrices):表示各屬性間的直接或間接的先決關系.


在可達矩陣的基礎上,通過擴張算法(丁樹良等,2009)[7]得到包含各類可能的屬性組合的完全的矩陣,該矩陣建立了題目與屬性的關系.


基于這個過程設計的題目能夠整合已有的認知理論對于各類屬性層次結構的認識,可以從內容效度的角度保證了所設計的測驗能夠測量、區分學生不同的認知結構.
通過矩陣,可以獲得若干個學生的期望反應模式,這個模式假設學生完全依照認知模型作答,不受任何隨機因素(如猜測,發揮失常等)影響.也可以獲得與期望反應模式相對應的屬性掌握模式(即在理想狀態下,具有某種屬性掌握模式的學生的答題結果是期望反應模式).如圖1中,直線型結構給出的認知結構樣例中,學生應有4種理想的反應模式包括(1, 0, 0, 0)、(1, 1, 0, 0)、(1, 1, 1, 0)、(1, 1, 1, 1),其中4個數字分別表示學生回答4道試題(由矩陣決定)的正誤情況.即按照圖1中的層次關系,在理想的情況下,學生如果正確回答了第二題,在無其它隨機因素影響的前提下,應正確地回答第一題.對應的屬性掌握模式為(1, 0, 0, 0),即僅答對第一題的學生在理想狀態下,應是僅掌握第一個認知屬性.
在教育實踐中,學生對于某種屬性的掌握情況無法僅由掌握和不掌握來描述,同時實際答題的過程中還受到許多隨機因素的影響.AHM模型可以基于學生的實際答題情況(稱為反應類型),如:(1, 0, 0, 1)代表學生正確回答第一、第四題,錯誤回答了第二、第三題.AHM模型通過估計屬性掌握概率(對于各個屬性掌握情況都用一個屬于[0, 1]的數來刻畫)更加細致地刻畫屬性掌握情況,如(0.1, 0.5, 0, 0.8)可代表學生對于4個認知屬性的掌握情況(該學生較好地掌握了第四個屬性,對于第二個屬性掌握一般,沒有掌握第一、第三個屬性).認知診斷模型對于學習者在某個屬性上的掌握情況做出判斷,進而從中獲得反饋指導相應的教學(如學生在第一、第三個認知屬性的學習上需要重點加強,補充學習).
2.2 測驗框架設計與試題編制
評價模式選擇為標準參照的診斷性評價,以課程標準中的有關數學教學內容的具體條目為測量目標,將其作為AHM模型中的認知屬性.
在征詢了部分一線教學專家的意見的基礎上,將七年級的代數和幾何內容分開編制測試問卷.(由于在七年級的教學要求中,代數幾何的綜合內容可以忽略不計,同時忽略統計教學內容和一次不等式(組)的教學內容.由于在七年級第二學期期中考試后(5月底,6月初)對于學生進行測量,按照基本教學計劃,多數學校還未教授這兩個內容.)
針對代數測試卷(編碼為卷Ⅰ)先在16個涉及代數的屬性中(不包括不等式的內容)由多位有中學教學經驗的數學教育專業博士生從上述屬性中,抽取認為處于核心知識地位的8個屬性(總數的50%),具體見表2.

表2 代數內容認知屬性
在此基礎上,得到各測試卷認知模型.屬性層次結構圖見圖2.

圖2 屬性層次結構
以上屬性層次結構給出了需要測量的8個屬性的層次結構關系,如掌握屬性A1.1是掌握屬性A1.2和A1.3的直接先決條件.
用矩陣的形式給出如圖2所示結構圖,得到如表3所示的可達矩陣.

表3 可達矩陣(卷Ⅰ)
在可達矩陣的基礎上,獲得縮減矩陣.這個矩陣考慮了8個具體層級關系屬性理論上可以在相關題目中實現各種組合情況,同時也考慮到了數學學科內容的特點,包括按照理論上的屬性搭配模式編制的問題可能不是在初中范圍內實質上的,有意義、有價值的數學問題(如強行將兩個數學內容聯系在一起或者產生如二元一次方程組與絕對問題相結合的難度過大的題目),或者這些問題是否過于復雜、難度過大的問題,同時也考慮是否會造成試卷過長的問題.如是否考慮屬性A1.2(相反數與絕對值內容)會造成題目大量增加(因為A1.2相對“獨立”).
在可達矩陣的基礎上,獲得了如下的縮減矩陣(包括11類題目),如表4所示.

表4 縮減Q矩陣(卷Ⅰ)
上述矩陣表明,在開發測驗中,需要編制11類題目.
在此基礎上,形成卷Ⅰ的各個測試題目.
正確回答該題目需要掌握涉及A1.1和A1.2兩個屬性的知識與能力.正確回答該問題說明學生較好地掌握了屬性A1.1(有理數的意義、數軸上的點表示有理數、比較有理數的大?。┖蛯傩訟1.2(會求有理數的相反數與絕對值(絕對值符號內不含字母)).
2.3 屬性掌握分數的參數估計模型
針對如何通過學生的題目反應模式獲得學生對于各個屬性的掌握分數的問題,現有文獻提供了多種針對AHM模型的參數估計方法.
方法一:Leighton, et al(2004)提出了依據“滑動”(slips),觀測反應模式(Observed Response Pattern)向期望反應模式判定的方式中的A方法,結合Tatsuoka(2009)中屬性掌握概率的概念獲得一個新的屬性掌握分數估計方法,具體過程如下:
計算其由某個特定的期望反應模型“滑動”而來的后驗似然:


方法二:朱金鑫等(2009)[8]提出了非IRT的屬性掌握概率的估計方法.首先,計算學生在包含屬性的項目中答對的比例,利用這個比例估計學生掌握某個屬性的概率,同時將答對某個項目的概率定為該項目涉及的所有屬性掌握概率估計的乘積,這個項目答對的概率可以修正上述學生掌握某個屬性的估計,進而獲得學生在某個屬性掌握概率的
估計:

朱金鑫等(2009)認為這個估計方法可以消除屬性間的影響,但研究者認為屬性間可能存在的影響恰恰可以為屬性掌握情況的估計提供更為豐富的信息.如:如正確回答二元一次方程的學生,即使在求解一元一次方程的題目中出錯,但在有關一元一次方程的認知屬性的評價中,應當考慮屬性層次提供的信息,不應評為0.
方法三:Gierl, et.al(2007),(2008)[9]提出了應用人工神經網絡學習模型(Artificial Neural Networks,以下簡稱ANN)估計屬性掌握概率的方法.ANN方法是由生物神經網絡啟發的計算模型,包含多組不連接的人工神經元.在學習的過程中,通常基于內部或外部的信息修正激發函數.通常被用來建立輸入與輸出的復雜關系以發現數據的模型.
該方法采用Logistic函數(S型曲線)作為隱藏層(Hidden Layer)和輸出層(Output Layer)的激發函數(Activition Function):


可以看到該種方式的模型決定了各個項目的結果都為各個屬性掌握的結果的估計提供了信息,這就建立了屬性之間的聯系,可用學生的答題情況估計學生的屬性掌握情況.
下文將基于一個實證大樣本調查研究的數據比較上述3種參數估計方法的運算結果,質性地論證將認知診斷理論應用于數學教育評價的可行性.
針對性地搜集了理論框架設計所需的數據,從而保證了研究的系統性.數據來自北京師范大學與美國Vanderbilt大學的MIST-CHINA國際合作項目的數據庫,樣本來自中國3個大城市學區的教師與學生.
用分層隨機抽樣的方法從重點中學(示范中學)與非重點中學(普通中學)中近似隨機選擇若干所初級中學(包括完全中學的初中部).從每所學校的七年級隨機選取5~7名數學教師作為教師樣本,選取每位教師教授的一個班的學生為學生樣本(隨機選擇每位教師的一半的學生完成代數測試),有效數據為:1?304名學生的代數測試數據.
利用實際施測數據對于幾種方法進行了比較,討論了各種方法的差異,進而獲得了適合該研究數據分析的相對高效度的分析方法.
嘗試一:利用綜述中的方法一獲得對于學生屬性掌握分數的估計,每個學生的屬性掌握情況由一個八維向量來表示,但通過計算各個維度屬性掌握分數的相關系數,發現該方法在分析研究數據的計算結果存在一定的問題,如表5所示.

表5 屬性掌握分數的相關性的案例
通過相關分析,學生在某些屬性的掌握概率與另外一些屬性的掌握概率呈現負相關(如表5中用下劃線標識的),而且相關系數較大(統計顯著),項目反應理論(IRT)估計的學生數學能力數值(在表格中以BILGdata表示)與部分屬性能力數值呈現負相關的現象.
這種現象與教育實踐經驗無疑是不相符的,通常的認識是在同一個領域的學習中,不同的內容間的學習情況在一個群體中應當是具有一定的一致性的,呈現強負相關的情況無疑是值得懷疑的.
這是由于在對于學生進行多維認知評價的時候使用具有單維假設(假設學生的能力能夠用一個數值來表示)的IRT模型所帶來的問題.即在計算滑動似然的時候,單維的IRT模型不易精確刻畫相應的似然,同時此研究的測試在使用IRT分析時,鑒于實際作答情況,采取了3參數的IRT模型(有兩道非選擇試題也做了3參數分析),這在某種程度上降低了IRT分析的精確性.
從這個意義上講,對于項目反應理論模型估計參數效果不佳,即具有一定數量的非選擇題,并且涉及的知識內容較為寬泛(屬性之間的差異較大,不滿足IRT的單一維度假設)的測驗,不宜采用上述模型分析.
在這樣的情況下,嘗試不基于IRT模型的分析方法.
嘗試二:利用綜述中的方法二,其估計結果不存在上一方法中所出現的負相關和估計值過小的問題.但出現一個新的問題,即部分涉及項目較少的屬性的掌握分數估計結果較為單一(只有3種分數,對應3種屬性掌握情況),如屬性A4.3(有兩個題目涉及),不易區分出學生對于該屬性的不同掌握情況.屬性A4.3的掌握分數估計結果見表6.

表6 屬性A4.3的掌握分數估計結果
這種單一的現象使得對于某些屬性的掌握分數的估計過于依賴單一的題目,而忽略了各個屬性之間的相關性對于估計某些屬性掌握概率的貢獻,如有理由期望在低一層次掌握較好的學生比掌握較差的學生更有可能掌握更為高級的屬性(恰恰后文分析的神經網絡模型可以實現這點).這種現象是由于對于屬性A4.3僅有兩道題目測試,造成分母值較為單一.
同時,該結果出現了低水平屬性和高水平屬性能力“倒掛”的現象,如所有學生屬性A1.1的屬性能力的均值為0.045?087,作為最基礎需要掌握的屬性,其得分反而低于其它所有的屬性,這無疑有悖于教育經驗.出現這種現象的原因是因為該種估計方法依賴于項目的數量,由于測試條件限制(時間限制),代數測試的項目數量有限,這就使得隨機因素影響了參數估計結果.同時這也是一種基于實際數據的模型,拋開了屬性的層級結構的假設,因此產生了“倒掛”現象的可能.
從這個意義上講,對于題目數量有限但需要評價的認知屬性較多(且相關關系“緊密”)的測驗,該評價方法不易充分利用理論設計中的認知結構模型來高效度地測量學生的屬性掌握情況.
分析上述不足,研究者嘗試第三種參數估計方式:
將20個與期望屬性掌握模式相對應的期望反應模式(由矩陣生成的學生對于各個屬性的掌握的各種情況(對于每種屬性僅限制于沒有掌握和完全掌握兩種情況))作為樣本(Examplers),即20個十二維向量做為模型訓練的輸入.而將20個期望反應模式作為期望變量(Desired Varibales),即20個八維向量作為模型訓練的輸出.
選擇SPSS16.0的默認設置(如,多層感知器(Multilayer Perceptron)過程,Batch類型的訓練類型,自動生成隱藏層單元數等),獲得估計結果,形成權重矩陣.這個權重矩陣和激發函數即作為連接前文所述實際反應模式與屬性能力的映射.注意這是一個基于理論假設而非基于數據的模型.
進而將學生的項目反應作為向量,輸入屬性能力,SPSS自動生成了16個隱藏層:即學生的8個屬性掌握能力的八維向量到一個虛擬隱藏層的十六維向量再到學生答題結果(12道題)的十二維向量的映射,從而可以通過學生的答題結果回歸估計學生的屬性掌握能力.
需要注意的是,這是一種不受數據影響的估計方法,其參數估計完全基于測驗內容的理論設計(不由實測數據估計參數的模型),而不受到學生回答情況的影響,因此相對于施測情況不是特別理想的測驗(如學生不認真作答)相對有效.
表5的數據表明模型的擬合較好.

表5 模型擬合指標
對于前述兩個模型出現的問題,神經網絡模型都提供了很好的解決方法.各個屬性之間呈現正向相關.這個結果與周超(2009)[10]的研究結果相一致(雖然對于認知水平的認識和處理方式(如基于題目和基于教學目標、內容)有所差異).
神經網絡模型能夠很好地利用各個屬性之間的聯系(特別是層次結構關系)來更精細地估計屬性分數.不同題目的反應對通過權重為屬性分數的估計提供了貢獻.例如:對于兩個都錯誤地回答了A4.3有關的題目的學生,很好地掌握了屬性A4.3上位屬性(包括A1.1、A1.3、A1.4、A3.2、A4.2)的學生對于A4.3的掌握情況,估計很可能好于未能很好地掌握這些屬性的學生.
通過上述分析,可以看到,對于有如下特征的測驗,人工神經網絡模型能夠很好的分析.(1)基于認知結構模型設計的;(2)題目數量有限;(3)要測量的屬性較為寬泛;(4)題型豐富(選擇,填空,解答)且不易用IRT模型分析.
至此,應用人工神經網絡模型可以獲得對于學生在各個數學學習目標(認知屬性)的學習評價結果,每位同學都得到了一個標準化的成績報告,包括其在8個代數學習內容上的評分.這個成績報告可以為后續教學實踐活動提供指導,如:為教學質量提供系統的反饋,針對性地設計“補償性”教學(包括采用“微課”等信息技術的方式).
通過測試工具的編制與實施的過程分析可以看到,認知診斷可以幫助數學教育工作者系統地設計結構效度較高的診斷性測驗工具.認知屬性概念,可以幫助研究者和實踐者分析影響學生解答數學題目背后的認知結構.同時,通過比較幾種參數估計方法,找到可以相對合理的對測驗結果數據進行多維分析的統計模型——人工神經網絡模型.該模型能夠充分地利用理論設計的認知模型,克服測驗題目有限、題型多樣、認知屬性差異大等不易分析的困難,較好地評價學生的數學學業成就,為后續教學提供診斷性信息,達到了診斷性測驗的目的.
這些評價數據信息不僅可以用于有針對性的教學改進,也為大樣本教育政策研究,如教育效能、學校效能、教師效能研究等,提供了精細的學生評價數據.
[1] 涂冬波,蔡艷,戴海崎,等.現代測量理論下四大認知診斷模型述評[J].心理學探新,2008,(2):64-68.
[2] Tatsuoka K K.[M]. New York and London: Routledge Taylor & Francis Group, 2009.
[3] 孫佳楠,張淑梅,辛濤,等.基于矩陣和廣義距離的認知診斷方法[J].心理學報,2011,(9):1?095-1?102.
[4] Leighton J P, Gierl M J, Hunka S M. The Attribute Hierarchy Method for Cognitive Assessment: A Variation on Tatsuoka’s Rule-Space Approach [J]., 2004, 41(3): 205-237.
[5] 王立東.數學教師對學生學業成就的影響研究[D].北京師范大學,2012.
[6] 朱文芳.俄羅斯數學教育評價改革的動態與研究[J].課程·教材·教法,2006,(2):90-92.
[7] 丁樹良,祝玉芳,林海菁,等.Tatsuoka矩陣理論的修正[J].心理學報,2009,(41):175-181.
[8] 朱金鑫,張淑梅,辛濤.屬性掌握概率分類模型——一種基于矩陣的認知診斷模型[J].北京師范大學學報,2009,(2):117-122.
[9] Gierl M J, Wang C, Zhou J. Using the Attribute Hierarchy Method to Make Diagnostic Inferences about Examinees’ Cognitive Skills in Algebra on the SAT [J]., 2008, 6(6): 53.
[10] 周超.八年級學生數學認知水平的檢測與相關分析[D].華東師范大學,2009.
Application of Cognitive Diagnose Model in Mathematics Educational Assessment
WANG Li-dong1, GUO Kan2, MENG Meng3
(1. The High School Affiliated to RENMIN University of China, Beijing 100080, China;2. School of Mathematical Science, Beijing Normal University, Beijing 100875, China;3. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China)
Qualitatively illustrating the feasibility of developing mathematics education assessment tool based on Cognitive Diagnose Model. Several different parameter estimation model based on survey data were compared. The results indicated that the concept of cognitive attributes could help both the researchers and the practitioners to analyze the cognitive structure behind students’ solutions of mathematical problems. Artificial neural networks model could fully make use of the cognitive model to solve the problems of limited amount of rubrics as well as diversity of different cognitive attributes, and assess students’ mathematical achievement with high validity, which provide diagnosestic information for future instruction.
mathematics educational assessment; multi-dimensional scoring; CDM; HLM; ANN
G40-034
A
1004–9894(2016)06–0015–05
2016–08–14
全國教育科學“十二五”規劃2015年度青年專項課題——數學教育視角下的影子教育研究(EHA150424);國家自然科學基金課題——用于多級評分認知診斷的統計模型研究(11171029)
王立東(1983—),男,黑龍江哈爾濱人,教育學博士,主要從事數學教學論、教育測量評價、超常兒童教育的理論研究與實踐.
[責任編校:周學智]