馬瑞彤,艾 婷,張 奉,陳 倩
基于多維項目反應理論的“多維度—多歸因因果量表”心理測量學評估
馬瑞彤,艾 婷,張 奉,陳 倩
(四川師范大學 數學科學學院,四川 成都 610068)
為獲得一個能科學測量學生數學學習歸因能力,并且能夠準確篩選不恰當歸因能力水平個體的測量工具,研究應用項目反應理論方法對經典測量理論框架下相對成熟的“多維度—多歸因因果量表”進行心理測量學評估.研究表明,原量表的心理測量學性質并不理想,但經過項目反應理論方法修正后的量表具有良好的心理測量學性質.量表具有積極歸因和消極歸因兩因素維度結構,所含項目有良好的區分度和難度,且量表及其各項目(除N10)都能準確測量不恰當歸因能力水平.
數學學習歸因;多維度—多歸因因果量表;項目反應理論;多維等級反應模型
多年來,國內數學教育領域的學者致力于探索影響學生數學學習的因素,并取得了大量的研究成果[1-5].隨著認知心理學和教育心理學的發展,學者們越來越關注非認知因素對數學成績的影響,如興趣[6]、自我概念[7]、歸因[8-18]和動機[15-18].其中,數學學習歸因不僅能直接影響數學成績,還能通過動機和自我概念等因素間接影響數學成績[8-9].特別地,有研究表明,不恰當歸因的學生往往具有較低的數學成績[8].這是因為個體對數學學習的不恰當歸因會對他們的數學學習產生負面影響,如降低其學習數學的動機、興趣、和自信[1,6,13,17-18].因此,篩選出不恰當歸因能力水平的個體并及時指導他們正確歸因,對促進他們的數學學習非常重要.然而,歸因能力作為一種潛在的心理特質,它不能由直接觀察得到,只能通過測量工具(典型的是歸因量表)間接得到.為了科學有效地測量學生的數學學習歸因能力,準確篩選出不恰當歸因能力水平的個體,迫切需要一個具有良好心理測量學性質的數學學習歸因量表.
從心理測量學的角度來講,測量工具的有效性是實現科學測量的前提[19-21].因此,數學學習歸因量表的信效度、維度結構以及項目性質等心理測量學性質就成為研究者應該關注的問題.在廣闊的研究文獻中,評估量表心理測量學性質的方法主要有兩種,一種是傳統的經典測量理論(Classical Test Theory,CTT),另一種是項目反應理論(Item Response Theory,IRT)[19-21].前者主要使用內部一致性系數(克隆巴赫系數)評估量表的可靠性,用因素分析模型評估量表的維度結構,用題總相關系數和因素載荷評估項目性質[20];而后者主要使用量表信息函數評估量表的可靠性,使用IRT模型評估量表的維度結構,用項目參數和項目信息函數評估項目性質[20].
具體來講,雖然因素分析模型和IRT模型都能提供量表維度結構和模型擬合信息,但兩者處理數據方式不同[19].前者分析項目之間的相關性,它在因子得分和項目反應之間建立線性模型;而后者分析所有項目的總體反應模式,它在能力和項目反應之間建立概率性模型[19].通過對項目反應模式的評估,IRT模型除了能得到量表的維度結構,還能得到量表中各項目的參數,這些參數反映了項目是如何測量能力的,這對量表的開發和修正很有用[19-20].另外,除了用項目參數評估項目外,IRT方法還用“信息量”評估項目測量不同能力水平的可靠性,項目在某一能力水平上的信息量越大,項目對該能力水平的測量越可靠,誤差越低[19-21].特別地,在多維項目反應理論框架下,一個項目在多個能力的各個水平上的信息量,由該項目的信息曲面直觀呈現.量表所有項目的項目信息曲面直接累加就得到量表信息曲面,它能直觀反映量表測量多個能力時各個水平的準確性[20].因此,IRT方法能評估量表測量某一能力水平的準確性,如歸因量表測量不恰當歸因能力水平的準確性.
總的來說,作為評估量表心理測量學性質的兩種方法,CTT方法和IRT方法各有優劣.前者的主要優勢在于其方法淺顯易懂、數據分析軟件便于獲得且可操作性強,劣勢在于不能得到項目層面的信息[19-20];而后者的優勢在于能得到項目層面的信息,如項目的難度、區分度及項目信息曲面,劣勢在于IRT模型復雜、方法不易理解、可操作性弱[19-20].在開發和評估量表時,研究者應該根據研究目的以及對兩種方法的掌握程度來選擇合適的方法.例如,要評估歸因量表測量不恰當歸因能力水平的準確性,就需要應用IRT方法.
為了獲得一個科學有效的數學學習歸因量表,研究梳理了國內現有研究中使用的若干歸因量表及其心理測量學性質.裴昌根[9]、王淑勤[10]和周友士[12]在使用他們自編的歸因量表時并未對其進行任何的心理測量學評估.谷華生[13]、黎兵[14]和周勇[15]在使用Craudells編制的“成就歸因量表”時僅評估了量表的內部一致性信度(克隆巴赫系數).鮑曼[16]在使用Wang和Hancock等人編制的“數學動機量表”中的歸因子量表時僅用探索性因素分析評估了量表的維度結構.莫秀鋒[17]改編了Lecourt的“多維度—多歸因因果量表”(Adapted Multidimensional-Multiattributional Causality Scale,AMMCS),并用再測信度和內部一致性信度(克隆巴赫系數)評估了AMMCS的信度,用各維度的得分與總分間的相關系數評估了AMMCS的結構效度.通過梳理,主要有兩點發現:第一,在現有的歸因量表中,莫秀鋒[17]的AMMCS是相對成熟的數學學習歸因量表,因為它被驗證既有較好的信度又有較好的效度;第二,上述研究者要么沒有對使用的量表進行心理測量學評估,要么僅應用CTT方法對量表進行信度和維度結構評估,表明IRT方法尚未被用于歸因量表的評估.事實上,盡管中國的數學教育測評研究近年來發展很快[22-24],但IRT方法在國內數學教育領域尚未得到充分應用.相比之下,IRT方法在教育、生物、醫學、經濟和管理等多個領域都已經得到了廣泛應用,各種IRT模型被用于評估測量工具的科學性和有效性[25-28].
綜上所述,為了獲得一個能科學測量學生數學學習歸因能力,并且能夠準確篩選不恰當歸因能力水平個體的工具,應用IRT方法對CTT框架下相對成熟的AMMCS[17]進行全面的心理測量學評估.具體地,研究有兩個主要的研究問題.
問題1:AMMCS在IRT框架下的心理測量學性質(包括維度結構、項目區分度和難度)如何?該問題包含以下兩個子問題.
① AMMCS在CTT框架下的維度結構能否在IRT框架下得到支持?
② 如果得到支持,那么AMMCS的項目區分度和難度如何?如果得不到支持,那么經IRT方法修正后的AMMCS的項目區分度和難度如何?
問題2:問題①得到的量表及其各項目能否準確地測量不恰當歸因能力水平?
歸因指人們對自己的某種行為結果的原因進行判斷,數學學習成敗歸因即學生對數學學習成敗的原因判斷[29].海德最早提出歸因理論,并指出個體對行為的歸因是其預測和控制未來行為的最好方式[30].海德將人的歸因傾向分為兩種:外向歸因和內向歸因.前者將行為原因歸結為環境因素,如工作難易、運氣好壞等,后者將行為原因歸結為個人內部的因素,如能力高低、努力程度等[30].
阿特金森提出的成就動機理論認為,個體的成就動機是由追求成功的傾向與避免失敗的傾向結合而成,而歸因理論表明個體對未來行為的成敗預測很大程度上是源于對以往行為的歸因[31].在海德歸因理論和阿特金森動機理論的基礎上,韋納進一步提出了成就歸因理論.他認為,能力、努力、任務難度和運氣是人們在解釋成功或失敗時知覺到的4種主要原因,并將這4種主要原因按特性劃分為3個維度,分別是內外性維度、穩定與非穩定性維度和可控與不可控性維度,這3個維度對個體的情緒、認知和行為都有不同的影響[32].其中,內外性維度指的是造成事實的原因屬于個體內部的還是外部的因素;穩定與非穩定性維度是指作為行為原因的內外因素是否具有持久的特征;可控與不可控性維度是指行為能否為行動者或者他人所支配或駕馭[32].
數學學習成敗歸因可分為積極歸因和消極歸因[17].積極歸因能提高學生的數學學習積極性,而消極歸因會降低學生的數學學習積極性[17].根據韋納歸因理論中的3個維度,積極歸因指的是將成功歸因為內部穩定不可控的因素(如能力),將成功歸因為內部不穩定可控的因素(如努力、方法、態度和興趣),以及將失敗歸因為內部不穩定可控的因素(如努力、方法、態度和興趣);而消極歸因指的是將成功歸因為外部穩定不可控的因素(如任務難度),將成功歸因為外部不穩定不可控的因素(如運氣和他人),將失敗歸因為外部穩定不可控的因素(如任務難度),將失敗歸因為外部不穩定不可控的因素(如運氣和他人),以及將失敗歸因為內部穩定不可控的因素(如能力)[17,32].
綜上,數學學習歸因是對數學學習成敗歸因的簡稱,可分為積極歸因和消極歸因兩種.積極歸因包括將數學學習的成功歸因為能力、努力、方法、態度和興趣,以及將數學學習的失敗歸因為努力、方法、態度和興趣;消極歸因包括將數學學習的成功歸因為任務難度、運氣和他人,以及將數學學習的失敗歸因為任務難度、運氣、他人和能力.特別地,不恰當歸因包括低積極歸因和高消極歸因兩種情況,高低水平的劃分標準將在數據分析部分給出.
莫秀鋒[17]對初中生進行施測,得到了AMMCS在CTT框架下的維度結構和心理測量學性質.此外,IRT方法往往需要大樣本來準確估計項目參數.因此,研究采用方便抽樣,對重慶市3所中學的1?380名學生進行量表施測.實際收回1?269份問卷,經過數據清洗(如除去規律作答和漏選問卷等)后,得到有效樣本量為1?200,有效率為94.56%.其中,女生630名,占52.5%,男生570名,占47.5%;初一學生527名,占43.9%,初二學生673名,占56.1%.
研究中使用的數學學習歸因量表是莫秀鋒改編的AMMCS(見附錄),它包括積極歸因分量表和消極歸因分量表,共26個項目.在其研究中,AMMCS的內部一致性信度克隆巴赫系數是0.79,再測信度是0.86[17].其中,積極歸因分量表有14個項目,用于測量學生的積極歸因能力,包括將成功歸因為能力(P1、P2)、努力(P3、P4)、方法(P5)、態度(P6)和興趣(P7),以及將失敗歸因為努力(P8、P9)、方法(P10、P11、P12)、態度(P13)和興趣(P14);消極歸因分量表有12個項目,用于測量學生的消極歸因能力,包括將成功歸因為任務難度(N1)、運氣(N2)和他人(N3、N4),以及將失敗歸因為任務難度(N5、N6、N7)、運氣(N8)、他人(N9、N10)和能力(N11、N12)[17].量表中的所有項目都是李克特式5點計分,從完全不符合(1)到完全符合(5).
采用R語言多維項目反應理論包[33](Multidimensional Item Response Theory Package,MIRT),使用全信息極大似然估計法[19]進行數據分析.由于量表的反應類別是有序的,所以研究應用多維等級反應模型(Multidimensional Graded Response Model,MGRM)對調查數據進行分析[19,34-36].該模型用兩類參數來描述項目的性質,分別是項目的區分度參數(斜率)和難度參數(閾值)[36].
參數反映了項目區分不同歸因能力水平的程度[36].采納Baker對參數的解釋:0.01~0.34是非常低的區分度,代表項目幾乎不能提供個體歸因能力水平差異的信息;0.35~0.64是低區分度,代表項目僅能提供個體歸因能力水平差異的少量信息;0.65~1.34是中等區分度,代表項目能提供個體歸因能力水平差異的部分信息;1.34~1.69是高區分度,代表項目能提供個體歸因能力水平差異的大量信息;1.70以上是非常高的區分度,代表項目幾乎能提供個體歸因能力水平差異的全部信息[26].根據Baker的解釋,參數低或非常低的項目對測量歸因能力的貢獻很少,因此,參數<0.64的項目需要被刪除.
MGRM在能力和項目反應之間建立概率性模型,將項目反應和被試放在同一能力量尺上,當被試高于某項目反應時,被試作答為該項目反應的概率較大,當被試低于某項目反應時,被試作答為該反應的概率較小[19].確定被試在歸因量尺上位置的參數是被試的歸因能力,項目反應在歸因量尺上位置的參數為項目難度參數.AMMCS中每個項目有5個反應類別(分別編碼為1、2、3、4、5),因此,每個項目有4個難度參數:1、2、3、4.難度參數將和反應類別聯系起來,具體如下:當<1時,被試作答為反應類別1的概率最大;當1<<2時,被試作答為反應類別2的概率最大;當2<<3時,被試作答為反應類別3的概率最大;當3<<4時,被試作答為反應類別4的概率最大;當>4時,被試作答為反應類別5的概率最大[19,34].
針對研究問題1,根據AMMCS在CTT框架下的維度結構建立MGRM,通過資料—模型擬合情況、項目擬合情況以及項目的區分度參數評估IRT框架下AMMCS的維度結構.利用比較擬合指數、非標準擬合指數和絕對擬合指數中的近似誤差均方根等絕對擬合統計量來評估模型—資料擬合情況.采納>0.90,>0.90,且<0.08為模型適配接受標準,>0.95,>0.95,且<0.05為模型適配良好的標準[37].另外,利用有限信息統計量2、信息標準指數、等相對擬合統計量來比較兩個模型的相對擬合情況,評價標準為2、、越小模型擬合越好[38].然后,利用基于總分分組的卡方擬合檢驗統計量-2和項目的區分度參數評估項目擬合情況[37].保留項目的標準是擬合指數-2對應的>0.01且項目的區分度參數>0.64[25,39].
具體地,針對研究問題①,若模型—資料擬合和項目擬合結果都達到可接受的標準,則表明AMMCS在CTT框架下的維度結構在IRT框架下得到支持;若模型—資料擬合或項目擬合結果不理想,則表明AMMCS在CTT框架下的維度結構在IRT框架下得不到支持,需要進一步對AMMCS進行修正,直到模型—資料擬合和項目擬合結果都達到可接受的標準為止.針對研究問題②,對①得到的量表再次應用MGRM,評估其中各項目的區分度和難度.
針對研究問題2,先使用量表信息曲面評估量表測量不恰當歸因能力水平的準確性,再使用項目信息曲面評估項目測量不恰當歸因能力水平的準確性.為了刻畫不恰當歸因能力水平,需要對其進行清楚的界定.IRT方法得到的被試歸因能力值服從均值為0的正態分布,且量尺的零點和單位分別為被試歸因能力值的均值和標準差.因此,得到的被試群體的積極歸因能力值和消極歸因能力值在-3.00~+3.00之間(單位是logit).結合正態分布的性質與歸因能力特點,認為積極歸因能力值位于后20%的被試具有低積極歸因能力水平,消極歸因能力值位于前20%的被試具有高消極歸因能力水平.也就是說,不恰當歸因能力水平包括積極歸因能力值小于-1.50和消極歸因能力值大于1.50兩種情況.

根據AMMCS在CTT框架下的維度結構建立MGRM,記為模型1,擬合指數為:(95%)=0.06(0.05,0.06),=0.92,=0.91,2()=1?086(221),<0.05,=83?071.28,=83?738.08,表明該模型—資料擬合達可接受標準,但未達良好標準.
進一步檢查模型1中各項目的擬合情況,并根據項目的擬合指數和區分度參數對模型進行必要的修正.模型1中所有26個項目的區分度參數和擬合指數如表1所示.
從表1可以看出,P5、P6、P14及N7的-2對應的<0.01,表明這4個項目和模型不擬合.另外,P1、P14和N1的區分度參數<0.64,表明這3個項目對個體歸因能力的差異僅能提供較少的信息.因此,研究將依次刪除這6個項目來修正模型.
記修正完成后的MGRM為模型2,該模型—資料擬合指數為:(95%)=0.04(0.04, 0.05),=0.96,=0.96,2()=342.65(110),<0.05,=63?703.07,=64?217.17,表明該模型—資料擬合達良好標準,且擬合結果明顯優于模型1.
接下來,評估修正后的AMMCS中所有20個項目的擬合指數和項目參數(區分度和難度),具體如表2所示.

表1 AMMCS(模型1)項目區分度和項目擬合指數
注:該表中加粗的項目號和值表示該項目失擬,斜體的項目號和值表示該項目區分度過低,既加粗又斜體的項目表示該項目既失擬又有過低區分度.

表2 修正后AMMCS(模型2)中各項目的項目參數和項目擬合指數
從表2可以看出,修正后的AMMCS中所有項目的擬合指數和區分度參數都達到可接受標準.由于量表中的每一個項目只屬于一個分量表,所以積極歸因分量表中10個項目的項目參數(區分度和難度)僅反映它們對測量積極歸因能力的貢獻,而消極歸因分量表中10個項目的項目參數也僅反映它們對測量消極歸因能力的貢獻.修正后的AMMCS中所有項目的區分度范圍在0.87~2.11之間,表明所有項目都能提供有關個體歸因能力水平差異的較多信息.具體地,12個項目(占總量表的60%)的區分度范圍在0.65~1.34之間,屬于中等區分度水平,其中包括積極歸因分量表中6個(占積極歸因分量表的60%,總量表的30%)以及消極歸因分量表中6個(占消極歸因分量表的60%,總量表的30%);5個項目(占總量表的25%)的區分度范圍在1.35~1.69之間,屬于高區分度水平,其中包括積極歸因分量表中4個(占積極歸因分量表的40%,總量表的20%)以及消極歸因分量表中1個(占消極歸因分量表的10%,總量表的5%);3個項目(占總量表的15%)的區分度在1.70以上,屬于非常高的區分度水平,這3個項目全部屬于消極歸因分量表(占消極歸因分量表的30%).
積極歸因分量表中各項目難度參數表明,所有項目都滿足1<2<-1.50<3<0<4,這主要反映了項目的兩點性質.第一,通過1<2<-1.50<3可以看出,在積極歸因分量表中選擇反應類別1(完全不符合)、2(基本不符合)和3(一般)的被試具有低積極歸因能力水平,且積極歸因能力水平越低的被試選擇的反應類別越低.例如,被試積極歸因能力值為-2.00,則通過P4的4個難度參數(-2.84、-1.74、-0.06、1.28)可以看出,該被試的積極歸因能力值在該項目的1和2之間,因此,該被試具有低積極歸因能力水平且在P4上作答為反應類別1的概率最大.第二,通過-1.50<3<0<4可以看出,平均來講,被試在積極歸因分量表中的項目上,作答為反應類別4(基本符合)的概率最大.
相比于積極歸因分量表,消極歸因分量表中各項目參數不完全一致.首先,N4及N8滿足1<1.50<2<3<4,這表明高消極歸因水平的被試在這兩個項目上選擇反應類別2(基本不符合)、反應類別3(一般)、反應類別4(基本符合)和反應類別5(完全符合)的概率較大;N3、N9及N10滿足1<2<1.50<3<4,這表明高消極歸因水平的被試在這3個項目上選擇反應類別3、反應類別4和反應類別5的概率較大;N2、N5、N6、N11及N12滿足1<2<3<1.50<4,這表明高消極歸因水平的被試在這5個項目上選擇反應類別4和反應類別5的概率較大.其次,除了N2和N8外,其余8個項目都滿足1<0<2,因此,平均來看,被試在消極歸因分量表中的項目上,作答為反應類別2的概率最大.
修正后的AMMCS中每個項目都可用于測量數學學習歸因能力.然而,僅通過區分度和難度這兩個項目參數并不能評估項目測量不恰當歸因能力水平的準確性.因此,需要進一步考察量表及其各項目的信息曲面.修正后的AMMCS量表信息曲面見圖1,積極歸因分量表中各項目的信息曲面見圖2,消極歸因分量表中各項目的信息曲面見圖3.

圖1 修正后的AMMCS的量表信息曲面

圖2 積極歸因分量表中各項目的項目信息曲面

圖3 消極歸因分量表中各項目的項目信息曲面

由圖2知,積極歸因分量表中所有項目信息曲面都在1軸的(-3.00,-1.50)內到達頂峰,且峰值處的信息量大于0.20,表明積極歸因量表中的項目都為篩選低積極歸因能力水平的個體提供了信息.然而,這些項目提供的信息大小不同,如P9(將失敗歸因為努力)和P12(將失敗歸因為方法)提供的信息較多,約為0.80,而P2(將成功歸因為能力)和P7(將成功歸因為興趣)提供的信息較少,約為0.25.
由圖3知,消極歸因分量表中,除了N10(將失敗歸因為他人)外,其它項目的信息曲面都在2軸的(-3.00,-1.50)內到達頂峰,且峰值處的信息量大于0.20,表明消極歸因分量表中幾乎所有項目都為篩選出高消極歸因能力水平的個體提供了信息,只是程度不同.如N5(將失敗歸因為任務難度)和N12(將失敗歸因為能力)提供的信息較多,信息量都在1.00以上,而N8(將失敗歸因為運氣)和N4(將成功歸因為他人)提供的信息較少,信息量都在0.25以下.
研究發現,AMMCS在IRT框架下的心理測量學性質并不理想,它在CTT框架下的維度結構在IRT框架下并未得到支持,但經過IRT方法修正后的AMMCS仍具有積極歸因和消極歸因兩因素維度結構,且所含項目都有良好的區分度和難度.
具體地,經過IRT方法修正后的AMMCS保留了原量表26個項目中的20個,其中積極歸因分量表和消極歸因分量表各10個.模型修正過程中,積極歸因分量表中共刪除了4個項目,即P1(將成功歸因為能力)、P5(將成功歸因為方法)、P6(將成功歸因為態度)和P14(將失敗歸因為興趣).其中,P14被刪除可能是因為該項目本身就不屬于積極歸因.興趣可能和能力一樣,是內部不可控因素.根據韋納歸因理論,將失敗歸因為該類因素會引起學生的消極情感,而非積極情感.其它3個項目在理論上是屬于積極歸因分量表的,它們被刪除的原因可能是表述不當.消極歸因分量表中,刪除了N1(將成功歸因為任務難度)和N7(將失敗歸因為任務難度),這2個項目從韋納歸因理論的角度看是屬于消極歸因分量表,它們被刪除可能是因為表述不當.
計算被試的積極歸因和消極歸因能力分數時,CTT方法將項目視作相同的單位,根據項目個數計算被試積極歸因和消極歸因能力分數,而IRT方法則是根據項目的區分度參數給予項目權重,來計算被試的積極歸因和消極歸因能力分數,且將歸因能力分數和項目難度參數放在同一連續量尺上,這使得被試的積極歸因和消極歸因能力分數能直接反映出被試在各個項目上的作答情況.相比于CTT方法,IRT方法能更準確地通過被試的作答反應來捕捉被試的潛在特質水平.反之,IRT方法也能通過被試的作答反應得到項目固有的區分度參數和難度參數,即IRT方法得到的項目參數不會隨著被試的變化而變化.也就是說,IRT方法能得到關于被試的潛在特質水平和項目的更豐富且更真實的信息,這也是IRT方法的優越性之一.
研究發現,修正后的AMMCS能準確測量不恰當歸因能力水平,積極歸因分量表中的10個項目都可用于測量低積極歸因能力水平,消極歸因分量表中除N10(將失敗歸為他人)外,其余9個項目都可用于測量高消極歸因能力水平.
具體來看,積極歸因分量表中10個項目的信息量之和大約為5.03,消極歸因分量表中10個項目的信息量之和大約為5.90,表明消極歸因分量表中的項目更適合測量不恰當歸因能力水平的個體.相較而言,積極歸因分量表中的P9(將失敗歸因為方法)和P12(將失敗歸因為努力)能為篩選不恰當歸因水平(低積極歸因水平)的個體提供更多信息,而消極歸因分量表中的N5(將失敗歸因為任務難度)、N6(將失敗歸因為任務難度)和N12(將失敗歸因為能力)能為篩選不恰當歸因水平(高消極歸因水平)的個體提供更多的信息.
此外,從成功情境和失敗情境的劃分來看,修正后的AMMCS中包含成功情境下的項目7個,失敗情境下的項目13個.其中,成功情境下提供信息量較多的是P3(成功歸因為努力)和N2(成功歸因為運氣),分別為0.60和0.50;失敗情境下提供信息量較多的是N5(將失敗歸因為任務難度)、N6(將失敗歸因為任務難度)和N12(將失敗歸因為能力),分別為1.20、1.00和1.20.相較而言,失敗情境下的項目更適合測量不恰當歸因能力水平的個體.綜上可知,消極歸因分量表中失敗情境下的項目測量不恰當歸因能力水平的個體最準確.
理想的測量工具需要滿足的重要條件是,在需要測量的潛在特質水平上提供最多信息.例如,測量抑郁的量表需對高抑郁水平提供最多的信息,以準確地篩選出抑郁的患者.CTT方法假設項目在測量潛在特質各個水平上提供的信息是相同的,因此不能滿足此條件.相比之下,IRT方法通過項目信息曲面直觀地反映項目在潛在特質各個水平上提供的信息,即測量的準確性.這一點不僅能檢驗量表是否對需要測量的特質水平提供準確的信息,還能幫助研究者根據研究目的修正現有的測量工具.研究中的AMMCS需要在高消極歸因能力水平和低積極歸因能力水平上提供最多的信息,因此經過IRT方法修正后的AMMCS能準確測量不恰當歸因能力水平,這凸顯了IRT方法的另一個優越性.
應用IRT方法對CTT框架下相對成熟的AMMCS進行了心理測量學評估,得到如下研究結論:AMMCS的心理測量學性質并不理想,但經過IRT方法修正后的AMMCS具有良好的心理測量學性質,該量表具有積極歸因和消極歸因兩因素維度結構,所含項目都有良好的區分度和難度,且量表及其各項目(除N10)都能準確測量不恰當歸因能力水平.總體上講,經過IRT方法修正后的AMMCS是一個具有良好心理測量學性質的數學學習歸因量表.
研究的貢獻主要有兩點.首先,研究提供了一個具有良好心理測量學性質的數學學習歸因量表,使用該量表將有助于提升數學學習歸因相關量化研究的質量.更重要的是,一線數學教師或數學學習歸因研究者可以使用該量表準確地篩選出不恰當歸因能力水平的個體,及時引導他們進行正確歸因,進而提高他們的數學學習成績.其次,就評估測量工具的方法而言,IRT方法相較于CTT方法具有一定的優越性(如測量準確性、參數不變性等),卻較少被中國的數學教育研究者采用.研究提供了一個IRT方法的應用示例,希望能給從事數學教育測評研究的學者提供一個新思路,為今后各種測量工具的編制和檢驗提供方法上的參考.
研究的不足之處有兩點.首先,方便抽樣僅涉及重慶市3所中學的初一和初二學生,樣本的代表性有限,未來研究者可以擴大樣本的范圍,增強樣本的廣泛性和代表性后對AMMCS進行進一步的修正.其次,研究沒有對修正后的AMMCS進行項目功能差異檢驗.考慮到測量工具滿足等價性要求是組間差異比較的前提,未來研究者可以收集不同群組(如農村與城市、初中與高中等)的數據對量表進行項目功能差異檢驗.
[1] 李楊,黃碧娟,李紅霞,等.初一學生數學學習動機和堅持性:數學—性別刻板印象的影響[J].數學教育學報,2022,31(1):35-41.
[2] 付婉迪,尹弘飚.高中生數學問題解決過程中的情緒因素[J].數學教育學報,2021,30(6):1-7.
[3] 張文宇,范文貴,張守波.中學生數學學習選擇能力與學習成績相關性研究[J].數學教育學報,2008,17(1):59-61.
[4] 武錫環,侯學萍,朱姍姍.影響學生數學成績的人格因素[J].數學教育學報,2007,16(2):68-70.
[5] 喻平.中學生自我監控能力和CPFS結構對數學學業的影響[J].數學教育學報,2004,13(1):23-26,35.
[6] 焦采珍.初中生數學學習興趣及自我效能感與數學學業成績的關系[J].數學教育學報,2008,17(2):44-46.
[7] 梁好翠.初中生自我概念對數學成就的影響機制的研究[J].數學教育學報,2013,22(1):51-54.
[8] 劉東芝.初中生數學學習歸因現狀的調查與分析[J].教育導刊,2007,16(9):47-49.
[9] 裴昌根.初中生數學學習成敗歸因的調查研究[J].數學教育學報,2009,18(2):39-41.
[10] 王淑勤.數學學習成敗歸因的統計分析[J].數學教育學報,2005,14(1):66-67.
[11] 韓仁生,王毓珣.中學生數學學習成就歸因的性別差異比較研究[J].數學教育學報,2016,25(4):21-24.
[12] 周友士.初中生數學成績歸因研究[J].數學教育學報,2001,10(1):38-40.
[13] 谷華生,辛濤,李薈.初中生學習歸因、學習策略與學習成績關系的研究[J].心理發展與教育,1998(2):21-25.
[14] 黎兵,楊嘉樂.初中生時間管理傾向、自我效能感、學習歸因與學業成績關系的研究[J].心理學探新,2004(4):67-71.
[15] 周勇,董奇.學習動機、歸因、自我效能感與學生自我監控學習行為的關系研究[J].心理發展與教育,1994(3):30-33,15.
[16] 鮑曼,張紅偉,郭慧瑩,等.哈爾濱私立中學學生成就動機調查研究[J].數學教育學報,2008,17(1):51-55.
[17] 莫秀鋒.初中生數學學習策略的發展特點及可控心理因素影響[D].重慶:西南師范大學,2002:19-23.
[18] 李明振.數學學習動機、歸因、自信心、意志品質與學生數學學習的自我監控行為的關系研究[J].數學教育學報,1997,6(2):46-47.
[19] DEPAOLI S, TIEMENSMA J, FELT J M. Assessment of health surveys: Fitting a multidimensional graded response model [J]. Psychology, Health & Medicine, 2018, 23 (1): 13-31.
[20] 顧海根.應用心理測量學[M].北京:北京大學出版社,2010:197-202.
[21] 王婭婷,毛秀珍.數學素養的測量與評價[J].數學教育學報,2017,26(3):73-77.
[22] 鄭雪靜,陳清華,王長平,等.高中生直觀想象素養的測量與評價研究[J].數學教育學報,2020,29(4):7-12.
[23] 喻平,董林偉,郭慶松.中學生數學品格與價值觀的問卷設計[J].數學教育學報,2021,30(4):12-18.
[24] 陳建明,孫小軍,楊博諦.數據分析素養的評價框架與實施路徑研究[J].數學教育學報,2022,31(2):8-12,57.
[25] MILOVANOV I, BRANOVAKI B. Adaptation and psychometric evaluation of modified abbreviated math anxiety scale for children in Serbia [J]. International Journal of Science and Mathematics Education, 2021, 19 (3): 155-158.
[26] PANOUILLERES M, ANOTA A, NGUYEN T V, et al. Evaluation properties of the French version of the OUT-PATSAT35 satisfaction with care questionnaire according to classical and item response theory analyses [J]. Quality of Life Research, 2014, 23 (7): 2?089-2?101.
[27] ARBOLEDA A M, ALONSO J C. Design awareness and purchase intention: An item response theory approach [J]. Academia Revista Latinoamericana de Administracion, 2014, 27 (1): 138-155.
[28] 林岳卿,張偉濤,方積乾.項目反應理論在醫學量表條目篩選中的應用[J].中國醫藥導報,2014,11(5):155-158.
[29] NGUNU S, KINAI T, NDAMBUKI P, et al. Causal attributions as correlates of secondary school students’ academic achievement [J]. Education Research International, 2019 (1): 1-7.
[30] HEIDER F. The psychology of interpersonal relations [M]. John Wiley & Sons Inc. 1958: 244-251.
[31] ATKINSON J W. An introduction to motivation [M]. Princeton, NJ: Van Nostrand, 1964: 1-335.
[32] WEINER B, KUKLA A. An attributional analysis of achievement motivation [J]. Journal of Personality and Social Psychology, 1970, 15 (1): 120.
[33] CHALMERS R P. Mirt: A multidimensional item response theory package for the R environment [J]. Journal of Statistical Software, 2012, 48 (6): 129.
[34] SAMEJIMA F. Estimation of latent ability using a response pattern of graded scores [J]. Psychometrika Monograph Supplement, 1969, 34 (4): 197.
[35] 康春花,辛濤.測驗理論的新發展:多維項目反應理論[J].心理科學進展,2010,18(3):530-536.
[36] 杜文久,肖涵敏.多維項目反應理論等級模型[J].心理學報,2012,44(10):1?402-1?407.
[37] 單昕彤,譚輝曄,劉永,等.項目反應理論中模型資料擬合檢驗常用統計量[J].心理科學進展,2014,22(8):1?350-1?362.
[38] HANSEN M, CAI L, MONROE S, et al. Limited-information goodness-of-fit testing of diagnostic classification item response models [J]. British Journal of Mathematical and Statistical Psychology, 2016, 69 (3): 225-252.
[39] TOLAND M. Practical guide to conducting an item response theory analysis [J]. The Journal of Early Adolescence, 2014, 34 (1): 120-151.
[40] 涂冬波,蔡艷.信息函數在標準參照測驗中的應用研究[J].江西師范大學學報(自然科學版),2005(2):167-172.
Psychometric Evaluation of the Multidimensional-Multiattributional Causality Scale Based on Multidimensional Item Response Theory
MA Rui-tong, AI Ting, ZHANG Feng, CHEN Qian
(School of Mathematical Sciences, Sichuan Normal University, Sichuan Chengdu 610068, China)
In order to obtain an instrument that can scientifically measure students’ attribution ability in mathematics learning and accurately screen individuals with inappropriate attribution ability level, this study adopted item response theory (IRT) approach to evaluate the Adapted Multidimensional-Multiattributional Causality Scale (AMMCS) under the framework of classical measurement theory. The results show that the psychometric properties of AMMCS are not ideal, but the AMMCS scale revised by the IRT approach has good psychometric properties. This revised scale has a two-factor dimensional structure of positive attribution and negative attribution; all the items have good discrimination and difficulty properties, and the scale and its items (except N10) can accurately measure the inappropriate attribution ability level.
mathematics learning attribution; multidimensional-multiattributional causality scale; item response theory; multidimensional graded response model

題目完全不符合基本不符合一般基本符合完全符合 P1.數學取得了好成績時,我覺得最重要的原因是自己學習能力強.12345 P2.在數學考試中得高分時,我總認為它說明我有能力學好數學.12345 P3.對我來說,我所取得的好分數應歸于我學習努力.12345 P4.數學得到好分數,我認為是自己下了苦功夫.12345 P5.數學學得好時,我認為很重要的原因是有好的學習方法.12345 P6.數學成績進步時,我認為與自己積極的學習態度有些關系.12345 P7.數學學得順利時,一定程度上應歸于我對數學的興趣.12345 P8.如果數學考試得低分數,那說明我學習不夠努力.12345 P9.如果數學得了低分數,我通常認為自己努力不夠.12345 P10.數學成績不好時,我會覺得是因為自己缺乏了合適的學習方法.12345 P11.如果數學成績不理想,我覺得可能是因為自己的學習方法出了問題.12345 P12.聽數學課或解數學題遇到困難時,我常認為是沒有掌握合適的方法.12345 P13.數學學不好,很可能是由于學習態度不端正.12345 P14.如果數學成績不好,我認為很大程度是因為缺乏了對數學的興趣.12345 N1.如果得到一些數學高分數,我會認為這些試卷比其它的試卷簡單.12345 N2.有時我在數學考試中得高分主要是運氣好,如考試中碰巧有我做得來的題.12345 N3.有幾次我的數學成績取得高分,都是因為老師的打分標準比平時松.12345 N4.有時我的數學得到高分數,與數學老師喜歡打高分有關.12345 N5.數學考得低分數,我會認為是因為這門課程難學.12345 N6.若是數學作業得低分數,我通常認為這些作業太難了.12345 N7.聽不懂數學課時,我就認為是那些內容難懂.12345 N8.數學得到低分數時,通常是由于我的運氣不好.12345 N9.依我的經驗,一旦哪位老師認定你是位差勁的學生,那么比起其他同學來,你交的作業更有可能得到低分數.12345 N10.一些數學內容難掌握,我覺得與數學老師有關.12345 N11.我的數學考得低分數時,我會認為自己沒有能力學好數學.12345 N12.每當在數學考試中得低分數,我就會懷疑自己沒有學習數學的能力.12345
注:為顯示清晰,該表中的項目排列順序與莫秀鋒量表中的項目排列順序不同.
G449
A
1004–9894(2023)04–0041–09
馬瑞彤,艾婷,張奉,等.基于多維項目反應理論的“多維度—多歸因因果量表”心理測量學評估[J].數學教育學報,2023,32(4):41-49.
2023–02–25
四川省哲學社會科學研究“十四五”規劃一般項目——四川省中學數學教學過程中學生參與的調查研究(SC21B090)
馬瑞彤(1999—),女,遼寧遼陽人,碩士生,主要從事中學數學教育及數學教育測評研究.陳倩為本文通訊作者.
[責任編校:張楠、陳雋]