999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的多維IRT模型——高階IRT模型

2015-02-25 05:09:30
心理學探新 2015年5期

潘 浩

(遼寧醫學院國際教育學院,遼寧 121000)

?

一種新的多維IRT模型——高階IRT模型

潘浩

(遼寧醫學院國際教育學院,遼寧 121000)

摘要:早期的單維IRT模型忽視了測驗多維性的可能,而多維IRT模型對各維度的劃分不夠明確,不能良好反應各維度能力的內涵。高階IRT模型承認測驗的多維性,以分測驗劃分維度,同時又將多個維度的能力統一到一個高階的能力中,能夠在了解被試各維度能力的同時,為被試提供整體的能力估計,它能更好地反映實際,并且適應大規模測驗的需求。

關鍵詞:高階IRT;多維IRT;單維IRT

1引言

項目反應理論(IRT)是關于被試潛在特質(能力水平)與其對測驗項目反應之間關系的理論(王孝玲,2005)。它能夠反映單一被試和單個項目間的關系,提供更精確的測量指標,解決了CTT樣本和測驗的相互依賴的問題。項目反應理論(IRT)發展至今,依據基本假設的不同主要有單維IRT模型和多維IRT模型兩種。

2常見的IRT模型

2.1單維IRT

單維性假設是指每個測驗只考察一種能力,或者可解釋為影響測驗表現的只有一種“主導”因素。

第一個IRT模型是Lord在他1952年(Lord,1952)的博士論文中提出的雙參正態拱形模型,以正態累積分布的函數形式作為項目的反應函數。其數學表達形式如下:

丹麥學者Rasch(Rasch,1960)提出了Rasch模型,這是最簡單的單維IRT模型。其數學表達式如下(轉引自Embretson&Reise,2000):

Birnbaum(1968)在Rasch單參邏輯斯蒂模型的基礎上,又發展出雙參,三參邏輯斯蒂模型。表達式如下:

其中a是項目的區分度,c是曲線的下漸近線位置,代表猜測度。當c值越大,下漸近線越高,猜測度越大。

單維IRT模型簡單明了,實現了對被試能力和題目質量的同時估計,但是在實際測驗中,常常需要幾種能力共同或者有所側重地完成測驗任務,利用單維IRT模型顯然不能提供全面的信息。

2.2多維IRT

為了解決單維IRT的局限,Robert和Mark(1982)對多維IRT進行了研究。多維項目反應理論模型是以多維度心理機制為前提,通過引入各維度上的能力和項目參數,來表征被試與項目之間交互作用的一種非線性數學模型。在心理和語言測驗中,許多測驗的完成實際上需要不止一種能力,多維IRT模型的出現在理論假設上較好地符合了實際(Reckase,1997)。

目前較常見的是補償性和非補償性兩種模型。所謂補償,就是在被試完成或作答某一項目時,由多種能力共同產生作用影響被試的反應情況,當所需要的一種能力偏低時,所需要的其他能力的高水平可以彌補。而非補償性是假設一個問題的解決或者一個項目的完成是由多個能力共同決定的,它們之間是不能相互補償的,正確反應概率的上限取決于能力結構中最低的那一項(Reckase,1997)。

三參多維補償性模型

Xij是指被試i在項目j上的得分,θik表示被試i在第k個維度的能力參數向量,αjk是第j個項目在第k個維度的區分度參數向量,bj是第j個項目的難度系數等級。需要說明的是,每個項目每一個維度都有一個區分度參數,但每個項目只有一個項目難度參數,不依維度不同而變化。

三參多維非補償性模型(Sympson,1978)

其中,m是維度,a,b,c是項目的區分度,難度和猜測度參數。

補償性模型每個項目有一個難度系數和一個猜測度,在每個維度上有一個區分度參數,完成項目的能力是多個維度能力的和。而非補償性模型每個項目在每個維度上都有一個區分度參數和一個難度系數,這個模型也可以寫成多個單維雙參邏輯斯蒂模型的積。

多維IRT解決了單維性假設與測驗實際不符的問題,但是完成一個測驗或者一張試卷通常需要幾種不同的能力,雖然這些能力可能不是完全按照分測驗嚴格區分,但是往往有所側重。在實際的參數估計中,根據不同維度的能力參數估計值來判斷項目所屬的分維度,因此常常有分維度包含的項目過少的情況,不足以確保參數估計的精確性。另外,參與測驗的被試往往需要一個整體的評價,即對整體能力的一個估計,而傳統的單維IRT雖然可以完成整體能力的估計,但完成測驗所需能力的多維性假設顯然是與單維IRT不符的。因此,無論是傳統單維IRT還是多維IRT,都在參數估計上存在一定問題而偏離實際需求。

在這種背景下,Song(2007)在Ahigher-orderitemresponsemodel:Developmentandapplication一書中首次提出了一種高階IRT模型。高階IRT模型是以能力的不同層次為前提假設的,即影響被試測驗表現的是兩個層次的能力,處于高層的是一個整體的高階能力,而這個高階能力又是由一組低層次的不同分能力組成的。

3高階IRT模型內涵

高階IRT假設測驗是一個維度內單維的多維測驗,它依照分測驗來劃分能力維度,每一個分測驗測量一個并且只測量一種能力,因此,它所假設的能力結構實際上是一種比較簡單的多維測驗的能力結構,只是在多種能力之上多了一個高層次的整體能力。

圖1 高階IRT層次結構圖

高階IRT模型所選取的數學形式是三參邏輯斯蒂模型。它的數學表達如下:

如果用整體能力和相關系數來表示維度能力,簡化一下項目參數的表示方法,則變為:

4高階IRT的研究進展

最初的研究者通過模擬實驗,研究了高階IRT模型和其他IRT模型在參數估計方面的表現。Song(2007)提出了高階IRT模型,書中詳細闡述了從經典測驗理論到IRT的發展歷程,并利用高階IRT模型進行了模擬實驗。HaoSong使用了貝葉斯等級框架下的MCMC方法,分別采用傳統單維IRT和高階IRT對模擬數據進行了參數估計。HaoSong通過變化不同測驗長度,不同維度數,分測驗間不同的相關系數進行了對比實驗。結果顯示,當分測驗間相關極低或者不相關時,高階IRT的估計效果明顯好于傳統單維IRT,而當分測驗間相關較高時,兩者估計結果差不多,但高階IRT更為準確。

delaTorre和Song(2009)采用同樣方法對高階IRT模型與傳統IRT模型進行了對比研究。此外,他們又利用了CTB/McGraw-Hill九年級測驗的實測數據對兩個模型的能力參數估計情況進行了對比分析。結果顯示,兩個模型在分測驗間相關高時在整體能力估計上差異不大,高階IRT的標準差和測驗偏差(bias)更小。當分測驗間相關較低時,高階IRT的估計效果明顯更好。Jimmy和YuanHong(2010)利用了同樣的方法針對小樣本數據進行了模擬和實測數據的估計,結果顯示,當樣本數量小且維度數較多時,高階IRT體現出了明顯優勢,標準誤和測驗偏差明顯更小,證明高階IRT利用測驗內維度間相關信息這一點是對參數估計的一次改進(Hung,Wang,Chen,&Su,2013;Huang&Wang,2013)。

后來的研究者主要利用自編測驗,對高階IRT進行實踐檢驗,并對比幾種IRT模型的估計效果。Yang等(Yang,Kuo,&Liao,2011)設計了一個分數乘法的計算機自適應性測驗,并利用高階IRT模型對被試的整體能力和分能力進行了估計,并利用整體能力估計結果對被試進行了整體的評價,利用分能力估計結果對存在的學習障礙進行診斷。Chih-WeiYang等將數學能力分成概念性知識、程序性知識和解決問題的能力三種分能力。結果顯示,計算機對于學習障礙的診斷和人工評分對于學習障礙的診斷平均一致性高達97%,而利用高階IRT模型估計出的分能力和在該能力維度內學習障礙的數量之間呈現高相關,結果證明學習障礙越多,被試的數學能力越差。臺灣學者孫長蓀(2010),張勝凱(2009),黃子晏(2010),蘇啟明(2010),張素珍等(2010)通過對自編測驗的分析,比較單維、多維和高階IRT模型,結果表明高階IRT能提供更多信息,效果更好。

上述研究結果顯示,高階IRT模型較之傳統單維IRT模型和多維IRT模型的估計結果更為精確(誤差小),且能夠同時估計整體能力和分能力,提供較多信息。但是針對實測數據的研究還很少,在實際應用上說服力不強。國外學者采用模擬實驗預先設定了項目參數,這對能力的估計會產生一定影響,臺灣學者自編的測驗項目過少(有的分測驗甚至只有三道題),題目質量對估計結果的影響很大。

5小結和展望

高階IRT模型利用了分維度能力和整體能力的相關,實現了對兩個層次能力的同時估計,是對IRT的進一步發展,也是在能力結構假設上的一次新的突破。高階IRT模型能夠提供被試分項和整體能力的估計,是符合大規模測驗的實際需求,對心理和教育測量有著實踐意義的。

高階IRT在整分能力關系上采用了線性相關,這是一種簡單的相關關系,然而相關關系還可能更加復雜,比如非線性相關。因此,所選取的相關關系是否需要調整還有待進一步證實。另外,高階IRT模型的一個重要假設是維度內單維,即項目間或分測驗間單維,而在實際測量中,項目內或者分測驗內是否存在多維情況,將分測驗劃為單維測驗是否過于籠統有待進一步研究。

參考文獻

黃子晏.(2010).階層式試題反應理論之多點計分模探討.2013-10-15取自http://ndltd.ncl.edu.tw/cgi-bin/gs32/gswev.cgi

蘇啟明.(2010).高階層試題反應理論模式延伸與應用.2013-10-15取自http://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi

孫長蓀.(2010).以NAEP數學評量中數學能力架構進行國小六年級幾何測驗的編制與分析.研究所碩士論文.國立臺中教育大學教育測驗統計.

王孝玲.(2005).教育測量(修訂版)(p.242).上海:華東師大出版社.

張素珍,李佩瑾,郭伯臣,林佳樺.(2010).應用HIRT于實證資料分析—以國小六年級數學小數的除法單元為例.測驗統計年刊(臺灣),第十八輯,51-66.

張勝凱.(2010).使用HIRT模式建立國小六年級學童數學推理能力測驗.碩士論文.國立臺中教育大學教育測驗統計研究所.

Birnbaum,A.(1968).Some latent trait models and their use in inferring an examinee’s ability.In F.M.Lord & M.R.Novick(Eds.),Statisticaltheoriesofmentaltestscores(pp.17-20).Reading,MA:Addison-Wesley.

de la Torre,J.,& Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT Model Approach.AppliedPsychologicalMeasurement,33(8),620-639.

de la Torre,J.,& Hong,Y.(2010).Parameter estimation with small sample size a higher-order IRT Model Approach.AppliedPsychologicalMeasurement,34(4),267-285.

Huang,H.Y.,Wang,W.C.,Chen,P.H.,& Su,C.M.(2013).Higher-Order Item Response Models for Hierarchical Latent Traits.AppliedPsychologicalMeasurement,37(8),619-637.

Huang,H.Y.,& Wang,W.C.(2013).Higher order testlet response models for hierarchical latent traits and testlet-based items.EducationalandPsychologicalMeasurement,73(3),491-511.

Lord,F.M.(1952).A theory of test scores.PsychometricMonographs,(7),84.

Rasch,G.(1960).Probabilitymodelsforsomeintelligenceandattainmenttests.Copenhagen:Paedogogiske Institute.

Reckase,M.D.(1997).The past and future of multidimensional item response theory.AppliedPsychologicalMeasurement,21(1),25-36.

Song,H.(2007).A higher-order item response model:Development and application.Unpublished doctoral dissertation.TheStateUniversityofNewJersey,95-107.

Sympson,J.B.(1978).A model for testing with multidimensional items.In D.J.Weiss(Ed.),Proceedingsofthe1977ComputerizedAdaptiveTestingConference.Minneapolis:University of Minnesota.

Yang,C.W.,Kuo,B.C.,& Liao,C.H.(2011).A HO-IRT based diagnostic assessment system with constructed response items.TheTurkishOnlineJournalofEducationalTechnology,10(4),46-51.

A New Multidimensional IRT——Higher-Order IRT Model

Pan Hao

(International Education College,Liaoning Medical University,Liaoning 121000)

Abstract:Item Response Theory(IRT)is a well known theory which can reflect the relationship between latent trait and items.However,both unidimensional IR model and multidimentional IRT model are short at reflecting ability structure precisely and appropriately.The Higher-Order IRT(H-O IRT)model is a multi-unidimensional model that uses in-test collateral information and represents it in the correlational structure of the domains through a higher-order latent trait formulation.H-O IRT model can provide both domain and the whole information,which is better fulfilling the needs of large-scale tests.

Key words:H-O IRT;Multidimensional IRT;Unidimensional IRT

中圖分類號:B841.2

文獻標識碼:A

文章編號:1003-5184(2015)05-0448-04

主站蜘蛛池模板: 中文无码毛片又爽又刺激| 免费a级毛片视频| 91综合色区亚洲熟妇p| 国产成人综合久久| 欧美精品亚洲二区| 亚洲国产成人无码AV在线影院L| 国产成人精品视频一区二区电影| 美女潮喷出白浆在线观看视频| 成人午夜视频免费看欧美| 亚洲黄色成人| 97精品久久久大香线焦| 国产成人久久777777| 国产一二视频| 亚洲第一中文字幕| 97青草最新免费精品视频| 久久精品最新免费国产成人| 亚洲精品视频免费| 久久久波多野结衣av一区二区| 日本免费一级视频| 一级毛片高清| 人妻精品久久久无码区色视| 国产精品一区二区不卡的视频| 国产一区二区丝袜高跟鞋| 四虎成人免费毛片| 在线观看亚洲人成网站| 久久精品人人做人人综合试看| 国产偷国产偷在线高清| 精品一区二区三区水蜜桃| 亚洲欧美日韩色图| 中文字幕乱码中文乱码51精品| 亚洲视频四区| 亚洲AV无码精品无码久久蜜桃| 欧美日韩亚洲综合在线观看 | 久久久久久午夜精品| 国产一区二区三区夜色| 国产福利在线观看精品| 人妖无码第一页| 国产熟睡乱子伦视频网站| 免费人成在线观看成人片| 亚洲九九视频| 日韩123欧美字幕| 亚洲妓女综合网995久久| 精品国产成人高清在线| 亚洲AV成人一区二区三区AV| 国产香蕉在线| 亚洲中字无码AV电影在线观看| 国产成人精品午夜视频'| 三级毛片在线播放| 国产激情在线视频| 国产91麻豆视频| 日韩无码黄色网站| 国产亚洲视频免费播放| 伊人久久精品亚洲午夜| 性做久久久久久久免费看| a在线亚洲男人的天堂试看| 亚洲天堂网在线播放| 国产一区二区网站| 亚洲成人手机在线| 国产素人在线| 成人无码区免费视频网站蜜臀| 永久免费无码日韩视频| 日本高清成本人视频一区| 亚洲日本www| 亚洲精品片911| 欧美激情视频一区| 精品无码日韩国产不卡av| V一区无码内射国产| 国产福利一区视频| 国产综合日韩另类一区二区| 亚洲高清在线天堂精品| 激情无码字幕综合| 国产99在线| 精品夜恋影院亚洲欧洲| 国产一区二区三区日韩精品| 日韩av手机在线| 麻豆AV网站免费进入| 国产自产视频一区二区三区| 中文字幕无码中文字幕有码在线 | 国产在线观看99| 亚洲精品无码久久毛片波多野吉| 久久综合AV免费观看| 国产人人射|