999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

四參數Logistic模型和傳統模型對被試作答擬合能力的比較研究

2018-07-11 02:40:48劉紅云
心理學探新 2018年3期
關鍵詞:能力模型

劉 玥 劉紅云

(北京師范大學心理學部,北京 100875)

1 前言

1.1 測驗中的睡眠現象

在成就測驗中,存在著一種高能力被試答錯容易題目的“睡眠現象(sleeping phenomenon)”(Wright,1977)。造成這種現象的原因可能有:焦慮、不良的測試環境導致被試分心、粗心、誤解題意,測驗動機過強和家長期望壓力過大等。同時,在心理測驗(如人格測驗)中,也存在一種由于被試掩飾、說謊等原因,在試題上表現出人格特征維度低水平方向的傾向性作答,使得被試在這一人格特征維度上總分偏低的現象(簡小珠,焦璨,彭春妹,2010)。睡眠現象會導致測驗總分偏低,從而造成測量偏差。在項目反應理論下,為了對睡眠現象進行修正,McDonald(1967)最早提出使用參數來反映一部分高能力被試答錯了容易試題的現象。睡眠現象可能會單獨出現。例如,對于一些難度較大的填空題,高能力被試未必能全部答對,而低能力被試則很難猜對。這時可以使用含有難度、區分度和睡眠參數(上漸近線參數)的三參數Logistic模型擬合數據。另外,睡眠現象和猜測現象可能同時出現,這時可以在傳統IRT模型(以下簡稱傳統模型)基礎上加入睡眠參數,來反映數據結構。

1.2 四參數Logistic模型介紹

1.2.1四參數Logistic模型定義

Waller和Reise(2010)在最早的四參數Logistic模型基礎上進行拓展,提出了廣義模型。該模型中每道題目的睡眠參數是不同的。

其中,aj,bj,cj分別表示區分度、難度、猜測參數。dj表示睡眠參數,在傳統模型中,dj固定為1,而在此模型中,dj可以小于1且在題目間變化。

另外,如果測驗中僅存在睡眠現象而不存在猜測現象,則可以使用含有難度、區分度和睡眠參數的三參數logistics模型(Waller & Reise,2010)。

1.2.2四參數Logistic模型估計

四參數Logistic模型在產生初期應用并不廣泛,這主要是由于傳統的極大似然估計方法很難實現該模型的參數估計(Waller & Reise,2010)。而貝葉斯估計方法對于估計復雜、多參數的模型非常有效。因此,Loken和Rulison(2010)使用貝葉斯估計方法實現了對四參數Logistic模型的參數估計。

1.2.3四參數Logistic模型應用

在Barton和Lord(1981)的研究中,將四參數Logistic模型應用于成就測驗。但是測驗極大似然值沒有顯著增加,被試能力估計值沒有顯著的變化,四參數模型還增加了計算的復雜性。因此,他們不提倡使用該模型。在之后的近二十年里,關于該模型的研究論文幾乎沒有,該模型只在一些教材中被提及。在此期間的BILOG、MULTILOG等軟件都沒有相應程序模塊(簡小珠,張敏強,彭春妹,2010)。

直至近幾年,研究者開始關注心理測驗中的睡眠現象和四參數Logistic模型。2003年,Reise和Waller(2003)在分析人格測驗MMPI-2 時,發現了一些試題存在睡眠現象,建議使用四參數Logistic模型擬合數據。簡小珠、戴海崎和彭春妹(2007)在分析高考數據時,發現了一些試題同時存在猜測現象和睡眠現象,或單獨存在猜測現象和睡眠現象。目前,關于四參數Logistic模型在成就測驗中的應用主要關注CAT測試中高能力被試在初始階段答錯容易試題后,該模型對能力值低估的修正作用(Rulison & Loken,2009)。但是,國內外關于四參數Logistic模型的文章還較少,尤其國內關于該模型在實際數據中應用的研究則更少(簡小珠,2006)。

1.3 研究目的

對于四參數Logistic模型的研究,大多關注了該模型與傳統模型在估計結果和信息量上的差異。研究多以四參數Logistic模型模擬作答反應,以睡眠現象作為既定的前提。然而,在實際的測驗中,睡眠現象真實發生的頻率如何?四參數Logistic模型與傳統模型的估計結果到底存在多大區別?還需要在實證研究中尋找答案。另外,關于四參數Logistic模型的應用研究多針對成就測驗或心理測驗中的一種,并且多數認為該模型更適用于心理測驗。那么,在成就測驗中,四參數Logistic模型是否對于模型擬合和參數估計沒有顯著改善呢?研究以焦慮量表和兩種分布的數學測驗為例,同時比較了在心理測驗和成就測驗中,四參數Logistic模型和傳統模型在模型擬合和參數估計值上的結果,分析了四參數Logistic模型的必要性,提出了應用建議。

2 方法

2.1 測量工具及被試

心理測驗選擇了泰勒焦慮調查量表(Taylor Manifest Anxiety Scale),共有50道題目,所有題目都要求被試回答是或否,因此均為0/1計分。被試共計5410名,其中男性占44.27%,女性占55.73%,年齡為30.12±11.87,被試得分呈負偏態分布。

成就測驗選擇了某大規模數學測驗,共60道題目,均為有4個備選答案的單項選擇題,0/1計分,滿分為60分。參加測驗的學生為來自47所學校的4882名高一學生,總分偏度為0.097,基本符合正態分布。

從數學測驗得分小于30分的學生中隨機剔除50%,構造一個新樣本,其樣本量為3740人,偏度為-0.199,得到一個相對原有分布的負偏態分布,以考察含有睡眠參數模型的優勢是否能夠在負偏態分布的成就測驗中顯現。

泰勒焦慮調查量表和數學測驗的描述統計結果如下表:

2.2 比較模型

使用R中的sirt軟件包(Robitzsch & Robitzsch,2015)進行模型與數據的擬合。擬合的模型有以下七種。

模型1:Rasch模型

模型2:兩參數Logistic模型(2PM)。

模型3:三參數Logistic模型(3PM),含有難度、區分度和猜測參數的Logistic模型。

模型4:三參數睡眠logistics模型(3PMR),含有難度、區分度和睡眠參數的logistc模型。適用于睡眠現象單獨存在的情況。

模型5:四參數Logistic模型(4PM),同時含有難度、區分度、猜測參數和睡眠參數的Logistic模型。

模型6:模型5的基礎上將所有題目猜測參數固定相等估計的模型(4PMc)。

模型7:模型5的基礎上將所有題目睡眠參數都固定相等估計的模型(4PMd)。

3 結果

3.1 不同模型擬合指標結果

表2列出了對于不同數據,各模型的擬合指標結果。AIC、BIC結果具有較高的一致性。對于所有測驗來說,Rasch模型的擬合結果均最差,對于泰勒焦慮調查量表,3PMR的AIC指標最好,2PM的BIC指標最好;對于原始的和構造的負偏態數學測驗,4PM的AIC指標最好,4PMd的BIC結果最好。由于這兩個擬合指標均考慮了模型的復雜程度,因此,綜合來看,上漸近線參數非1的模型能提供較好的擬合結果。

表2 不同測驗模型擬合結果

3.2 不同模型參數相關

為考察四參數Logistic模型與傳統模型參數估計結果的差異,計算了擬合情況最好的四參數Logistic模型(或上漸近線參數非1的模型,以下簡稱四參數Logistic模型)與擬合情況次之的上漸近線參數固定為1的傳統模型的題目參數、能力參數的相關。

3.2.1題目參數相關

表3列出了不同測驗四參數Logistic模型與擬合情況最接近的傳統模型題目參數估計值的相關。

表3 四參數Logistic模型與傳統模型題目參數估計值相關

從以上結果可以看出,對于不同測驗,四參數Logistic模型與傳統模型的難度參數估計結果具有較高的一致性,但是區分度參數具有較大的差異,并且,對于構造的負偏態數學測驗,不同模型區分度參數估計值差異最大。不同模型區分度參數估計值的差異如圖1所示。

圖1 四參數Logistic模型與傳統模型區分度參數估計值

從圖中可以看出,四參數Logistic模型得到的區分度參數估計值高于傳統模型。

表4列出了按照四參數Logistic模型的難度參數估計值,刪除最簡單的5、10、15道題目后,不同模型參數估計值的相關。

表4 刪除簡單題目后四參數Logistic模型與傳統模型題目參數估計值相關

從表中可以看出,刪除簡單題目對難度參數估計值的相關沒有顯著影響。但是,隨著刪除簡單題目數量增加,不同模型區分度參數的一致性增強,該現象對于構造的負偏態數學測驗尤其明顯。這可能是由于簡單題目數量越少,睡眠現象發生的概率相對越少,則上漸近線參數為1的情況更為普遍,因此,四參數Logistic模型與傳統模型區分度參數估計值越接近。

3.2.2能力參數相關

表5列出了不同測驗四參數Logistic模型與擬合情況最接近的傳統模型所有能力參數估計值、部分能力參數估計值的相關。

表5 四參數Logistic模型與傳統模型能力參數估計值相關

注:不同測驗所比較的模型與表3一致。

從結果可以看出,雖然對于所有的被試,不同模型能力參數估計值相關很高,但是對于能力越高的群體,不同模型能力參數估計值的一致性越低,特別是對于能力最高的100名被試,不同模型能力參數估計值的相關僅為0.672、0.530和0.527,對于高能力被試,四參數Logistic模型得到的能力參數估計值高于傳統模型。

以數學測驗為例,選取了四參數Logistic模型能力參數估計值為1以上、2以上的被試,并分別計算了對于這些群體,使用4PM和3PM得到的能力參數估計值的相關。結果顯示,對于所有被試、能力為1以上被試、能力為2以上被試,兩種模型能力參數估計值的相關分別為0.996、0.942、0.590。進一步驗證了對于能力水平越高的被試,四參數Logistic模型與傳統模型能力參數估計值差異越大。另外,如圖2所示,對于高能力被試,4PM得到的能力參數估計結果普遍高于3PM。

圖2 不同被試四參數Logistic模型與三參數Logistic模型能力參數估計值

圖3 四參數Logistic模型與傳統模型項目特征曲線

3.3 項目特征曲線分析

為了進一步證明上漸近線參數非1現象的存在,在泰勒焦慮調查量表和數學測驗中分別選取了d參數顯著小于1的一道題目,繪制不同模型的項目特征曲線(ICC),如圖3所示。

從圖中可以看出,實際測驗中確實存在上漸近線參數顯著小于1的題目。對于這些題目,傳統模型的上漸近線為1,高能力被試答對題目的概率接近1;而四參數Logistic模型的上漸近線小于1,高能力被試答對題目的概率顯著小于1。

4 討論

4.1 四參數Logistic模型的必要性

研究以實際數據為例,展示了四參數Logistic模型如何用于分析心理測驗和成就測驗,并與傳統模型的擬合性和參數估計結果比較,總結出四參數Logistic模型的必要性。

4.1.1四參數Logistic模型對心理測驗的必要性

早期關于四參數Logistic模型的文章中,多認為該模型更適用于心理和人格測驗。這是由于三個原因造成的:一是心理測驗題目存在著極端性,即某些題目有基礎的選擇率,會存在非0下漸近線現象和非1 上漸近線現象。例如,有調查顯示,有自殺傾向的青少年比例小于0.50,那么在青少年的抑郁量表中,即使有重度抑郁的人,也不一定有自殺傾向。二是心理測驗項目上存在“非對稱的項目特征模糊性(non-symmetric item ambiguity)”,即人格測驗在人格特征維度上的一端測量可以模糊,而在人格特征維度的另一端的測量要求精確。這時需要c或d參數來反映,以得到更精確的測量(簡小珠,焦璨,彭春妹,2010)。三是相比于成就測驗,心理測驗所關注的峰值具有較強的靈活性。在大多數心理測驗中,量尺的兩端都具有一定的意義。如果由于解釋分數的需要,將原有的量表方向反向,那么原本需要猜測參數的題目反向后需要睡眠參數。因此,在很多研究中都證明了在心理測驗中,四參數Logistic模型的適用性(Waller & Reise,2010)。

四參數Logistic模型用于泰勒焦慮調查量表也具有較大的優勢。第一,從模型擬合指標來看,考慮了睡眠參數的模型其AIC擬合指標結果最好。第二,從參數估計結果來看,考慮了d參數的模型與傳統模型在區分度、能力參數估計值上具有一定的差異,傳統模型會低估一些題目的區分度參數,低估高能力被試的能力參數。第三,從具體的題目參數估計結果來看,確實存在d參數顯著小于1的題目。例如第15題,題目為“我的手腳經常是暖的。(My hands and feet are usually warm)”,該題為反向計分,d參數顯著小于1(d=0.58,se=0.007)。測驗設計者假設,越焦慮的人,他們的手腳就越不會暖。但是實際數據證明,在所有被試中,有接近半數選擇了“是”,這可能是因為手腳溫暖也存在基礎選擇率,即在所有人群中,本來就有很大比例的人手腳是暖的。因此,對于這類題目,加入d參數進行數據擬合就非常必要。

4.1.2四參數Logistic模型對成就測驗的必要性

研究者曾經對ETS所收集的成就測驗的數據(如SAT的語言部分、SAT的數學部分、GRE的語言部分等)采用四參數Logistic模型進行擬合,結果證明,四參數Logistic模型沒有提高測驗的似然值,得到的能力估計結果也沒有顯著的差異,并且計算復雜,因此沒有較大的實踐價值(Barton & Lord,1981)。

但是隨著ETS讓參加測試的學生免費重考事件的出現(Carlson,2000),許多研究者開始關注在CAT中被試能力被嚴重低估而導致不可信的問題(Rulison & Loken,2009)。

在傳統的紙筆測驗中,也可能存在由于睡眠現象而導致被試能力低估的問題。這時,也可以應用四參數Logistic模型來對能力估計值進行矯正,得到更為準確的測量結果。對于數學測驗和構造的負偏態數學測驗,四參數Logistic模型在各擬合指標上均優于傳統模型;在區分度參數估計結果上與傳統模型有較大的差異,并且當低難度題目比例相對較大時,這種差異更為明顯;高能力被試的能力估計結果也普遍高于傳統模型。另外,在具體的題目參數估計結果上,也有一些題目的d參數估計值顯著小于1。對比原始數學測驗和構造的負偏態數學測驗的估計結果可以發現,對于構造的負偏態數學測驗,四參數Logistic模型和傳統模型在區分度參數估計結果上的差異更大;而在兩種分布下,不同模型在能力參數估計結果上的差異沒有顯著區別。研究假設在負偏態的分布中,由于高能力的被試比例較大,因此四參數Logistic模型的優勢應更明顯。但是實際結果并沒有證明這一假設。這可能是由于一方面,構造的負偏態分布是基于測驗的原始分得到的,這種經典測量理論下的原始分對被試能力水平的描述本來就存在較大的誤差;另一方面,所構造的數據偏度為-0.199,偏度較小,可能尚未達到使得四參數Logistic模型優勢得以突顯的程度。因此,未來的研究可以考慮使用模擬的方法,構造不同分布的數據,系統地考察四參數Logistic模型與傳統模型的差異。

綜上,成就測驗實際數據分析結果證明,對于研究所選用的成就測驗,有必要使用四參數Logistic模型進行擬合。

4.2 四參數Logistic模型的使用建議

傳統模型是四參數Logistic模型的特例,在實際中,是否需要選擇四參數Logistic模型進行數據擬合可以考慮以下幾個方面的問題:

一是測驗的類型。對于心理測驗,由于被試無意識的社會期望反應和掩飾防御反應等等,被試作答存在著非0下漸近線現象和非1 上漸近線現象,會影響測驗結果的準確性(簡小珠,焦璨,彭春妹,2010)。因此,建議使用四參數Logistic模型進行參數估計。對于成就測驗,有條件的情況下,可以在三參數Logistic模型的基礎上,使用四參數Logistic模型的估計結果作為驗證與補充,糾正高能力被試答錯容易試題時的能力低估現象。另外,如果測驗中簡單題目的比例較高,使用四參數Logistic模型可能會得到較為準確的結果。

二是測驗的目的。對于某些成就測驗而言,準確地估計被試的能力水平非常重要。例如在一些高利害的測驗(如高考)中,每個考生的能力估計結果都會造成直接和重要的后果,其準確性就顯得尤為重要。如果由于睡眠現象的存在,低估了高能力考生的能力值,就會對高能力人才的發展產生諸多不利的影響。另外,對于安置性測驗(placement test),考生能力的估計結果直接影響到學生的分班、分級,如果由于使用了不合適的模型進行擬合而低估了高能力考生的能力值,會導致分班結果的偏差,進而影響到高能力學生后續階段的學習。因此,在這些成就測驗中,考慮到測驗的目的,可以使用四參數Logistic模型,保證高能力被試能力估計結果的準確性。

三是運算的復雜程度。早期使用四參數Logistic模型的主要障礙在于計算的復雜性和費時,隨著估計方法和計算機性能的發展,最新的IRT 軟件WINSTEPS(Linacre,2009)包含了四參數logistic 模型的項目參數估計模塊,R語言中的sirt軟件包也具有擬合四參數Logistic模型的功能。這些軟件的發展使得在選擇四參數Logistic模型時,運算的復雜程度已不是制約模型應用的主要因素,為其廣泛應用奠定了基礎。

4.3 有待進一步研究的問題

研究所涉及的實際數據,均為0/1計分。今后,可以將四參數Logistic模型推廣到多級評分的題目,甚至混合題型的測驗中。

其次,四參數Logistic模型的等值也是值得深入研究的問題。可以探索使用該模型是否能夠顯著提高高能力群體被試能力等值結果的準確性。

最后,隨著多維項目反應理論越來越受到關注,如何將四參數Logistic模型推廣至多維情境中,也需要更多的研究者付諸努力。

5 結論

在實際測驗中,確實存在睡眠現象。四參數Logistic模型能夠顯著提高模型對心理測驗和成就測驗數據的擬合性,糾正區分度參數低估和高能力被試答錯容易試題時的能力低估現象。因此,在實際測驗的數據分析中,應當根據具體情況,必要時使用四參數Logistic模型替代傳統模型,對參數估計結果進行驗證與補充,以提高測量結果的準確性。

猜你喜歡
能力模型
一半模型
消防安全四個能力
幽默是一種能力
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
你的換位思考能力如何
努力拓展無人機飛行能力
無人機(2017年10期)2017-07-06 03:04:36
3D打印中的模型分割與打包
抄能力
主站蜘蛛池模板: 青青草国产在线视频| 亚洲中文制服丝袜欧美精品| 亚洲啪啪网| 亚洲不卡影院| 亚洲最大福利网站| 亚洲av日韩综合一区尤物| 麻豆精品在线视频| 伊人国产无码高清视频| 久久久久亚洲AV成人人电影软件 | 亚洲AV无码乱码在线观看代蜜桃| 亚洲高清国产拍精品26u| 91精品专区国产盗摄| 国产视频只有无码精品| 成人午夜免费观看| 中文字幕亚洲专区第19页| 国产精品第页| 久久婷婷色综合老司机| 中文字幕乱码二三区免费| 久久精品只有这里有| 91精品视频播放| 亚洲a级毛片| 九色视频在线免费观看| 亚洲精品国产成人7777| 国产极品美女在线观看| 成人91在线| 久久亚洲天堂| 孕妇高潮太爽了在线观看免费| 国产区人妖精品人妖精品视频| 国产一区二区三区精品欧美日韩| 国产激情在线视频| 国产精品19p| 亚洲最猛黑人xxxx黑人猛交 | 女人爽到高潮免费视频大全| 在线国产欧美| 一本色道久久88综合日韩精品| 国产本道久久一区二区三区| 天堂中文在线资源| 91无码视频在线观看| 88国产经典欧美一区二区三区| 一本一本大道香蕉久在线播放| 欧美亚洲日韩中文| 中文字幕日韩欧美| 亚洲开心婷婷中文字幕| 精品无码视频在线观看| 日本亚洲欧美在线| 日韩欧美综合在线制服| 女人18毛片一级毛片在线 | 国产手机在线ΑⅤ片无码观看| 欧美精品亚洲日韩a| 免费在线看黄网址| 91探花在线观看国产最新| 中文字幕 日韩 欧美| 中文字幕天无码久久精品视频免费 | 97se综合| 国产精品男人的天堂| 午夜欧美理论2019理论| 国产v精品成人免费视频71pao| 91亚洲国产视频| 亚洲激情99| 中文字幕啪啪| 日韩 欧美 国产 精品 综合| 幺女国产一级毛片| 制服丝袜 91视频| 91免费精品国偷自产在线在线| 中文国产成人精品久久| 国产成+人+综合+亚洲欧美| 久久动漫精品| 亚洲欧美在线精品一区二区| 日本高清有码人妻| 激情综合网激情综合| 亚卅精品无码久久毛片乌克兰| 97国产在线观看| 亚洲激情区| 狼友视频国产精品首页| 欧美一级在线看| 亚洲综合第一页| Aⅴ无码专区在线观看| 亚洲久悠悠色悠在线播放| 欧美不卡二区| 免费jjzz在在线播放国产| 亚洲AⅤ综合在线欧美一区| 国产成人综合亚洲网址|