999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

題目位置效應(yīng)的概念及檢測*

2018-02-04 13:02:08聶旭剛張纓斌何引紅
心理科學(xué)進展 2018年2期
關(guān)鍵詞:效應(yīng)情境影響

聶旭剛 陳 平 張纓斌 何引紅

(1北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心; 2北京師范大學(xué)教育學(xué)部;3北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 北京 100875)

1 引言

在1984年至1986年的美國教育進展評估項目(The National Assessment of Educational Progress,NAEP)中, 9歲和17歲受測群體的閱讀成績出現(xiàn)難以置信的異常下降, 這一事件引發(fā)一項為期 3年的調(diào)查研究, 也即后來被大家所熟知的“1986年NAEP閱讀異常研究” (詳見Beaton et al., 1988;Beaton & Zwick, 1990)。后續(xù)研究表明:導(dǎo)致這一現(xiàn)象的主要原因是NAEP中題冊間錨題位置與情境的變化(Zwick, 1991)。這一現(xiàn)象作為測量領(lǐng)域的一個警鐘, 提醒研究者們:題目位置和情境的變化會對受測者的作答反應(yīng)產(chǎn)生不容忽視的影響,尤其是在測驗等值設(shè)計中。

目前, 測驗中因題目位置變化所產(chǎn)生的影響,主要是從題目位置變化如何影響題目參數(shù)的角度進行探究。在此背景下, 本文將題目位置效應(yīng)(Item Position Effect, IPE)定義為:在剔除隨機誤差的影響之后, 同一個題目在不同測驗間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。由上述定義并結(jié)合以往研究, 可以看出 IPE會對依賴于項目反應(yīng)理論(Item Response Theory, IRT)參數(shù)不變性(parameter invariance)1特征的相關(guān)應(yīng)用、測驗公平性以及考生的作答心理等方面造成不利影響。

首先, 在心理與教育測量中, 參數(shù)不變性特征是IRT的最大優(yōu)點(羅照盛, 2012)。IRT正是由于具備這一特性, 才使得它在指導(dǎo)題庫建設(shè)、計算機化自適應(yīng)測驗(Computerized Adaptive Testing,CAT)中發(fā)揮著無法比擬的作用。同時, 參數(shù)不變性特征也是測驗等值技術(shù)得以實現(xiàn)的前提條件;在多種等值設(shè)計中, 非等組錨測驗設(shè)計(Kolen,2006)是最常見的等值數(shù)據(jù)搜集方法, 這種設(shè)計通過一組內(nèi)嵌在兩個平行測驗中的錨題來實現(xiàn)兩個測驗間的等值。而且該設(shè)計有一個關(guān)鍵假設(shè):錨題的統(tǒng)計學(xué)特性在不同的測驗間應(yīng)該是穩(wěn)定的,即錨題參數(shù)不變性假設(shè)。另外, 在矩陣取樣(matrix sampling)技術(shù)中, 為了實現(xiàn)不同學(xué)生之間成績的比較, 需要在不同題冊間設(shè)置相同的組塊(block)加以鏈接, 并且組塊的位置在各個題冊間也是不同的。此時, 鏈接所使用題目的參數(shù)穩(wěn)定性, 對于矩陣取樣設(shè)計的有效性具有決定性影響。然而, IPE恰恰是對IRT參數(shù)不變性特征的一種違反。所以, 系統(tǒng)研究 IPE的影響, 對于確保IRT應(yīng)用優(yōu)勢的發(fā)揮、降低等值誤差、優(yōu)化矩陣取樣技術(shù)在大規(guī)模測評領(lǐng)域的應(yīng)用, 都具有十分重要的意義。

其次, 從測驗公平性角度來看, 一個公平的題目應(yīng)該能夠給受測者提供平等的機會, 來反映他們已掌握的與測驗?zāi)康南嚓P(guān)的技能和知識(Roever, 2005)。然而在實踐中, 題目或者測驗水平的公平性很可能會受到題目位置、性別以及種族等因素的影響, 從而導(dǎo)致題目偏差(item bias),并最終對受測者的作答表現(xiàn)產(chǎn)生影響(Zumbo, 1999)。傳統(tǒng)的做法是從題目功能差異(Differential Item Functioning, DIF) (即題目參數(shù)值在不同子群體間存在變化)的角度來對這種偏差進行分析, 但是也可以從IPE的角度來分析。IPE和DIF一樣都會對測驗的公平性產(chǎn)生不利影響。但是相比較而言,DIF是從被試特征的差異來探究具有相同目標(biāo)測量結(jié)構(gòu)的個體在題目參數(shù)上的差異, 即考查題目功能所導(dǎo)致的偏差; 這種偏差是由于題目本身功能性特征所決定的, 是由于題目開發(fā)過程, 即題目設(shè)計所導(dǎo)致的; 而 IPE則是從題目特征的差異來探究題目參數(shù)穩(wěn)定性的影響, 即考查題目情境(即位置)所導(dǎo)致的偏差; 此偏差是由于題目外在情境特征所決定的, 是由于測驗設(shè)計所導(dǎo)致的。所以, 從偏差產(chǎn)生原因的角度來看, IPE又有別于DIF, 也有國內(nèi)研究者將其歸屬為參數(shù)漂移(Item Parameter Drift, IPD)產(chǎn)生的原因, 并對 IPD 與DIF進行了系統(tǒng)地區(qū)分(葉萌, 辛濤, 2015)。

總的來說, IPE對測驗的公平性的不利影響主要體現(xiàn)在依據(jù)考生作答反應(yīng)對其進行分類、選拔等政策性的決策中, 進而會對個人錄取、學(xué)校資助、地區(qū)課程的調(diào)整產(chǎn)生較大影響(Hill, 2008;Meyers, Miller, & Way, 2009; Wise, Chia, & Park,1989)。特別是在高利害考試中, 減少這種不利因素, 可以為考生提供相同的機會、維持高水準(zhǔn)分類的準(zhǔn)確性。

此外, 在認(rèn)知領(lǐng)域的實驗研究中, Weinstein和 Roediger (2010)對測驗表現(xiàn)中回顧性偏差(retrospective bias)的研究也表明:題目排列方式的不同, 會使得被試在作答動機、自信心水平以及受測后自我成就評價等方面存在顯著的差異。這說明題目位置的變化的確關(guān)系到被試的作答心理, 進而會影響被試的作答表現(xiàn)??荚嚤旧砭褪且环N會引起受測者應(yīng)激反應(yīng)的事件, 所以在將考試結(jié)果作為決策依據(jù)使用之前, 任何對被試的作答心理造成差異性影響的因素, 都值得對其進行慎重且全面的考查。

基于這一研究主題的重要性, 本文旨在對IPE進行系統(tǒng)概括和總結(jié), 以期為測量研究者與實踐者了解IPE的研究進展以及主要研究思路提供幫助。本文首先對IPE的相關(guān)概念(比如參數(shù)不變性、題目情境效應(yīng)、題目順序效應(yīng))進行梳理; 然后系統(tǒng)總結(jié)檢測 IPE的方法以及相應(yīng)的模型, 同時從兩個角度對 IPE的解釋進行概括; 最后, 從四個方面對今后的研究方向進行展望。

2 IPE的相關(guān)概念

關(guān)于IPE的研究集中于探討其對IRT參數(shù)不變性特征違反所造成的影響, 所以本章節(jié)首先對IRT參數(shù)不變性特征進行簡要介紹。另外, 關(guān)于IPE的研究也是隨著測量技術(shù)的發(fā)展以及測量領(lǐng)域問題關(guān)注點的變化而不斷變化的, 所以結(jié)合這一主題的研究進程, 我們也對這期間所涉及的與IPE相似或相關(guān)的概念進行區(qū)分。

2.1 IRT參數(shù)不變性特征

參數(shù)不變性特征是IRT在測驗領(lǐng)域最實用的特征, 等值、DIF和 IPD等研究主題都是基于參數(shù)不變性遭到違反以及由此產(chǎn)生的影響來開展相關(guān)研究的。對于參數(shù)不變性, 可以從兩個角度進行理解:第一, 從同一總體的角度進行理解, 即根據(jù)來自同一總體的不同樣本所估計得到的參數(shù)值不變。比如, 來自同一總體的兩批被試樣本作答同一批題目, 通過作答反應(yīng)估計得到的兩批題目參數(shù)值近似相同; 第二, 從不同總體的角度進行理解, 即根據(jù)來自不同總體的樣本所估計得到的參數(shù)值是存在變化的(Rupp & Zumbo, 2006)。但是它們之間存在某種線性關(guān)系, 可以通過等值來進行轉(zhuǎn)換比較。所以總的來說, 參數(shù)不變性是指:使用同一總體內(nèi)不同樣本(題目或被試樣本)所估計得到的相同被試或相同題目的參數(shù)是不變的。

Hambleton和 Swaminathan (1985)明確表達“能力參數(shù)的估計獨立于特定的選項與題目”是IRT的主要特征, 也是被試間能夠進行比較的基礎(chǔ)。Meyers等人(2009)認(rèn)為基于參數(shù)不變性特征,研究者可以將 IRT應(yīng)用到 CAT和預(yù)等值(preequating)??梢哉f, 近年來幾乎所有被記錄的、對測驗實踐有益的發(fā)展, 都是伴隨著 IRT, 或者更確切地說, 是隨著參數(shù)不變性特征一起出現(xiàn)的(Store, 2013)。但 IPE恰恰是對這一特征的違反(Hill, 2008; Meyers et al., 2009; Wise et al., 1989),所以從這一特征在 IRT應(yīng)用中的重要地位來看,關(guān)于IPE的研究應(yīng)該引起測量領(lǐng)域相關(guān)學(xué)者的高度重視。

2.2 IPE概念的演進

IPE是在剔除隨機誤差的影響之后, 同一個題目在不同測驗間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。事實上, 這一概念囊括了關(guān)于題目位置變化的所有可能情況, 其中包括單個題目的位置變化以及多個題目整體和部分的位置變化(即題目順序或情境)。常見的兩種IPE分別是練習(xí)效應(yīng)(learning effect)和疲勞效應(yīng)(fatigue effect)(Kingston & Dorans, 1984)。在非速度型測驗2在 IPE相關(guān)研究領(lǐng)域里涉及的非速度型測驗 (unspeeded tests), 都是按照大型測評公司的經(jīng)驗法則進行定義:可以滿足100%被試完成75%的題目, 或者不少于80%的被試完成100%的測驗題目。中,存在的疲勞效應(yīng), 會使得位于測驗尾部的題目難度增大; 反之, 練習(xí)效應(yīng)會使得位于測驗尾部的題目難度降低。

對以往研究進行梳理發(fā)現(xiàn), 題目情境效應(yīng)(item context effect)與題目順序效應(yīng)(item order effect)本質(zhì)上都是研究題目位置改變所產(chǎn)生的影響, 所以兩者都可以歸屬于 IPE的概念范疇, 接下來對它們以及彼此的關(guān)系進行簡要說明。

2.2.1 題目情境效應(yīng)

Leary和 Dorans (1985)以及 Davey和 Lee(2010, 引自 Store, 2013)等人將題目情境效應(yīng)定義為:受測者在題目上的作答反應(yīng)直接或間接地受除“測驗想要測量的主要特質(zhì)或構(gòu)念”以外一些因素的影響而發(fā)生變化。這些影響因素具體包括:題目在測驗中的位置(Hill, 2008; Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)、措辭、內(nèi)容、格式(Kingston & Dorans, 1984; Zwick, 1991)以及該題目周圍的其他題目的特殊特征(Davis &Ferdous, 2005; Haladyna, 1992)。由于題目的位置是題目所在情境的一部分, 因而, IPE可以被看作是題目情境效應(yīng)的特例。

但是, 研究表明:在因情境變化而對被試能力估計產(chǎn)生影響的各種因素中, 題目位置變化的影響是最為顯著的(Leary & Dorans, 1985), 因而研究者也集中于探討位置因素的影響。所以本文認(rèn)為在心理與教育測量情境下, 關(guān)于題目情境效應(yīng)的研究, 如果主要討論的是題目情境因素中位置因素對被試作答表現(xiàn)的影響, 題目情境效應(yīng)就是特指IPE。

2.2.2 題目順序效應(yīng)

早期的成就測驗中, 經(jīng)常通過保持測驗內(nèi)容不變而改變題目順序的方式, 來防止考生抄襲,提高考試安全性。自Mollenkopf (1951)發(fā)現(xiàn)題目順序的變化會對題目難度、區(qū)分度有顯著影響后,很多研究者都開始探究不同題目排列方式對測驗總分的影響(Brenner, 1964; Hanson, 1996; Monk &Stallings, 1970; Moses, Yang, & Wilson, 2007)。題目順序效應(yīng)是指一組題目由于題目間順序的變化所帶來的對受測者作答結(jié)果的影響。即同一組題目以不同的順序呈現(xiàn)給同一總體內(nèi)兩組不同的被試作答, 考察兩組被試在同一組題目上作答結(jié)果的差異。

綜合以往的文獻描述, 可以將題目順序和題目位置的研究問題都歸為題目排列(item arrangement)方式的研究范疇3題目排列方式即對題目組合設(shè)計(如題目順序、題目位置)的總稱, 表示按照某種設(shè)計對題目進行編排和安放。進一步細分, 題目排列方式還包含:題目的難易排列、按照課程教學(xué)順序排列等。在本文中, 我們統(tǒng)一將其納入題目順序效應(yīng)的范疇內(nèi)。因為以往在考查其影響時, 都是以多個題目間順序改變的形式, 從測驗整體層面上來考察其對被試作答的影響。。本質(zhì)上, 題目順序效應(yīng)是 IPE在測驗層面的概念, 是同一研究問題在不同研究階段的名稱, 兩者可以統(tǒng)稱為IPE。兩者的關(guān)系詳見表1。

事實上, 這一研究主題下的研究視角由測驗整體層面過渡到單個題目層面的轉(zhuǎn)換, 得益于 70年代末等值技術(shù)的應(yīng)用——由于在等值設(shè)計中涉及錨題的使用, 所以在基于 IRT的等值設(shè)計中,錨題參數(shù)穩(wěn)定性的相關(guān)研究, 使得關(guān)于題目排列順序?qū)忌鞔鸨憩F(xiàn)影響的探究從多個題目順序?qū)用孓D(zhuǎn)換到單個題目層面。此后, 越來越多的研究者(Debeer & Janssen, 2013; Hartig & Buchholz,2012; Hecht, Weirich, Siegle, & Frey, 2015; Meyers et al., 2009; Qian, 2014; Weirich, Hecht, Penk,Roppelt, & B?hme, 2017), 開始從題目層面上考察單個題目位置的改變對測驗題目或者被試作答造成的影響。

總的來說, 以往基于測驗總體層面對題目順序效應(yīng)的研究, 存在以下的問題:首先, 這些研究僅僅是對某一組特殊的題目進行題目順序效應(yīng)的研究, 其結(jié)論很難推論到其他測驗形式中; 其次,對于題目順序效應(yīng)的研究被限定在:不同題冊間題目相同只有題目順序不同的等組設(shè)計中; 最后,這些研究僅僅關(guān)注題目順序效應(yīng)對測驗總分的影響, 限制了對這種效應(yīng)的進一步解釋, 從而導(dǎo)致IPE可能會在不同的測驗間相互抵消, 進而無法得到檢測。

表1 題目位置效應(yīng)和題目順序效應(yīng)的區(qū)別和聯(lián)系

3 題目位置效應(yīng)的檢測和解釋

IPE的一般研究思路是:首先, 所考查的測驗必須包括兩個或多個題冊, 部分或所有題目在不同題冊中的位置不同。然后, 將不同題冊隨機分配給不同的被試作答, 獲得數(shù)據(jù)后進行參數(shù)估計,再考察題目參數(shù)與題目位置的關(guān)系??偨Y(jié)以往研究對 IPE建模的程序, 可以將IPE的研究方法分為兩步法和一步法。

3.1 兩步法

兩步法是先對同一題目在不同題冊中的參數(shù)值分別進行估計, 再通過t檢驗、方差分析、相關(guān)分析或回歸分析等統(tǒng)計方法檢驗相同題目在不同位置時的參數(shù)是否有差異, 據(jù)此來判斷 IPE是否存在以及其對題目參數(shù)的影響(e.g., Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)。以往基于兩步法的研究主要在以下三個情境下對IPE進行研究:

首先, 在一般的測驗情境下。Kingston和Dorans(1982, 1984)、Whitely 和 Dawis (1976)、Yen (1980)通過相關(guān)分析考查了題目位置的改變對經(jīng)典測驗理論(Classical Test Theory, CTT)中的通過率, 以及IRT中Rasch難度參數(shù)的影響。這些研究都比較一致地發(fā)現(xiàn)疲勞效應(yīng), 其中 Yen (1980)進一步分析后認(rèn)為:相對于測驗尾部的題目考生會更認(rèn)真對待位于測驗前端的題目, 因而將疲勞效應(yīng)解釋為受測者缺乏耐心。這種對于疲勞效應(yīng)的理解很具前瞻性, 與近期將 IPE理解為考生努力或者毅力的思路相一致(Debeer, Buchholz, Hartig &Janssen, 2014; Hartig & Buchholz, 2012), 這也進一步佐證了在下一步研究中可以將IPE看作為獨立于目標(biāo)考查維度之外的新維度。

其次, 在測驗等值情境下。Davis和 Ferdous(2005)、Eignor和 Cook (1983) 以及Meyers等人(2009)分別考查預(yù)試測驗(field testing)和正式測驗(living testing)中錨題位置變化對其題目參數(shù)的影響。研究一致發(fā)現(xiàn)當(dāng)錨題位于預(yù)試和正式測驗的不同位置時, 錨題的 Rasch難度參數(shù)值不同; 而且當(dāng)預(yù)試測驗中的題目, 在正式測驗中的位置越往測驗尾部變化時, 其難度估計值越大。Meyers等人(2009)認(rèn)為當(dāng)預(yù)試中難度值較小的題目位于正式測驗的前端位置、難度值較大的題目位于正式測驗的尾部時, 存在顯著的與測驗等值設(shè)計相關(guān)的IPE。這說明IPE的確會對以IRT為基礎(chǔ)的等值設(shè)計的實現(xiàn)有不利影響, 而且這種不利影響對低能力水平的被試更為明顯。

最后, 在CAT情境下。Wise等(1989)分析軍隊計算機化自適應(yīng)選拔測試(Army's Computerized Adaptive Screening Test, CAST)中的詞匯知識和算術(shù)推理測驗。研究結(jié)果表明同一個題目位于測驗后半部分時比位于前半部分時的通過率更低、難度估計值更大, 即題目位置的改變會產(chǎn)生疲勞效應(yīng); 并且平均通過率達 75%及以上的題冊中疲勞效應(yīng)并不顯著, 而平均通過率只有 50%的題冊中疲勞效應(yīng)顯著, 即低能力水平的被試更易受疲勞效應(yīng)的影響。

在兩步法的研究方法下, 也有少部分研究考查 IPE對題目區(qū)分度的影響, 結(jié)果表明在教育測驗中相對于對題目區(qū)分度參數(shù)的影響, IPE對題目難度參數(shù)的影響更為明顯(Kingston & Dorans, 1982;Yen, 1980)??傮w上, 兩步法下的研究結(jié)果都一致地發(fā)現(xiàn)了疲勞效應(yīng), 但是針對這一發(fā)現(xiàn)研究者們也指出, 必須要首先明晰速度型測驗或者測驗長度對受測者的作答反應(yīng)有怎樣的影響(Davis &Ferdous, 2005; Yen, 1980)。

兩步法的最大優(yōu)勢是數(shù)據(jù)分析時的簡便性,甚至可以在CTT的框架下通過比較同一題目在不同位置時的通過率、題總相關(guān)系數(shù)等檢測測驗中是否存在 IPE。但是, 兩步法也有一些不足:(1)為了將不同題冊中的題目參數(shù)鏈接到同一量尺上, 錨題在不同題冊中需要處于相同的位置; (2)沒有考慮題目參數(shù)的測量誤差。具體來說, 兩步法將參數(shù)估計和IPE檢測分開進行:第一步得到題目參數(shù)估計值, 第二步將參數(shù)估計值和題目位置分別看成因變量和自變量, 并通過方差分析、回歸分析等統(tǒng)計方法檢測 IPE的存在。這樣, 在第二步分析位置對題目參數(shù)的影響時假定題目參數(shù)估計值不含測量誤差, 這樣很可能使得分析結(jié)果出現(xiàn)偏差; (3)易受樣本量的影響。Li, Cohen和 Shen(2012)指出, 當(dāng)不同題冊上的樣本量較小時, 使用兩步法是不切實際的(尤其是對于 CAT而言),因為樣本量太小會導(dǎo)致題目參數(shù)估計值存在較大誤差, 使得對IPE的檢測存在困難。

3.2 一步法

一步法是直接對 IPE進行建模, 即在模型中加入“位置效應(yīng)參數(shù)”, 并將被試在所有題冊上的作答數(shù)據(jù)放在一起進行參數(shù)估計。通過比較包含與不包含“位置效應(yīng)參數(shù)”的模型的擬合度, 以及檢驗“位置效應(yīng)參數(shù)”是否顯著不為零, 來判斷是否存在 IPE。相對于兩步法, 一步法具有以下優(yōu)勢:(1)在模型中加入了量化位置效應(yīng)的參數(shù), 可以實現(xiàn)題目本身的難度參數(shù)和題目位置參數(shù)的分離, 進而實現(xiàn)對 IPE更精確的分析; (2)在實現(xiàn)對題目參數(shù)和位置參數(shù)進行分離的同時, 也可以實現(xiàn)對二者的同時估計; 同時估計考慮了參數(shù)的測量誤差, 分析結(jié)果更為精確。此外, 一步法主要是在解釋性項目反應(yīng)理論(Explanatory Item Response Theory, EIRT) (De Boeck & Wilson, 2004)的框架下構(gòu)建各類模型以實現(xiàn)對 IPE的檢測, 這一框架下的模型不僅可以用于實現(xiàn)對 IPE的檢測, 也可以用于下一步的研究中實現(xiàn)對 IPE的解釋(比如Debeer & Janssen, 2013)。

已有研究主要是基于將Rasch模型4關(guān)于 IPE對于題目區(qū)分度參數(shù)影響的研究主要集中于人格測驗中(Hamilton & Shuminsky, 1990; Steinberg, 1994)。而在成就測驗領(lǐng)域中, 這種影響只在極少數(shù)研究中得到證實。而本文所討論的情境主要集中于成就測驗領(lǐng)域, 因而所考慮的模型主要基于Rasch模型。進行擴展后的模型對 IPE進行建模, 主要關(guān)注位置效應(yīng)對題目難度參數(shù)的影響。公式(1)所示的模型(即模型1。注:以下每個公式都代表一種特定的模型)是對Rasch模型進行l(wèi)ogit變換后的形式, 其中l(wèi)ogit(Ypik=1)即 ln{ P (Ypik=1)/[1-P (Ypik=1)]},表示發(fā)生比的自然對數(shù),Ypik表示被試p在位于k位置的題目i上的作答反應(yīng),θp表示被試p的能力水平,βik表示題目i的難度參數(shù)5常見的 Rasch模型其難度參數(shù) βi在 IPE的研究情境下可以表示βik, 即題目i在位置k時的難度, 只是在一般情境下,題目的位置不變或者忽略IPE的影響, 于是將βik 簡寫成βi 。。在模型1中加入“位置效應(yīng)參數(shù)”——f(p,i,k)后得到模型2, 模型2是位置效應(yīng)模型的統(tǒng)一表達,f(p,i,k)代表位置效應(yīng)參數(shù)是關(guān)于題目i、被試p以及位置k的函數(shù)。

根據(jù)研究假設(shè)或f(p,i,k)表達形式的不同,可以將一步法范式下的位置效應(yīng)模型分為三類:第一類模型假設(shè)位置效應(yīng)只與題目位置有關(guān), 而與題目和被試無關(guān), 即f(p,i,k)=f(k); 第二類模型假設(shè)位置效應(yīng)取決于題目位置與題目的交互作用, 即f(p,i,k)=f(i,k); 第三類模型假設(shè)位置效應(yīng)取決于題目位置與被試能力的交互作用, 即f(p,i,k)=f(p,k)。

3.2.1 第一類模型——主效應(yīng)模型

第一類模型假設(shè)題目位置效應(yīng)獨立于題目和被試, 只取決于題目位置。也即同一測驗中的所有題目在同一位置上的位置效應(yīng)值相同。

Kubinger (2008, 2009)和Hohensinn, Kubinger,Reif, Schleich和Khorramdel (2011)等人詳述了如何基于線性邏輯斯蒂克模型(Linear Logistic Test Model, LLTM)實現(xiàn)對 IPE的一步法檢測。LLTM是將 Rasch模型里的題目難度參數(shù)分解為多種基本認(rèn)知成分的線性組合而得到的(Fischer, 1973),即。其中βik表示 Rasch模型中第i個題目在第k個位置時的難度參數(shù),ηj表示第j個基本認(rèn)知成分的估計難度,qij表示在一定理論基礎(chǔ)上每個認(rèn)知成分j影響題目i解答的假定概率,即認(rèn)知成分ηj在題目i上的權(quán)重。若將分解為令(r表示基線成分或目標(biāo)特質(zhì))表示當(dāng)題目i在各測驗或題冊中位置不變時其基準(zhǔn)難度值(或者稱在參考位置時的難度值)。而令(k表示位置成分)用來量化 IPE, 表示由于位置改變所構(gòu)成的難度值, 即題目在位置k時相較于參考位置其難度值的變化量。此時,可看作總題目難度值, 即可得到模型3:

將模型 3進行 logit轉(zhuǎn)換可得到模型 4-1, 此時f(p,i,k)=f(k)=δk。

由于模型4-1中并沒有添加任何關(guān)于IPE的實質(zhì)結(jié)構(gòu), 所以對模型進行進一步限定, 將 IPE的值看作是關(guān)于題目位置的函數(shù), 即將題目位置當(dāng)作一個解釋性的題目特征加入作答反應(yīng)函數(shù)(De Boeck & Wilson, 2004)。所以在Rasch 模型下,假定難度變化量隨題目位置k線性變化, 即可得到模型 4-2, 其中γ表示位置效應(yīng)的單位改變量,即題目相對于參考位置每變化1個題目位置其難度的變化量。若γ顯著不為零, 即表明測驗中IPE的存在。進一步來講, 當(dāng)γ>0時, 表示存在疲勞效應(yīng);γ<0時, 則表示存在練習(xí)效應(yīng)。此時f(k)=γ(k?1)。

如果難度變化量隨位置k非線性變化, 則f(k)可以表示為k的二次函數(shù)、指數(shù)函數(shù)等。以二次函數(shù)為例,f(k)=γ1(k–1)+ γ2(k–1)2, 即可得模型4-3 (Kang, 2014):

值得注意的是, 在實際問題中, 如果直接在模型中加入二次項系數(shù)來模擬難度變化量隨位置的非線性變化關(guān)系, 則很難對該系數(shù)進行解釋。

第一類模型假設(shè)位置效應(yīng)的產(chǎn)生獨立于題目和被試, 僅受題目位置的影響, 以此來對 IPE進行直接建模。這時得到的位置參數(shù)反映了IPE在所有考生、所有題目上的平均效應(yīng), 也只能獲悉考生能力在測試過程中的一般變化規(guī)律, 而無法對不同題目的位置效應(yīng)情況以及IPE在個體間的差異進行探究。此外, Kubinger (2008, 2009)提出基于 LLTM 來檢測 IPE, 實際上是從題目角度出發(fā)來對IPE進行研究, 可以看作是在EIRT框架下進行IPE檢測以及解釋性研究的起點。但是這一方法下的研究存在一個明顯的悖論, 即從題目角度模擬IPE, 但從被試角度來解釋IPE (如疲勞效應(yīng))。

3.2.2 第二類模型——題目位置與題目間的交互作用

第二類模型假設(shè)位置效應(yīng)受題目位置與題目交互作用的影響, 即不同題目在參照位置和k位置之間的難度變化不同。

若模型 4-1和 4-2的位置效應(yīng)參數(shù)與題目i有關(guān), 即f(p,i, k)=f(i,k)=δik以及f(p,i,k)=γi(k–1), 即可得到模型5-1和5-2 (Debeer & Janssen,2013):

值得注意的是模型5-1中δik與模型4-1中δk的區(qū)別, 他們分別表示不同題目i在參照位置和k位置之間的難度變化是不同以及相同的, 即難度的變化受到以及不受到題目內(nèi)容的影響。此時可以令δik=δk + δik', 其中δk即模型 4-1 中位置的主效應(yīng), 也可以理解為平均的位置效應(yīng),δik'則是位置k與題目i交互作用的效應(yīng)值。相應(yīng)地, 在模型5-2 中令γi=γ + γi', 代入公式后γ(k?1)即模型 4-2中位置的主效應(yīng),γi' (k?1)是題目i與位置交互作用的位置效應(yīng)值。若此時γi顯著不為零, 則表明IPE的確存在; 且可以通過比較模型5-2和4-2對同一測驗結(jié)果的擬合度(如AIC、BIC值)是否存在差異, 來判斷是否存在題目位置與題目的交互效應(yīng)。此外, Kang (2014) 還給出交互效應(yīng)的二次函數(shù)表達式, 即模型5-3:

Albano (2013)使用模型5-1和5-2研究GRE詞匯和數(shù)學(xué)測試, 發(fā)現(xiàn)位置與題目間存在顯著的交互作用, 從而證實 IPE在不同題目間存在顯著的差異。另外, Kingston和Dorans (1984)對不同題目類型中 IPE的差異性進行研究, 結(jié)果表明:在語文題(verbal items)、數(shù)學(xué)題(quantitative items)以及分析題(analytical items)三種題型中, 分析題受到題目位置的影響最大, 其次是數(shù)學(xué)題, 而且都是練習(xí)效應(yīng)。這也說明第二類模型假設(shè)位置效應(yīng)受題目位置與題目的交互作用影響的合理性。

雖然第二類模型在第一類模型的基礎(chǔ)上考慮了題目位置與題目交互作用的影響, 使得每個題目都有一個位置參數(shù)。但是, 第二類模型也是從題目角度來對 IPE進行解釋性研究, 仍存在模擬和解釋IPE不一致的問題。

3.2.3 第三類模型——題目位置與被試間的交互作用

第三類模型假設(shè)位置效應(yīng)受題目位置與被試交互作用的影響, 即不同位置的題目其難度的變化受個體差異的影響。

由于不能直接對模型4-1的位置效應(yīng)參數(shù)加上被試p下標(biāo), 所以此處我們只討論基于模型4-2得到的交互作用模型, 即f(p,i,k)=f(p,k)=γp(k–1)時的模型(Hartig & Buchholz, 2012):

其中γp服從正態(tài)分布, 表示對于被試p, 題目相對于參考位置每變化1個題目位置其難度的變化量。相應(yīng)地, 可以令γp=γ+γp¢, 代入公式 6 后γ(k?1)表示所有被試每答完一道題的平均能力變化量。同樣, 若γp顯著不為零, 則表明 IPE的確存在; 也可以計算γp與θp的相關(guān)系數(shù), 以此來判斷 IPE 在個體間的差異。γp¢ (k?1)表示被試p與位置交互作用的位置效應(yīng)值, 反映被試p每答完一道題其能力在多大程度上(即γp¢絕對值的大小)、往何種方向(即γp¢的正、負(fù)號)偏離所有被試的平均能力變化量; 而且γp¢可以看作獨立于目標(biāo)考查維度之外的新維度, 如考生毅力(persistence)或考生努力(examinee effort) (Hartig & Buchholz, 2012;Debeer et al., 2014 )。

IPE的本質(zhì)是被試在測驗過程中能力的變化,不同被試在測驗過程中的能力變化必然存在個體差異。因而第三類模型是最符合實際情況的, 即模型中每個被試都有位置參數(shù), 可以得到位置效應(yīng)對不同被試的影響。此外, Debeer和 Janssen(2013)還對一步法下的三種建模方法進行比較研究, 著重強調(diào)了“IPE應(yīng)被解釋為與被試相關(guān)的某種特質(zhì)”, 并指出下一步的研究重點是“對檢測出的效應(yīng)進行進一步的解釋”, 即對IPE所代表的新維度進行解釋。

總的來說, 基于 IRT框架的一步法在檢測IPE時有以下優(yōu)勢:(1)可以將題目位置與設(shè)計中的其他題目特征區(qū)分開來, 這樣就可以得到不同的模型, 比如前面討論的三類模型; (2)只要兩個測驗之間存在錨題, 就可將 IPE當(dāng)作題目本身的屬性進行考查, 即模型并不局限于等組設(shè)計, 在復(fù)雜的非等組設(shè)計中同樣適用; (3)將IPE對測驗總分的影響, 看作其對單個題目分?jǐn)?shù)影響的總和,從而實現(xiàn)在測驗分?jǐn)?shù)水平對IPE的考查。比如, 通過測驗特征曲線可以概述IPE對測驗總分期望值的影響(Debeer & Janssen, 2013); (4)在題目水平模擬 IPE有助于對所發(fā)現(xiàn)效應(yīng)的解釋, 比如個體協(xié)變量(如性別和測驗動機等)可用于解釋 IPE所代表的新維度。

除了上述基于 Rasch模型的擴展模型進行建模的方法外, 一步法下的建模思路還可以基于多水平 IRT的視角, 對題目位置的主效應(yīng)和交互效應(yīng)進行探究, 即將題目位置作為題目水平的預(yù)測變量加入第一水平, 通過定義其第二水平的隨機性來確定IPE的類型。

3.2.4 多水平IRT的視角

實質(zhì)上, 這一研究視角是EIRT框架下研究方法的一種變式。兩水平的IRT模型即多水平線性模型中的零模型(劉紅云, 駱方, 2008) 如下所示:

其中p表示被試,i表示題目,k表示位置,N是題目數(shù);Xqip是第p個被試對應(yīng)的第q個虛擬變量(q=1, 2, …,N-1), 當(dāng)q=i時,Xqip=1, 否則Xqip=0。u0p服從均值為0的正態(tài)分布, 可視為被試p的能力值;γ00可視為第N個題目的容易度(easiness),γq0可視為第q個題目與第N個題目容易度的差值。根據(jù)混合模型(mixed models), 可以得到第i個題目的 Rasch 難度值:– γq0– γ00。

Albano (2013)詳述了如何根據(jù)多水平IRT從主效應(yīng)和交互效應(yīng)角度檢測 IPE。如果位置效應(yīng)獨立于題目和被試, 在模型 7的水平 1中加入位置效應(yīng)參數(shù)作為預(yù)測變量, 即可得主效應(yīng)模型8:

其中βNp是位置的主效應(yīng),kip(kip=1, 2,…,N)是被試p作答的題目i(也即q=i)所處的位置,γN0為位置的固定效應(yīng), 表示所有位置間成績得分的總平均變化。模型8與模型4-2相對應(yīng)。另外, 如果位置與題目有交互作用, 則在模型 8的水平 1中再加入(N–1)個題目與位置的交互作用參數(shù), 即可得到交互效應(yīng)模型9:

其中β(N+q)p表示題目與位置交互作用下的位置效應(yīng)。模型9與模型5-2相對應(yīng)。類似的, 如果位置與被試有交互作用, 則在模型 8中加入位置與被試交互作用參數(shù), 得到交互效應(yīng)模型10。

此時位置效應(yīng)βNp包括兩部分:固定效應(yīng)——位置的主效應(yīng)γN0和隨機效應(yīng)——位置與被試的交互作用u1p, 而且u1p服從均值為零的正態(tài)分布。模型10與模型6相對應(yīng)。Debeer等人(2014)從多水平 IRT的視角出發(fā), 在模型中加入組水平變量來探究IPE在不同學(xué)校、國家間的差異。

目前關(guān)于 IPE的檢測模型, 都可以看作是基于EIRT的框架下探討題目位置的主效應(yīng)、交互效應(yīng)模型。表2對檢測IPE的一步法模型進行了詳細對比。

表2 檢測IPE一步法的匯總

3.2.5 參數(shù)估計

以上模型都可歸為廣義線性混合模型(generalized linear mixed model), 可用一般的統(tǒng)計軟件實現(xiàn)模型的參數(shù)估計, 比如R軟件lme4包中的lmer函數(shù)(Debeer & Janssen, 2013)以及HLM7(Hartig & Buchholz, 2012; Albano, 2013)。如果在以上模型中加入?yún)^(qū)分度, 這些模型則屬于非線性混合模型(De Boeck & Wilson, 2004), 此時可使用SAS軟件中的 NLMIXED程序包估計模型參數(shù)(Debeer & Janssen, 2013)。

3.3 對IPE的解釋

以往的研究主要是從題目和被試兩個角度對IPE進行解釋。第一, 從題目角度對 IPE 進行解釋時會將題目難度參數(shù)看成多種認(rèn)知成分的線性組合(Kubinger, 2008, 2009)。基于這一角度的研究主要從測驗的整體層面或者單個題目層面探究題目位置改變對被試作答結(jié)果的影響, 并且根據(jù)被試作答結(jié)果的變化趨勢, 將 IPE概括為練習(xí)效應(yīng)或疲勞效應(yīng)。但是這一角度的研究思路會產(chǎn)生一個悖論, 即模擬時從題目角度出發(fā), 但解釋時是從被試角度來解釋, 比如疲勞效應(yīng)。這一悖論會使得研究者不能清楚理解IPE或其所指代的真正含義。

第二, 從被試角度對IPE進行解釋, 即將IPE看作獨立于目標(biāo)考查維度之外的新維度。Hartig和Buchholz (2012)提出的被試和題目的交互效應(yīng)模型, 首次將 IPE看作獨立于能力維度之外的新維度, 并且標(biāo)記為毅力。另外, Debeer等人(2014)在Hartig和Buchholz (2012)的研究基礎(chǔ)上, 將位置效應(yīng)維度理解為考生努力, 并且使用多水平IRT對 IPE進行校際、國家之間的比較。雖然這些研究將 IPE看成新維度, 但是對新維度的定義缺乏相應(yīng)的理論支持; 而且研究者往往基于個人經(jīng)驗和實際研究中的方便, 將 IPE所代表的新維度定義為考生毅力或考生努力, 仍沒有研究加入與個體有關(guān)的預(yù)測變量來對 IPE進行解釋。同時,他們也指出這一新維度還可以從動機、測驗過程中的學(xué)習(xí)能力等特質(zhì)因素來理解(Hartig & Buchholz,2012)。所以, 目前這一新維度表示什么特質(zhì)尚未有定論。

4 討論與展望

IRT依賴其參數(shù)不變性特征, 在測驗等值、CAT、題庫建設(shè)以及大規(guī)模測評中的抽樣設(shè)計等方面做出突出的貢獻, 大大豐富了測驗理論及其在實踐中的應(yīng)用。在這些應(yīng)用過程中, 也需要不斷檢驗參數(shù)不變性特征是否能夠得到滿足。而IPE是對 IRT參數(shù)不變性的直接違反, 因而會對基于該特征的相關(guān)應(yīng)用產(chǎn)生直接的影響。本文首先對IRT參數(shù)不變性特征的具體含義進行了介紹, 然后對與 IPE相關(guān)或相似的概念進行區(qū)分, 希望能夠幫助研究者今后更全面地理解IPE的含義、了解這一主題的發(fā)展過程。本文在第三部分重點總結(jié)了檢測 IPE的兩種主要方法——兩步法和一步法, 特別對當(dāng)前主要使用的一步法的三類建模思路進行詳細總結(jié)。從解釋性 IRT的角度來看, 這三類建模思路實質(zhì)上也對應(yīng)著不同的IPE解釋角度, 即從題目角度或從被試角度對IPE進行解釋。綜合以往研究的結(jié)論和局限性, IPE今后的研究方向包括以下四個方面:

4.1 探究和開發(fā)檢測IPE的新模型、新方法

如上文所總結(jié)的, 基于 IRT框架的一步法主要包括三類模型, 其中第一類模型所能提供的信息后兩類模型都能提供。使用第二類模型得到的結(jié)果有助于剔除那些受位置效應(yīng)影響大的題目,從而提高測試的信效度。使用第三類模型得到的結(jié)果則有助于明晰位置效應(yīng)對不同被試的作用;這也是最符合實際的一類模型, 因為 IPE的本質(zhì)是被試在測驗過程中的能力波動, 不同被試在測驗過程中的能力波動理應(yīng)不同。

一步法下的這三類模型雖然考慮了題目參數(shù)的測量誤差, 相比兩步法更精確, 但是仍存在以下不足:(1)將IPE限定在“個體對于題目的作答反應(yīng)是獨立的”, 即題目間的作答結(jié)果是相互獨立、互不影響的。但是在實際情形中該限定條件容易被違反, 比如在練習(xí)效應(yīng)中, 成功的作答相對于錯誤的作答會產(chǎn)生更大的練習(xí)效應(yīng)。所以, 需要使用諸如動態(tài)(dynamic) IRT模型等特殊的模型處理這類情境; (2)不能考查由一個題目先于另一個題目(比如一個難題位于一個簡單題目的前面)所產(chǎn)生的效應(yīng), 這種序列效應(yīng)(sequencing effects)也是關(guān)于題目位置的函數(shù), 但是這種效應(yīng)涉及的是某題目的子集(比如一對題目), 然而目前基于IRT框架的一步法僅僅關(guān)注一個題冊內(nèi)的某個題目;(3)現(xiàn)有研究主要集中于偵查和模擬 IPE, 沒有引入與個體有關(guān)的變量對IPE進行解釋性研究。

鑒于以往研究已經(jīng)證明IPE可以看作是獨立于被試能力維度之外的新維度(Debeer & Janssen,2013; Hartig & Buchholz, 2012), 所以在今后的研究中可以使用多維模型來進一步模擬和檢測 IPE;還可以借鑒追蹤數(shù)據(jù)的分析方法, 將每個被試在每個題目位置的測量, 看作是追蹤研究中每個被試在每個時間點的測量, 并借助相關(guān)的縱向 IRT模型(Embretson, 1991; Paek, Baek, & Wilson, 2012;Roberts & Ma, 2006; Von Davier, Xu, & Carstensen,2011)進行分析。值得注意的是, 針對一步法的建模范式, 除了 IRT的視角也可以從驗證性因子分析的視角探究 IPE, 感興趣的讀者可以參考 Schweizer,Schreiner和 Gold (2009)以及 Schweizer, Troche和Rammsayer (2011)等。

4.2 對檢測到的IPE進行進一步的解釋

就像DIF的研究進程一樣(Zumbo, 2007), 在檢測 IPE并探究其影響之后, 下一步需要對所發(fā)現(xiàn)效應(yīng)進行解釋(Debeer & Janssen, 2013)。研究者可以根據(jù)EIRT中的個體解釋性模型(person explanatory models) (De Boeck & Wilson, 2004), 對所發(fā)現(xiàn)的結(jié)果進行進一步的解釋。例如, 已有研究已經(jīng)證實, 在低利害的測評中受測者會在測驗動機上存在顯著差異, 因此可以考慮將對被試動機水平的自我報告測量(比如Wise & DeMars, 2005), 或者反應(yīng)時(比如Wise & Kong, 2005)加入到IRT模型中, 作為額外的被試預(yù)測變量對 IPE進行進一步解釋。另外, Borgonovi和Biecek (2016)認(rèn)為目前在低利害的國際測評中, 所測量的實際是個體技能(skill)與意志(will)的組合, 其研究結(jié)果表明:考試毅力可以看作是學(xué)生在測驗過程中運用自我控制能力的函數(shù), 而且這種能力依賴于考試動機。因而他們認(rèn)為, 考試毅力也應(yīng)該是低利害測評中所測量的維度之一。因此, 下一步的解釋性研究可以從考試毅力的角度出發(fā), 在模型中引入與個體有關(guān)的變量, 探究 IPE在個體間的差異或者個體變量對IPE的預(yù)測作用, 進而實現(xiàn)對 IPE的進一步解釋。

4.3 在特定情境下考察IPE

鑒于 IPE影響的廣泛性, 以往研究結(jié)合特定的研究情境對IPE進行多視角的探究。這些研究包括:

首先, Talento-Miller, Rudner, Han和 Guo(2012,引自 Store,2013)在 CAT中研究 IPE, 結(jié)果表明位置的變化會對被試的作答表現(xiàn)產(chǎn)生影響(比如疲勞效應(yīng))。另外, 因題目位置變化而導(dǎo)致的參數(shù)差異值的大小, 會因具有不同反應(yīng)時的題型而變化。

再者, 在等值設(shè)計中, Store (2013)在其博士論文中對該領(lǐng)域內(nèi)有關(guān)IPE的研究進行了詳細論述, 并進一步探究不同的等值設(shè)計是否會加劇或減弱 IPE。大量的研究表明:錨題位置的變化會對等值結(jié)果產(chǎn)生顯著的影響(Whitely & Dawis,1976; Yen, 1980; Davis & Ferdous, 2005; He, Gao,& Ruan, 2009)。在等值設(shè)計中, 錨題在各個題冊中都不應(yīng)該存在 DIF, 而且在各個題冊中也應(yīng)該被安排在相同的位置上(Cook & Petersen, 1987)。甚至有研究者認(rèn)為, 錨題題目選項的位置都不應(yīng)該被改變(Cizek, 1994)。IPE的存在會對等值技術(shù)的有效性構(gòu)成許多挑戰(zhàn)。Weirich, Hecht和B?hme (2014)還認(rèn)為在進行任何基于錨題的鏈接設(shè)計之前, 都必須首先確定IPE在所有的樣本上是一致的。

正如Kolen和Brennan (2004)所指出的:測驗的開發(fā)和等值是密不可分的。我們不應(yīng)該再繼續(xù)忽略等值過程中因題目設(shè)計或測驗開發(fā)所帶來的問題, 而應(yīng)該盡量去克服這些設(shè)計所帶來的問題。以往的研究也表明:不論題目的位置產(chǎn)生怎樣的變化(向前、向后或者向中間位置移動)都會帶來一定的影響; 從這一角度看, 建議研究者今后可以考慮更深層次的等值方法, 比如可以考慮用相同的因子載荷來代替錨題等。

另外, 在表現(xiàn)性評價(performance assessments)中, 比如建構(gòu)反應(yīng)性試題、短文以及口頭表述等,相較于傳統(tǒng)的選擇題能更好地測量出學(xué)生在真實世界中的復(fù)雜成就和情意表現(xiàn), 因而逐漸受到各領(lǐng)域的青睞(趙德成, 2013)。但是, 對其進行等值設(shè)計或者對不同時間段的測評結(jié)果進行比較時,則存在很大的挑戰(zhàn), 這其中就包含因題目順序變化所帶來的偏差問題(Muraki, Hombo & Lee, 2000)。

因此, 下一步研究者除了可以繼續(xù)在這些研究主題下進一步深化之前的研究, 也可以在其他研究情境下探討 IPE的影響。比如, 由于題組(testlet)的使用越來越普遍, 針對題組的等值和DIF都得到相應(yīng)的研究。所以相應(yīng)地, 也可以對題組位置變化的影響進行探究。

4.4 探究平衡或消除IPE的方法

無論在基礎(chǔ)研究領(lǐng)域還是實踐應(yīng)用領(lǐng)域, IPE的研究都具有很大的必要性。如果忽略這一效應(yīng),將會對研究本身和實際工作產(chǎn)生一系列的不利影響(Wu, 2010; Meyers, Murphy, Goodman, & Turhan,2012; Debeer & Janssen, 2013)。所以, 探究平衡或消除IPE的方法也應(yīng)該引起研究者的關(guān)注。

首先, 測驗設(shè)計方面的研究表明:可以通過題目位置平衡設(shè)計的方法降低由IPE導(dǎo)致的參數(shù)變化。其基本設(shè)計是:令題目在每個位置上的呈現(xiàn)次數(shù)完全相同, 此時由于題目位置變化所產(chǎn)生的效應(yīng)量對于所有題目是相同的, 從而消除 IPE帶來的不利影響(Hecht et al., 2015; Weirich et al.,2014)。再者, 也有研究結(jié)果表明:整體移動包含多個題目的閱讀理解題目(即題組), IPE對題目參數(shù)的影響不明顯(Haladyna, 1992)。對此有研究者分析認(rèn)為, 這主要是由于題組的移動是按照一組題目整體移動的, 所以這其中的單個題目就其周圍的題目而言其位置是相對不變的, 所以位置變化的影響不明顯(Store, 2013), 但這一觀點有待進一步確定。

致謝:感謝美國明尼蘇達大學(xué)王純(Chun Wang)博士和加拿大阿爾伯塔大學(xué)崔迎(Ying Cui)博士對本文的英文摘要進行修改和潤色, 感謝北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心的高一珠同學(xué)和陳冠宇同學(xué)對文章行文結(jié)構(gòu)的建議。

劉紅云, 駱方.(2008).多水平項目反應(yīng)理論模型在測驗發(fā)展中的應(yīng)用.心理學(xué)報, 40(1), 92–100.

羅照盛.(2012).項目反應(yīng)理論基礎(chǔ).北京: 北京師范大學(xué)出版社.

葉萌, 辛濤.(2015).題目參數(shù)漂移: 概念厘定及相關(guān)研究.心理科學(xué)進展, 23(10), 1859–1868.

趙德成.(2013).表現(xiàn)性評價: 歷史、實踐及未來.課程.教材.教法,(2), 97–103.

Albano, A.D.(2013).Multilevel modeling of item position effects.Journal of Educational Measurement, 50(4),408–426.

Beaton, A.E., Ferris, J.J., Johnson, E.G., Johnson, J.R.,Mislevy, R.J., & Zwick, R.(1988).The NAEP 1985–86 reading anomaly: A technical report.Princeton, NJ:Educational Testing Service.

Beaton, A.E., & Zwick, R.(1990).The effect of changes in the national assessment: Disentangling the NAEP 1985–86 reading anomaly.Princeton, NJ: Educational Testing Service.

Borgonovi, F., & Biecek, P.(2016).An international comparison of students' ability to endure fatigue and maintain motivation during a low-stakes test.Learning and Individual Differences, 49, 128–137.

Brenner, M.H.(1964).Test difficulty, reliability, and discrimination as functions of item difficulty order.Journal of Applied Psychology, 48(2), 98–100.

Cizek, G.J.(1994).The effect of altering the position of options in a multiple-choice examination.Educational and Psychological Measurement, 54(1), 8–20.

Cook, L.L., & Petersen, N.S.(1987).Problems related to the use of conventional and item response theory equating methods in less than optimal circumstances.Applied Psychological Measurement, 11(3), 225–244.

Davis, J., & Ferdous, A.(2005).Using item difficulty and item position to measure test fatigue.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.

Debeer, D., Buchholz, J., Hartig, J., & Janssen, R.(2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.Journal of Educational and Behavioral Statistics, 39(6),502–523.

Debeer, D., & Janssen, R.(2013).Modeling item-position effects within an IRT framework.Journal of Educational Measurement, 50(2), 164–185.

De Boeck, P., & Wilson, M.(2004).Explanatory item response models: A generalized linear and nonlinear approach.New York, NY: Springer.

Eignor, D.R., & Cook, L.L.(1983).An investigation of the feasibility of using item response theory in the pre-equating of aptitude tests.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.

Embretson, S.E.(1991).A multidimensional latent trait model for measuring learning and change.Psychometrika,56(3), 495–515.

Fischer, G.H.(1973).The linear logistic test model as an instrument in educational research.Acta Psychologica,37(6), 359–374.

Haladyna, T.M.(1992).Context-dependent item sets.Educational Measurement: Issues and Practice, 11(1),21–25.

Hambleton, R.K., & Swaminathan, H.(1985).Item response theory: Principles and Applications(Vol.7).Boston:Kluwer Academic Pub.

Hamilton, J.C., & Shuminsky, T.R.(1990).Self-awareness mediates the relationship between serial position and item reliability.Journal of Personality & Social Psychology,59(6), 1301–1307.

Hartig, J., & Buchholz, J.(2012).A multilevel item response model for item position effects and individual persistence.Psychological Test and Assessment Modeling, 54(4), 418–431.

He, W., Gao, R., & Ruan, C.Y.(2009).Does pre-equating work? An investigation into pre-equated testlet-based college placement exam using post administration data.Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, California.

Hecht, M., Weirich, S., Siegle, T., & Frey, A.(2015).Effects of design properties on parameter estimation in large-scale assessments.Educational and Psychological Measurement,75(6), 1021–1044.

Hill, R.(2008).Using P-value statistics to determine the believability of equating results.Paper presented at the National Conference on student assessment, Orlando,Florida.

Hohensinn, C., Kubinger, K.D., Reif, M., Schleicher, E., &Khorramdel, L.(2011).Analysing item position effects due to test booklet design within large-scale assessment.Educational Research and Evaluation, 17(6), 497–509.

Hanson, B.A.(1996).Testing for differences in test score distributions using loglinear models.Applied Measurement in Education, 9(4), 305–321.

Kang, C.(2014).Linear and nonlinear modeling of item position effects(Unpublished master’s thesis).University of Nebraska-Lincoln.

Kingston, N.M., & Dorans, N.J.(1982).The effect of the position of an item within a test on item responding behavior: An analysis based on item response theory.Research Report RR-82–22.Princeton, NJ: Educational Testing Service.

Kingston, N.M., & Dorans, N.J.(1984).Item location effects and their implications for IRT equating and adaptive testing.Applied Psychological Measurement,8(2), 147–154.

Kolen, M.J.(2006).The kernel method of test equating.Psychometrika, 71(1), 211–214.

Kolen, M.J., & Brennan, R.L.(2004).Test equating, scaling,and linking: Methods and practices.New York: Springer.

Kubinger, K.D.(2008).On the revival of the Rasch model-based LLTM: From constructing tests using item generating rules to measuring item administration effects.Psychology Science Quarterly, 50(3), 311–327.

Kubinger, K.D.(2009).Applications of the linear logistic test model in psychometric research.Educational and Psychological Measurement, 69(2), 232–244.

Leary, L.F., & Dorans, N.J.(1985).Implications for altering the context in which test items appear: A historical perspective on an immediate concern.Review of Educational Research, 55(3), 387–413.

Li, F.M., Cohen, A., & Shen, L.J.(2012).Investigating the effect of item position in computer–based tests.Journal of Educational Measurement, 49(4), 362–379.

Meyers, J.L., Miller, G.E., & Way, W.D.(2009).Item position and item difficulty change in an IRT-Based common item equating design.Applied Measurement in Education, 22(1), 38–60.

Meyers, J.L., Murphy, S., Goodman, J., & Turhan, A.(2012).The impact of item position change on item parameters and common equating results under the 3PL model.Paper presented at the annual meetings of the National Council on Measurement in Education,Vancouver, British Columbia.

Mollenkopf, W.G.(1951).Prediction of second-year and third-year grade-point averages at the U.S.naval postgraduate school.ETS Research Bulletin, 1951(2), i–36.

Monk, J.J., & Stallings, W.M.(1970).Effects of item order on test scores.Journal of Educational Research, 63(10),463–465.

Moses, T., Yang, W.L., & Wilson, C.(2007).Using kernel equating to assess item order effects on test scores.Journal of Educational Measurement, 44(2), 157–178.

Muraki, E., Hombo, C.M., & Lee, Y.W.(2000).Equating and linking of performance assessments.Applied Psychological Measurement, 24(4), 325–337.

Paek, I., Baek, S.G., & Wilson, M.(2012).An IRT modeling of change over time for repeated measures item response data using a random weights linear logistic test model approach.Asia Pacific Education Review, 13(3), 487–494.

Qian, J.H.(2014).An investigation of position effects in large-scale writing assessments.Applied Psychological Measurement, 38(7), 518–534.

Roberts, J.S., & Ma, Q.(2006).IRT models for the assessment of change across repeated measurements.In R.W.Lissitz (Ed.),Longitudinal and value added models of student performance(pp.100–127).Maple Grove, MN:JAM Press.

Roever, C.(2005).“That’s not fair!” Fairness, bias and differential item functioning inlanguage testing.Retrieved February 10, 2012, from http://www2.hawaii.edu/~roever/brownbag.pdf

Rupp, A.A., & Zumbo, B.D.(2006).Understanding parameter invariance in unidimensional IRT models.Educational and Psychological Measurement, 66(1), 63–84.

Schweizer, K., Schreiner, M., & Gold, A.(2009).The confirmatory investigation of APM items with loadings as a function of the position and easiness of items: A two–dimensional model of APM.Psychology Science Quarterly, 51(1), 47–64.

Schweizer, K., Troche, S.J., & Rammsayer, T.H.(2011).On the special relationship between fluid and general intelligence: New evidence obtained by considering the position effect.Personality and Individual Differences,50(8), 1249–1254.

Steinberg, L.(1994).Context and serial-order effects in personality measurement: Limits on the generality of measuring changes the measure.Journal of Personality &Social Psychology, 66(2), 341–349.

Store, D.(2013).Item parameter changes and equating: An examination of the effects of lack of item parameter invariance on equating and score accuracy for different proficiency levels(Unpublished doctorial dissertations).The University of North Carolina at Greensboro.

Von Davier, M., Xu, X.L., & Carstensen, C.H.(2011).Measuring growth in a longitudinal large-scale assessment with a general latent variable model.Psychometrika, 76(2),318–336.

Weinstein, Y., & Roediger, H.L.(2010).Retrospective bias in test performance: Providing easy items at the beginning of a test makes students believe they did better on it.Memory & Cognition, 38(3), 366–376.

Weirich, S., Hecht, M., & B?hme, K.(2014).Modeling item position effects using generalized linear mixed models.Applied Psychological Measurement, 38(7), 535–548.

Weirich, S., Hecht, M., Penk, C., Roppelt, A., & B?hme, K.(2017).Item position effects are moderated by changes in test-taking effort.Applied Psychological Measurement,41(2), 115–129.

Whitely, S.E., & Dawis, R.V.(1976).The influence of test context on item difficulty.Educational and Psychological Measurement, 36(2), 329–337.

Wise, L., Chia, W., & Park, R.(1989).Item position effects for test of word knowledge and arithmetic reasoning.Paper presented at the annual meeting of the American Educational Research Association, San Francisco, California.

Wise, S.L., & DeMars, C.E.(2005).Low examinee effort in low-stakes assessment: Problems and potential solutions.Educational Assessment, 10(1), 1–17.

Wise, S.L., & Kong, X.J.(2005).Response time effort: A new measure of examinee motivation in computer–based tests.Applied Measurement in Education, 18(2), 163–183.

Wu, M.(2010).Measurement, sampling, and equating errors in large-scale assessments.Educational Measurement:Issues and Practice, 29(4), 15–27.

Yen, W.M.(1980).The extent, causes and importance of context effects on item parameters for two latent trait models.Journal of Educational Measurement, 17(4), 297–311.

Zumbo, B.D.(1999).A handbook on the theory and methods of differential item functioning (DIF): Logistic regression modeling as a unitary framework for binary and Likerttype (ordinal) item scores. Ottawa ON: Directorate of Human Resources Research and Evaluation, Department of National Defense.

Zumbo, B.D.(2007).Three generations of DIF analyses:Considering where it has been, where it is now, and where it is going.Language Assessment Quarterly, 4(2), 223–233.

Zwick, R.(1991).Effects of item order and context on estimation of NAEP reading proficiency.Educational Measurement: Issues and Practice, 10(3), 10–16.

猜你喜歡
效應(yīng)情境影響
情境引領(lǐng)追問促深
不同情境中的水
是什么影響了滑動摩擦力的大小
鈾對大型溞的急性毒性效應(yīng)
哪些顧慮影響擔(dān)當(dāng)?
懶馬效應(yīng)
應(yīng)變效應(yīng)及其應(yīng)用
護患情境會話
特定情境,感人至深
擴鏈劑聯(lián)用對PETG擴鏈反應(yīng)與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
主站蜘蛛池模板: 一区二区三区高清视频国产女人| 国产aⅴ无码专区亚洲av综合网| 日本三级黄在线观看| 狼友视频国产精品首页| 一本一道波多野结衣一区二区| 99久久精彩视频| 中文字幕无线码一区| 狠狠色婷婷丁香综合久久韩国| 福利小视频在线播放| 在线观看91香蕉国产免费| 成年片色大黄全免费网站久久| 亚洲天堂精品在线| 特黄日韩免费一区二区三区| 亚洲精品无码成人片在线观看 | 亚洲精品无码高潮喷水A| 成人欧美在线观看| 国产99视频在线| 色综合久久综合网| 国产91小视频| 中文天堂在线视频| 成人日韩欧美| 色欲不卡无码一区二区| 无码中文字幕加勒比高清| 久久影院一区二区h| 91国内视频在线观看| 天堂av高清一区二区三区| 国产视频自拍一区| 在线无码九区| 中文成人无码国产亚洲| 亚洲成人精品在线| 国产精品免费p区| 伊人久久婷婷五月综合97色| 国产激情第一页| 欧美一区二区三区欧美日韩亚洲| 99九九成人免费视频精品| 朝桐光一区二区| 欲色天天综合网| 青青极品在线| 精品中文字幕一区在线| 美女啪啪无遮挡| 99热这里只有免费国产精品| 日韩欧美中文字幕一本| 亚洲成人高清在线观看| 久久精品免费国产大片| 制服丝袜一区| 欧美成人影院亚洲综合图| 久久久久国产精品免费免费不卡| 日本不卡视频在线| 三级视频中文字幕| 久久频这里精品99香蕉久网址| 国产午夜精品一区二区三| 色婷婷亚洲综合五月| 中日韩一区二区三区中文免费视频| 超薄丝袜足j国产在线视频| 麻豆精品在线视频| 九色免费视频| 亚洲bt欧美bt精品| 狠狠色噜噜狠狠狠狠色综合久 | 国产成人精品一区二区秒拍1o| 国模极品一区二区三区| 91精品国产一区自在线拍| 欧美另类精品一区二区三区| 伊人激情综合网| 在线观看视频99| 精品欧美一区二区三区久久久| 91福利免费| 超清人妻系列无码专区| 亚洲第一黄色网址| 亚洲国产高清精品线久久| AV无码无在线观看免费| 欧美曰批视频免费播放免费| 欧美黄网在线| 最新国语自产精品视频在| 99在线视频免费观看| 国产乱子伦精品视频| 在线看AV天堂| 欧美午夜精品| 青青草一区| 亚洲精品国产精品乱码不卞| 亚洲国产天堂在线观看| m男亚洲一区中文字幕| 国产sm重味一区二区三区|