計(jì)算機(jī)自動(dòng)化項(xiàng)目生成概述

2008-01-01 00:00:00李中權(quán)張厚粲

心理科學(xué)進(jìn)展 2008年2期

摘要：近年來，計(jì)算機(jī)自動(dòng)化項(xiàng)目生成作為應(yīng)對(duì)測(cè)驗(yàn)項(xiàng)目曝光問題的很具前景的一項(xiàng)技術(shù)，逐漸得到越來越多研究者的重視。這種技術(shù)是以認(rèn)知心理學(xué)和心理測(cè)量學(xué)為基礎(chǔ)，在測(cè)試過程中借助計(jì)算機(jī)自動(dòng)生成目標(biāo)難度水平的項(xiàng)目。該文首先簡(jiǎn)要介紹了這種技術(shù)的理論基礎(chǔ)和兩種具體方法，然后以項(xiàng)目設(shè)計(jì)系統(tǒng)法為例說明自動(dòng)化項(xiàng)目生成研究的具體步驟與優(yōu)點(diǎn)，最后評(píng)述了這種技術(shù)的局限性及未來的發(fā)展趨勢(shì)。

關(guān)鍵詞：計(jì)算機(jī)自動(dòng)化項(xiàng)目生成，認(rèn)知設(shè)計(jì)系統(tǒng)法，項(xiàng)目模型法，構(gòu)念效度。

分類號(hào)：B841

隨著心理測(cè)驗(yàn)在招聘選拔情境中的應(yīng)用越來越普遍，測(cè)驗(yàn)項(xiàng)目的曝光問題也逐漸引起人們的重視。測(cè)驗(yàn)項(xiàng)目的曝光不僅會(huì)影響測(cè)驗(yàn)的公平性，也可能會(huì)影響測(cè)驗(yàn)的心理測(cè)量學(xué)屬性。計(jì)算機(jī)自動(dòng)化項(xiàng)目生成被許多研究者認(rèn)為是應(yīng)對(duì)測(cè)驗(yàn)項(xiàng)目曝光問題的很具前景的一項(xiàng)技術(shù)。自動(dòng)化項(xiàng)目生成是指在測(cè)驗(yàn)過程中，計(jì)算機(jī)根據(jù)項(xiàng)目編制者或者自適應(yīng)施測(cè)程序的要求，在項(xiàng)目生成算法的指導(dǎo)下，即時(shí)自動(dòng)生成符合指定項(xiàng)目參數(shù)的項(xiàng)目。盡管這個(gè)項(xiàng)目先前并不存在，也沒有經(jīng)過試測(cè)，但項(xiàng)目參數(shù)可以通過基于項(xiàng)目刺激特征與項(xiàng)目屬性之間關(guān)系的心理測(cè)量學(xué)模型進(jìn)行預(yù)測(cè)。因而自動(dòng)化項(xiàng)目生成可以看作是認(rèn)知心理學(xué)、心理測(cè)量學(xué)以及計(jì)算機(jī)技術(shù)三者有機(jī)結(jié)合的產(chǎn)物，是對(duì)傳統(tǒng)項(xiàng)目編制方法的革新。這種技術(shù)已經(jīng)被應(yīng)用到能力和成就測(cè)驗(yàn)領(lǐng)域，還被用于對(duì)復(fù)雜技能的評(píng)估，如問題解決、臨床診斷和教學(xué)技能，因項(xiàng)目編制效率高、結(jié)構(gòu)效度好而受到歡迎。

1 理論基礎(chǔ)

盡管早在20世紀(jì)70年代已經(jīng)有研究者提出項(xiàng)目生成的思想，但真正利用項(xiàng)目生成方法編制測(cè)驗(yàn)的實(shí)踐則是從80年代中期才開始的。其間Embretson對(duì)構(gòu)念效度的重新闡述對(duì)促進(jìn)自動(dòng)化項(xiàng)目生成的發(fā)展起著關(guān)鍵作用。Cronbach和Meehl提出的構(gòu)念效度已經(jīng)指導(dǎo)能力測(cè)驗(yàn)幾十年了，但Embretson認(rèn)為他們的提法混淆了構(gòu)念本身的含義以及與其他類似構(gòu)念的關(guān)聯(lián)。由于相關(guān)數(shù)據(jù)的累積只能通過測(cè)驗(yàn)編制完成之后的施測(cè)獲取，因此傳統(tǒng)的構(gòu)念效度概念只能用來描述測(cè)驗(yàn)當(dāng)前的構(gòu)念，卻不能為測(cè)驗(yàn)設(shè)計(jì)提供指導(dǎo)。

為了將測(cè)驗(yàn)設(shè)計(jì)結(jié)合進(jìn)構(gòu)念效度概念，Embretson提出一個(gè)兩部分分離的構(gòu)念效度：構(gòu)念表征(construct representation)和規(guī)則廣度(nomothetic span)。構(gòu)念表征涉及鑒別任務(wù)表現(xiàn)潛在的認(rèn)知成分，而規(guī)則廣度則關(guān)注測(cè)驗(yàn)分?jǐn)?shù)與其他構(gòu)念之間的詳細(xì)關(guān)系。Embretson認(rèn)為傳統(tǒng)構(gòu)念效度的方法只包含后者，通過和其他測(cè)量相關(guān)聯(lián)給測(cè)驗(yàn)分?jǐn)?shù)賦予意義(規(guī)則廣度)：而認(rèn)知心理學(xué)的新進(jìn)展表明測(cè)量的意義也可以直接獲得，即通過對(duì)在單個(gè)項(xiàng)目的問題解決行為中所涉及的過程、策略和知識(shí)的理解來確立(構(gòu)念表征)。構(gòu)念表征的研究范式包含運(yùn)用認(rèn)知心理學(xué)的方法為測(cè)量任務(wù)建立心理加工模型，如操縱測(cè)量任務(wù)的刺激特征，從而改變對(duì)假定認(rèn)知過程的影響。

這種兩部分分離的構(gòu)念效度對(duì)測(cè)驗(yàn)編制來說有很大優(yōu)勢(shì)。最重要的是可以用認(rèn)知理論指導(dǎo)測(cè)驗(yàn)編制。因?yàn)闇y(cè)驗(yàn)分?jǐn)?shù)的意義在構(gòu)念表征階段已經(jīng)確立，因此可以設(shè)計(jì)測(cè)驗(yàn)項(xiàng)目來反映特定的認(rèn)知結(jié)構(gòu)，進(jìn)而根據(jù)那些已經(jīng)得到實(shí)證性支持的影響目標(biāo)過程、策略和知識(shí)結(jié)構(gòu)的刺激特征來選擇項(xiàng)目；同時(shí)，規(guī)則廣度也受目標(biāo)認(rèn)知過程與重要外部變量之間關(guān)系的影響，對(duì)問題解決過程的認(rèn)知分析可有助于它的提高。

2 具體方法

根據(jù)認(rèn)知理論在項(xiàng)目生成中的影響過程和作用，Embretson等認(rèn)為可將目前主要的自動(dòng)化項(xiàng)目生成方法分成兩種：認(rèn)知設(shè)計(jì)系統(tǒng)法和項(xiàng)目模型法。這兩種方法分別對(duì)應(yīng)于Bejar等所提出的強(qiáng)理論(strong theory)和弱理論(weak theory)。強(qiáng)理論通過問題解決過程中隱含的心理學(xué)原理來精細(xì)地控制組成測(cè)驗(yàn)的模型或生成模型的實(shí)例的難度，如Embretson的矩陣完成測(cè)驗(yàn)和Beiar的心理旋轉(zhuǎn)測(cè)驗(yàn)；弱理論以一組內(nèi)容和難度上有廣泛代表性的校準(zhǔn)好的測(cè)驗(yàn)項(xiàng)目為起點(diǎn)，依據(jù)最佳實(shí)踐原則(best-practice guideline)而非心理學(xué)原理生成模型，如GRE數(shù)學(xué)測(cè)驗(yàn)。這種分類方法對(duì)項(xiàng)目自動(dòng)生成具有實(shí)踐指導(dǎo)意義，因此下面將對(duì)兩種方法的基本思想、步驟以及應(yīng)用條件進(jìn)行詳細(xì)介紹。

2．1 認(rèn)知設(shè)計(jì)系統(tǒng)法

認(rèn)知設(shè)計(jì)系統(tǒng)法的基本思想是通過實(shí)驗(yàn)研究，發(fā)現(xiàn)項(xiàng)目刺激特征中的基本成分和隨機(jī)成分。基本成分或控制成分(radicals or controlling elements)是指對(duì)項(xiàng)目心理測(cè)量學(xué)特性(如難度)有顯著影響的項(xiàng)目刺激特征；隨機(jī)成分或非控制成分(incidentals or non-controlling elements)被定義為對(duì)項(xiàng)目的心理測(cè)量學(xué)特性(如難度)沒有顯著影響的項(xiàng)目刺激特征。一般認(rèn)為，基本成分主要有以下兩類：第一類與工作記憶操作有關(guān)，如矩陣推理測(cè)驗(yàn)項(xiàng)目中規(guī)則的數(shù)量，閱讀理解測(cè)驗(yàn)中的單詞轉(zhuǎn)換等；第二類與知識(shí)操作有關(guān)，如閱讀理解測(cè)驗(yàn)中的詞頻等。隨機(jī)成分都是些表層特征，如數(shù)學(xué)題目中涉及人物或物品的名稱等。

2．2 項(xiàng)目模型法

項(xiàng)目模型法，也稱模版法(template)，是指以具有良好心理測(cè)量學(xué)指標(biāo)的項(xiàng)目為基準(zhǔn)(原型或框架)，通過替換那些被認(rèn)為與問題解決過程無關(guān)的特征，如物體名稱、具體數(shù)字等，形成多個(gè)新項(xiàng)目。雖然這些新項(xiàng)目看起來與原來的項(xiàng)目不同，但實(shí)質(zhì)卻是類似的。實(shí)際上項(xiàng)目模型法也可看作是生成同構(gòu)異形題多個(gè)實(shí)例的過程，這些項(xiàng)目在實(shí)質(zhì)內(nèi)容和心理測(cè)量學(xué)屬性上都相一致。如果正如假設(shè)的那樣，新項(xiàng)目繼承了項(xiàng)目模板的特性，在心理測(cè)量學(xué)特性上與原先模板的特性非常接近，則可以直接通過這些新項(xiàng)目估計(jì)測(cè)試者的能力，而不需要進(jìn)行試測(cè)。

2．3 兩種方法的比較

這兩種方法的根本差別在于對(duì)認(rèn)知心理學(xué)研究成果的倚重程度，認(rèn)知設(shè)計(jì)系統(tǒng)法對(duì)認(rèn)知心理學(xué)的依賴程度更高些。

對(duì)項(xiàng)目模型法來說，認(rèn)知心理學(xué)的影響主要體現(xiàn)在兩個(gè)方面：(1)必須要限定那些與測(cè)量構(gòu)念相關(guān)的變量允許替換的范圍，以免在很大程度上改變認(rèn)知加工過程。如替代的速度和距離需要更復(fù)雜的計(jì)算，以改變問題的難度。(2)利用語(yǔ)義網(wǎng)絡(luò)來確定什么樣的替代變量的組合是有意義的。比如在交通方式及其相應(yīng)的動(dòng)詞上，飛機(jī)對(duì)應(yīng)飛行，汽車對(duì)應(yīng)行駛。項(xiàng)目模型法是期望通過最小限度地替換現(xiàn)存項(xiàng)目中的部分成分，去生成與原模板特性類似的大量項(xiàng)目。項(xiàng)目模型法因應(yīng)用范圍廣、花費(fèi)比較適中等優(yōu)點(diǎn)，受到ETS等考試服務(wù)機(jī)構(gòu)的青睞，如用于GRE中的數(shù)學(xué)測(cè)驗(yàn)、數(shù)量推理測(cè)驗(yàn)的項(xiàng)目生成。然而這樣的項(xiàng)目因變動(dòng)較小，重復(fù)曝光，容易被測(cè)試者記住，進(jìn)而導(dǎo)致心理測(cè)量學(xué)屬性的顯著差異。

對(duì)認(rèn)知設(shè)計(jì)系統(tǒng)法來說，認(rèn)知心理學(xué)的研究起重要作用，它直接影響項(xiàng)目類型的認(rèn)知加工分析和解決過程中認(rèn)知模型的建立。這個(gè)模型對(duì)項(xiàng)目解決過程、刺激特征對(duì)過程的影響以及過程對(duì)成績(jī)的影響進(jìn)行了詳細(xì)說明。因此，基于認(rèn)知設(shè)計(jì)系統(tǒng)法建構(gòu)的項(xiàng)目，允許替換所有項(xiàng)目表層特征，只是基本成分的隱蔽性要求更好些。通過這種比較，我們可以看出對(duì)于那些有堅(jiān)固認(rèn)知研究基礎(chǔ)的項(xiàng)目類型來說，認(rèn)知設(shè)計(jì)系統(tǒng)法顯然是更合理的選擇。目前這種方法已經(jīng)被用于非言語(yǔ)能力傾向測(cè)驗(yàn)，如矩陣推理項(xiàng)目、圖形類推、空間折疊以及空間物品排列；正試圖應(yīng)用于其他類型的項(xiàng)目，如言語(yǔ)類推、言語(yǔ)分類、字母序列、段落理解以及數(shù)學(xué)問題解決。

3 具體步驟

下面介紹認(rèn)知設(shè)計(jì)系統(tǒng)法的具體步驟。其實(shí)在具體實(shí)施中，項(xiàng)目模型法也秉承類似的做法，只是對(duì)實(shí)驗(yàn)控制和認(rèn)知心理學(xué)實(shí)驗(yàn)的倚重程度上有所不同。根據(jù)Embretson等的做法，認(rèn)知設(shè)計(jì)系統(tǒng)法指導(dǎo)下的自動(dòng)化項(xiàng)目生成主要包括以下4個(gè)階段：

3．1 為現(xiàn)存項(xiàng)目建立認(rèn)知模型

在項(xiàng)目生成研究的最初階段，認(rèn)知設(shè)計(jì)系統(tǒng)法需要為現(xiàn)存的能力測(cè)驗(yàn)項(xiàng)目建立認(rèn)知模型，目的是從整體上了解項(xiàng)目變異的來源。首先從文獻(xiàn)綜述出發(fā)，考察潛在的認(rèn)知加工過程以及影響項(xiàng)目變異的刺激特征，即哪些刺激特征可能會(huì)對(duì)項(xiàng)目的難度、區(qū)分度等屬性產(chǎn)生影響。一般而言，實(shí)驗(yàn)室研究中使用的任務(wù)通常會(huì)比真正的能力測(cè)驗(yàn)上的項(xiàng)目更簡(jiǎn)單，因此需要假設(shè)一個(gè)更復(fù)雜的模型來充分表征能力問題解決中的認(rèn)知加工過程。然后采用多種研究手段(如眼動(dòng)、計(jì)算機(jī)模擬)對(duì)所識(shí)別出的、可能影響項(xiàng)目屬性的刺激特征進(jìn)行實(shí)驗(yàn)驗(yàn)證，求這些刺激特征與項(xiàng)目屬性之間的相關(guān)，或者比較操縱這些刺激特征引起項(xiàng)目屬性的變化來確定它們的影響。盡管一般而言，項(xiàng)目難度是研究者最關(guān)注的項(xiàng)目屬性，但反應(yīng)時(shí)數(shù)據(jù)對(duì)認(rèn)知加工模型的支持也很必要。

3．2 根據(jù)規(guī)則生成項(xiàng)目并修正認(rèn)知模型

在項(xiàng)目生成研究的第二階段，認(rèn)知設(shè)計(jì)系統(tǒng)法主要關(guān)注項(xiàng)目編制和測(cè)驗(yàn)設(shè)計(jì)的問題，即項(xiàng)目刺激特征能否被單獨(dú)操縱來影響加工難度，這些項(xiàng)目刺激特征是基于上一步建立的認(rèn)知模型中的變量。為操縱項(xiàng)目刺激特征，根據(jù)認(rèn)知模型變量建構(gòu)一套項(xiàng)目編制說明(項(xiàng)目生成算法)，然后在據(jù)此手工編制一批新項(xiàng)目進(jìn)行試測(cè)，確定項(xiàng)目刺激特征是否影響項(xiàng)目難度以及被試在這些項(xiàng)目上的表現(xiàn)。雖然通過試測(cè)可以估計(jì)項(xiàng)目和被試參數(shù)，但這一階段的主要關(guān)注點(diǎn)仍是項(xiàng)目刺激特征。對(duì)于認(rèn)知模型來說，項(xiàng)目刺激特征應(yīng)當(dāng)能充分預(yù)測(cè)項(xiàng)目難度、反應(yīng)時(shí)以及其他一些心理測(cè)量學(xué)指標(biāo)。另外，從實(shí)證的角度來說，具有相同刺激特征組合的項(xiàng)目在心理測(cè)量學(xué)指標(biāo)上應(yīng)該高度接近。

3．3 計(jì)算機(jī)自動(dòng)化生成項(xiàng)目

在項(xiàng)目生成研究的第三階段，需要編制計(jì)算機(jī)程序?qū)崿F(xiàn)項(xiàng)目自動(dòng)化生成，即計(jì)算機(jī)自動(dòng)化項(xiàng)目生成器。盡管編制出項(xiàng)目生成和呈現(xiàn)機(jī)制方面的程序很重要，然而為特定項(xiàng)目類型發(fā)展出項(xiàng)目結(jié)構(gòu)則是成功的關(guān)鍵。項(xiàng)目結(jié)構(gòu)基于第二階段修正的認(rèn)知模型，是對(duì)所有影響項(xiàng)目認(rèn)知復(fù)雜性的各種項(xiàng)目刺激特征特定組合的詳細(xì)說明。這樣，具有相同項(xiàng)目結(jié)構(gòu)的項(xiàng)目攜帶有相同來源和水平的認(rèn)知復(fù)雜性，并相應(yīng)地具有相同的心理測(cè)量學(xué)指標(biāo)。其他一些未納入認(rèn)知模型的刺激特征，對(duì)項(xiàng)目認(rèn)知復(fù)雜性不造成顯著的影響，是可以變動(dòng)的。需要注意的是，不同項(xiàng)目類型(如測(cè)量空間能力與測(cè)量推理能力的項(xiàng)目)在項(xiàng)目結(jié)構(gòu)上可能存在質(zhì)的差異。

3．4 實(shí)證性地檢驗(yàn)自動(dòng)生成的項(xiàng)目

在這最后階段，還需要收集些實(shí)證數(shù)據(jù)來評(píng)估項(xiàng)目生成器的穩(wěn)定性以及自動(dòng)生成項(xiàng)目的質(zhì)量。項(xiàng)目生成器的穩(wěn)定性主要是檢視自動(dòng)化生成的項(xiàng)目外觀上是否符合預(yù)期的設(shè)定。自動(dòng)化生成項(xiàng)目的質(zhì)量通過比較項(xiàng)目生成算法預(yù)測(cè)出的參數(shù)與項(xiàng)目的實(shí)際參數(shù)進(jìn)行評(píng)估，若兩者非常接近，則表明設(shè)立的認(rèn)知模型以及項(xiàng)目生成算法是有效的。

4 相關(guān)IRT模型

正如前面所提及的，自動(dòng)化項(xiàng)目生成需要合適的心理測(cè)量模型以及實(shí)質(zhì)性研究(認(rèn)知基礎(chǔ))。實(shí)質(zhì)性研究很大程度上依賴于認(rèn)知心理學(xué)，從而通過預(yù)測(cè)取代估計(jì)項(xiàng)目參數(shù)，而心理測(cè)量學(xué)模型則依賴于項(xiàng)目反應(yīng)理論的發(fā)展。隨著測(cè)量模型和認(rèn)知心理學(xué)理論的發(fā)展，研究者提出多種能將認(rèn)知心理學(xué)理論和測(cè)量模型連接起來的拓展項(xiàng)目反應(yīng)理論模型，如線性邏輯斯蒂模型(LLTM，Linear Logistic TestModel)、約束兩參數(shù)邏輯斯蒂模型(2PL-constrainedmodel)和項(xiàng)目結(jié)構(gòu)的多層次IRT模型(HierarchicalIRT model for item structure)。其中前兩種模型特別適用于認(rèn)知設(shè)計(jì)系統(tǒng)法，最后一種特別適合于項(xiàng)目模型法。這些模型的共同特征是將影響項(xiàng)目認(rèn)知復(fù)雜性的變量進(jìn)行量化，納入到測(cè)量模型，從而為項(xiàng)目自動(dòng)化生成的參數(shù)預(yù)測(cè)奠定基礎(chǔ)。

5 優(yōu)缺點(diǎn)評(píng)述

Embretson對(duì)自動(dòng)化項(xiàng)目生成的優(yōu)缺點(diǎn)進(jìn)行了總結(jié)。她認(rèn)為，與傳統(tǒng)項(xiàng)目編制方法相比，自動(dòng)化項(xiàng)目生成有如下幾點(diǎn)優(yōu)勢(shì)：(1)編制新的項(xiàng)目更容易，從而更好滿足自適應(yīng)測(cè)驗(yàn)對(duì)大量項(xiàng)目的需求；(2)生成指定難度水平與合適心理測(cè)量學(xué)特性的項(xiàng)目，避免了傳統(tǒng)測(cè)驗(yàn)編制時(shí)有大量項(xiàng)目因試測(cè)中品質(zhì)不合格而被拋棄；(3)如果項(xiàng)目生成算法足夠精準(zhǔn)，則可不必經(jīng)過試測(cè)而將新生成項(xiàng)目放入題庫(kù)；(4)結(jié)構(gòu)效度存在于項(xiàng)目水平，即每個(gè)項(xiàng)目認(rèn)知復(fù)雜性的具體來源都可以通過給模型變量賦以特定權(quán)重來確定；(5)可以重新設(shè)計(jì)測(cè)驗(yàn)來表征項(xiàng)目難度的特定來源，即認(rèn)知復(fù)雜性的某些來源的影響可以直接加以控制。而自動(dòng)化項(xiàng)目生成的局限性主要體現(xiàn)在：(1)這種方法需要實(shí)質(zhì)心理學(xué)的支持，即為特定的項(xiàng)目類型發(fā)展出合理的認(rèn)知模型需要一些實(shí)證性研究來支持。然而對(duì)某種特定的測(cè)驗(yàn)來說是否實(shí)際，還得在最初的研究花費(fèi)與可以生成無限個(gè)的新項(xiàng)目的成果之間權(quán)衡。(2)盡管這種方法可以應(yīng)用于新的項(xiàng)目類型，但還是對(duì)已經(jīng)發(fā)展出來的項(xiàng)目類型最有效。因?yàn)閷?duì)新項(xiàng)目類型來說，它們結(jié)構(gòu)效度中的規(guī)則廣度還需要通過從該項(xiàng)目類型獲得分?jǐn)?shù)的相關(guān)的研究來證實(shí)。

6 研究展望

從20世紀(jì)80年代中期開始，心理和教育測(cè)量領(lǐng)域的一些研究者對(duì)很多項(xiàng)目類型進(jìn)行了認(rèn)知分析并應(yīng)用到新項(xiàng)目的編制，探討如何將認(rèn)知理論結(jié)合到測(cè)驗(yàn)編制中。到現(xiàn)在為止，已經(jīng)在多個(gè)方面取得進(jìn)展，如GRE的數(shù)量推理、分析性推理等。對(duì)于自動(dòng)化項(xiàng)目生成，目前國(guó)外最新的研究趨勢(shì)主要集中在以下4個(gè)方面：

6．1 原有模型的修正

盡管先前的研究已經(jīng)找到影響認(rèn)知復(fù)雜性的一些因素，但隨著認(rèn)知心理學(xué)研究的深入，一些研究者認(rèn)為過去的認(rèn)知模型不能覆蓋所有這些重要的影響因素，因此需要對(duì)以往的模型進(jìn)行修正，以建立解釋率更高的認(rèn)知模型來擬合相關(guān)問題解決過程，如Diehl在項(xiàng)目生成算法中納入干擾項(xiàng)的特性。

6．2控制機(jī)制的引入

對(duì)于自動(dòng)化項(xiàng)目生成，如何在研究者不干預(yù)的情形下產(chǎn)生符合要求的測(cè)驗(yàn)?Embretson自動(dòng)化生成的抽象推理測(cè)驗(yàn)項(xiàng)目，從知覺角度分析，大約有7％的項(xiàng)目不符合要求。將自動(dòng)生成的這些項(xiàng)目直接呈現(xiàn)給測(cè)試者，這在高利害關(guān)系的測(cè)驗(yàn)中顯然是不允許的。因此有必要引入項(xiàng)目質(zhì)量控制機(jī)制，如Arendasy等人建議加入基于Rasch模型的校準(zhǔn)機(jī)制。

6．3 內(nèi)容領(lǐng)域的擴(kuò)展

過去計(jì)算機(jī)自動(dòng)化項(xiàng)目生成的一些測(cè)驗(yàn)主要集中于有堅(jiān)固認(rèn)知基礎(chǔ)的領(lǐng)域(如心理旋轉(zhuǎn)、隱蔽圖形和抽象推理測(cè)驗(yàn))，很容易通過操縱相關(guān)刺激特征控制加工難度。言語(yǔ)測(cè)驗(yàn)的自動(dòng)化項(xiàng)目生成則涉獵較少。自然語(yǔ)言機(jī)制研究的進(jìn)展，逐漸為言語(yǔ)測(cè)驗(yàn)的自動(dòng)化項(xiàng)目生成提供技術(shù)支持，如GRE的分析性推理測(cè)驗(yàn)項(xiàng)目的生成。

6．4 測(cè)驗(yàn)技術(shù)的革新

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)可以根據(jù)對(duì)測(cè)試者的能力的初步估計(jì)，從已知項(xiàng)目參數(shù)的題庫(kù)中選擇最佳信息量的項(xiàng)目，從而提高測(cè)驗(yàn)的效率。如果將自動(dòng)化項(xiàng)目生成結(jié)合進(jìn)來，計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)不是從題庫(kù)中抽取項(xiàng)目，而是調(diào)用根據(jù)對(duì)測(cè)試者的能力的初步估計(jì)即時(shí)生成的項(xiàng)目，從而實(shí)現(xiàn)自適應(yīng)項(xiàng)目生成。這將在很大程度上降低題庫(kù)維護(hù)成本，提高測(cè)驗(yàn)的安全性。根據(jù)Embretson和Yang，盡管一些項(xiàng)目自動(dòng)化生成以及自適應(yīng)施測(cè)的程序已經(jīng)存在，但尚沒有將這兩者結(jié)合起來的研究和實(shí)踐。

總而言之，正如Swanson所說，自動(dòng)化項(xiàng)目生成將成為未來測(cè)評(píng)的主流是不容置疑的，目前討論的問題主要是如何發(fā)展和應(yīng)用這種技術(shù)。計(jì)算機(jī)自動(dòng)化項(xiàng)目生成在測(cè)驗(yàn)編制中有著巨大的潛力，如效率高、結(jié)構(gòu)效度好等特點(diǎn)，在世界各地的多項(xiàng)測(cè)驗(yàn)中已經(jīng)得到較好的應(yīng)用(如美國(guó)GRE、英國(guó)BARB)。在我國(guó)這一方面的研究和實(shí)踐還非常少，如何借鑒其他國(guó)家和地區(qū)的經(jīng)驗(yàn)，提高我國(guó)教育與心理測(cè)驗(yàn)的效率和質(zhì)量是值得我們思考的問題，如自動(dòng)化項(xiàng)目生成的原則也可用于指導(dǎo)人工編制項(xiàng)目，對(duì)目前正在構(gòu)建的國(guó)家級(jí)題庫(kù)具有實(shí)際意義。

心理科學(xué)進(jìn)展2008年2期

心理科學(xué)進(jìn)展的其它文章: 主管支持感研究述評(píng)及展望; 工作場(chǎng)所中欺負(fù)問題的研究現(xiàn)狀; 組織中人際初始信任研究述評(píng); 組織健康：概念、特征及維度; 計(jì)劃行為理論述評(píng); 自我、文化與記憶：自傳體記憶的跨文化研究