摘 要:項目生成技術作為新一代的測驗技術,與傳統測驗技術相比,它在節省大量人力物力的同時,又能充分保證測驗的結構效度;它有助于擴充計算機自適應測驗的項目數量及提高其安全性;它還可作為認知診斷測驗開發的基礎。本文總結了國外項目生成方面的理論和技術成果,就項目生成技術的意義、發展、現狀和研究方法進行了闡述。
關鍵詞:項目生成技術 心理測驗開發 認知心理學心理測量學
國外研究者對項目生成技術(Item Generation)的研究始于20世紀60年代,經過幾十年的發展和S.Embretson、 I. Bejar等研究者的努力,項目生成技術的優勢已經凸顯,并將在二十一世紀得到迅速發展。項目生成首先應研究所測任務的認知策略、認知加工過程和該領域的典型項目,歸納出影響此類項目心理計量參數的刺激特征和其他影響因素,及不影響項目參數的其他刺激特征。這樣既可以以此為基礎,通過已知的刺激特征及其權重來預測其項目參數,又可以以此形成項目設計原則,使得通過計算機程序在測驗施測的同時生成結構效度良好、心理計量參數已知且具有最佳認知診斷功能的項目成為可能。
有人稱項目生成技術的特點是三無,即無題庫、無需項目反應理論(IRT)和無需太多投入(S. Irvine, 2002)。的確,項目生成誕生最初目的就是為大規模測驗服務,因此決定了它的特點就是:項目實時生成、不需使用IRT的方法去估計項目參數而可以直接通過項目刺激特征的權重直接計算項目參數、與傳統測驗編制相比較項目生成能夠節省大量的人力與物力。
1 項目生成技術的意義
項目生成技術作為新一代的測量技術,具有重要的理論與實踐意義。
1.1 項目生成技術歸納出項目認知模型與設計原則,既節省了大量人力物力,又能充分保證測驗的結構效度。
使用傳統方法人工編寫測驗費時費力,生成的項目又往往難以保證其品質,造成此種局面的部分原因在于,它不管項目間有多相似,都將每個項目視為獨立體。而項目生成技術從研究其認知過程與項目結構著手,一旦確定認知模型和項目設計原則,就可編寫計算機程序自動化地生成大量已知心理計量屬性的項目。
在智力測驗領域,過去的做法是通過測驗總分與外部效標的相關求得效度。這種方法早已顯得太粗糙,而從測驗所要測量的潛在結構的角度來證明測驗的有效性是十分必要的。因此對測量結構和目標的深層次理解,對其認知過程、認知策略、認知成分與刺激屬性的研究,關注各認知變量對總分的影響,這將有助于指導測驗的編制工作、保證其結構效度。
1.2 項目生成有助于擴充計算機自適應測驗的項目數量及提高其安全性。
計算機自適應測驗(簡稱CAT)未能得到快速發展的原因之一是由于它需要大量心理計量參數已知的項目作基礎。人工項目編寫者很難滿足對項目這樣大量與急切的需求,而項目設計規則與程序能幫助項目生成者實時生成大量的項目,有助于改善這種艱難的局面,對于擴充CAT的題量具有極大的幫助。
Wainer認為僅靠增加題量來維持題庫的安全性,這是不現實的;與擴大題庫的投資相比,竊題增加的費用卻是微乎其微的;這也意味著,隨著時間的推移,要維持測驗同等程度的安全性,就必須以指數級數增加題目量,而項目費用也是以指數級數增加的。而使用項目生成技術,項目在測驗過程中實時生成,從而減少了曝光機會、增加了安全性。
1.3 項目生成可以做為開發認知診斷測驗的基礎。
測量技術發展到21世紀,人們對測驗結果的渴望已經不能用只給出一個總分值來滿足,人們更期待出現針對不同個體的、能夠揭示其內在特質的診斷性測驗。項目生成技術基于對所測領域認知加工過程與項目結構的細致分析,確定了影響人們行為的刺激特征與其他因素,它與CAT相結合,就有可能為被試提供更有效且更個性化的基于項目認知過程和刺激特征層面的診斷分析。
項目生成技術對于心理測量而言,除了具有現實意義,還具有理論意義。如果我們可以用項目生成技術生成某特質的項目并得到預期的結果,則表示我們已經開始真正了解這種特質了;更進一步說,如果我們能夠準確預測該項目的難度的話,則有了更大的突破。
2 項目生成方法及應用
2.1 Embretson(1999)提出的認知設計系統方法
美國測量理論學家Embretson總結了一套生成項目的認知設計系統方法,該方法的核心是建立該類項目的認知加工過程模型;此外,它還需要其他幾個支持系統,其中包括建立保證結構效度的項目設計體系、選擇合適的心理計量模型和生成項目的計算機程序。認知設計系統方法與其他傳統項目開發方法相比具有四大優勢:第一、預測項目參數的能力較強。第二、可以在項目水平上評估結構效度。如果認知設計系統方法與合適的心理測量模型結合起來應用,就可以預測具體的認知成分對于項目難度的相應影響。第三、該方法可以生成指定參數的項目。第四、該方法使得自適應項目生成測驗成為可能。
2.2 Ian Dennis(2002)提出的項目生成方法1
Dennis曾對項目生成方法做過大量研究,提出了項目生成的兩種方法。在其方法1中項目總體是可以確定的,它由特定的項目刺激特征及其水平相結合所產生的所有項目組成。通過對總體項目結構的分析,首先確定影響難度的控制因素與不影響難度的非控制因素,這樣只要項目刺激特征的值確定了,這個項目就確定了。控制因素用于確定難度,而非控制因素用于產生項目參數相近而形式不同的若干實例項目(又稱為同構體)。用方法1適用于保密的環境當中,用它生成項目耗費較小,可以生成大量平行測驗;但如果過度曝光,可能導致項目設計原則的泄露。
2.3 Ian Dennis提出的項目生成方法2
方法2中的項目總體是所有存在元素的任何一種可能的排列方式,因此在施以任何規則以前,對含有N個元素的集合,就有N!個可能的項目;方法2通過在題干和問題處施以規則來減少符合的項目個數。方法2中項目生成的程序要具備檢驗模型是否與給定的規則相容的邏輯分析能力。使用方法2時,只有在項目生成之后,其難度才能確定。方法2雖然可以解決項目泄露問題,但較之方法1,它需要投入更多。
3 項目生成能力的三種水平
Bejar(1993)認為按照項目生成能力的不同,可以將項目生成分為三個水平。水平最低的是功能水平上的項目生成,它僅僅強調完成項目生成這個功能本身,而忽視測量結構的探究與認知模型的建立。根據Hively(1974)與Bormuth(1990)介紹,教育領域早期的一些工作就屬于這一水平。
項目生成的第二個水平是以模型為基礎的項目生成,它是在對有關項目進行了認真的認知分析后建立的認知模型以指導項目生成;那些根據認知理論所提出的能夠影響難度的變量,最終又可以應用于指導項目的生成。他認為生成測驗的先決條件是對測驗內容做完善的結構分析,多個研究結果證明這種項目生成是較有效的。
項目生成的最高水平是語義水平的項目生成,在此水平上,測驗開發者必須對認知結構與心理計量模型進行透徹的分析,從而不僅能生成項目,還可以解析項目以刻畫其心理計量屬性。這種方法雖然很吸引人,但在現實中很難輕易地實現它,它僅比較成功地應用于分析推理等項目類型中。
4 項目生成技術在國外的發展
4.1 誕生和初步發展階段(20世紀60年代到90年代)
項目生成長久以來一直吸引著測驗開發者,從20世紀60年代開始,西方研究者如Hively、Guttman、Carroll、Bejar、Irvine、Dennis等人就對項目生成做了初步的理論探索與實踐研究(S. Irvine, 2002)。Hively(1968)、Guttman(1969)提出了一種可以生成大量算術題目的項目形式。這一時期的許多研究者都熱衷于實現功能水平上的項目生成,他們看重完成項目生成這種功能,而不重視研究項目所測品質的認知結構,因此有些項目生成的結果并不如人意。
4.2 成熟發展階段(20世紀90年代至今)
早期失敗的歷史證明,想要對理論內容不加分析就成功地生成項目是不可能的。成熟的認知心理學理論是支撐項目生成技術成功的基礎之一,如:What One Intelligence Test Measures(P. Carpenter等人,1990)成為抽象推理測驗項目生成的重要理論基礎,而Using Algebra Word Problems to Assess Quantitative Ability(M. Sebrechts等人)成為數量推理項目項目生成的理論基礎。
如今國外研究者已經在能力測驗、學績測驗與軍事選拔測驗等多個領域展開了對項目生成的研究與實踐。Embretson等人已經對十余種能力測驗項目進行了項目生成研究,其中包括言語類比推理、言語分類、幾何類比推理、幾何分類、系列完成、段落理解、空間折疊、數量文字問題、矩陣完成問題等。奧地利測量學者Martin Arendasy開發出了項目生成器ITEMGEN,它可以生成6種測量非言語智力的項目類型,其中包括兩種矩陣完成任務、幾何類比推理、幾何系列問題和兩種空間能力項目。Bejar等人已將項目生成應用于學績測驗領域以生成GRE數學項目。
5 項目生成技術在國內的發展展望
在國外,項目生成已經在眾多項目上取得了成功,在國內相信其前景也會十分樂觀;但目前國內仍未有研究者報告在此領域中獲得的成果,可見研究具有一定的難度。首先,想要成功地進行項目生成,就必須建立起合適的認知模型,而認知心理學未能提供更多可操作的認知理論,測量開發者想要提出自己的認知模型確實有很大的難度;其次,項目生成技術生成的項目要能不經試測而直接施用,這是建立在所生成的項目能夠達到預計的心理計量屬性的假設之上的,而這種假設對于心理測量模型的要求很高,期待能有對項目參數的預測能力更佳的模型出現;再次,項目生成技術要求開發者能駕馭認知心理學、心理測量學、計算機編程技術三個領域的知識與技術,但國內這樣的人材卻少之又少。筆者認為,國內的心理與教育測量人員要改變這種局面,一方面可以引進國外學者一些較為成熟的項目生成方法與技術,而在認知結構或計量模型上嘗試突破創新,另一方面可以根據我國測驗自身的特點,嘗試創造出新的項目生成方法。
參考文獻:
[1] Ian Dennis (2002). Approaches to Modeling Item-Generative Tests. In Sidney H. Irvine Patrick C.Kyllonen, Item Generation for Test Development. Lawrence Erlbaum Associates, Publisher. Mahwah, NJ. P54-71.
[2] Isaac I. Bejar(2002). Genrrative Testing: From Conception to Implementation. In Sidney H. Irvine Patrick C.Kyllonen, Item Generation for Test Development. Lawrence Erlbaum Associates, Publisher. Mahwah, NJ. P199-217.
[3] Sidney H. Irvine (2002). The Foundations of Item Generation For Mass Testing. In Sidney H. Irvine Patrick C.Kyllonen, Item Generation for Test Development. Lawrence Erlbaum Associates, Publisher. Mahwah, NJ. P3-33.
[4] Susan E. Embretson (2002). Generating Abstract Reasoning Items With Cognitive Theory. In Sidney H. Irvine Patrick C.Kyllonen, Item Generation for Test Development. Lawrence Erlbaum Associates, Publisher. Mahwah, NJ. P219-250.