【摘 要】群體水平直接估計法作為一種全新的IRT群體估計方法,即能克服CTT在群體估計的困難,又能有效改善IRT對群體的估計。目前應用有困難,但卻是一種值得引起廣泛關注的新方法。
【關鍵詞】群體水平直接估計法;IRT
一、研究背景
伴隨著我國基礎教育的發展,全面提高教育質量成為我國教育改革與發展的核心任務。《國家中長期教育改革和發展規劃綱要(2010~2020年)》中提到:“國運興衰,系于教育”。我國基礎教育在實現義務教育發展階段后,在基礎教育質量評價、檢測和監控的研究及實踐方面已進入了新的發展階段(耿申,2011)。當前我國尚未開展針對整體學生發展的地區性大型評估,缺乏有效方法是重要原因。目前已開始深入研究PISA、TIMSS、NAEP、TASA和PIRIS等國際大型測試,努力探索出適合我國國情的教育質量監控體系和方法。
二、含義與現狀
群體水平評估是指針對由一定數量個人所組成的單位、團體組織進行的評估(蔡艷,丁樹良,涂冬波,戴海琦,2012)。過去衡量學生、教師、學校的教育發展水平大多依據學校升學率和學生成績(吳志華,王紅艷,王曉丹,2011),多建立在經典測驗理論(Classical Test Theory,CTT)基礎上。但群體人數會直接影響群體估計(Tate King,1994),而且在大型評估中,評估工具往往較大題量構成,遠大于學生一次測試能夠接受的題量,這個矛盾常出現在實際工作中。而另一種項目反應理論(Item Response Theory,IRT)可以克服這一困難。IRT的估計也受到樣本大小的影響。很多研究結果也表明:運用IRT對測驗結果進行分析時,若將群體人數控制在一定范圍內,不需要大量試題也能保證估計的精確度(吳國華,1990)。基于IRT作群體評估時,獲得考生的個體領域分數后將組內個體的個體領域分數平均,以此獲得該組個體的群體領域分數,即平均所有個體在各題上的P( )值作為群體能力的指標。該方法類似CTT的求均值,會受到群體數量和題數的影響。還有另一種方法,先獲得群體內個體在各題的正確作答概率,利用正確作答概率估計出群體水平,又稱為群體水平直接估計法。蔡艷(2010)使用該方法英語閱讀問題解決能力評估及認知診斷,僅用20題,且每題10人作答,每人答一題。
三、問題與展望
近年來國際大型考試的題量多少直接體現在預定的測試時間。PIRLS2006研究團隊認為,需要近7個小時才能完整測試一名學生在兩種不同閱讀目的下所進行的閱讀活動,但鑒于實際情況,PIRLS將測試時間規定為80分鐘;NAEP對學生答題時間精確至每一道題,兩種形式的閱讀評價試卷總耗時均為50分鐘(楊清,2012);PISA測驗有若干個試題冊,每名學生樣本只要求作答其中的一套,測驗題量一直保持在130題以上(蘇洪雨,2008)。在心理健康評定使用較多各類心理健康量表里,SCL-90有90個項目;由王極盛主編的《中國中學生心理素質量表》有50個項目(王極盛,1997);《大學生人格健康調查量表》(UPI)有56個計分項。辛濤(辛濤,謝敏,2010,2011)研究表明,實踐中當總題量確定時,為了較精確地估計群體領域分數,每個題本中的項目數≥25較為合適;在保證精確性的前提下節約編題成本,每個題本的題數不可超過60;從編題成本和估計精確性角度考慮,題本項目數在30左右較為合適,最好不低于30(“基礎教育教學質量監測系統”項目組,2009)。在題量會大于20的實際工作中,群體水平直接估計法效果如何還有待探索。
現有研究也表明題量、項目難度和區分度、群體大小、群體內個體能力分布會影響群體水平能力估計的精確性和穩定性以及群體能力認知診斷。作為一種全新且有效的方法,雖在實際工作普遍應用還有距離。經過一段探索和發展,相信它會有助于我國教育事業的進步。
參考文獻
[1]“基礎教育教學質量監測系統”項目組.IRT下題量與被試量對參數估計模擬返真性能的影響[J].中國考試(研究版).2009(6):3~10
[2]Tate,R.L.,King,F..Factors Which Influence Precision of School‐Level IRT Ability Estimates[J].Journal of Educational Measurement.1994,31(1):1~15
[3]蔡艷,丁樹良,涂冬波,戴海琦.群體水平IRT模型及其應用——兼與IRT的比較[J].心理科學.2012,35(006):1497~1501
[4]耿申.基礎教育質量監控:回歸“質”的評價——中國教育學會基礎教育評價專業委員會2011年專題研討會述評[J].中小學管理.2011(6):20~25
[5]蘇洪雨.PISA:數學素養測試題的設計和研發過程[J].教學與管理.2008(5):49~51
[6]王極盛.中國中學生心理素質量表的編制及其標準化[J].社會心理科學.1997(4):21~25
[7]吳國華.樣組大小和測驗長度對于考生能力估計的影響[J].南京師大學報(社會科學版).1990(1):106~108
[8]吳志華,王紅艷,王曉丹.大規模教育評估的興起,問題與發展——加拿大教育評估的啟示[J].外國中小學教育.2011,(8)002