基于項目反應理論的研究生招生考試命題質量評價 *

2023-05-19 09:38:30宋學玲梁正妍

心理與行為研究 2023年2期

宋學玲梁正妍

(1 教育部教育考試院，北京 100084) (2 華南師范大學心理學院，廣州 510631)

1 引言

全國碩士研究生招生考試(簡稱“研究生招生考試”）是國家高層次人才選拔的主渠道。多年來，研究生招生考試形成了“初試+復試”的成熟模式，初試“篩”的質量極大地影響著復試“選”的質量，其重要性不言而喻，而命題質量則是影響初試質量的最關鍵因素。從人才評價與選拔的角度來看，只有當試卷的難度與考生的能力水平真正匹配時，才能測量出考生最真實的能力水平，進而有利于選拔出最合適的考生。因此，對研究生招生考試初試的命題質量進行分析，探究其與測試目標群體的匹配程度是考試管理的重要環節。

教育與心理測量理論為考試質量評價提供了理論基礎和實現路徑，當前主要采用的是經典測量理論(classical test theory, CTT)和項目反應理論(item response theory, IRT)。CTT的數學模型簡單易懂，但卻存在著樣本依賴和測驗依賴的缺點，其信度指標對測驗可靠性的估計也較粗略。IRT克服了這些缺點，建立了考生能力水平與正確作答概率間的聯系，并引入了信息函數來對測量誤差進行精確估計。項目反應模型可以分為二級計分模型和多級計分模型。二級計分模型主要有Rasch模型、單參數Logistic模型、雙參數Logistic模型、三參數Logistic模型等。多級計分模型主要有稱名反應模型、評定量表模型、等級反應模型、分部評分模型、拓廣分部評分模型等，其中，拓廣分部評分模型多用于“按步驟給分”的題目，但各步驟間的難度未必逐步遞增(胡姍, 2015; 紀凌開,2002; 羅照盛, 2012; 漆書青等, 1998; Muraki, 1992)。

近年來，許多學者就IRT在考試質量評價方面的應用開展了研究。在國外，Gon?alves等人(2023)提出了貝葉斯IRT模型，并運用該模型對巴西某大規模教育考試的數據進行了分析。Strachan等人(2022)結合美國大學入學考試(ACT)數學測試20道選擇題的作答數據，對單維IRT模型如何逼近多維潛在空間中的線性復合方向進行了研究。Rahim和Haryanto(2021)采用Rasch模型對某數學期末考試進行了質量評價，發現將40道選擇題精簡為35道基本不影響測量效果。Lahner等人(2020)研究了瑞士3所醫學院5個年級32次高風險期末考試，發現在通過分數線上IRT的條件信度顯著高于CTT。Lee和von Davier(2020)研究了PISA財經素養量表的時間和國別測量不變性，并利用項目反應模型對量表進行了調整，顯著提高了一國國內測量的準確性。在國內，沈勵和萬雅奇(2022)結合CTT和IRT對高中學業水平等級考適應性測試的數據進行了分析。閆培香(2021)采用IRT對高考英語分數進行了可比性研究，對平行試卷分數的等值處理進行了分析。莊然等人(2020)對某醫學院6年間的免疫學試題進行了質量評價，通過IRT對不同年份的試題、考生能力等進行了比較分析。閆成海等人(2014)以某地高考數學考后數據為基礎，基于CTT與IRT對試題質量進行了分析，認為IRT在試題評價方面更具優越性。趙守盈等人(2013)對某地高考英語模擬考試的選擇題進行了質量分析，證實了IRT相較CTT的諸多優點。趙守盈等人(2012)應用Rasch模型對研究生入學考試心理學科目的選擇題質量進行了分析。

雖然已有的文獻為IRT在命題質量評價方面的應用提供了有價值的研究結果，但是落實在研究生招生考試的命題質量評價上仍然存在一些問題。首先，國內外的相關研究多是針對二級計分題開展的，而研究生招生考試的統考科目一般采用的是混合題型的標準化測驗，既有選擇題又有主觀題，二級計分模型不能完全適用。其次，與高考相比，國內對研究生招生考試命題質量評價的關注度不夠，研究成果不多。過往教育部教育考試院對于研究生招生考試的質量評價多采用CTT，也有部分學者采用Rasch模型對其進行了研究(趙守盈等, 2012)。CTT的缺點眾所周知，而其中涉及Rasch模型的研究也僅對心理學科目的選擇題進行了質量分析。同時，Rasch模型假定所有試題的區分度參數一致，而實際上不同試題的區分度難以保持一致，且區分度參數對于評價試卷質量十分重要。綜上，本研究采用項目反應理論中的雙參數Logistic模型和拓廣分部評分模型對研究生招生考試的整套試卷開展命題質量評價是非常必要的。

2 研究方法

2.1 研究目的

本研究擬采用IRT對2022年全國碩士研究生招生考試《心理學專業基礎(312)》科目的全部試題質量進行評價，通過對試題質量參數及考生能力參數的分析來反映考試的整體質量，并通過信息函數對試題和試卷的測量精度進行探討，以期拓寬研究生招生考試的命題質量評價路徑，并為后續考試大綱的完善和命題質量的提高提供心理測量學上的參考。

2.2 研究樣本

在2022年《心理學專業基礎(312)》科目的作答數據中，隨機抽取22,953份樣本，剔除827份小題得分數據缺失的樣本，實際研究可用作答樣本為22,126份。

2.3 試卷結構

《心理學專業基礎(312)》是研究生招生考試心理學學術學位碩士研究生(簡稱“學碩”)的統考科目。試卷由教育部教育考試院組織學科專家根據考試大綱統一命制，考查內容涵蓋心理學導論、發展與教育心理學、實驗心理學、心理統計與測量四個知識板塊。2022年試卷的具體結構見下表1，各知識板塊的題型、題量、分值比例與考試大綱中的要求完全一致。

2.4 數據分析

本研究中的數據分析均采用SPSS21.0以及R軟件來完成。

2.5 單維性檢驗

單維性假設指的是假設考試只考查了考生的某一種能力，而忽略其他能力對考試結果的影響。根據考生作答矩陣，采用因子分析法進行單維性檢驗，當抽取的第一個公共因子解釋的變異為第二個公共因子的3倍及以上時，即可認為考試是單維的(趙守盈等, 2013)。本次考試因子分析的結果如表2所示，第一個因子解釋的方差占總方差的84.73%，第二個因子解釋的方差僅占6.45%，可以認為該次考試是單維的。

表2 單維性檢驗解釋總方差表

3 結果

3.1 項目參數估計

試卷共包含83道試題，其中選擇題75道；簡答題5道，每題10分；綜合題3道，每題30分。簡答題分5個步驟，每步2分，分成5個類級：難度1～5。綜合題分10個步驟，每步3分，分成10個類級：難度1～10。基于項目反應理論，可以估計出項目參數和考生能力水平參數。一般而言，項目難度參數的實際取值范圍為[-3, 3]，項目區分度參數的實際取值范圍為[0, 3](羅照盛, 2012)。針對選擇題和主觀題(簡答題、綜合題)，分別采用雙參數Logistic模型和拓廣分部評分模型對試題進行參數估計。各個知識板塊均選取了部分代表性的結果進行呈現，部分結果如表3和表4所示。

表3 項目參數表 (部分選擇題)

表4 項目參數表 (部分簡答題、綜合題)

就難度而言，難度參數值越高，試題難度越大。本套試卷中絕大多數試題難度都在[-3, 3]的范圍之內，但是難度小于-0.5的試題偏多，特別是第45、67題難度極低，難度值均小于-4。針對簡答題和綜合題，從平均難度來看，各試題難度都不超過0.5，其中僅有第78、80、83題的平均難度大于0；從各級難度來看，除了第80、83題之外，其余試題均是負數多、正數少。可見此套試卷難度中等偏易。

根據項目區分度參數的劃分標準：大于等于1.5為優級試題，[1.0, 1.5)為良級試題，[0.5, 1.0)為中級試題，小于0.5為差級試題(涂冬波等, 2011)，本套試卷的試題可以分為四個等級。優級和良級的試題(區分度大于等于1)共有43道，占總題量的51.81%。但是，試卷中仍有10道差級試題，中級試題占比也偏高，試題質量仍需改進。特別是，本套試卷的簡答題和綜合題整體區分度表現一般，僅第80題區分度超過1。此外，第37、45、67題區分度異常，其中第45、67題可能是試題難度過低造成的。

差級試題在試卷中的內容分布如表5所示。結合具體試題內容分析，可以發現：這類試題要么識記屬性明顯，要么難度參數較為極端。比如，第1題的識記屬性很明顯；第67題的難度參數(-5.06)過小，該題考查了算法策略，但選項設計可以從實際生活經驗中獲得；第74題的難度參數(5.57)過大，該多選題對假設檢驗進行了深入考查，對考生能力要求很高。

表5 差級試題的內容分布

3.2 考生能力參數估計

本研究對考生能力參數進行了估計，繪制了考生的能力密度曲線圖，如圖1所示。

由圖1可知，考生在該科目上的能力范圍分布較廣，主要分布在[-2, 2]的區間范圍內，其中能力水平在0.5左右的考生人數最多。

圖1 考生能力密度曲線

3.3 信息函數

信息函數是IRT中反映考試分數對考生能力估計精度的指標，函數值越大，估計越精確。項目及測驗信息函數值隨考生能力水平的不同而變化，同時，項目在某一能力水平上所能提供的信息量還受項目自身特性的影響。測驗信息函數等于所含全部項目的信息函數之和(羅照盛等, 2008;熊建華等, 2002)。

試題的期望信息量是理想情況下各試題應達到的信息量值，其計算方式為試題滿分占試卷滿分的比例乘以5，所以本套試卷中單選題、多選題、簡答題、綜合題的期望信息量分別為：0.03、0.05、0.17、0.50。試題應提供的信息量比例等于試題的滿分值占試卷滿分的百分比，實際提供的最大信息量比例等于試題信息量的最大值占所有試題信息量最大值的百分比(沈勵, 萬雅奇, 2022)。經計算可知，整套試卷中絕大多數試題的最大信息量都高于期望信息量，沒有達到期望信息量僅有9道題(第 1、33、41、44、45、64、66、67、74 題)，而這9道題，除第66題外均為表5中的差級試題。從四個知識板塊的信息量表現來看，各板塊的平均最大信息量均遠大于平均期望信息量，心理學導論、發展與教育心理學實際提供的最大信息量比例低于應提供的信息量比例，實驗心理學、心理統計與測量實際提供的最大信息量比例則高于應提供的信息量比例，詳見表6。

表6 各知識板塊信息量

圖2為測驗信息函數曲線。按照ETS的標準，測驗信息量10對應CTT中的信度約為0.9，屬于高測驗信度(Young et al., 2013)。由圖2可見，對絕大多數考生而言，測驗信息量都是滿足要求的(＞10)。但是，測驗信息函數曲線整體偏左，信息量的最大值所對應的考生能力參數約為-0.8，在此點上測量誤差最小，區分度最好。可見，試卷對能力水平中等稍偏下的考生群體區分表現更好。

圖2 測驗信息函數曲線

4 討論

IRT將考生能力水平和試題參數放在同一坐標系下進行考量，并用信息量來刻畫試題和試卷對考生能力水平的解釋程度，能夠為命題質量評價提供更加全面客觀的信息。

從試題層面來看，IRT對試題的評價比CTT更靈敏、精細。CTT對試題的評價指標主要是難度和區分度，而IRT除了難度和區分度之外，還有項目信息函數。結合教育部教育考試院2022年基于CTT的研究，本研究繪制了全部83道試題在CTT和IRT下試題的難度及區分度對照圖，見圖3。

由圖3可見，CTT和IRT下的難度折線基本呈高低鏡像關系，即二者對試題的難易評價相似，同時兩條區分度折線走勢基本一致，但是IRT下的參數變化更加靈敏，更加容易被觀測到。此外，在CTT和IRT下，第37、45、67題的區分度表現均異常，這一點在IRT中已經從試題難度屬性、具體考核內容等方面做出了分析。下面以第67題為例，再從IRT下試題參數與考生能力的匹配性及項目信息函數方面對該試題進行更精細的分析。通過考查第67題的項目特征曲線和信息函數曲線，可以發現其項目特征函數和信息函數都是單調遞減的。這說明隨著考生能力水平的提高，該試題的正確作答概率反而在降低，且試題提供的信息量隨著考生能力水平的提高也在降低，這完全不符合選拔人才的試題要求，需要命題人員重新審視。

圖3 CTT和IRT下試題的難度和區分度對照圖

以往采用CTT或Rasch模型的相關研究均缺乏對知識板塊層面的分析，本研究基于IRT做出了嘗試。從知識板塊層面來看，心理學導論、發展與教育心理學的試題在區分度表現上差于實驗心理學、心理統計與測量，這與心理學導論在整個心理學專業基礎中的基底性地位密切相關，另外發展與教育心理學也歷來重視基礎和核心概念的考查。教育心理學的第29題將新冠疫情與親社會行為相結合對“相關類屬學習”進行了考查，從作答情況來看，大部分考生不能準確把握“相關類屬學習”和“派生類屬學習”的概念內涵，但高分考生作答相對更好。這類試題雖然難度和區分度可能表現都一般，但是卻靈活地考查了相關的基礎知識，屬于有必要保留的試題。實驗心理學板塊試題的區分度整體表現較好，但仍有部分差級試題，鑒于其自身的實踐屬性，許多知識點不易以紙筆形式的單題進行考查，所以質量不高。在選擇題中以“先用材料呈現心理學實驗，再后接數道小題”的“串題”形式進行考查是命題改革的一個可行思路。心理統計與測量的試題質量整體相對較好，但是也存在部分試題難度過大、區分度過低的情況。從各知識板塊的信息量表現來看，平均最大信息量均遠大于期望信息量，但是心理學導論、發展與教育心理學實際提供的信息量比例低于應提供的信息量比例，而實驗心理學、心理統計與測量實際提供的信息量比例則高于應提供的信息量比例。為提高人才選拔的有效性，建議適當增大實驗心理學、心理統計與測量在試卷中的分數和題量占比，但是如何提高這部分考核內容對高能力水平考生的鑒別力也是亟待命題專家解決的問題。以心理統計與測量為例，為強化對學碩學術潛能的考查，建議適當降低計算在統計測量類試題中的比重，可以更加側重對方法的考查和對考生數據解讀能力的考查。另外將心理實驗與統計測量相結合的考查方式也是一條可行的思路。

從整套試卷來看，試卷結構與考試大綱的要求完全一致，對絕大多數考生而言，測驗信息量都滿足要求，測驗信度高，這與CTT研究下的α信度為0.90相一致。但測驗信息函數曲線整體偏左，試卷對能力水平中等稍偏下的考生群體區分表現更好。這一方面與大部分試題的考查知識點過于基礎有關，另一方面也是由考試大綱中所規定的考試性質和考查目標決定的，大綱中規定“測試考生掌握心理學學科大學本科階段專業基礎知識、基本理論、基本方法的水平和分析問題、解決問題的能力，評價的標準是高等學校心理學學科優秀本科畢業生所能達到的及格或及格以上水平”。因此，建議在后續修訂大綱時，應在考查內容中適當加入心理學研究的新進展，在堅持“三基”考查的基礎上，加入對學碩必備專業素養和科研創新能力的考查，適當調整各知識板塊考試分數和題量占比，以更好地實現研究生招生考試初試“篩”的目的，從而為復試“選”出德才兼備的高層次人才減輕壓力。

此外，本研究所采用的研究方法可推廣至研究生招生考試的全部24個統考科目，形成質量評價報告，供研究生招生考試服務部門參考使用。評價的結果不僅能為試題的命制提供理論和經驗支持，也能為今后研究生招生考試機考題庫的建立奠定基礎。

5 結論

本研究采用雙參數Logistic模型和拓廣分部評分模型對《心理學專業基礎(312)》科目開展了命題質量評價，通過考生的作答反應，對項目參數及考生能力水平進行了估計，同時，通過信息函數對考試的精確度進行了分析。本研究的主要結論如下：(1)本套試卷整體質量良好，試卷結構與考試大綱中的要求完全一致；各種題型對知識點的考查均偏重基礎；考生能力范圍分布較廣；測驗信息量基本滿足要求，測驗精確度高。(2)從難度來看，試卷難度中等偏易；從區分度來看，仍有部分差級試題，中級試題占比也偏高，試題質量仍需改進。(3)從信息函數來看，絕大多數試題的最大信息量都高于期望信息量；各知識板塊的平均最大信息量均遠大于平均期望信息量，其中實驗心理學、心理統計與測量實際提供的最大信息量比例高于應提供的信息量比例；測驗信息函數曲線整體偏左，對于優秀考生的篩選精度不夠，客觀上加大了復試的選拔壓力。