中小學教師資格考試《語文學科知識與教學能力》試卷質量分析
——基于經典測量理論和多元概化理論的視角

2020-09-08 09:15:50楊宏博羅成禹

考試研究 2020年4期

楊宏博羅成禹楊卓

一、問題提出

2018 年1 月，中共中央國務院發布了《關于全面深化新時代教師隊伍建設改革的意見》。《意見》是對習近平總書記關于打造 “四有教師” 隊伍要求的具體落實，是新時代教師隊伍建設的行動指南。《意見》強調，要完善教師資格考試政策，嚴格教師準入，提高入職標準，重視思想政治素質和業務能力。中小學教師資格考試秉承這一宗旨，致力于考查申請教師資格人員是否具備從事教師職業所必需的教育教學基本素質和能力，以遴選樂教、適教、善教的優秀人才進入教師隊伍[1]。

截至2019 年下半年，中小學教師資格考試已經拓展到全國28 個省（市、自治區），累計參加筆試考生2227 萬人次，面試考生866 萬人次。中小教師資格考試《語文學科知識與教學能力》（初級中學、高級中學）是中學類別報考人數最多的科目之一，僅2019 年下半年就有32.3 萬人報考。該科目重點考查申請者四個方面的基本能力[2]，分別是運用語文學科知識的能力、語文教學設計能力、語文教學實施能力和語文教學評價能力。從測量的角度分析，對《語文學科知識與教學能力》科目的試卷質量進行研究，具有典型參考價值，有助于完善中小學教師資格考試的科學性以及考查內容和考查策略的合理性。

二、研究工具

1. 經典測量理論

經典測量理論（Classical Test Theory，簡稱CTT），又稱為真分數理論，因其易于被人理解和接受，并且具有較強的適應性，在20 世紀前葉迅速發展起來。毫無疑問，經典測量理論是體系最成熟的測量理論。它在各行各業測量中的成功應用使其在新的測量理論崛起的今天，仍具有不可替代的地位和作用[3]。利用經典測量理論，本文統計了2019 年下半年中小學教師資格考試《語文知識與教學能力（初級中學）》科目的148986 份有效筆試試卷（去除零分卷和違紀考卷），全卷平均分為91.5 分，難度為0.61，試卷難度較為合理。同時，對每一道試題利用經典測量理論進行統計分析，詳情如表1 所示。

通過表1 可以發現，中檔題占整份試卷的比例超過80%，區分度優良的題目占比為76%。試卷難度中等，結構合理，區分度較好，具有較高的命題質量。

表1 2019 年下半年《語文知識與教學能力（初級中學）》筆試試卷質量分析

2. 概化理論

當然，經典測量理論也具有許多不可避免的缺陷和不足，例如不能對測量結果進行推廣、模型的若干假設與實際不符等[3]。相對于考試首次試點以來，一直采用的經典測量理論的質量監測方法，概化理論（Generalizability Theory，GT）重點討論考生能力水平與考試題目之間的實質性關系，能夠達到區分考生、評估應考者真實水平的目的，并能較好地控制測評誤差。

概化理論的基本原理是運用實驗設計的思想，分析影響測驗分數差異的各項因素（如考生個體水平的差異、題目難度等）；并運用方差分析技術，分別估計各因素對分數總變異的貢獻（以方差分量為指標）。根據不同研究目的的需要，分別考察研究目標在分數總變異中所占的比重。測量信度的概念在概化理論中用概化系數或可靠性系數來代替[4]。

概化理論用方差分析的方法估計各種方差成分的相對大小，并可直接比較其大小；不僅能估計出主效應，也能估計出交互作用效應，并能對各估計值的大小進行直接比較。在概化理論中，理論估出各方差成分相對大小的過程，稱為概化理論的G 研究。在G研究的基礎上，可通過實驗性研究，進一步考察不同測驗設計條件下概化系數的變化情況，如試題容量變化對于概化系數的影響等，從而尋找最佳的控制誤差的方法，作出最佳的設計決策，為改進測驗的內容和方式方法提供有價值的信息。這一階段稱為概化理論的D 研究。

多元概化理論（Multivariate Generalizability Theory，MGT）在概化理論的基礎上，深入研究測量目標具有多個全域分數等方面的問題（如總測驗可以分解為多個不同維度的分測驗），主要可應用于測試多門學科或多種能力的綜合測驗。近些年來，高考、研究生考試、高等教育自學考試等大規模測驗為加強測驗信度檢驗，開始廣泛應用這一理論進行研究設計[5-7]。

多年來，雖然山區群眾種植核桃的積極性高，但由于重栽輕管、管理粗放，缺乏科學的管理技術。加之山區社會綜合發展水平不高，經濟基礎薄弱、農村外出務工人員增多，農村勞動力減少，農民文化技術素質低、資金投入嚴重不足等因素阻礙了核桃產業發展。

《語文學科知識與教學能力》是考查考生多種基本素養和能力的綜合性測試，根據其考試目標，可以將其分解為多個分測驗，因此對其測驗信度進行研究適宜采用多元概化理論的原理和方法。通過多元概化模型分析中小學教師資格考試《語文教學知識與能力》試卷，探討各模塊及全卷的測量精度（信度），考察內容模塊樣本容量變化對考試信度（概化系數）的影響，分析各模塊對總測驗的貢獻率，以期為優化試卷、提高命題質量提供參考。

三、概化理論研究樣本

2019 年下半年中小學教師資格考試《語文知識與教學能力（初級中學）》科目的全國考生人數為176615（教育部考試中心，2019），從中隨機抽取3500份有效試卷（去除零分卷和違紀考卷）。依據考試大綱，將學科知識、教學設計、教學實施、教學評價四個內容模塊作為四個測量分項，分別以V1、V2、V3、V4表示。試卷總題量為 21 題，滿分 150 分。 V1 包括 8題，29 分；V2 包括 2 題，45 分；V3 包括 6 題，52 分；V4 包括 5 道題目，24 分（見表 2）。

本研究將考試的內容設計為四內容因子的單面交叉設計 p×i 多元概化模型，其中 p 代表考生，i 代表試題。運用多元概化模型，完成G 研究和D 研究的數據統計與分析；采用Brennan 開發的mGENOVA軟件完成多元概化理論相關數據的計算[8，9]。

表2 《語文知識與教學能力（初級中學）》試卷測量內容

四、概化理論研究結果

1. 四因子模型的G 研究

根據理論模型，編寫涉及四個分測驗的mGENOVA 程序，分別對整個試卷及四個模塊進行G 研究，以估計整個測驗和各個模塊的測量信度。同時，利用有關信息評價各個模塊對總測驗的貢獻程度。G研究采用p×i 四因子隨機單面交叉設計，可以得到各效應在四個因子上的方差和協方差變量估計矩陣，如表 3 所示，其中 V1 表示 “學科知識” 模塊，V2表示 “教學設計” 模塊，V3 表示 “教學實施” 模塊，V4表示 “教學評價” 模塊。

由表3 可知，V1 相對于其他因子的協方差分量較小，這說明考生在 “學科知識” 模塊中的得分高低順序與他們在其他模塊中的順序不太一致，即這個模塊中的題目在區分考生能力方面功能較弱。在效應p 上，V2 因子的方差分量最大，而V4 因子的方差分量最低，表明在本次考試中，“教學設計” 模塊對考生的區分能力較強，而 “教學評價” 模塊對考生的區分能力相對較弱。

2. 四因子模型的D 研究

D 研究采用p×i 四因子隨機單面交叉設計，基于G 研究估計的方差與協方差矩陣，進一步估計考生在四個因子上的全域分數及相應誤差項的方差分量，進而估計概化系數與可靠性指數，如表4 所示。

由表4 可知，四因子中全域分數方差分量從高到低依次為 “教學設計 V2”、 “教學實施 V3”、“學科知識 V1”、 “教學評價 V4”。考慮到各分量誤差方差的因素，測量信度最高的因子是V2 （概化系數為0.599）。結果表明本次考試中，“教學設計” 模塊的測量信度相對較高。

表3 各效應在四因子的方差與協方差分量估計

表4 四因子全域分數各項指標的估計

（2）全域合成分數的測量精度

本研究按照各測量分項試題量所占比例來確定權系數 b，V1 至 V4 四個因子的權系數分別是：0.381，0.095，0.286，0.238。對四因子全域分數進行合成，可以得到全域總分的方差為0.255，全域合成分數相對誤差方差為0.127，全域合成分數絕對誤差方差為0.589，進而可計算出全域合成分數的概化系數為0.668，可靠性系數為0.302。

可見，此次初中語文試卷的總體測量信度較高。全域合成分數的概化系數較高，而四因子未進行全域分數合成時，各因子全域分數的概化系數及可靠性系數均較低，在全域分數合成總分后測量精度顯著提高，因此對四個分測驗的分數進行合成是合理的。

（3）各因子對總方差的貢獻比例

為了考察四個分測驗對試卷總分方差的實際影響程度，可使用mGENOVA 程序同時估計出各模塊對考試總分方差的實際貢獻率（比例），如表5 所示。

表5 各模塊方差貢獻比例與試卷賦分比例的比較

由表5 可知，因子V1、V2 對全域總分方差的貢獻比例較試卷賦分比例略高，而因子V3、V4 對全域總分方差貢獻的比例較試卷賦分比例略低。總體而言，四個因子的總體方差貢獻比例與設計的賦分比例較接近，說明各分測驗基本達到考試的預期測量目的。

（4）各因子樣本容量對測量信度的影響

為了改善測驗方法，進一步改進測量信度，本研究考察了各因子樣本容量變化對各分測驗自身及試卷總分測量信度（采用總分概化系數作為信度指標）的影響情況，如表6 所示。

由表6 可知，當各因子樣本容量為2 倍模式時，全域總分的概化系數可增至0.801；當各因子樣本容量為3 倍模式時，全域總分的概化系數可增至0.858。而當各因子的樣本容量都減少為1 道題目時，全域總分的概化系數下降至0.425，這樣的信度對于教師資格考試這樣大規模的國家教育考試是不可接受的。但是，提高樣本容量使題目數量增加為2 倍、3倍時，測量信度將大幅度提高。

當分別固定四因子中的三個因子的樣本容量，只變化其中一個因子的樣本容量時，表6 中列出的20 種情況，增加樣本容量均能提高測量信度。

由于V1、V3、V4 因子的全域分數誤差方差相對較小，因此，提升這幾部分的題量對整卷的概化系數的影響并不顯著。 V2 因子的全域分數誤差方差相對較大，因此，提升這一部分的題量對整卷的概化系數的影響較顯著。尤其是當 V2 因子 “教學設計” 題量增至3 題時，總分概化系數增長最為明顯。

表6 各因子樣本容量與總分概化系數的變化關系

圖1 各因子樣本容量與總分概化系數的變化關系

五、討論與結論

通過應用經典測量理論和多元概化理論對2019年下半年《語文學科知識與教學能力（初級中學）》試卷進行分析，可以得到以下結論：

（1）本次考試所使用的試卷質量較好。試卷總體測量信度屬中上水平，分測驗對于全域總分方差的貢獻比例與試卷命制時的賦分意圖基本一致。

（2）現行試卷所考查的各個能力模塊比重和題量設置比較合理。尤其是賦分比例最高的 “教學設計” 部分，區分度較強，信度較高，難度適宜（0.6），能夠滿足對中學語文教師進行選拔的目的和要求。

（3）可嘗試通過提高 V2 “教學設計” 分測驗的題量來獲得更高的測量信度。若綜合考量作答時間等因素的限制，可考慮減少信度較低的客觀題試題數量，或 V4 “教學評價” 分測驗的試題數量，同時增加V2 “教學設計” 分測驗的試題數量，從而提高全卷的測量信度。

表7 基于CTT“學科知識V1”客觀題部分統計分析

結合經典測量理論可以發現，“V1 學科知識” 的選擇題第1 題、第2 題、第 15 題難度均在0.8 以上，區分度在0.2 以下（見表7），試題過于簡單、區分度較低；而第7 題難度僅為0.16，屬于難題，區分度也較低。可以考慮刪除這幾道試題，適當提高 “學科知識” 客觀題整體難度，增加區分度，從而達到提高測量信度的目的。

六、結語

引入多元概化理論，對于評價中小學教師資格考試質量提供了更多的角度，同時提供了有效提高試卷信度的方案。本文將經典測量理論與多元概化理論相結合，提供了現有大綱要求的模塊結構下的精細化調整方案，得到了更為準確的試題單題質量和整卷質量改進方案。今后，可以將多種測量理論結合在一起，形成一套完整、嚴謹、合理的試卷質量評價模式，并進一步推廣至教師資格考試其他筆試科目的分析和研究，為未來考試大綱的修訂提供思路，為政策決策部門提供參考，不斷提升考試的科學化水平，維護國家教育考試的公信力。

中小學教師資格考試《語文學科知識與教學能力》試卷質量分析——基于經典測量理論和多元概化理論的視角