陳宛玉,戴海琦
(1.龍巖學院教育科學學院,福建 龍巖 364000;2.江西師范大學,江西 南昌 330022)
我國教師資格證制度自2001年全面實施以來,對我國教師的專業化發展起到了巨大的推動作用[1]。《教師資格條例》要求對申請教師資格者的教育教學能力進行考察和評估,并要求各省 (市)制定有關測試實施細則。目前國內在教師資格認定中都把教育教學能力測試作為重要的把關環節,測試主要采用說課 (或試講)、面試、答辯等方式對申請人的教育教學能力進行評估。教育教學能力測試已經在各個省份地市廣泛使用,然而對教育教學能力測試的專門研究卻不多,僅有的研究主要是對測試標準、實施及其必要性的分析[2-4],尚未有對其心理測量學性質的研究。
概化理論是運用實驗設計的思想,采用方差分析的統計分析技術,分析測評中的各種變異來源,并進行分解、估計與控制的一種測量方法[5-6]。概化理論能夠一次性分析多個測驗誤差變異的來源,既可以適用于常模參照測驗,又可以適用于標準參照測驗。而且更多的從整個測驗的宏觀結構及其與外部測驗條件的基礎上做深入的計量分析,對于評分設計具有較好的指導作用。概化理論經歷了一個從一元到多元的發展過程。多元概化理論較之于一元概化理論在處理多個測量任務或目標測量問題時具有獨到的優勢。
教育教學能力測試要求評分員對考生多個測評任務上的表現進行評定,其數據特點符合多元概化理論分析的要求。本研究運用多元概化理論對教育教學能力測試數據進行分析,旨在對教育教學能力測試質量、分數合成的合理性、評分誤差的來源和測試改進方案等問題進行探討,進而為后續完善測試設計和評分培訓提供參考依據。
數據來源于2011年某市組織的高中英語教師資格申請教育教學能力測試的實測數據,三位評委對47名考生進行打分。該市制定的教育教學能力測試標準要求評分員從說課、面試、答辯三個任務評估申請人的教育教學能力。測試要求對評分員從三個任務的各個方面都給予考生打分,然后合并計算測試總分,考生最終的成績為三個評委所評總分的平均分,考生達到60分以上視為通過測試。本研究所獲取的初始數據包括各個評分員對每一考生說課、面試、答辯等任務的成績。測試的總成績為100分,其中說課總分為50分,面試為20分,答辯為30分。
教育教學能力測試包括說課、面試、答辯等三個測評任務,評分員對每個考生在每個任務都進行了評分。因此測試數據特點選擇多元概化理論中的三因子的單面隨機交叉設計 (p˙×r˙)。其中p代表考生教育教學能力,為測試目標;r代表評分員側面,有3個水平。
本研究采用多元概化理論分析的專門軟件mGEVENA2.1[7]編寫程序進行教育教學能力測試數據進行處理。
1.G研究方差分量和協方差分量的估計
應用mGEVENA程序可以得到測量目標p和測量側面r的主效應和交互效應在說課、面試、答辯三個任務上的方差分量和協方差分量估計值。具體結果見表1。

表1 G研究的方差分量和協方差分量
由表1可知,三個任務方差分量的估計值中,說課的方差分量最大 (11.00956),面試的方差分量最小 (1.53114)。這說明在本次測試中說課所起的作用最大,答辯所起的作用其次,面試所起的作用最小。從數據結果上來看,這也與測試設計者對說課、面試和答辯所賦總分值較為一致。
從被試效應的協方差和相關系數來看,三個測試任務之間協方差較大,存在較高的相關,其中面試與答辯的相關相對較低 (0.68294),說課和答辯的相關最高 (0.78552)。說明考生在三個評分任務的得分存在較高的一致性。另一方面也反映了在本次測試中將三個任務當做三個測試目標進行分析是符合MGT的要求的。
從評分員主效應的協方差來看,三個測試任務之間的協方差較大,表明評分員在各個測試任務上的打分一致性較高,即在說課任務上打分較高的評分員在面試和答辯任務上的打分也比較高,評分員在各分測驗上評分間的相關較高。
2.G研究各測試任務中不同側面所占的比例
表2列出了G研究各測試任務下不同側面所占的比例。

表2 G研究各測試任務中不同側面所占的比例
從考生效應來看,三個測試任務的考生效應相對都占到了較大的比例,但在面試和答辯任務上略微較低。三個測試任務中評分員效應所占比例不小,特別是在答辯任務上,說明不同評分員在評分中所持的寬嚴程度不一,特別是在答辯任務上所持的寬嚴程度差別更大。三個測試任務中考生與評分員的交互效應中占總變異的比例在 8.43% -30.05%之間,其中面試任務中交互作用所占的比例較高,反映了在面試任務中評分員更容易出現評分寬嚴程度不一致的現象,評分員在面試任務中出現看人打分的情況更為嚴重。
1.D研究中方差分量與協方差分量的估計。D研究設計與G研究設計p×r一致,測量模式同為隨機模式,評分員人數為3。根據G研究的結果可得到樣本均值意義上的各種變異來源的方差與協方差分量如表3所示。

表3 D研究p×R設計的方差與協方差分量

(注:矩陣中主對角線上的元素為各效應在相應因子上的方差分量估計,主對角線以下元素為各效應在不同因子間協方差分量的估計、主對角線之上為因子間相關系數的估計。)
2.各測試任務全域分數估計的精度問題。根據G研究的結果,可估計測試任務的全域分數、相對誤差與絕對誤差估計的方差分量,進而計算各個測試任務的概化系數和可靠性系數,以及相對信噪比,結果見表4。

表4 D研究p×R設計各個測試任務的概化系數等指標
從結果來看,說課任務的全域分方差分量最大,答辯任務的全域分方差分量其次,這與設計者賦予的總分基本一致。從概化系數來看,三個任務的信度0.83049-0.95289之間,其中說課任務和答辯任務的信度基本理想,面試任務的信度較低。另一方面三個測試任務的可靠性系數在0.73955-0.79798之間,普遍不高,這也反映了由于評分員之間存在寬嚴程度的差異,當測試結果用作絕對決策時存在較大誤差。
3.全域總分的測量精度研究。本研究按照測試的規定,將說課、答辯、面試進行合成,計算全域總分的方差,以及相應誤差的方差分量估計,進而估計全域總分的概化系數和可靠性系數,具體結果見表5。
由表5可以看出,全域總分的概化系數為0.96524,說明本次測試總體具有較高的信度。全域總分的可靠性系數0.77232,說明測試的在用于絕對決策時還存在一定的誤差,有待提高。

表5 D研究合成全域分數的方差分量等指標的估計
4.各測試任務對總方差的貢獻比例的研究。根據以上結果可以得到各個測試任務對總方差的貢獻比例見表6。表6中我們也列出了三個測試所賦總分及比例,以比較測試設計與實際方差貢獻是否一致。

表6 各測試任務對總方差貢獻的比例與測試任務賦分比例的比較
從表6來看,三個測試任務指標對全域總分的貢獻比例與設計者的賦分基本一致。在說課任務上所賦總分比例為 50%,實際的方差貢獻率為49.91%,基本相接近。面試任務所賦總分比例為20%,實際方差貢獻率為16.12%,略微低于賦分比例。答辯任務所賦總分比例為30%,實際方差貢獻率為33.97%,略微高于賦分比例。這表明此次教育教學能力測試在決定各個測試任務權重方面還是做得比較好的。
5.改變評分員人數對測量精度的影響研究。為了研究改善教育教學能力測試的方法,本研究通過改變各個測評任務的評分員人數來觀察測量精度的變化特點,具體結果見表7。

表7 改變評分員人數對測量精度的影響
由表7中可知當評分員人數為1時,全域總分的概化系數還較高,但可靠性系數降低較大。當評分員人數為3時,全域總分的概化系數有較大提高,但可靠性還略微較小,不滿足測評要求。從增幅來看,當評分員人數超過6人時,增加不再明顯。考慮到教育教學能力測試是一種標準參照測驗,下圖我們單獨分析了可靠性系數隨評分員人數不同而變化情況。

圖1 評分員人數變化對全域總分可靠性系數的影響
從圖1中我們也可以較為直觀的看出減少評分員數量和任務數量,將導致測試的可靠性急劇下降,當試任務為5個時,可靠性系數的變化不再明顯,并且基本達到預期測試精度。
由圖2所示。

圖2 評分員人數變化對各測試任務可靠性系數的影響
隨著評分員人數的增加,三個評分任務的可靠性系數均有所增加。相對比較而言,不管如何增加評分員人數,說課任務的可靠性系數一直高于面試和答辯任務的可靠性系數。
1.從G研究各主效應結果來看,三個測評任務中,評分員效應都有相應的較大的比例,這也反映了評分員在評分中所持的寬嚴標準可能不同。教育教學能力測試屬于標準參照測試,評分員的取樣對考生評分有一定影響,在以后的測試中有必要加強評分員隊伍的培訓,以此來保證測評的公平性。從評分員與考生的交互作用來看,說課和答辯任務上,交互作用所占的比例較小,說明在這兩個任務上評分員具有較好的內部一致性。面試任務的考生與評分員的交互作用所占的比例較大,反映了評分員在面試評分中內部一致性較差,反映了評分員沒有較好把握面試評分要求。
2.多元概化理論的分析除了報告出各測評側面的主效應和交互效應的方差分量之外,同時報告了協方差分量。協方差分量為我們提供了額外的信息。考生效應的協方差有助于我們解釋測評任務結構的合理性,從被試效應的協方差和相關系數來看,考生在三個評分任務的得分存在較高的一致性,將三個測評任務合并作為教育教學能力的總體評估具有一定的合理性。評分員主效應的協方差較大表明評分員在各個測試任務上的打分一致性較高,評分員內部一致性較高。
3.本次測試各個測試任務的合成的全域分數概化系數在0.96524之間,說明本次測試適合做相對決策。全域分數可靠性系數在0.77232,微低。考慮到教育教學能力測試是一種較高利害的標準參照測試,因此還應該改進測試和增加評分員數量來提高可靠性系數。三個測評任務中,面試的概化系數最低,評分員在主觀性較高的面試任務上較容易出現評分的不一致性,因此后續為提高測評精度,應在面試任務評分上加強對評分員的有針對性指導。從本研究的三個測試任務對測試總分的方差貢獻量來看,說課任務的貢獻量最大,答辯其次,面試最小。從貢獻比例和測試設計者對每個任務賦分情況的比較來看兩者基本一致,說明本次測試的設計具有一定的合理性。
從結果來看,使用三個評分員進行評分,做決策時存在著一定的風險。提高評分員人數可以提高決策的有效性和公平性。研究結果表明隨著評分員人數的增加,概化系數和可靠性指數不斷提高,但增加的幅度遞減。考慮到實際測評的需要和測試的人力成本,將評分員的數量提到5名是比較合適的。此時的概化系數為0.97885,可靠性系數為0.84971,已經可以滿足測評的精度要求。當然選拔和培訓評分員同樣重要。
1.本次教育教學能力測試將說課、答辯和面試成績進行合成是比較合理的。總體而言測試結果較適合于相對決策,不適宜做絕對決策。
2.三個測評任務中說課和答辯的評分質量較好,面試評分的質量較差,后續尤其需要加強主觀性較強的面試評分方面的培訓。
3.影響教育教學能力測試質量的主要原因是評分者寬嚴程度不一。后續應加強評分員的培訓,使其統一對各測評任務的認識。
4.通過增加評分員人數可以提高教育教學能力測試的精度,但增幅遞減,當評分員人數為5時,結果已經能夠較好滿足測試要求。
[1]魏新春.改進與完善我國教師資格證制度的思考[J].臨沂大學學報,2011,33(5):23-25.
[2]徐玉斌.初中教師資格教育教學基本能力測試方案初探[J].河南教育學院學報,2003,22(1):30-32.
[3]鄒循東,黃坤,陸家海.為什么對非師范類專業畢業的教師資格申請人進行教育教學能力培訓考試 [J].廣西教育,2004(11):11.
[4]陳振豪,沈惠君.教育教學能力測試的建議[J].上海教育,2005(06B):32-33.
[5]BRENNAN.Generalizability theory[M].New York: Springer Verlag,2001:3-5.
[6]楊志明,張雷.測評的概化理論及其應用[M].教育科學出版社,2004:18-20.
[7]BRENNAN.Manual for mGENOVA Version 2.1[M].I-owa:Testing Programs Occasional Papers,2001:45-67.