王天劍
(貴州財經大學 外國語學院,貴州 貴陽 550004)
為激勵教師提高教學質量,教務管理部門會以不同方式對教師進行教學水平評價(評教),如領導評價、同行評價、學生評價等。其中,學生評價比較普遍,并且往往受到高度重視。在一些高校,評價結果可能直接關系到學期獎懲、年度考核,甚至職稱評聘。學生評教的工具主要是問卷。為了使評教客觀、公平、公正,問卷必須具有較高的信度和效度。評價信度離不開現代測量理論。
概化理論是一種關于教育、心理、行為測量信度的理論[1]。它是在經典測量與方差分析理論基礎上,逐步發展而來的測量評價與優化技術[2-4]。經典測量理論將測量結果區分為兩部分:真分數與誤差。借助方差分析,概化理論進一步將誤差區分為各種不同來源成分,計算各自所占比重,并估算概化系數和可靠性指數[4-5]。概化系數是衡量相對測量(常模參照測量)信度的指標;可靠性指數是衡量絕對測量(標準參照測量)信度的指標(注:概化理論中的“信度”與經典測量理論中的“信度”類似但計算有別)[6]。前者是指測量結果用于跟據某種特質將對象排序時的穩定性;后者是指測量結果用于衡量對象某種特質絕對水平的可靠性。概化系數和可靠性指數的估算公式如下:

式中(1)式(2)中:ρ2為概化系數,Ф為可靠性指數,σ2(τ)為測量對象的全域分方差(有效變異),σ2(δ)為相對誤差方差(測量對象的觀測值離均差,與其全域分上的離均差之差) ;σ2(Δ)為絕對誤差方差(測量對象的個人觀測分,與其全域分之差。σ2(Δ)包含了σ2(τ)之外的所有變異)[6]。
概化分析可分為G研究(概化研究)和D研究(決策研究)兩部分。前者可在觀測全域上(universe of admissible observations)披露各種方差來源及其比例;后者可以在概化全域上(universe of generalizability),借助于G研究的方差比例估計,通過調整測量條件(樣本、側面關系、權重),展示誤差變化,從而給測量者提供優化測量設計的信息[7]。正因為其在測量中的重要應用價值,概化理論被譽為三大測量理論之一(另外兩種是經典測量理論和項目反映理論)。概化理論可分為一元概化理論和多元概化理論。一元概化理論將研究對象(研究焦點)視為單個側面進行研究,多元概化理論可以研究“復合側面”包含的多個“子側面”及其整合成一個“復合側面”的相關特征。
本文以某高校教學范式改革實驗任課英語教師為樣本,以概化理論為工具,考查該校學生評教問卷的信度。之所以選擇如上樣本,是因為教學范式改革目前正在實驗推廣階段,學校高度重視評教結果。
本研究采用實證、定量研究方法[8]。數據源于一套網上問卷評教結果。該問卷包含四個指標:教學內容、教學技能、教學方法、教學效果。每個指標包含二到三個打分項目。四個指標的滿分分別是:30分、15分、25分、30分。學生在網上對教師進行打分評價。軟件系統會將同一教師承擔的同一課程對應的所有學生評教結果平均后呈現在教務系統中。本研究從某高校參加教學范式改革實驗的英語教師中,隨機抽取25名為樣本,從學校教務系統中導出這些教師的評教數據(共25組)進行分析。每組數據代表著至少有50名學生對教師打分的平均結果。分析采用mGENOVA 軟件進行。
為考查每個指標(評教維度)及其整合后的分數信度,本研究采用多元概化分析。問卷中的每個指標視為一個“因子”,各個因子總分以其對應的項目得分之和表示。研究采用四因子(教學內容、教學技能、教學方法和教學效果)單側面交叉設計為p˙×io,p代表被評教師,i代表量項目(字母p的上標圓點表示每組數據中,各個因子評價的對象相同;字母i的上標圓圈表示,不同因子包含的項目不同)。
依據如上四因子單側面交叉設計,可以獲得被評教師(p)、量表項目(i)以及被評教師與量表項目之間的交互效應(pi)在四個因子上的方差等指標的估計矩陣(表1)。

表1 各效應在四個因子上的方差等指標估計矩陣
根據表1可知,教師效應(p)在各因子上的方差分量從大到小依次是:0.04556(教學效果)、0.02514(教學內容)、0.01765(教學方法)和0.01237(教學技能)。這意味著,對教師教學水平區別作用最大的因子是教學效果,其次是教學內容。教學方法和教學技能區別作用微小。項目(i)的主效應顯示,它在教學技能上的方差最大(10.97453),在教學方法上的方差次之(7.11375),在其他兩個因子上方差相對較小。由于項目是測量的工具,而不是測量的對象,所以項目在教學技能和教學方法兩個因子上的方差較大,說明這兩個因子測量誤差較大。教師和項目的交互作用(pi)在各因子上的方差都不大。觀察教師效應(p)的協方差可知,教學內容和教學效果之間的協方差相對較大(0.03302),其他的協方差都比較微小。這說明教學內容和教學效果的關聯度相對較高,如分別用這兩個因子得分對教師的教學水平進行排序,結果趨向一致。表中的多數相關系數大于1,是因為樣本較小,或者存在隱藏因子,但這并不影響如上協方差的解釋。此外,評教中如上四個因子是整合在一起產生最終結果的,這樣整合是否合理,需依據如下D研究結果決定。
概化理論采用全域(universe)取代并拓展了經典測量的總體(population)概念。表2呈現的是教師效應在四個因子上的全域分方差、誤差方差、概化系數、可靠性指數、信噪比等估計值。

表2 四因子的全域分測量精確度估計
根據表2,教學內容的相對誤差方差(0.00185)和絕對誤差方差(0.00185)較小,其概化系數(0.95127)和可靠性系數(0.93142)較高,相對和絕對信噪比(S/N)也都較高(信噪比 = 全域分方差 / 誤差方差),所以教學內容測量精確度較高,其全域分無論用作對被評教師教學水平排序(相對測量),或者用作對被評教師教學絕對水平的確定(絕對測量),都有較高的信度和可靠度。其他三個因子全域分的相對誤差方差較小,概化系數均超過了0.80,但絕對誤差方差較高,可靠性指數均低于0.80,故能用于教學水平排序,但用于教學絕對水平衡量不夠理想。
按照各因子所占比重(30%、15%、25%、30%),設定權重系數,對四個因子測量結果進行整合,可得全域合成分測量精確度估計值(表3)。
根據表3,全域合成分相對誤差方差較小(0.00095),相對信噪比較高(27.45761)概化系數較高(0.96486)。但是全域合成分絕對誤差方差較大(0.27538),可靠性指數較低(0.08691),絕對信噪比較低(0.09518)。這表明,評教結果如用于對教師教學水平排序,具有較高的信度,各因子整合具有合理性(信度有所提高);評教結果如用于對教師教學絕對水平衡量,信度遠低于可接受水平。

表3 全域合成分的精確度估計
雖然各因子的賦分權重分別為30%、15%、25%和30%。但各因子對全域合成分方差的實際貢獻并不一定如此。表4比較了賦分權重與實際貢獻。

表4 各因子的分值及其對全域合成分方差的貢獻
表4顯示,教學內容對全域合成分方差的貢獻與其問卷賦分權重基本一致,教學技能和教學方法兩個因子貢獻不足,教學效果貢獻超額。
由于實際貢獻與預期貢獻差別較大,嘗試調整各因子權重,并進一步估計全域合成分信度,結果見表5。

表5 權重與全域合成分信度的協變關系
根據表5,隨著教學技能和教學方法比重的下降,以及教學效果比重的上升,可靠性指數逐漸上升;當兩者降到0時,隨著教學內容比重的上升,以及教學效果比重的下降,可靠性指數繼續上升。當教學內容調到60%,教學效果調到40%,概化系數和可靠性指數都達到理想水平。
本研究考查了教學范式改革實驗教學背景下,大學英語教學水平評價結果的信度。根據多元概化分析,教學效果對教學水平的區別作用最強,其次是教學內容。教學技能和教學方法測量誤差較大,區別作用微小。如用于對教學水平排序,四個指標無論是單獨使用,還是整合在一起使用,信度均可接受,盡管整合后信度更高。但是,如用于衡量絕對教學水平,在單獨使用條件下,唯有教學內容信度可以接受;在四個指標整合使用條件下,教學內容應占60%,教學效果應占40%,其他兩個指標歸零,方可保證問卷整體信度可以接受。但是,這樣調整雖然達到統計要求,卻不是實踐中的理想選擇。實踐中,更為可取的做法是保留教學技能和教學方法兩個指標(或者將其合而為一),重新設定有效的題項,以便使問卷在保持完整全面的前提下,保證評教結果的相對與絕對測量信度。
本研究結果與其他同類研究發現具有一定的類似性。黎光明[9]分析了學生在教學態度、教學內容、教學方法和教學效果四個變量上的評教結果,發現教學效果是區別度最強的變量,教學內容和教學效果對教學水平的排序一致度較高(協方差較高),教學方法的區別作用較小,測量誤差較大。當然,本研究與黎光明的研究也存在分歧之處。如黎光明發現教學內容的概化系數和可靠性指數并不高。分歧可能源于兩問卷的考查指標不同,各個指標的測量項目不同,或者研究樣本不同。
對于教師的教學水平而言,本研究中的教學效果和教學內容之所以區別度較高,可能是因為效果和內容是相對客觀、容易感知的變量。教學方法和技能測量誤差較大,區別度較小,可能是因為方法和技能的優劣因人而異。一把鑰匙開一把鎖,不同人適應不同的方法和技能。當然,不排除另外一種可能,那就是教學方法和技能的題項設計不當,導致學生無法進行有效評價。
本研究對評教結果的適當應用具有一定啟示。當問卷僅有可以接受的概化系數時,評教結果可以用于辨別教學水平的相對優劣,但不能確定絕對水平。因此,不能用這樣的評教結果是否高于某個分值,給教師貼上是否達標、合格或者過關之類的標簽。更不宜將這樣的評教分數用于職稱評聘資格審查。如果需要將評教結果用于這些目的,就必須通過調整問卷的內容、結構、施測模式、賦分權重等,使其獲得可接受的可靠性指數。
基于對教學范式改革實驗背景下大學英語教師評教結果的概化分析,本文結論如下:
1)該問卷概化系數理想,但可靠性指數不可以接受;
2)問卷的因子“教學效果”對教學水平區別度最高,“教學內容”次之,而“教學技能”和“教學方法”區別度微小,且測量誤差較大;
3)調整問卷權重,可以使問卷的概化系數和可靠性指數同時達到理想水平。
本文對評教結果的適當應用具有一定啟示。未來研究可以通過改變評價者的數量,調整問卷的內容、結構,根據專業創建有針對性的測量工具等,探索優化評教信度的方案。
[1] Shavelson R J, Webb N M. Generalizability theory: A primer[M]. Sage Publications, 1991:1-1.
[2] Cronbach L J, Rajaratnam N, Gleser G C. Theory of Generalizability: A Liberalization of Reliability Theory[J].British Journal of Mathematical and Statistical Psychology,1963(2):137-163.
[3] Cardinet J, Johnson S, Pini G. Applying generalizability theory using EduG[M]. Routledge, 2011:1-2.
[4] Graham S, Hebert M, Paige Sandbank M, et al. Assessing the writing achievement of young struggling writers: application of generalizability theory[J]. Learning Disability Quarterly,2016(2):72-82.
[5]王天劍, 彭中梅. 概化理論和EduG在教育測量研究中的應用——以試題難易度分析為例[J]. 文山學院學報,2016(6):88-93.
[6] 王天劍. 概化理論在中小學英語測試研究中的應用[J].綏化學院學報,2017(2):119-123.
[7] Brennan, R. L. Generalizability theory [M]. New York:Springer, 2001:3-14.
[8] 黎光明. 概化理論G研究方差分量及其變異量估計影響因素[J]. 心理學探新,2016(5):458-463.
[9] 黎光明, 張敏強. 基于學生評教的多元概化理論分析[J].教育測量與評價:理論版, 2013(7):4-6.