趙玉




摘 ?要:本研究利用多面 Rasch模型對118名大學生評價10名任課教師的課堂教學能力的數據進行分析。研究結果表明不同學生對評教的寬嚴程度不一致的現象,多面RASCH模型可消除評分者效應,從而提高學生評教的信度。
關鍵詞:多面Rasch模型;學生評教;方法
中圖分類號:G640 ? ? ? ? 文獻標志碼:A ? ? ? ? 文章編號:2096-000X(2019)20-0056-03
Abstract: This study used many-faceted Rasch model to analyze the data of 118 college students evaluating the classroom teaching ability of 10 teachers. The empirical results show that there is inconsistency in the degree of leniency and strictness of grading among different students. The many-faceted RASCH model can eliminate the rater effect and improve the reliability of students'evaluation of teaching.
Keywords: many-faceted Rasch model; student evaluation of teaching; method
一、概述
(一)學生評教結果的有效性
目前,學生評教已經成為高校評價教師教學質量的一項重要參考指標。盡管學術界關于學生評教有效性、影響因素等開展過大量研究,但在一些關鍵問題上仍爭議不斷。
國外學者對學生評教的有效性進行了大量實證研究,但結論不一。Overall和Marsh(1980)的大規模追蹤研究經常被引用作為學生評教合理性的證據,其研究顯示,1400名學生在完成課程一年后與其剛完成課程時的評價結果相關系數高達0.83。國內外從理論到實證均有支持上述觀點的研究,但結論與之不同的研究也一直存在。例如,韓婷等人(2007)發現學生評價與教學督導組的評價之間的Kappa系數不到0.4,這是非常弱的一致性;Dennis E. Clayson(2009)的元分析研究顯示,學生評教與學習結果的一致性與學習結果的測量方式有關,測量方式越客觀,則二者的一致性越低。
事實上,影響學生評教結果的因素可能有多方面,如課程難度、學生對該課程的興趣、對學業的預望及選擇該課程的原因等(Marsh & Roche,1997)。課程類別、班級人數等因素也會顯著影響對教師的評分(王永林,2005),但不同教師所任授課程本身不具可比性。因此學生評教應當綜合多方面因素,以保證評價的有效性和公平性。
(二)學生評教數據的分析方法
目前,多數研究與實踐中使用加權平均法或名次法分析評教數據。加權平均法與名次法分別使用原始分數和名次來評價教學效果,優點是操作簡便,意義直觀,但不同班級、不同課程的評價結果不具有可比性,教師教學水平之間差距也難以客觀量化地分析。
為更好地使用學生評教數據分析教學質量,研究者們對評價方法進行了多方面的改進。例如,評價方案可改為評教只在“同質課程”內進行,以解決可比性問題(艾文國,2012),但這種做法有回避問題之嫌。有研究者使用標準分數代替原始分數(崔國生,2009),或以一定權重匯總學生評教、教研室主任評價等多種信息,并根據全校平均水平對標準分進行線性轉換,將前一年度評教結果和本年度評教結果以1:2加權,以校正后的分數作為最終評教結果(馬天梅,2007),這些改進措施能對不同課程、不同班級的評教結果進行比較。
綜上,學者們為實現學生評教結果的可比性提出了多種方法,在一定程度上提高了評價的有效性。但前述各種方法的一個明顯局限是,評價結果的準確性均依賴于學生群體的代表性。即,被試樣本要有足夠的代表性,評教結果才是可靠的。例如,若評價尺度嚴格的學生較多,教師獲得的評價就低。以往的解決方法是預處理數據時去除極端數據(馬天梅,2007),但確定極端數據所占比例有主觀成分在內,而且即便去除了極端數據也難以保證樣本數據構成與總體完全一致。
(三)多側面Rasch模型
學生評教過程中存在各種誤差,因而評教結果的有效性需綜合考慮各種影響因素,傳統教育測量學方法難以勝任,而多側面Rasch模型(Multi-Faceted Rasch Model)可以滿足上述要求。
多側面Rasch模型由Linacre于1989年在Rasch模型的基礎上拓廣而來(Lunz & Linacre,2010),是用于對測量結果具有潛在影響的多變量進行細致的分析的一類應用測量模型。相對于其他方法(如概化理論),多側面Rasch模型具有多方面的優勢(Randall & Engelhard, 2009),它繼承了Rasch模型的優良特性,各參數具有充分統計量,估計結果具有等距量尺。多側面Rasch模型為檢查測量情景中各種側面的影響(如評分者嚴厲程度、指標難度)提供了方法,可提高測量結果的客觀性和公平性。
目前此模型在各類考試主觀題評分領域應用非常廣泛(He et.al.,2013)。然而,由于多側面Rasch模型在模型設定、參數估計、數學計算等方面的復雜性,在學生評教領域未見有采用此模型的探索與實踐。
綜上所述,本研究將采用多面Rasch模型為代表的現代教育測量學理論, 主要從學生側面、被評教師側面和評教指標側面三個方面進行分析,其數學模型為:
Pnijk是被評教師n在項目i上被學生j評定為k等的概率。
Bn是教師n的課堂教學能力參數。
Di是評教指標i的難度參數。
Cj是學生j的評教寬嚴程度。
Fk是分部評分模型中教師得分從k-1等到k等級的難度,每個評教指標均為h級評分。
二、研究設計
(一)數據來源
2018年3-6月,118名在校大學生對10名任課教師課堂教學能力進行評分,其中58名學生對1-6號教師打分,另外60名學生對5-10號教師打分。采用10個指標,每個指標分4級評分,學生從教學的態度、內容、方法和效果四個方面對教師課堂教學能力進行評分,滿分100分。
(二)數據分析
本次研究使用FACETS軟件對數據進行分析。此情境下影響被試分數有三個側面,其一是教師的教學水平特質,其二是學生評分的寬嚴程度,其三是評教指標難度。Facets 軟件能將教師、學生和評教指標作為三個單獨的面進行分析,體現教師教學能力差異、學生評教差異和評教指標難度差異。
三、結果
(一)教師側面
表1所示,教師教學的能力值范圍是0.40Logits 至 0.70Logits 之間。能力值最高的是 2號教師(0.70Logists),最低的是9號教師(0.40Logists)。Infit和Oufit數值大小可以反映評委使用評分量表評定被試成績的一致性,其值越接近于1,測評精度越高。卡方檢驗結果顯示教師間的教學能力差異達到顯著水平,說明教師間的能力存在顯著差異。
(二)學生側面,即評教寬嚴程度分析
多面RASCH模型可以直接給出評分者的寬嚴程度,表2中第一列為評分者的寬嚴程度;第二列為寬嚴程度參數的估計標準誤,后兩列為相應評分者的擬合指標。可以看出68號學生評分(-1.67LOGITS)最為寬松,116號學生評分(2.82LOGITS)最為嚴格,兩者相差4.49個LOGITS。同時,FACETS還給出多個評分者寬嚴程度差異的指標,如分離指標為6.35,即評分者的寬嚴程度至少可以分為6個水平;信度指標為0.98,此指標越大,表示評分者寬嚴程度差異越大。對評分者之間的寬嚴程度的卡方檢驗(x2=4479.8,df=117,p=0.00),也顯示他們之間的差異達到了顯著性水平。
(三)項目側面
注:
由表3可以看出, 項目4(評教指標為教學內容方面的,即內容充分,表達清楚,重點突出)和項目9(評教指標為教學效果方面的,即學生理解和掌握課程內容)是難度(均為0.04 LOGITS)最大的,項目6(評教指標為教學方法方面的,即語言精練,生動明確,能夠配合肢體語言,富有感染力)難度(-0.05 LOGITS)最低。同時卡方值也較小,說明項目之間的難度沒有太大區別。
四、結論
研究結果表明不同學生存在評教的寬嚴程度不一致的現象,將多面RASCH模型運用于高校學生評教中,可消除評分者效應,更加客觀地對教師教學能力進行評價,從而提高學生評教的信度。
參考文獻:
[1]艾文國,王桂偉,關玉晶.高校學生評教系統改進研究[J].中國大學教學,2012(12):76-79.
[2]崔國生.學生評教誤差的幾種校正方法[J].沈陽工程學院學報(社會科學版),2009(3):402-403,409.
[3]韓婷,李慧梁,張宏,等.Kappa統計量評價教學督導組與學生評教的一致性[J].醫學教育探索,2007,6(12):1117-1119.
[4]馬天梅.提高學生評教有效性的實證分析[J].中國高等醫學教育,2007(8):65-67.
[5]黎光明,張敏強.基于學生評教的多元概化理論分析[J].教育測量與評價(理論版),2013(7):4-6,17.
[6]王永林.學生評教的特性及其影響因素初探[J].教育科學,2005,21(1):28-30.
[7]肖繼軍.基于PLS-SEM模型的高校學生評教實證分析[J].統計與決策,2009(5):158-161.
[8]He, T. H., Gou, W. J., Chien, Y. C., Chen, I. S. J., & Chang, S. M.(2013). Multi-faceted Rasch Measurement and Bias Patterns in EFL Writing Performance Assessment. Psychological Reports, 112(2),469-485.
[9]Lunz, M. E., & Linacre, J. M. (2010). Reliability of Performance Examinations: Revisited. Journal of Applied Measurement, 11(2),172-181.
[10]Marsh, H. W., & Roche, L. A.(1997). Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. American Psychologist, 52(11),1187-1197.
[11]Randall, J., & Engelhard, G.(2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1),1-18.
[12]Overall, J. U., & Marsh, H. W.(1980). Students' evaluations of instruction: A longitudinal study of their stability. Journal of Educational Psychology, 72,321-325.
[13]Linacre,J. M.,& Wright. B.D. A User's Guide to FACETS: Rasch Model Computer Program,Version 2.4 for PC CompatibleComputers [M].Chicago,IL:MESAPress,1993.