[基金項目]2020年度教育部人文社會科學研究規劃基金項目“大學教師流動與其學術績效的實證研究”(20YJA880056);2023年度北京市虛擬教研室建設試點項目“‘數學+’人才培養模式及其評價虛擬教研室”(2023024)
[作者簡介](1995—),男,江蘇無錫人,統計學院2024級統計學(理學)專業碩士研究生,研究方向為統計學;(1966—),女,山東萊蕪人,博士,教授,主要從事高等教育管理和應用統計研究。
[中圖分類號]G40-051 [文獻標識碼]A [文章編號]1674-9324(2025)31-0129-04 [收稿日期]2025-01-16
與高校內部同行評教、督導專家評教的“熟人效應”等問題相比,學生評教以其相對客觀性、大樣本和易于操作而受到一線管理者歡迎。但是,近年來學生評教出現的評分過高、區分度過低、評教指標過多、學生評教不積極等問題,成為高校教學質量保障體系科學化的瓶頸問題。筆者跟蹤研究的Z、B兩所高校學生評教改革,所針對的也是此類問題。那么這些改革是否真正有效解決了這些問題?本文正是對學生評教改革的這種有效性進行實證研究。
目前國內對高校學生評教的實證研究,有的通過問卷調查研究學生評教指標的構建,有的從國際比較的視角探討國外學生評教對我國大學的啟示[2-3],還有的通過分析學生評教數據來揭示學生評教指標存在的問題及指標優化方法[4-7]。不過,至今未見對學生評教有效性相關改革進行實證研究的文獻。
一、研究設計和兩校改革及評教數據簡介
(一)分析指標和分析工具
1.學生評分高低的指標:學生評教均值。用一校一學期里所有教師教所有課程的所有學生評教的綜合評分的算術平均值,來表示該校這一學期的學生評教高低。
2.學生評分區分度的指標:學生評教的標準差。用一校一學期里所有教師教所有課程的所有學生評教的綜合評分的標準差,來表示該校這一學期的學生評教的區分度。
另外,本文采用SPSS29.0統計分析軟件來分析學生評教數據。
(二)數據來源及數據結構情況
本文所用數據是2008年至2017年10年間,Z、B兩校所有教師教所有理論課的學生評教數據。Z校學生評教采用百分制,B校則是95分制。數據的有效個案數分布情況如表1所示。
(三)兩校的學生評教改革及所用學生評教表
Z校對評教表的修改于2012-2013-2學期進行,B校于2009—2010-2學期和2014—2015-1學期分別有一次評教表改革(分別稱為B校的第一次改革和第二次改革)。三次改革的起因類似,都是學生評教分數太高、區分度太低、學生評教不積極等問題,改革目標也是解決此類問題。
表1Z、B兩校數據的有效個案數分布表

注:既包含對評教表上每個分項(“指標”)的評分,也包含評教系統由分項評分“加權平均”后的“綜合評分”,本文分析的是“綜合評分”。
1.Z校的評教表。Z校改革前采用的是含12個指標的量化評教體系,如指標1和指標12分別是“A.嚴謹治學,從嚴執教,教書育人,課堂秩序好;C.上課遵紀守時,教學認真”“A.我對本課程教學質量的整體評價非常滿意;C.我對本課程教學質量的整體評價一般”。
改革后,仍是12個評教指標,但把參照點(觀測點)刪除了,而且變為諸如“體現學生為本,尊重學生個性,因材施教”“注重創新精神、綜合素質與能力培養”此類更抽象的指標。
2.B校的情況。B校第一次改革前的學生評教表有17個指標(分項),比Z校的具體一些,如:(1)按時上課、下課,不擅自停課、調課;2嚴格課堂管理,檢查學生到課情況。
第一次改革后減為15項,取消了對教材的評價,增加了對學生“評教學”還是評“人”的提示(15項中的前兩項)。第二次改革后采用了全新的學生評教表,如表2所示,可以稱B校的這個學生評教表為“單指標量化評教 + 質性列舉”模式的學生評教表。其兩個質性評教項(開放問題),分別相當于教學診斷和教學推優兩項。
表2B校第二次改革后所用學生評教表

二、數據分析及發現
(-) 對乙校改革前后學生評教分數差異性的統計分析
對Z校評教改革前后各學期的學生評教綜合評分進行統計描述,結果見表3所示。
從表3上可直接看出,改革后每學期的學生評教的均值均高于改革前每學期學生評教的均值,標準差普遍低于改革前。進行均值差異t檢驗的結果表明:這種差異性均達到了統計學上的顯著程度。所以,Z校的改革不僅未能使學生評分降下來、區分度增加,反而使評分更高了、區分度更小了,不僅不成功,甚至可以說“改反了”。
(二)對B校兩次改革前后學生評教分數差異性的統計分析
對B校兩次改革前后的學生評教綜合評分進行統計描述,結果見表4所示。
對B校第一次改革前后各學期學生評教綜合評分的均值和標準差分別進行均值差異性t檢驗,檢驗結果表明差異都不顯著。這表明該校第一次改革是無效的。對B校第二次改革前后各學期學生評教綜合評分的均值和標準差分別進行均值差異t檢驗,檢驗結果表明改革前后差異顯著。這表明該校第二次改革對解決學生評分過高、區分度過低的問題是有效的。
表3Z校評教改革前后各學期學生評教綜合評分的統計描述結果

表4B校評教改革后各學期學生評教綜合評分的統計描述結果

三、研究結論及進一步討論
(一)研究結論
評教改革的有效性:B校單指標量化評教 + 質性列舉模式的學生評教改革是有效的,而該校和Z校沿用多指標量化評教體系的改革在解決學生評分高和區分度低等方面的問題上是無效的。
(二)進一步討論
為什么單指標量化評教有效?首先,單指標評教減輕了學生的評教負擔,而且B校的新評教表增加了兩個質性項(開放問題),能引導學生評價教師教學而非其他。
Z校那樣的多指標體系太抽象,其實是把學生評教與專家評教在知識、心理和行為上都同等的看待。這不僅理論上站不住腳,而且筆者的其他實證研究也給出了否定的結論。如果評教者是相應學科領域的教學專家,又與被評價者“雙盲”,用教學因素構成的多指標量化評教表實施評教也許沒有問題,但是評價者是教師一直教的學生,其水平一般達不到專家對評價指標體系的把握程度,尤其是當被要求評教后才能查成績時,學生更難以拿出時間和精力去仔細琢磨評價指標的真正含義,而是直接按自己心目中的一個指標快速給出分數。B校采用的那份多指標量化評教表,指標是學生相對來說能把握得了的,所以學生評教的評分高和區分度低的問題比Z校稍“輕”一些;但評教分項(指標)多,且被要求評教后才能查看成績,所以學生是按照自己心目中的唯一一個指標打分。
學生心目中那個唯一指標是什么?就是對參與教師這門課教學的滿意程度。所以,歸根結底,學生評教是一種滿意度問卷調查,評教表絕對不是“量表”。國外大學評教的經驗是在評教問卷中設計涉及學生自己參與教學過程情況的問題,從而引導學生反思教師的教學,以保證學生打出的分數是針對教學而非摻雜了過多的其他因素,提供教師教學的真實信息。當然,學生給自己參與教學的這個打分,顯然是不能作為指標值加權到學生評教的綜合評分里的,即學生對自己參與教學過程的“評價”是不能作為評教指標的。
參考文獻
[1]謝博文.(普通)高校課堂教學質量學生評教指標體系優化研究[D].長沙:長沙理工大學,2012.
[2]趙凌梅,王越昕.中日比較視閾下高校學生評教體系內涵與應用[J].教育教學論壇,2023(43):165-168.
[3]蔣洪池,熊英.日本國立大學學生評教的指標、特征與啟示:以教育學科為例[J].高等教育研究,2021,42(5):103-109.
[4」宋光輝.大學生評教的實證分析[J].教學研究,2002(4):317-320.
[5]吳培群,陳小紅.大學生評教的統計分析及其改革途徑探討:基于北京一所高校學生評教分數的統計分析[J].高教探索,2010(3):78-81,91.
[6]吳培群.高校專家評教與學生評教差異的實證分析[J]國家教育行政學院學報,2010(10):71-77.
[7]周繼良.高校學生評教行為偏差影響因素的實證研究:基于制度分析的視角[J].高等教育研究,2018,39(2):59-72.
Validity Study on the Reform of niversitiesStudents’Teaching Evaluation: Taking Based on the Statistical Analysisof1O Years TeachingEvaluation Data From Two Universities MENG Yuan1,WU Pei-qun (1.School of Statistics,University of international Business and Economics,Beijing lo029,China; 2.Department of Cryptography,Beijing Electronic Science and Technology Institute, Beijing 100070, China)
Abstract: This paper collects 1O years of student evaluation data of two selected universities before and after the reform of student evaluation; and uses the mean value and deviation of the comprehensive score of student evaluation as the two indicators of the effectiveness ofthe reform of student evaluation.The statistical description, longitudinal comparisonand T-testof theaverage diffrence the two universities wereconducted.The statistical analysis found that the reform of multiple indicators of quantitative evaluation Was inefctive in solving the problemsofhigh student scores and low discrimination,while thereform“single indicatorquantitative evaluation qualitative listing”modeofstudentevaluation was effective in solving the problems of high studentscores and low discrimination.
Key words: student teaching evaluation form; teaching evaluation data; statistical analysis; evaluation indicators; subjective evaluation