評“教”還是評“人”？

2020-09-14 12:13:15吳立軍田啟波

高教探索 2020年8期

吳立軍　田啟波

摘要：學生評教是各個學校一項普遍而且重要的教學管理制度，但它的有效性卻長期受到質疑。本文基于不同類型學校的調研數據，從教學與非教學兩大因素視角對學生評教的有效性問題展開了研究，研究過程及結論如下：①利用參數檢驗的方法，對評教高分與低分教師的對比分析發現，高分教師的教學活動指標顯著優于低分教師，表明評教結果具有較好的區分功能，是有效的，體現了對“教”的評價。②在控制教學因素后對非教學因素的分析發現，人緣好壞對評教的影響大于教學因素;“嚴師出低分”從教師群體看不具有統計學意義的顯著性，而對于教師個人而言卻顯著存在;評教中存在傾向“差評”的學生群體和易被“差評”的教師群體，評“人”的問題較為突出。

關鍵詞：教學評價;有效性;參數檢驗;教學因素;非教學因素

教學評價在各大高校是一項普遍又頗為重要的教學管理制度，是教師考核和激勵的主要依據之一。但就是這樣一項被廣泛應用而又事關教師利益的核心制度，多年來卻備受爭議和質疑。2018年6月，《中國科學報》連續大篇幅刊文討論教學質量管理方式改革，對變味的評教導致教師服務員化，評教中越認真越低分等現象提出了擔憂[1] 。無獨有偶，同一時間教育部在新時代全國高校本科教育工作會議上濃墨重彩的提出了以教學為中心的“四個回歸”，并對教師評價問題的特別強調，當前評教的“指揮棒”不利于激發教師教書育人的積極性，要求建立對課程教學規范和效果多維的評價體系[2] 。學生評教歷來被視為評教體系中的關鍵維度之一，但學生評教可信嗎？非教學性因素如何影響評教？現行評教體系下的學生評教是對教師的評價還是教學的評價？這是教育回歸教學本質需要回答并解決的一個基礎性問題。

一、文獻綜述

（一）國內教師評價的發展及演進

教學評價（Teaching Evaluation）是指根據一定評教標準、運用可行的評價手段，對教與學活動過程及效果作出價值判斷[3] 。我國教師評價始于20世紀60年代，但直到80年代以后才有比較正式的教師評價體系[4]，對中國教學評價改革40年歷史回顧與總結，大致將其劃分為三個階段：從開放之初到80年代末以“選拔為先”的傳統教學評價階段;20世紀80年代末至90年代末“發展導向”的現代教學評價階段;20世紀90年代末至今“以素養為重”的當代教學評價階段[5] 。在教學評價演進發展歷程中對如何構建一套科學合理的評價體系，始終是其不變的主旨和內核。隨著學習者為中心的教學觀念得到普遍認同，傳統的課堂教學評估指標體系也逐漸由以教師為中心向以學生為中心轉變。代表性觀點如李定仁、劉旭東（2001）認為現代教學評價應立足于知識經濟，指向人文精神，著眼于終身教育，構建以人格和諧發展為價值取向的評教體系[6] ;羅斯、埃索爾和卡納特梅蒙等（Roth G，Assor A，Kanatmaymon）認為要促進高校教師的專業發展，評教體系必須關注學生學習特征和自我管理[7] ;郭麗君（2016）指出要改變評教異化的問題，必須從根本上回歸教學評價的基本功能，通過促進教師和學生的發展，創造教學的可持續發展價值[8] 。目前，國內高校課堂教學評價指標體系設計主要有三種：第一種是從系統論的角度，評價指標覆蓋課堂教學的整個過程;第二種是以有效教學理論為出發點，指標設計針對關鍵教學要素和行為特征;第三種則是試圖實現兩者的融合[9] 。盡管教學評價理論在不斷深化，評價體系在不斷完善，但以現代教學觀來審視，仍停留在“以教論教”的評教階段，“以學論教”的研究尚處于理論層面。

（二）學生評價有效性的批評與質疑

卡辛（Cashin W E）對 1300 多篇關于教學評價的論文研究后提出，教學評價的關鍵就在于設立評價指標體系，首先指標必須是科學合理的，否則教學評價結果就缺乏可信度[10] ;奧韋格布茲、威哲和柯林斯（Onwuegbuzie A J，Witcher A E，Onwuegbuzie A J）認為學生評教具有天然的邏輯缺陷，在實施過程中難免形成相互的“利益輸送”，學生評價無效或者存在較大偏差，評價的意義值得質疑[11] ; 阿瓦隆思比旺（Avalosbevan B.）指出評價制度與問責制度目的之間沖突，使評教對促進教師和教學發展的效果并不明顯[12] 。國內研究者如姜鳳華（2003）認為我國目前教師評價指標和標準中存在諸多問題，如指標設置隨意性較大，評價指標不具體，可操作性差都將導致評教有效性不高[13] 。謝安邦，侯定凱等（2007）認為現行教學評價指標設計，將教師當成了教學評價的客體，教學評價從對課堂教學效果的評價，變成了對教師的評價[14] 。孫翠香，范國睿（2013）基于美國中西部地區216個樣本學區教師評價政策的比較研究指出當前中國教師評價政策到底在多大程度上支持和促進教師的教學和學生的學習仍無法評判[15] 。楊衛東，張征（2016）認為對教師教學評價的不當操作和對評價結果的濫用，使廣大師生對高校教師教學評價制度產生了質疑與抵觸，評教的有效程度不高[16] 。

縱觀國內外對評教問題的研究，均已充分認識到了評教中存在的各種問題，但對評教有效性的質疑大多僅停留于制度和指標設計的合理性討論，制度和指標合理性缺陷會在多大程度上影響評教有效性，對評教結果是否可信仍然無法做出評判;而且，對評教中存在的若干常見的具體問題，比如“嚴師出低分”現象，“教得好不如人緣好”等，已有研究多流于一般結論性的描述?；趯σ陨蠁栴}的改進，本文將利用較大范圍的微觀調研數據對學生評教的有效性問題展開研究。

二、研究設計

（一）數據來源

研究數據來源于對廣東省從“雙一流”到高職高專四種類型共20余所高校的實地調研。為盡可能更多涵蓋評教影響因素，調研前對問卷設計做了如下三項工作：組織學生與教師訪談，以頭腦風暴會議形式收集整理學生和教師視角對評教的認知及可能影響因素;分析各學校網絡評教系統中的評分指標因素;收集整理近五年有關評教影響因素的研究文獻。由此梳理出的評教影響因素達到50余種之多，基于出現的頻次分別對非教學因素和教學因素各取12種，由此形成調研問卷共涉及七個方面28個問題。數據采集工作用時兩個學期，調研方式采用紙質問卷和網絡問卷相結合，發放紙質問卷800份，回收756份，收到網絡問卷1986份，回收紙質和網絡問卷共計2742份，在問卷審核中基于一致性的要求剔除了所有評教分數為10分制和等級制的問卷，剔除所有關鍵變量缺失以及全部答案為同一選項的無效問卷，實際有效問卷為1453份。對問卷信度的檢驗，Cronbachs Alpha系數值接近0.7，符合信度的基本要求。

模型中所使用的數據為截面數據，不存在時間趨勢，為降低自相關性對估計結果的干擾，模型采用懷特穩健估計，模型一、模型二估計結果如表3：

表3顯示，模型一中所有變量均在1%水平下顯著，且系數為正，表明 “人緣”與評教結果顯著正相關，說明評價中人緣好壞的確會影響評教。模型二中虛擬變量以“教學效果差，人緣差”為基礎類型，d1、d2、d3三個虛擬變量均顯著為正，說明與基礎類型相比，這三種類型教師的評教結果均顯著更高;進一步對變量系數大小比較發現d3>d1>d2，也就是說在教學因素相同的前提下，全部四種類型教師評教結果的排序依次是：“教學效果好，人緣好” >“教學效果差，人緣好” >“教學效果好，人緣差” >“教學效果差，人緣差”。由模型二可得到的基本結論是：教學效果和人緣俱佳的教師評教分數是四種類型中最高的;教學效果與人緣均差的教師也毫不意外是評教最低的。但教學效果好，人緣差的教師卻低于教學效果差，人緣好的教師，說明評教中人緣因素甚至高于教學因素，在一定情形下教得好的確不如人緣好。

2.問題二：嚴師出低分嗎

在對教師的訪談中，教師普遍感嘆對學生不敢管，不敢嚴，否則會被報復性差評，認為嚴師出低分是一種常見現象。但同樣的問題學生端的訪談卻另有答案，受訪者認為有些教師嚴于律人，卻寬于律己，教學態度馬虎，學習獲得感低，卻常使用考勤和考試相“威脅”。嚴師出低分現象真的存在嗎？如果存在，“低分”是報復性差評還是另有他因？以教師“考勤情況”（ X44）作為代表教師嚴格程度的指標，并以“考勤情況”與“教學效果”組合的虛擬變量分析教師嚴格程度如何影響評教，虛擬變量的定義和模型構建如下：

模型三：yi=α+α1x1i+α2x2i+α3x3i+α4kqi+ei ; （3）

模型四：yi=α+α2x2i+α3x3i+β1d1i+β2d2i+β3d3i+ei;

d1=10，，考勤嚴格，教學效果好;其他;;d2=10，，考勤嚴格，教學效果差;其他;;d3=10，，考勤不嚴，教學效果好;其他;（4）

模型三和模型四的擬合結果如表4：

表4結果表明，模型三中所有變量均在1%的水平下顯著，kq系數為負，說明考勤的嚴格程度與評教結果負相關，在教學因素相同的情形下，嚴格的教師越其評教分數會更低。模型四中以“考勤不嚴，教學效果差”為基礎類型，d1、d3均在1%的水平顯著，且系數為正， d1、d3分別代表“考勤嚴格且教學效果好”，“考勤不嚴格且教學效果好”的兩種類型，因此可看出：不管考勤是否嚴格，只要教學效果好，評教分數都將高于基礎類型“考勤不嚴但教學效果差”的教師。而代表“考勤嚴格且教學效果差” （該類型可理解為訪談中嚴于律人，寬于律己教師類型）的d2類型其系數雖然為負但顯著性不高，表明d2與基礎類型無顯著差異，也就是說只要教學效果不好，無論教師是否嚴格都將比教學效果好的兩種情形低。

3.問題三：差評誰給的，差評給了誰

對教師和學生固定樣本的追蹤調查，有兩個現象值得注意：其一、對教師的調查，低分和高分的群體非常穩定，評教排序靠前或靠后的教師人員變化很小;其二、學生在對學期所有課程的評教打分中差別常常較小，有些學生傾向給所有課程高分，而有些學生則普遍低分。評教中是否有可能存在所謂的“專業差評師”（原指網絡購物平臺中比較挑剔，習慣性差評的買家）和“專業差評戶”？接下來分別引入教師和學生身份特征信息的虛擬變量來加以討論，模型構建如下：

模型五：yi=α+α1X4i+α2X5i+α3X6i+βjkdjki+ei（5）

模型六：yi=α+α1X4i+α2X5i+α3X6i+γjiDjki+ei（6）

模型五為學生類別模型，模型六為教師類別模型，由于兩個模型中引入的虛擬變量及各虛擬變量對應的類型較多，所有虛擬變量用djki、Djki表示，其中j表示所引入的第j個變量，k表示該變量第k種類型（鑒于篇幅，各虛擬變量定義未作列示），i為具體樣本，各變量的含義、類型及擬合結果見表5：

對擬合結果的分析如下：首先，從模型五擬合結果來看，在X11“學校類別”變量中以雙一流學校為基礎類型，相對于基礎類型學校，代表高職高專、三本、二本院校的d11、d12、d13系數均為負數，且其絕對值逐漸變小，說明學校層次越低的學生越有可能給出差評;X12“年級類別”變量中，以大四學生為基礎類型，僅代表大一類型的d21顯著為負，d22、d23不顯著，可以認為四個年級類別中大一學生更傾向差評，其他年級在評教上沒有顯著差異;X13、X14代表“專業類別”與“成績類別”（學生在班級中成績排名），二者各類別均不顯著，表明在不同專業，不同成績排名的學生中評教沒有顯著差異;在以男生為基礎類型的X15“學生性別”變量分析中，女生在相同情況下會比男生給出更高的評教分數。因此，基于上述分析，將各種差評的學生特征信息進行歸集，傾向給出低分的學生類型見圖1-a。

其次，從模型六的結果來看，在X21“授課難度”變量中以難度極高為基礎類型，相對于基礎類型，課程難度較低（D11）和課程難度適中（D12）系數為正，從系數值大小可進一步判斷課程越簡單，越容易在評教中獲得高分;在X22“班級規?！弊兞恐幸?0人以下授課班級為基礎類型，除D22以外，其他三種類型均在10%水平下顯著為負，在超過150人的班級規模（D21）中授課會導致評教成績降低最為嚴重;在以男性教師為基礎類型的X31“教師性別”變量分析中，女性教師在評教中顯得更為不利;在將教師年齡分為老、中、青三類的X32“教師年齡”類別中，青年教師（D41）會更受歡迎，基礎類型的老年教師評分最低;在X33“教師職稱”類別分析中，以助教為基礎類型，代表副教授的D52變量不顯著，而D53（教授）與和D51（講師）系數則在5%水平下顯著為正，表明副教授或者助教可能是容易獲得差評的職稱類型。因此，基于教師特征信息的分析，易被差評的教師特征描述見圖1-b。

四、結論及建議

（一）主要結論

1.評教整體有效，能起到區分功能，體現了對“教”的評價

對高分教師和低分教師教學活動指標的參數檢驗結果顯示，體現教師能力、教學態度和教學效果的12個特征指標中有 11個指標在評教高分教師與低分教師之間存在顯著差異，高分教師的教學特征指標顯著的優于低分教師，評教中教學能力強、教學態度好，教學效果優的教師普遍會得到更高的評教成績。因此，評教整體而言是有效的，評教結果對教師教學具有較好區分功能，該結論雖并令人意外，它的意義在于從實證的角度對評教質疑給出了統計學意義的回應。

2.非教學因素對評教的影響不容忽視，評教中對“人”的評價真實存在

在控制教學因素后引入教師身份信息、課程特征信息和學生身份信息對若干現實問題討論，得到如下結論：第一，教師的人緣顯著影響評教，人緣好壞與評教正相關;引入教學效果與人緣組合的虛擬變量分析發現，人緣因素對評教的影響甚至高于教學因素，教得好不如人緣好真實存在，評教中“拼人緣”的問題可能較為突出。第二，在相同教學水平下，教師嚴格程度與評教結果顯著負相關。在有效性分析的參數檢驗中，“考勤嚴格”的均值差值項也為負，二者雖都為負，但意義卻剛好相反。有效性檢驗中為負的含義是評教低分教師的嚴格程度低于高分教師，即μxi-μyi<0，也就是說整體上高分教師更嚴格;而模型三中嚴格程度變量系數為負的含義是，考勤越嚴格評教分越低，獲得高分的教師應該是考勤不嚴格的教師。這一看似矛盾結論的實證意義是：“嚴師出低分”從整個教師群體看并不存在，相反評教高分的教師更嚴格;而對于教師個人而言卻顯著存在，模型三中控制了教學因素（即在相同教學水平下），如果教師嚴格將會降低評教分數。進一步以教學效果和嚴格程度組合的虛擬變量分析發現，教師是否獲得高分主要取決于教學效果，現實中所謂“嚴師出低分”現象可能存在被夸大的嫌疑。第三，對傾向差評的學生和易被差評的教師特征歸類發現，學校類型為高職高專，年級為大一，性別為男性的學生更傾向于給出差評;所授課程難度大，授課班級規模在150人以上，職稱為副教授或助教，年齡為老年，性別為女性的教師更易被差評，其他如不同專業類別、成績類別的學生在評教上沒有顯著差異。評教中“人”的因素對其有效性所造成的偏誤不容忽視。

（二）對策建議

1.用好評教結果，提升評教的促教功能

評教整體有效，這一結論首先肯定了學生評教這種教學管理手段存在的必要性。但評價最重要的目的不是證明，而是改進，在當前高校的評價機制中，評教結果最主要的作用卻僅是作為考核依據，評教的促教功能較弱。學生是教師課堂教學的唯一全程參與者，與督導及同行評教相比是最有價值的評價維度，既然這種評價被證明是行之有效的，就應該用好評教促進教學。比如，在評教制度中設置培訓門檻評教分，對低于評教門檻分的教師組織有針對性的教學提升培訓;對長期評教低分的教師，學校人事部門可綜合性的對其展開教學能力評估，師資發展部門應充分認識到教學與科研或者其他工作一樣，同樣存在稟賦上的差異，通過評教對不適合教學崗位的教師進行甄別并妥善轉崗。

2.加強評價制度革新，切實回歸對“教”的評價

提高評教有效性，加強多元化的評教體系革新，制度探索可從兩方面展開：第一，評教標準多元化。目前大多高校評教采用一套系統、一張表，無法兼顧學科差異、課程差異，教學環境差異。比如，在理工科專業中強調的實驗教學指標在文科專業中就難以實現，難度較大的課程教學效果指標就難以滿足，“大一統”的評教方式不僅缺乏效度也有失公平。因此，評教制度的改革應在充分研究評教影響因素的基礎上提出核心分類標準，對不同學科類型，不同教學環境實現差異化評教，把評教評細。第二，評教維度科學化。當前評教多以學生評教、同行評教和專家評教為基礎構成教師教學水平認定的三個維度，而這三個維度的差異只是反應在總評權重大小之上，沒有真正體現“維度”的意義。已有研究對學生評教的能力存在質疑，對專家通過一堂課給出一學期評教也多有詬病。因此，科學的維度意義可考慮讓學生評教學態度、教學效果，專家評教學能力，教學設計，同行評教學組織等等，以此形成多維的綜合評價，把評教評實。多元化的評教體系，多維度的評價主體，使評教真正回歸對“教”的評價。

3.緊跟教課堂教學模式變化，推動發展性評教的實施

當前評教仍然是以教師為中心的傳統評教模式，在“互聯網+教育”的新技術、新理念的大趨勢下，慕課、金課等新的教學模式出現，線上學習，線下討論的混合式教學方式真正開始實現課堂由教師中心向學習者中心轉變。課堂不再是傳統課堂，而評教仍然屬于傳統評教，教學實踐領域的革新迫切要求評教方式跟隨作出變革。在《國家中長期教育改革和發展規劃綱要（2010—2020）》中也高屋建瓴的提出要“改革教育質量評價，改進教育教學評價，探索促進學生發展的多種評價方式，”學生中心的發展性評教應該成為評教制度改革的方向。

綜上所述，現行教學評價體制下的學生評教整體有效，評教結果與教學活動特征指標具有顯著的一致性，評教體現了對“教”的評價，學校教育管理部門應利用好評教結果，努力實現評教的促教功能。同時，評教中非教學因素的影響客觀存在，評“人”的成分在某些方面較為突出，降低了評教的有效性，應建立多元多維的評教體系，將評教工作評細評實，結合課堂教學形式新變化，助推發展性評教的盡早實施。

參考文獻：

[1]甘曉，程唯珈.變味兒的評教——科教界反思教學質量管理方式[N].中國科學報，2018-06-05（1）.

[2]陳寶生.在新時代全國高等學校本科教育工作會議上的講話[J].中國高等教育，2018（15）：4-10.

[3]荀振芳.大學教學評價的價值反思[D].中國海洋大學出版社，2005.

[4]蔡永紅，黃天元.教師評價研究的緣起，問題及發展趨勢[J].北京師范大學學報（社會科學版），2003 （1）： 130-136.

[5] 朱麗.從“選拔為先”到“素養為重”：中國教學評價改革40年[J].全球教育展望，2018，47（8）.

[6] 李定仁，劉旭東.教學評價的世紀反思與前瞻[J].教育研究，2001（2）：44-49.

[7]Roth G，Assor A，Kanatmaymon Y，et al.Autonomous Motivation for Teaching：How Self-determined Teaching May Lead to Self-determined Learning.[J].Journal of Educational Psychology，2007，99（4）：761-774.

[8]郭麗君.走向為教學的評價：地方高校教學評價制度探析[J].高等教育研究，2016（6）：68-73.

[9]邱文教，趙光，雷威.基于層次分析法的高校探究式課堂教學評價指標體系構建[J].高等工程教育研究，2016（6）：138-143.

[10]Cashin W E.Student Ratings of Teaching：A Summary of the Research[J].Instructor，1988（69）：34.

[11]Onwuegbuzie A J，Witcher A E，Collins K M T，et al.Students' Perceptions of Characteristics of Effective College Teachers： A Validity Study of a Teaching Evaluation Form Using a Mixed-Methods Analysis[J].American Educational Research Journal，2007.

[12]Avalosbevan B.Teacher Evaluation in Chile：Highlights and Complexities in 13 of Experience[J].Teachers & Teaching Theory & Practice，2018，24（2）：1-15.

[13]姜鳳華.現代教育評價：理論· 技術· 實踐[M].廣州：廣東人民出版社，2003.

[14]謝安邦，侯定凱，汪婧莉，等.走向多元，綜合的教師評價[J].大學.研究與評價，2007（2）：33-38.

[15]孫翠香，范國睿.教師評價政策：美國的經驗和啟示——以美國中西部地區教師評價政策為例[J].全球教育展望，2013，42（3）：57-65.

[16]楊衛東，張征.探索回歸本真的高校教師教學評價[J].教育研究，2016（12）：130-132.

（責任編輯賴佳）

收稿日期：2020-03-03

作者簡介：吳立軍，廣東金融學院副教授，經濟學博士;田啟波，深圳大學教授，博士生導師。（廣州/510520）

*本文系廣東省教學改革和教學質量項目“評‘人還是評‘教——基于廣東省高校調查數據的評教有效性研究”（粵高教函[2018]180）階段性成果;并受國家社會科學基金重大項目“習近平生態文明思想研究”（批準號18ZDA004），2019年廣東普通高校重點科研平臺與科研項目“廣東服務貿易可持續發展研究基地”（2019WZJD004）項目資助。

評“教”還是評“人”？

評“教”還是評“人”？