文/唐云 張麗雯 寸麗仙
學生對任課教師教學水平(包括教學態(tài)度、內容、能力、效果等方面)的評價(簡稱“學生評教”)是高校教學管理工作中的一個重要環(huán)節(jié),是高校教學質量評價的重要手段,對促進高校教學改革,提高教學質量具有十分重要的意義。
(一)“學生評教”結果的應用
無論如何強調學生評教的重要性,一所學校是不是真的把握住了這個重要性的實質,關鍵就看學生評教結果有沒有被使用,是如何被使用的——有沒有真正把之看作衡量教師教學質量的重要指標;有沒有將之向教師反饋,作為教師改進提升教學質量的依據(jù);有沒有將之與教師的有關評優(yōu)評獎作恰當?shù)年P聯(lián)。
經(jīng)了解,在該校的學校層面,只有每年一次的紅云園丁獎優(yōu)秀課堂教學獎的評選要求有學生評教的結果,其他方面的評優(yōu)評獎包括教師職稱的晉升都沒有此類要求。那么在各教學院系內部的有關評選中,學生評教結果的應用情況又如何呢?
我們在該校19 個教學院系中隨機抽取了9 個院系,采用當面訪談或網(wǎng)絡訪談的方式,了解了各院系對學生評教結果的應用情況,結果如下:

表1 訪談院系評教結果的應用情況
由上表可知,學校乃至教學院系對“學生評教”結果的應用并不充分,這種狀況似乎體現(xiàn)了對此項工作的重視不夠,但這僅僅是主觀方面的原因嗎?
(二)“學生評教”結果的統(tǒng)計
該校的“學生評教”是由多個學生按統(tǒng)一指標體系對不同教師進行評價打分,對每一位受評教師而言,自己得到的評價結果需要在這些給自己打的分數(shù)的基礎上統(tǒng)計分析得到,而統(tǒng)計質量會影響到評教結果的價值,繼而影響其應用性。這可能是學校對“學生評教”結果整體應用不充分的另一個原因。
在上文提到的對“學生評教”結果應用的兩種情況——全校優(yōu)秀課堂教學獎的評選和個別院系的年終考核中,對“學生評教”結果的要求是參與對某個教師評價的各個學生所打分數(shù)的平均數(shù)。平均數(shù)無疑是應用最廣泛的集中統(tǒng)計量,充分使用了各觀測值(指各個學生所打的單個分數(shù))的信息,綜合體現(xiàn)了各參評學生對受評教師的評價,將其值大小作為評判教學質量的標準似乎也是應有之義。但在這里,直接使用原始觀測值的平均數(shù)作為評判標準卻有著其實很明顯的缺陷。
其一,對各位受評教師而言,他們的評價者(參評學生)在很大可能是完全不一樣的。不同的評價者意味著不同的評價尺度,而不同的評價尺度下相同分數(shù)的“含金量”也很可能是不一樣的。如可能存在這樣的情況:Z 老師在某個學期獲得的學生評教分數(shù)的平均值是93 分,Y 老師在同一學期獲得的評教分數(shù)均值是91 分,以“分高者優(yōu)”的標準判斷,應是Z 老師的教學更受學生認可。但要得出這個結論有一個隱含的前提是每個班對教師打出的每一分的“含金量”是相等的,問題是如果兩位老師授課的對象并不是同一個班級——假設Z 老師的授課班級為A 班,且A 班同一學期內的授課老師共有5 位,除Z 老師外其余幾位老師獲得的評教分數(shù)分別是98、97、95、85,Y 老師的授課班級為B 班,B 班的授課老師也有5位,除Y 老師外其余幾位老師獲得的評教分數(shù)分別是90、89、86、83,在這樣的情況下,剛才的結論還能成立嗎?首先,可以得到兩個關鍵信息:一是A 班授課教師獲得的評教分數(shù)普遍比B 班授課教師所獲分數(shù)要高;二是Y 老師在B 班各位老師所獲分數(shù)中排名高居第一,而原始平均分高其兩分的Z 老師在A 班各位授課老師中所獲分數(shù)中排名僅為第四。對于第一條信息,我們是不是能簡單地解釋為A 班授課老師的教學水平普遍更受學生認可?顯然不能。因為我們無法說明“更受學生認可”的學生是哪些,是A 班的?還是B 班的?似乎都不妥。不妥的本質是將不處于同一參照系下的分數(shù)強行放在一起比較,便好似硬要將驢唇對上馬嘴。所以我們不能用A 班學生對本班授課教師打出來的分數(shù),與B 班學生對B 班的授課教師打出來的分數(shù)直接比較。在此基礎上,第二條信息蘊藏的內涵就很直白了,即不同的班級在整體上的評分尺度可能有較大差異,而不同評分尺度下原始分數(shù)的差異并不一定代表教師受學生認可程度的高低,就像持不同評分尺度的教師對同一份作業(yè)或同一張試卷打出的分數(shù)也可能有所不同一樣(因為不同的評價尺度下每一分的“含金量”是不一樣的)。上述的例子恰是一個“分高者優(yōu)”的反例。在一個有十幾二十個甚至數(shù)十個班級的二級學院的內部比較中,這樣的反例非但是不可避免,很可能是并不鮮見。在范圍更大的全校性比較中,如上文提到的優(yōu)秀課堂教學獎的評選,學生評教的原始分數(shù)可以說是幾乎完全失去了作為評選依據(jù)的價值。
其二,課程類別的影響。課程類別可以從多個層面理解,(1)指課程的學科領域和專業(yè)來源,如數(shù)學范疇下的線性代數(shù)、概率論、解析幾何等,美術范疇下的素描、水彩、國畫、油畫等; (2)指課程在專業(yè)培養(yǎng)方案中的定位和要求,如通識類課程、專業(yè)必/選修課、公共必/選修課等;(3)指課程主要的授課形式與學習要求,如理論課、技能課、實踐課等。一個大學生在整個大學學習中必定需要學習各個類別的課程,而不同類別的課程對不同的學生可能有著不一樣的吸引力。所以無論在哪個層面考慮,不同的課程類別都有可能成為與教師教學質量相對獨立的一個因素,影響著學生對教師教學質量的客觀評價。
其三,來自學生和教師個體的影響。如課程難度,不同的學生對同一門課程會有不同的難度感受,當學生個體認為一門課程過難或過易時,也可能會導致其失去學習該門課程的信心或興趣,繼而影響到對授課教師的客觀評價。同理,不同的學生對同教師的授課風格會有不同的接受程度,這也可能影響到對該教師教學質量的客觀評價。
總之,即便是對同一班級授課的幾位老師之間的比較,也存在課程類別、課程難度、教師授課風格等影響因素,使得“學生評教”分數(shù)并不是僅僅反應了教師教學質量這個我們最想了解的變量的水平,而成為了多種因素混合的反映。簡言之,就是評教分數(shù)被“污染”了。
從對該校“學生評教”結果統(tǒng)計分析與應用現(xiàn)狀的討論中,我們可以知道,要使學生評教的結果得到更有效的運用,就必須在對評教分數(shù)的統(tǒng)計手段上做出改進。對于改進的方法,我們首先想到的是:
對于直接使用原始評教分數(shù)的弊端我們已了然于胸,那么標準分數(shù)有何特點可以彌補這些不足?我們先看其定義——標準分數(shù),又稱基分數(shù)或Z 分數(shù),是以標準差為單位表示一個原始分數(shù)在團體中所處位置的相對位置量數(shù)。離平均數(shù)有多遠,即表示原始分數(shù)在平均數(shù)以上或以下幾個標準差的位置,從而明確該分數(shù)在團體中的相對地位的量數(shù)。計算公式為:

式中:X 代表原始數(shù)據(jù)(在這里代表某班各參評學生對某位教師評價分數(shù)的平均數(shù));X 代表一組數(shù)據(jù)的平均數(shù)(在這里代表某班對為自己班級授課的各位老師評價分數(shù)平均數(shù)的平均數(shù),即班級范圍內的X 的平均數(shù));s 為標準差(即班級范圍內的X 的標準差)。其優(yōu)點是[1]:
1、可比性。標準分數(shù)以團體平均分(X)作為比較的基準,以標準差為單位。因此不同性質的成績,一經(jīng)轉換為標準分數(shù)(均值為零,標準差為1),相當于處在不同背景下的分數(shù)放在同一背景下去考慮,具有可比性。
2、可加性。標準分數(shù)是一個不受原始分數(shù)單位(這里的單位可以理解為不同評分尺度下原始分數(shù)的“含金量”)影響的抽象化數(shù)值,能使不同性質的原始分數(shù)具有相同的參照點,因而可以相加。
3、明確性。知道了某一被試(這里指受評教師)的標準分數(shù),利用標準正態(tài)分布函數(shù)值表,可以知道該分數(shù)在全體分數(shù)中的位置,即百分等級,也就知道了該被試分數(shù)在全體被試分數(shù)中的地位。所以,標準分數(shù)較原始分數(shù)意義更明確。
4、穩(wěn)定性。原始分數(shù)轉換成標準分數(shù)后,規(guī)定標準差為1,保證了不同性質的分數(shù)在總分數(shù)中的權重一樣,避免了在多個分數(shù)匯總時因標準差不一造成的權重不一致的情況,使匯總的分數(shù)能更穩(wěn)定、更真實地反應被試的水平。這在學科測驗和人事選拔中尤為重要,有利于錄取的公平性,在學生評教中也是一樣。
現(xiàn)在,我們就以上文提到的例子來說明標準分數(shù)在學生評教中應用的步驟:
(1)計算A 班各授課教師評教分數(shù)(這里的“評教分數(shù)”指某班各參評學生對某位教師評價分數(shù)的平均數(shù),即X)的平均數(shù)(即XA),和標準差SA:

(2)按公式計算A 班5 位授課教師各自的標準分數(shù):
98、97、95、93、85 五個原始分數(shù)對應的標準分數(shù)依次是:0.85、0. 66、0. 27、-0. 12、-1. 66。可知Z 老師的標準分數(shù)為-0. 12,根據(jù)標準分數(shù)的定義,值為負表示Z 老師受學生認可的程度甚至達不到A 班5 位老師受學生認可的平均水平,與平均水平的差距是0. 12 個標準差(5. 18)。

(4)按公式計算B 班5 位授課教師各自的標準分數(shù):
91、90、89、86、83 五個原始分數(shù)對應的標準分數(shù)依次是0.98、0. 67、0. 37、-0. 55、-1. 46。可知Y 老師的標準分數(shù)為0. 98,表示Y 老師受學生認可的程度在B 班高居第一,高出平均水平近1 個標準差(3. 27)。
(5)根據(jù)標準分數(shù)的可比性進行比較,Y 老師受評成績的標準分明顯比Z 老師的標準分要高,可得結論,Y 老師的教學受其授課班級學生認可的程度,比Z 老師的教學受其授課班級學生認可的程度要高。
由上文可知,標準分數(shù)可用于比較幾個分屬性質不同的觀測值在各自數(shù)據(jù)分布中相對位置的高低,因此標準分數(shù)的引入很好地解決了不同班級學生對本班授課教師打出來的評教分數(shù)相互比較的問題。但從結果來看,我們也會發(fā)現(xiàn)計算出來的標準分數(shù)普遍存在小數(shù)、負數(shù)的情況,內涵不直觀,不便于理解。對此,我們可以通過線性轉換的方式來解決這一問題。
轉換公式為:Z' = aZ + b (a、b 為常數(shù))
標準分數(shù)經(jīng)線性轉換后,使得原標準分數(shù)變成了正數(shù),方便比較,同時仍保持原始分數(shù)的分布形態(tài),并具有原來標準分數(shù)的一切優(yōu)點。如:
A 班5 位教師原標準分數(shù)在取a =10,b =100 時,經(jīng)轉換后分別為:108. 5、106. 6、102. 7、98. 8、83. 4,B 班的5 位教師也可作同樣的轉換,得:109. 8、106. 7、103. 7、94. 5、85. 4。Y老師的Z’分數(shù)為108. 5,同樣比Z 老師的Z’分數(shù)98. 8 要高,不改變原比較結果。
之前的例子是在一個特定的條件下來討論的,即比較是在兩位分別只對一個班級授課的教師間進行的。實際中當然會有這樣的情況,但更多時候,情況要比這復雜一些。因為大多數(shù)老師在同一學期會對不只一個班進行教學。前面我們提過一位教師某門課程的評教要由上這門課的多位學生參與完成,那么當這位教師上的不只有一門課或一個班時,就形成了“多對多”的情境。如下例:
假設P 老師在某學期一共上了4 個班的課,Q 老師在同一學期上了共5 個班的課,怎么比較他們的教學在該學期受學生認可的程度?
假設兩位老師從各班獲得的原始評教分數(shù)以及各班為本班各位授課教師評分后計算得到的平均數(shù)和標準差分別為:

表2 P/Q 兩位老師從各教學班獲得的原始評教分數(shù)及各班評教分數(shù)的平均數(shù)和標準差
如果不采用標準分數(shù),可分別計算各人的平均分,可知P 老師得分為94. 5,Q 老師得分為89. 6,似乎顯示P 老師更受認可。
但如果我們可按前面提到的方法分別計算P、Q 兩位老師各教學班評教分數(shù)的標準分數(shù),并進一步計算各人的標準分總和及標準分平均數(shù),可得:

表3 P/Q 兩位老師從各教學班獲得的評教標準分數(shù)及各自的標準分之和及平均數(shù)
顯然,同樣的數(shù)據(jù)按給定的均值和標準差轉換后,得到的標準分平均數(shù)是Q 老師更高,結果再一次出現(xiàn)了反轉。這里我們應用的實際是上文提到的標準分數(shù)的可加性和穩(wěn)定性,保證教師間比較的公平性和科學性。當然,如有需要,仍然可以對標準分平均數(shù)進行線性轉換。
對于前面提到的來源于師生自身或課程類別等方面的干擾因素,我們有一個統(tǒng)一的應對建議——增大樣本量(參評學生的人數(shù))。此類干擾因素的影響程度和方向因人而異,在實際中難以精確控制,可視為隨機誤差。而根據(jù)經(jīng)典測量理論,測量誤差服從平均數(shù)為零的正態(tài)分布,誤差分數(shù)的期望值為0[2]。也就是說,當參評學生的人數(shù)足夠多,隨機誤差的正負值就會相互抵消,其平均數(shù)就會為0。在訪談中我們了解到個別院系安排學生填評教表時每位教師的評價學生人數(shù)只有15 人或甚至5 人。樣本量太小,個體間的隨機誤差難以相互抵消,形成的抽樣誤差就可能較大,就是說這5或15 人打出的分數(shù)可能有失偏頗,很難真正反映全班學生對受評教師的評價。所以建議每次評教還是盡可能增加參評學生人數(shù),理論上來說最理想的情況是每個任課教師的所有教學班,每個教學班的所有學生都能參評。
引入標準分數(shù)及相關的后續(xù)處理后,教師無論在特定學期是上一門或多門課,上一個或多個班,都可實現(xiàn)相互之間在學生評教成績這一指標上科學、公正、無障礙地比較。這使得各教學院系及學校有關部門在評估教師教學質量、與教學相關的評優(yōu)評獎等工作中有了更加可靠的參考指標。
(一)組織成本。上文提到為求客觀準確,最好盡可能增加參評學生人數(shù),但從另一角度來說,參評的學生越多,前期組織投入的人力物力、后期統(tǒng)計分析的工作量等組織成本也必將隨之上升,如何解決這一矛盾需要再作研究。
(二)學生評教的組織方式。在訪談中了解到各院系在安排學生填寫評教表時的方式不一。有的在學生上課時教務員將評教表送到班上現(xiàn)場測評,有的是安排各班班委自行組織本班同學填評教表,有的是由任課老師在自己的教學班組織學生對自己填寫評教表,還有的是收教務員將各班參評學生統(tǒng)一召集之后進行評教。那么不同的組織方式會不會成為影響學生打分的一個額外變量,如由任課老師在自己教學班組織學生進行評教時,學生會不會礙于“面子”或有所顧慮而沒有給出真實的分數(shù)?這需要研究證實。
另外,該校的學生評教工作目前還是通過紙表完成的,這也涉及到組織成本的問題,如果能實現(xiàn)網(wǎng)絡媒體的評教,必然能降低成本,提高效率。其實學院教務處已作了有關的嘗試,但也發(fā)現(xiàn)如一個班的評教由少數(shù)幾個學生代全班完成的問題,如何解決此類問題可使得網(wǎng)絡評教得以全面推廣?
(三)評教指標體系。這是整個評教工作的關鍵,現(xiàn)有的指標體系是否有可改進之處,值得認真研究。
[1]張厚粲 徐建平. 現(xiàn)代心理與教育統(tǒng)計學(M). 北京:北京師范大學出版社,2009:97.
[2]顧海根. 應用心理測量學(M). 北京:北京大學出版社,2010:199.