張 傲,廖睿智,陳奕含,李樹禎
(1. 香港中文大學(深圳),廣東 深圳 518172;2. 南開大學濱海學院,天津 300270)
教學與科研是高校教師的兩項主要活動。其中,教師的研究成果與質量主要由在該領域有一定成就的同行參照教育部門或學校標準來進行審查和評價。由于評價者與被評價者之間的利益關系并不直接,因此能在成本較小的前提下,得到較為客觀的評價結果。相對應的高校的教學質量的評價,則主要在大學內部進行,常見的評價形式有校內同行評價、管理者評價和學生評價。校內同行由于存在一定的利益關系,評價結果存在著一定程度的失真;學校的管理者由于并未直接參與教學,因此間接性的評價缺乏說服力;學生作為教學活動的參與者和直接受眾,其意見收集較易獲取且相對直觀,因此學生評教成為了大多數高校教學評價的主要手段。然而,在過去的幾十年里,世界大多數采用以學生評教為主要教學評價手段的高校均出現了明顯的分數膨脹(Grade Inflation)現象。[1]
根據Rojstaczer 和Healy 對美國200 余所公立和私立高校過去70 年的本科學生成績的統計[2-3],在1940—2012年的70年間,獲得A的人數占比幾乎翻了3倍;獲得B的人數占比在保持在30%—40%之間,變化較小;獲得C的人數占比顯著下降。根據Bachan的研究,英國高校也存在分數膨脹現象。自20世紀90年代以來,英國高校一等學位(First class)的比例從1996年的60%左右上升到了2012年的72%。[4]高分層人數越來越多,明顯超過了學生真實水平的增長,即所謂的分數膨脹現象。這導致了分數的貶值、區分度的降低,以及學生學習積極性的減弱。
近年來,我國也出現了分數膨脹的趨勢。天津大學檔案館分析了自2008 年到2017 年間共37 713 條學生成績數據(圖1)發現:天津大學學生的平均GPA 從2008年的2.95上漲至2017年的3.16,提升了0.2個績點;成立時間相對較晚的專業或院系的平均GPA 往往更高。[5]北京大學學者趙穎和哈巍對國內某研究型大學2012—2017年本科課程GPA數據的研究顯示:2016—2017學年相對2012—2013學年整體優秀率提高了7%,且該大學整體優秀率一直在上升[6];百分制下全校課程平均分由2012秋季學期的82.9分上升到2017春季學期的84.2分,5個學年增長了1.13%,平均每年增長0.28 分(百分制下平均分提升1 分約等于4 分制的GPA 提升0.1 個績點);人文類與經管類課程分數膨脹尤為明顯;縱觀2012—2017 年這5 年間,該校分數膨脹速度已經高于全美GPA 的膨脹速度(美國平均GPA 每10 年增長0.1 個績點)。[6]此外,根據北京大學學者丁山和何小浩對某大學1992—2003 年所有26 552 名在校學生共1 093 123 條成績數據的研究顯示,從1999 年秋季學期開始,該校學生的平均成績呈現明顯的上升勢頭。[7]35-42

圖1 天津大學2008—2017年平均GPA變化趨勢
造成分數膨脹現象的原因表現在如下幾個方面:
首先,隨著高等院校的擴招,高校畢業生的數量迅速增多,而就業市場在產業結構和科學技術未發生重大變革的情況下,難以保持與畢業生數量相同的增長速度,高校畢業生的就業狀況迅速惡化,繼續升學成為延緩就業壓力的有效途徑,而短期內的分數膨脹可以提供相對更好的升學機會。社會以及教育系統對分數膨脹的認知變化過程相對緩慢,院校可以利用信息時間差在短期內提升升學率與就業率。[8]
其次,部分用人單位的應聘條件變相地助長分數膨脹現象。例如,人事部門在招聘時會限定報名者在校期間所修課程必須全部合格,無補考記錄。[7]35-42在就業壓力下,無論是教師或管理人員都盡量避免低分,變相助長了分數膨脹現象。
此外,留學需求巨大。2019年中國留學生總量約為70萬。由于GPA是境外高校衡量學生表現最重要的指標之一,因此分數膨脹的高校在短期能利用信息差在錄取中占據優勢,龐大的留學需求催生高校抬高績點。
綜上所述,學校管理者、教師和學生之間的關系逐漸異化為類似經濟環境內委托人、代理人和消費者之間的關系,形成代理人問題。代理人是為了更高效工作,委托人無法直接觀察并評價代理人的行為。隨著代理人數量的增加,委托人與代理人之間的不對稱關系逐漸加劇。消費者的意見如何幫助委托人實施管理?代理人對消費者的偏好如何應對?這是代理人問題的核心內容。[9-10]
在代理人利益與消費者評價捆綁的制度中,滿足消費者的偏好成為了代理人的預期策略。學生希望得到好的成績以得到更好的升學或工作機會;教師為了獲得更好的教學評價而迎合學生對高分的偏好;在與用人單位信息不對稱的條件下,學校為了短期的就業與升學數據,冒著損失聲譽的風險迎合分數膨脹的趨勢。學校、教師與學生在保持個體理性的前提下陷入了一種對個體短期有利,但長期對整體不利的惡性循環,如圖2所示。無論是學校、教師還是學生都無法保持理性打破整體惡化的囚徒困境,進而導致持續的分數膨脹現象。

圖2 基于教學評價的三方博弈
對于社會發展來說高等教育具有正外部性。讓學生作為“消費者”對代理人行為進行評價,以學生的評判來衡量其所受教育的社會價值,并以此作為學校管理者進行管理與實施獎懲的重要依據,這種做法實際上忽視了高等教育的正外部性,帶來諸多社會負面影響。[11]
在高校層面,學生評教制度的初衷是希望對高校教職人員的教學質量進行客觀的評價,進而用于教學水平評估、評優、晉升或留用等諸多決策的依據。然而,部分教師用給予高分來換取更優評教結果的行為干擾了高校教職人員考評系統的準確性和公平性。學生在選課階段傾向于選擇給分高的課程,而不是教師水平更高、自身更感興趣或內容更豐富的課程。學生憑借膨脹的分數在評優、選拔、畢業、海外升學等方面占據優勢。這種現象嚴重影響了學生評價和人才選拔體系的公平性。高校有限的資源很可能會出現錯配,產生經濟學領域的“劣幣驅除良幣現象”,即分數虛高代替了綜合表現較好的學生取得更多資源。
從社會角度上來看,分數膨脹造成的信息不對稱現象影響了高校學生在社會招聘中的公平性。分數膨脹現象降低了高校教學質量,削弱了學生實際能力,造成人才市場對高校教育不信任現象,并增加了用人單位對高校畢業生的考察與培養成本。高等教育本質是為社會發展服務,然而分數膨脹現象引發了學生評教的準確性、教師評價的公正性、學生選拔的公平性以及高校教育質量的權威性等社會問題,因此,改善現有評教體系對抑制分數膨脹具有重要的意義。
自1960年開始美國公立與私立大學開始出現分數膨脹現象,且私立大學的分數膨脹現象更加嚴重。1960年以前,無論是公立高校還是私立高校的A率(A range)與平均分(average GPA)都保持在較為合理的范圍;1960年以后私立高校的分數膨脹現象開始超過公立高校,且隨著時間的推移越來越嚴重。1960—2007年,兩類學校的分數分布都由大致的正態分布變成了明顯向高分層集中的偏態分布。2007年,在C、D、F 區間上私立高校的人數已經明顯少于公立高校,兩類學校的B 率人數保持穩定,由于私立高校的A 率顯著高于公立高校,且私立高校的低分層比例遠低于公立高校,導致兩類高校的GPA 差值保持在0.3 左右,如圖3 和圖4 所示。受此啟發,本研究將結合他們的偏態分布圖像,從控制A 率與控制均分兩個角度進行探究,試圖找到一種更有利于抑制分數膨脹的方案,從而分析總結出客觀有效的教學評價體系。
全球各地大學普遍選擇在分數公布前進行學生評教,以免學生將在課程上得到的分數與教學評價掛鉤。盡管如此,學生對課程的預估分數還是會影響他們對教師的課程評價。[12]如果一個學生根據已修這門課程同學的評價和自己的課程表現預估自己在某課程會得到較好的成績,該學生便傾向于給任課教師更高的評分。改良高校評教體系需多方考慮,一方面,分數膨脹的趨勢需要加以抑制,減小教師以高分“兌換”更佳評教分數的可能性;另一方面,分數的提升顯然也有部分原因來自于教育水平和學生學業水平提高。
哈佛大學的教學評價貫穿于整個學期。相比評判教師的教學水平,其更重視學生的學習效果,采取早期反饋與期末評價結合的機制,鼓勵所有學生在課程開始后不久就對教學進行早期評價,這有利于教師及時調整課程內容與安排。早期反饋與期末評價相結合的手段可以有效地減少學生的預期成績給教學評價帶來的影響。例如,一個學生在課程早期反饋不理想,也許是因為該生基礎較弱,預期成績不高,從而存在教學評價負面的可能性。相反,如果一個學生在教學中所得甚多,對于同一年級水平相似的其他同學而言,他們最終成績高低并無明顯差異。但由于人們往往有著高估自己成績與水平的傾向,而對外界環境的變化,如其他同學的變化與進步經常被忽視。因此,一個收獲甚多的學生無論其基礎和最初預期分數如何,往往會高估自己的最終成績。[13]這與基礎薄弱且預期分數相對較低的同學給教學評價帶來的負面影響相抵消,可以有效削弱學生預期成績對于教學評教的影響,最終呈現出一個真實的教學評價。[14]
加州大學伯克利分校的評價方式十分多元,除了常見的管理者評價與同行評價外,在學生評價中還納入了當屆學生評價和畢業學生評價。由于教師與畢業生之間的代理人和消費者的角色關系已經解除,如果一個教師在課程中依靠較高的打分來“兌換”虛高的教學評價,學生可能會在后續的學習與就業過程中遇到困難,因此畢業生的評價更有利于還原該教師最真實的教學水平。此外,加州大學伯克利分校還采用了定性與定量相結合的方式,并在問卷中加入關于教學各個方面的開放性問題。這意味著加州大學伯克利分校一方面有著直觀的統計數據,另一方面通過同學們富含情緒感染力的語言來獲得直接且生動的教學評價,因此得到的結果也更具有說服力。
衡量分數膨脹程度的兩個重要指標是課程的A 率和均分。本研究團隊抽取了香港中文大學(深圳)在2018年度的676名學生的成績(脫敏處理),并對各門課程的A率與均分進行匯總后分別進行了排名,為了比較控制A率與控制均分兩種手段的有效性,設計了一組對比實驗。
第一步,比較兩種控制措施下的分數膨脹程度。
假設學校A采取控制A率的手段來抑制分數膨脹,學校B采取控制均分的手段控制分數膨脹。為了保證兩所學校有效貫徹抑制分數膨脹的手段,分別選取了香港中文大學(深圳)2018學年所開設課程中A率最低與均分最低的課程,并假設A率最低的10 門課程作為學校A 所開設的課程,均分最低的10 門課程作為學校B 所開設的課程。經過統計,學校A的平均A率為15.7%,學校B的平均均分為2.79。這兩個指標接近圖4近幾十年大規模分數膨脹現象的開端,說明兩校在各自的指標上初步實現了控制分數膨脹的目標。
為了衡量控制分數膨脹的有效性,將兩所學校課程GPA的中位數與方差作為指示變量。課程GPA的中位數不受到極端值(如掛科學生的成績)的影響,代表了在一門課程中,大多數學生所能得到的GPA;課程GPA方差可以被用來衡量一門課程的成績是否擁有足夠的區分度,能否將成績優異的學生與成績較差的學生有效地區分開,從而避免分數收縮現象(Grade Compression),提升分數本身價值與學生學習積極性。
統計與比較發現,學校B(控制均分)各個課程的成績方差明顯大于學校A(控制A率),說明學校B的課程成績區分度顯著大于學校A,能夠對學生層次以及對知識的掌握程度進行有效的區分,即學校B分數的價值顯著高于學校A;除此之外,學校A 的平均中位GPA(3.03)高于學校B(2.94),這意味著在不受到極端值影響的情況下,控制A率會增加學生成績往中等成績段匯聚的比例,如圖5所示。
第二步,運用線性回歸模型來分析課程A率/均分與課程GPA方差之間的關系。
試驗1顯示,約束均分的方案比約束A率的方案,能夠更加有效地控制分數膨脹現象。試驗2將采用線性回歸模型,探求以下幾個目標:
(1)分析在自由度修正之后,是否可以由A率/均分解釋或預測的課程GPA方差樣本的比例,即擬合優度Adj-R2。
R2最大值為1,值越接近1,表明線性回歸模型對觀測值的擬合程度越好;R2的值越小,表明擬合程度越差。通常,0.1-0.3 為弱相關,0.3-0.5 為中等相關,0.5-1.0為強相關。
(2)如果擬合優度較高,進一步對比當A 率或均分變化一個單位時,該課程的GPA方差將會如何變化。
試驗2隨機選取了香港中文大學(深圳)2018年度45門課程的平均分與A率以及成績方差進行分析。
模型1 探究A率與成績方差之間的線性關系
A率:
成績方差:
課程人數是n,平均成績是M,該課程每個學生的成績依次是x1,x2,x3…xn。
線性回歸模型1:
ui是誤差項,它包含了造成該課程學生成績方差與總體回歸線預測值之間差異的所有因素;β0是回歸線的截距;β1是回歸線的斜率,它意味著當A率(Arange)變化一個單位時所引起的方差的變化。
如圖6 所示,該模型的Adj-R2很小,這意味著回歸模型對數據的解釋能力較弱,A 率與成績方差之間的線性關系很弱。這表明單單控制A 率,很難使課程成績擁有足夠的區分度。

圖6 A率與成績方差回歸分析結果
模型2 探究均分與成績方差之間的線性關系均分:
線性回歸模型2:
如圖7所示,該模型的Adj-R2達到0.6049,屬于強相關水平,樣本點大多靠近回歸線,這意味著模型對數據的解釋能力較強,平均GPA高低與分數方差大小之間的線性關系較強,回歸線斜率β1是-1.52,當平均GPA提升1單位時,課程GPA方差將減小1.52個單位。線性回歸模型數據表明控制平均GPA,可以使一門課程擁有足夠的區分度,將成績優異的學生與成績較差的學生有效地區分開來,避免分數膨脹/收縮現象,提升分數本身價值與學生學習積極性。

圖7 均分與成績方差回歸分析結果
綜上所述,均分與成績方差之間的回歸曲線對數據的擬合效果更好。約束平均分而不是簡單約束A 率的方案,使得分數分布更加穩定且更具區分度,也可以有效限制教師去迎合學生對于高分追求的能力。因此,約束平均分的方案可以更好地保證教學評價體系的真實性與有效性。
精確實施“約束平均分”的做法并非易事。一方面,不同專業有著不同的特點,課程也有分類,比如專業必修、專業選修和大學必修等,各類課程的重要性各不相同,對學生掌握情況的要求也不盡相同,因此教師的評分不應嚴格按照“約束平均分”的要求一刀切。另一方面,每個學校的發展情況不同,進步的速度也有快有慢,因此均分的高低也應該隨著的學校水平和發展階段而調整,如實反映學生水平的變化。這些時效性和個性化的要求,難以在傳統校園得到及時反饋。在智慧校園的大趨勢下,借助智能設備與教學APP,實時監測并獲取海量數據,利用大數據分析對課堂教學與學生表現進行“畫像”,比對各個課程乃至各屆學生的差異性,通過智慧校園的計算,綜合考慮各個課程均分的差異,使得總均分保持在合理的水平。中國正處在由傳統校園向智慧校園轉型的關鍵時期,設計出一套科學客觀的教學評價體系,有利于鍛煉高水平的師資隊伍,培養符合社會主義新時代要求的高水平創新人才。從抑制分數膨脹與改良評價體系兩方面著手,結合上文探究出的方法,加上智慧校園有關物聯網和大數據等信息技術的深度應用,必將能夠實現教育反饋機制的時效性、準確性和真實性。