趙晶
對外經濟貿易大學統計學院 北京 100000
教學評估工作是高校教學教研的核心問題,傳統教學評估存在以下幾個問題:
(1)采用紙質+手工統計方式,工作流程信息化水平不夠,采用網上評教加督導紙質聽課表統計的半手工方式,人工成本高流程煩瑣。紙制評價記錄未全部實現數字化。
(2)重視結果輕過程:考核成績是教師評估結果的匯總,無法了解教師在教學教研過程中的差異,缺少過程性評價。
(3)主觀性強,客觀性弱:主觀性評估受環境、情緒因素影響較大,需要同時借助客觀數據來輔助進行評價分析。
(4)評價反饋滯后:評教結果在年終考核時才能夠反饋給教師,教師難以在整年的教學過程中實時獲得教學優化反饋,從而及時調整教學教研計劃。
基于以上各類痛點,與山東某所醫學院共同開展項目。教師教學工作的復雜性決定了教學評估應該是一個定性與定量相結合的過程,通過構建過程性評估體系,將動態的過程性評估與靜態的結果性評估相結合。這樣可以在任意時間單元,實時了解到教師的教學情況,而不是等到學期末考評時才后知后覺[1]。
過程性評估的核心是多維度過程數據的實時抓取與處理,圍繞著數據的搜集、清洗與分析,搭建了教學評估數字化平臺,與學校教務系統、學工系統等進行了數據對接。要解決的主要問題是過程性評估信息的記錄與存儲、通過過程性評估判斷教師的教學教研情況、通過多元評價為教師提供及時有效的反饋、基于具有一定時間跨度的、連續的評估結果和數據變化展示教師的成長過程。
數據平臺建設的標準是遵循系統高可拓展性、全量數據采集與存儲、應用大數據分析優化的系統設計理念。從創新與發展角度進行規劃,在提升目前業務效率的前提下考慮未來的系統兼容性。以教務人員、教師為中心,在盡量降低教師工作量的基礎上,提供良好的用戶體驗。有可靠的安防及備份容災措施,保證數據隱私及安全。
本項目的數據來源包括從高校教務系統提取、學校要求上報的工作量紙質文件統計,調查問卷紙質記錄,共包括近5年教師與學生的歷史數據,主要覆蓋以下七個維度:
(1)學生評教:學生對所有課程所有教師的評價結果,高校一般通過問卷方式下發紙質文檔,學生填寫完畢后回收統計錄入系統中。
(2)同行及領導聽課:教師對教師以及上級領導抽查聽課的結果評價數據。
(3)學生成績:每位學生歷年所有課程的考試成績。
(4)教師工作量:主要包括各為教學活動的工作量,如:理論教學、實踐教學、實驗教學、畢業指導、臨床帶教、考試工作量等。
(5)教師教學:主要包括課程資源、課堂考勤、提問、練習、討論數據、課后輔導答疑情況、作業試卷批改情況等。
(6)教師教研:主要教師在本年度參與的科研項目,如項目類型、項目等級、項目級別、承擔任務、獲獎情況等。
(7)年終考核數據:教師年終考核、評級中最終認定的結果數據,這類數據也是后期機器學習的基礎[2]。
搜集到的七類數據中,數據量分布極不均衡,如教學工作量數據、教學數據因為院校沒有硬性管理要求,數據量極少。在其他類別數據中也存在大量缺失數據。在數據量小并且確實數據多的情況下,對缺失數據的填充極其重要。基于統計學原理,根據初始數據集中取值的分布情況來對缺失值進行補齊,本項目中主要使用平均值填充。對數值型變量,根據其他對象取值的平均值來填充。對于非數值型變量,使用眾數原理,使用其他所有對象取值次數最多的值來填充。總之填充的依據是使用現存數據的多數信息推測缺失值。
獲取的原始數據雜亂無章,看不出規律。通過查看各項變量的分布情況,變量之間的關系來發現數據中潛藏的規律。首先進行歸一化處理。歸一化可以將不同維度不同量綱的數值表達轉換為無量綱的數字表達成為純量,減少方差大的特征的影響,在后續的分析中可以簡化計算,使模型更準確,本項目主要使用z-score標準化方程。
因為每個學校的評估標準不同,并且最終的產品目標是商業化,就要考慮需要設計靈活的評估模型,來承載各個院校不同的考核需求。每個院校的數據采集維度不同,模型會根據實際數據情況自動按分類生成。比如按上面采集到的數據分為6類,每類分別設置權重與分值。權重與分值設置可以到極小的顆粒度,如教師在不同等級的報刊發表論文考核得分不同。
這一步面臨一個很大的困難,如果學校沒有形成標準成熟結構化的考核體系,對評估模型的設置會無從下手。考核分值與權重設置缺乏科學依據。標準的考核體系需要院校花費很大精力去研究。在這個項目中,院校同步對考核體系做標準化規范。
依據院校給出的評估標準,基于某學年某學期,對教師6類數據分別計算得分。對所有教師的評分進行排名。圍繞教師收集的數據維度越多,找出影響教師評估結果的關鍵因素的難度越大。我們試圖通過主成分分析法進行降維處理,找出對評估結果影響最大的幾個關鍵變量。院校的要求是教師評估結果需要符合正態分布,因此分析的重點是考察所有教師的考核結果分布是否呈現正態分布。如非正態分布就需要對教師的教學形為進行干預與調節,以達到期望的效果。
基于院校年終考核數據,運用機器學習算法對教師數據建模,對下一年評估結果進行預測。以優質教師教學教研行為為依據,可以對下一年每位教師的教學教研情況進行跟蹤與預警。同時將不同教師的完成情況進行橫向對比,將無形的教學質量轉化為可量化的指標。
項目使用2018年春秋兩個學期,共1萬多條數據進行模型訓練,將數據集隨機分為訓練集與測試集,來對比各個模型的優劣。使用MSE來對比差異,與測試集預測變量的差異越小,模型越好。最終訓練出的模型測試精確度可達75%。
在變量的選擇上,使用優子集選擇法,對所有預測變量的所有可能組合分別進行擬合,選擇出最優模型。通過計算方差膨脹因子,來確認解釋變量是否存在共線性或多重共線性的問題。通常VIF大于5時,意味著共線性成為一個問題,通過去掉冗余變量來解決此問題。
模型的優劣取決于我們選擇哪些變量作為解釋變量,解釋變量間是否存在(多重)共線性,是否使用對數轉換等等,最終可以通過以下3個指標來檢驗:通過計算預測偏差,MSE越小越好;計算VIF,值越小越好;計算置信區間,區間越緊越好。經過計算3個指標值的完成性均較好。
在系統實際推進使用過程中,碰到的最大的問題就是數據搜集。除了一些易于記錄與維護的數據外,如考試數據、教學評價數據,其他諸如教學工作量、教研數據等在院校的實際工作開展中,很難采集。在院校信息化平臺建設中,存在使用多個甚至是十多個信息平臺的情況,各系統間數據獨立不互通。同時教師也增加了額外負擔,需要在多個平臺上進行數據維護。
院校缺少統一的數字化平臺來實現各個平臺間的數據共享,要想推進項目的實施,解決數據采集的方案之一是與各個平臺做數據對接,需要各個平臺維護團隊的配合。前期成本高工作量大工期長,并且存在很高的不確定性。方案二是讓教師錄入相關數據。要求教師參加數據的收集無疑會增加教師的工作量,系統設計中秉承最大化降低教師工作量的原則,盡量減少教師操作流程與錄入數量。隨著項目的推進,如果評估結果得到院校的認可,并能夠得到大面積的使用,那么則可以考慮與各個平臺的對接工作。在可以得到確定成果的基礎上,持續投入不斷迭代平臺功能與算法模型。
本項目的初衷對傳統結果導向性教學評估的一種改革嘗試, 院校領導希望可以通過大數據與人工智能技術來實現結果性評估到過程性評估的探索,這需要有打破傳統思維模式的勇氣,需要各個院系教師的支持與配合。因此,在系統建設的過程中,各類數據盡最大可能自動采集,盡量減少教師的工作量,從啟動層面將教師的抵觸情緒降到最小。循序漸進的改變優化教師現有的工作方式,先讓教師看到變革能帶來切實的益處。經過與各個院系的溝通,初期先選兩個院系進行推廣試運行。項目最終目的是通過教學評估方式的轉變,反向推動數據的采集與教師工作方式、工作理念的轉變,提升教學質量讓教師和學生都受益。