◆布少聰 楊波
高校教師教學評價是非常重要的一個教學環節,常用的評價方式是學生評價和督導組聽課評價二者結合。學生評價即學生在網上匿名一次性評價,打分受較大主觀因素影響,如課程難、教師要求高、不及格率高的課程,學生給的分數往往偏低。督導組聽課一般1~2次,難以對一學期的教學作出全面評價,且非背靠背評分,評分難免主觀。兩種方式的評價意見均不夠具體,且兩項成績合成缺乏科學依據。
鑒于此,可以將教師授課認真程度綜合評價和研究生學科核心課程檢測技術與自動化中的基于D-S證據理論的信息融合方法結合起來,作為課程的研究型設計報告,以全面評價教師的投入程度。以某教師授課情況作為研究對象,通過建立兩層評價指標體系,由聽課教師或學生進行百分制的單項指標評價,然后按不同的權重給定融合判定依據,采用D-S證據理論對教師授課質量進行綜合評價,提供多角度的分析信息,使評價結果更具客觀性、科學性和有效性。
基于D-S證據理論實現對教師授課認真程度的評價,首先要構建評價指標體系、評定標準與規則和處理原始數據。
通過調研,將教師授課認真程度的評價指標設為八項,可理解為D-S理論中的“證據”;將這些指標分為兩類,構建兩級指標評價體系,即完成兩次D-S證據理論信息融合。定義辨識框架Ω中包含A到E五個元素,表示從高到低的程度,用于評價各項指標以及指標最終合成的“認真程度”。具體的指標及評價等級描述如表1所示。表中的指標說明如下。

表1 教師授課認真程度評價項目
1)一級指標“客觀狀況”下設五個二級指標。
①出勤情況:參照學校關于教學事故的說明擬定。
②課堂不良行為發生率:參照學校關于教學事故的說明及教師規范擬定。
③知識信息量:教師在一堂課上講授有關課程主題的內容多少,選擇用時間比例來衡量(與課程內容相關的時間/一節課的總時間)教師在該節課中的真實工作量。
④授課形式:主要是描述教學手段是否多樣化。
⑤腦力負荷水平:腦力負荷(mental workload)可理解為人在單位時間內的腦活動量、大腦資源占有率和信息處理能力等[1],研究表明,該水平與工作投入度和工作能力掛鉤[2-3],選用該指標衡量教師一節課的工作投入與工作效能。
2)一級指標“學生評價”下設三個二級指標,每個學生僅以自身的感受作出評判。
本設計中假定每位教師一學期授64節課,并有100位學生參與評教。對于“客觀狀況”下屬的指標,每節課進行一次評價,如此統計并分類得到64個評價結果。對于“學生評價”下屬的指標用同樣的方式統計并分類得到100個評價結果。
對于“腦力負荷水平”這項指標,可采用生理測量法完成,或通過主觀評價法[使用美國航空航天局提供的腦力負荷評價(NASA-TLX)量表和工作能力指數(WAI)量表]、主任務測量法、輔助任務測量法測評[2]。
如上文所述,各指標的評價結果統一到Ω={A,B,C,D,E}中,數據合成過程使用到的方法如圖1所示。首先對原數據概率化,得到八項指標m1~m8的基本概率分配矩陣,它以各指標為行,以各等級評價為列;通過度量證據相似性獲得每個指標的可信度,作為證據融合時的權重;再利用可信度權重對兩大類指標分別進行第一次D-S證據理論融合,得出兩個一級指標的基本概率分配M1和M2;之后利用信息熵獲取一級指標權重,進行第二次數據融合;根據判定準則分析最終概率分配,從而得出關于認真程度的判定。

圖1 基于D-S證據理論的教師授課認真程度評價方法流程框圖
每個指標每個等級對應的概率數即為該位置原始數字與測試總量之比。對于前五項,每個指標的測試總量為64(課時數),后三項每個指標的測試總量為100(參評學生數)。為方便后續計算與融合,遇到概率數為0時,將其改為0.000 001,同時將該指標中最大概率減去0.000 001,以保證對后續影響最小。得到一個不含0值的8×5的概率分配矩陣Origin_matrix。
此處獲取權重并引入證據融合是為了緩解證據之間的沖突,權重采用度量證據相似性方法獲得[4]。利用證據間的關聯度,由證據可信度來確定證據權重,即若某個證據與其他證據的沖突較小,則可信度較高,權重較大。下面結合程序設計給出計算方法。
定義一個度量證據體間相似程度的證據距離函數來表示兩個指標間的相似性:
該式計算的是歐式距離,值越小說明兩個證據之間越相似,沖突越小。
把每兩證據之間的距離值正則化,然后聚集起來構成證據相似性距離矩陣:
利用信度函數confi=f(si)=(1-si)e-si計算每一個證據的可信度。可信度confi描述該證據的重要程度和融合結果的影響程度。用于計算可信度的信度函數應選用單調遞減型,且值域配合定義域為(0,1),董增壽等[4]選擇上述指數關系函數。將同一證據集中的n個confi值聚合為矩陣,得到兩大類指標對應的可信度矩陣Conf11(1×5)和Conf12(1×3)。
按式(2)歸一化可信度形成證據權重:
由此得到兩大類指標對應的權值矩陣Weight11(1×5)和 Weight12(1×3)。
第一層次D-S證據理論融合后,得到兩個一級指標的基本概率分配M1和M2,由于融合證據數目較少,因此忽略沖突情況,而是基于人工智能領域中決策樹的相關知識,考慮用信息熵(Entropy)的概念來計算權重,每個證據的信息熵為:
熵描述了信息的純度,值越小表明系統越有序,信息確定性越大,其值介于“0到Ω中元素數”之間,因此根據這種關系計算權值:
每一層次得到權值后,按式(5)計算即可得到加權平均證據,之后可按照規則合成證據。
在這里仍然要列出D-S證據理論合成公式:
其中歸一化常數因子K為:
本設計兩次D-S證據理論合成均用到式(6)和式(7),并且在對照實驗中更是直接利用兩式對證據進行融合,因沒有計算權重,在后文中稱此為傳統方法。所有證據融合完成后得到最終的基本概率分配BPA,決策的基本原則是選擇BPA中擁有最大概率數的等級作為終期評價結果,即為A~E中的一個值,在此前提下細化規則如下。
1)若最大概率數與第二大概率數之差≥0.1,則認為擁有最大概率數的等級占絕對優勢,將該等級作為終期評價結果。
2)若最大概率數與第二大概率數之差<0.1,則認為兩者有比重相當;若最大概率數所屬等級優于第二大概率數所屬等級,則終期評價結果為“最大概率數所屬等級-”,反之則終期評價結果為“最大概率數所屬等級+”。
綜上,可能的評價結果有{A,A-,B+,B,B-,C+,C,C-,D+,D,D-,E+,E}共13種。
以李老師為例,原始數據信息如表2所示,經概率化并作非零值處理后的概率分配如表3所示。從直觀的角度看,李老師的授課認真程度中等。

表2 李老師各項指標原始評價統計信息

表3 李老師評價指標的基本概率分配
可以看到m2與m1~m4存在相對最為嚴重的沖突,因此可以嘗試通過上文介紹的方法,獲得可信度權重來減弱m2對于合成結果的影響。計算得出各類矩陣:
各證據的可信度分別如下:
conf11和conf12值直接反映該證據對于其他證據的支持程度。conf11中的第一和第三個元素大小相當,也就是m1與m3的支持度相當,m4和m5是同樣的道理,但m2可信度明顯比其他四個指標低,這符合原始數據中的沖突情況。而conf12中三指標的可信度大小相差不大,結合其原始數據信息看,三證據的概率分布確實有相同的情形(C級概率均為最大,DE的概率數都接近0)。通過實驗驗證上文獲得的可信度權重是合理的。
第一層次數據融合時的各證據權重分別如下:
Weight11=[0.186 3 0.075 2 0.206 4 0.287 9 0.244 3]
Weight12=[0.312 3 0.357 0 0.330 7]
兩類別內部各證據的加權平均基本概率分配為:
Mean_BPA11=[0.338 5 0.286 3 0.231 2 0.069 4 0.076 4]
Mean_BPA12=[0.223 1 0.235 8 0.484 7 0.049 8 0.006 6]
第二層次數據融合時的兩個一級指標權重如下:
weight2=[0.474 5 0.525 5]
加入權重的方法與傳統方法在融合結果和評價結果中的差異如表4所示。
用傳統方法得到的認真程度為B,加入權重后為C。如上所述,李老師的授課認真程度中等,因此,加入權重的方法更適合評估教師授課認真程度。從理論層面分析,是因為在第一層次證據融合中,m1~m5中的m2與其他證據沖突較大,若不加以緩解,就會出現傳統方法實驗結果BPA11_trad中極端的概率分配情況;設計中加入證據可信度權重后,BPA11的概率分配不僅值不再是極端接近于0或1,其總體分配也更符合原始數據帶來的直觀信息。
針對目前高校教師授課評價中存在的問題,本文利用研究生課程檢測技術與自動化中多元信息融合方法的授課內容,以課程研究型設計報告的形式對教師授課認真程度綜合評價進行研究。建立雙層評價體系指標,從主觀和客觀兩方面制定多角度評價指標,分別利用證據相似度和信息熵獲取第一層次和第二層次D-S證據合成時的權重,采用D-S證據理論對教師授課質量進行綜合評價,對綜合評價的有效性進行驗證,評價結果更具客觀性、科學性和有效性。

表4 兩種方法的兩次證據融合結果與評價結果對比