陳 建,向 露,徐 晶,陸存豪
(揚州大學 機械工程學院,江蘇 揚州 225000)
課堂教學質量評價是高校穩定教學秩序、提高教學質量的重要舉措之一。評價工作的客觀性和評價數據的充分運用是教務部門重要的關注點,一般由課堂的教學評價(通常用優秀、良好、一般、合格、不合格表示)、專家對教師授課的綜合評語(由專家根據教師授課情況和自己對授課質量標準的理解,用文字進行表述)、專家對學生學習情況的評價(由專家根據學生的課堂表現評分,通常分為優秀、良好、一般)3個方面構成。
課堂教學評價對于提高人才培養質量具有重要意義,許多學者對此進行了研究。楊志波[1]、丁元春等[2]、朱玥[3]利用層次分析法構建教學質量評價體系,對教學質量各指標的權重結果進行分析并提出相應建議;楊益等[4]運用層次分析法與灰色聚類法構建課堂教學質量評價體系,教學實踐結果表明,該方法有效、可靠,且可實行性較強;唐順定等[5]提出基于層次分析法的模糊綜合評判法對教學質量進行研究;岳琪等[6]提出一種基于遺傳算法和反向傳播神經網絡的混合算法對教學質量評價指標進行打分,實驗結果表明,該算法能夠有效實現對教學質量的評價;Yang[7]結合層次分析法(AHP)與BP 神經網絡提出一種評估英語課堂質量的新方法,實驗結果顯示,與不使用AHP相比,使用該方法后英語課堂質量評估精度提高了1.9%,召回率提高了1.3%;Zhang 等[8]、李燕燕等[9]利用基于遺傳算法與神經網絡的課堂教學質量評價方法,以有效提高課堂教學質量評價精度。高校課堂質量評價需要對整個課堂活動進行考察,通過評價內容及時反饋課堂教學問題,但以上方法并未將專家的評價內容加入模型中,因此無法全面評判不同課程教學質量的差異[10]。此外,上述方法的課堂評價結果劃分比較簡單,只分為優秀、良好、一般、合格、不合格,在授課等級結果相同的情況下,無法判斷出哪一節課的教學質量更好。
在每位專家對同一門課程評判結果不一致的情況下,不同課程的教學質量也存在差異,因此將專家對教師授課的綜合評語轉化為評定教師授課水平的量化指標顯得尤為重要。對專家的教學綜合評語進行量化,不僅可判斷出哪一節課的教學質量更好,而且能減少專家主觀性評判帶來的誤差。本文創新性地提出基于專業特征詞與大數據特征詞的兩種評分模型,對教學綜合評語進行量化打分,以幫助對比綜合評價等級相同時課堂教學質量的差異。實驗結果表明,大數據特征詞評分模型可更好地區分不同課程的教學質量,評價結果符合實際,結果真實、可靠。
課堂教學質量評價受到很多因素影響,教師是課堂教學活動的直接負責人,教師的教學態度、教學內容、方法手段、教學成效等都是影響教學質量的客觀因素。因此,科學、合理地進行課堂教學質量評價,對于促進教師提升業務水平、創新教學手段改革,從而提高人才培養質量具有重要意義。
根據某高校提供的課堂教學評價重點內容和參考標準,給出教學質量評價的 4 個一級指標及對應權重,如表1所示。

Table 1 Key contents and reference standards of classroom teaching evaluation表1 課堂教學評價重點內容與參考標準
由表1 可知,一級指標包括教學態度、教學內容、方法手段、教學成就,且每個指標都有相應的評價內容和權重。查閱文獻[11]、[12]發現,教學質量評價指標體系一般包含教學態度、教學內容、教學方法、教學效果4 個方面,各高校可在此基礎上結合自身教學特點及實際情況制定符合自身的教學質量評價體系[13]。
根據某高校提供的5 821 條課堂教學評價數據,選取其中的5條數據進行展示,如表2所示。

Table 2 Course evaluation data表2 課程評價數據
各高校在進行課堂教學質量評價時,會將課堂教學評價重點內容作為參考,因此表1 中的評價內容可作為評語打分的依據,由此建立專業特征詞評分模型。課堂教學評價內容是教學質量分析與研究的重要基礎,所以有必要對專家的評價內容進行研究。為了避免專家在借鑒表1 的內容作為參考時帶有主觀性的表達,故根據類似表2 的教師教學總體評價內容,建立大數據特征詞評分模型。
將表1 的課堂教學評價重點內容中4 個項目的特征詞挑選出來形成詞語集合N,并分別給4 個項目的特征詞賦予不同權重,對需要評分的評語進行特征詞搜索,然后乘以相應權重后累加分數。對課堂教學評價內容進行觀察,發現評語中經常出現“不”“沒”“無”等否定詞表示課程教學的不足。因此,在計算過程中需要對否定詞進行搜索,并減去相應分值。則評語集合中第i條綜合評語的得分Xi為:

式中,Q=(q1,q2,…,qi),其中qi為評語中符合第i個項目的特征詞個數;C=(c1,c2,…,ci),其中ci為第i個項目中每個詞所賦予的權重;m表示評語中出現否定詞的次數;l表示否定詞權重。
由式(1)可知,以表1 的教學評價重點內容提取出的特征詞和否定詞作為依據,對評語的每個詞進行檢索,查找特征詞與否定詞個數,并分別乘上對應系數,最后得出每條評語的分數,由此可區分不同課程的教學質量。
將某高校課堂教學評價數據按教師教學綜合評價和學生綜合評價進行等級劃分,評語等級分為雙優秀、一優一良、雙良3 部分。選取對應的不同特征詞集合,并將每個特征詞集合賦予不同權重。對課堂評語進行特征詞搜索,然后乘以相應權重后累加求和,從而計算出各課堂評價內容的分數。對課堂教學評價進行觀察,評語中除出現“不”“沒”“無”等否定詞表示教學課程的不足,計算過程需要減去相應分值外,發現雙良評語都會出現“建議”一詞,而雙優評語中未出現。為避免因特征詞過多而出現良好評語分數大于優秀評語的情況,但凡評語中出現“建議”一詞,將所得總分乘上系數k。評語集合中第j條綜合評語的得分為:

式中,P=(p1,p2,…,pj),其中pi為評語中符合第j個特征詞集合的特征詞個數;G=(g1,g2,…,gj),gj為第j個特征詞集合中每個詞所賦予的權重;n表示評語中出現否定詞的次數;d表示否定詞權重。
同理,由式(2)可知,從專家的評價內容中提取出3 個不同特征詞合集作為依據對評語進行檢索,查找特征詞個數與否定詞個數,并分別乘上對應系數,最后得出每條評語的分數,由此區分不同課程的教學質量。
為了檢驗上述兩種模型的實際情況并進行對比,本文根據某高校提供的課堂教學評價數據進行實驗,并對其中20 門課程的評分結果進行展示,實驗流程如圖1 所示。以專業特征詞評分模型為例,首先利用Python 的jieba 函數將綜合評語切分成若干詞語,然后將每個詞與特征詞進行對比。若詞語相同則加上對應權重,進入下一個詞與特征詞進行對比;若詞語與專業特征詞無法對應,直接進行下一個詞與特征詞進行對比且不計分。按上述方式查找否定詞并累計分數,將綜合評語的所有詞語對比完之后,對所得的分數進行加減,最后求出綜合評語的總分。大數據特征詞評分模型的評分流程同理。

Fig.1 Experimental process圖1 實驗流程
根據表1 課堂教學評價的重點內容和參考標準,結合實際選取課堂教學評價的專業特征詞,如表3所示。
由表3、式(1)可知C=(0.2,0.3,0.3,0.2),分別代表課程4 個項目的不同權重;l取C 的均值,l=0.25;q1、q2、q3、q4分別代表評語中教學態度、教學內容、方法手段和教學組織4個指標特征詞出現的次數。

Table 3 Characteristic words and their weights of each item in theory course表3 理論課各項目特征詞及權重
由表2 可知,根據教學綜合評價和學生綜合評價結果,把“教師教學總體評價及改進意見”列表分為雙優秀、一優一良、雙良評價3 部分,并利用Python 的jieba 函數對3部分評語內容進行詞語切片,選出3 部分重復率最高的特征詞,組成3 個不同特征詞集合,根據評語等級對特征詞集合賦予不同權重,如表4 所示。由表4 可知,在特征詞統計過程中發現雙優評語中除有雙優特征詞外,還會出現雙良和一優一良評語的特征詞,雙良評語中也會出現少量雙優評語的特征詞。為更好地確定評語等級,本文選取特征詞順序為雙良特征詞集合、一優一良特征詞集合、雙優特征詞集合,每個集合都排除前一個集合所出現的特征詞。由表4、式(2)可知,G=(0.2,0.3,0.5),d取G的均值,d=0.3。

Table 4 Characteristic words and their weights in three parts表4 3部分特征詞及權重
k值取值范圍為(0,1),若k值過大,模型精確度不高,很難區分不同等級的課;若k值過小,導致同等級別不同評語的區分度不高,造成模型精度較低。如圖2 所示,k值取0.5時模型精度最高,故本文取k值為0.5。

Fig.2 Relationship between k value and model precision圖2 k值與模型精度的關系
在參考的5 821 條高校課堂教學評價數據中,取20 門課程的評價內容分別帶入專業特征詞評分模型、大數據特征詞評分模型中,結果展示如表5 所示。由表5 可知,按專業特征詞評分模型進行求解后,1-20 條記錄的量化結果由小到大的排序為4、8、11、19、3、2、9、13、15、17、18、14、7、10、16、1、5、20、6、12。按大數據特質詞評分模型進行求解后,1-20 條記錄的量化結果由小到大的排序為4、9、3、11、8、7、10、1、6、2、20、14、19、18、5、17、16、15、13、12。將兩種方法的排序結果與教師教學綜合評價、學生學習綜合評價作對比,不同模型的結果比較如表6所示。

Table 5 Evaluation of scoring results by two methods表5 兩種方法評價得分結果

Table 6 Comparison of model results表6 模型結果比較
由表6 可知,專業特征詞評分模型精度低于大數據特征詞評分模型,結果顯示考慮否定詞的計算會提高模型精度,考慮否定詞的大數據特征詞評分模型的精度高達87.5%。專業特征詞評分模型精度較低的原因是專業特征詞評分模型按照表1 標準內容所提取出的特征詞與實際評語匹配度不高,且在實際搜索中出現頻率不高。教師進行評價時帶有自己的主觀意見,會根據自己的習慣用語書寫評論,所以利用大數據特征詞評分模型,在教師的評論中提取重復率高的特征詞,按評語所處等級賦予不同權重,模型結果與對應序號的教師教學綜合評價、學生學習綜合評價的匹配度更高。匹配度不能完全一致的原因是不同教師對同一節課帶有不同的主觀性,會出現同一節課評分不一致或類似評語評分不一致的情況。總體而言,大數據特征詞評分模型的準確度較高。通過表6 模型的精度對比可知,考慮否定詞時模型的精度更高,說明課堂教學評語的正負情感也會影響評分結果,考慮評語的情感會提高模型精度。
課堂教學評價是教師教學質量的重要參考標準,本文通過提取評語中的特征詞構建大數據特征詞綜合評分模型,將專家評語進行量化,同時也考慮到評語中出現的否定詞對模型精度的影響,有效利用專家評語作為課堂教學質量的評價參考。該方法可幫助在最終評價等級結果相同的情況下判斷出哪一節課的教學質量更好,同時能減少由于專家評價主觀性對結果造成的誤差。大數據特征詞綜合評分模型避免了課堂教學質量結果模糊、簡單的缺點,對實際教學質量的評價具有重要參考價值,可為以后提高課堂教學質量提供一種易于操作、有效、可靠的方法。