張捷 陳付龍 張佩云
摘要:高校課程教學的評價主體是學生,以學生學習為中心的教學評價模式已被眾多的機構與研究者所認可。從提升學習效果出發,學生對教師課堂教學活動進行事實性評價是被普遍接受的方法,但目前的研究多集中在如何更科學合理的設計評價細則和指標,以供學生進行評教打分。本文從學生對教學活動的直接感受出發,認為來自學生的感性評論也蘊含十分有價值的信息。通過引入基于機器學習的情感分析方法,將文字評論進行情感傾向分類,提供給教師和管理者更多的信息反饋和分析手段,是對現有教學評價系統功能進行改進的有益探索。
關鍵詞:教學評價;教學管理;教學質量;情感分析;機器學習
中圖分類號:G40-058.1 文獻標識碼:A 文章編號:1009-3044(2019)04-0184-05
Abstract: The evaluation subject of curriculum teaching in colleges and universities is students. The student-centered teaching evaluation model has been recognized by many institutions and researchers. In order to improve the learning effect, it is generally accepted that students make factual evaluation of teachers' teaching activities. However, most of the current research focuses on how to design more scientific and reasonable evaluation rules and indicators for students to evaluate teaching. This article starts from the students' direct feelings about teaching activities, believes that the emotional comments from students also contain very valuable information. By introducing the method of affective analysis based on machine learning, the text comments are classified into emotional tendencies, and more information feedback and analysis methods are provided to teachers and managers. This is a useful exploration for improving the functions of the existing teaching evaluation system.
Key words: Teaching evaluation; Teaching management; Teaching quality; Sentiment analysis; Machine learning
來自教學活動直接受眾學生的反饋評價是高校教學質量評價體系中不可缺少的一環。教學評價的目的在于反饋和交流,如何更好地分析學生對教師課堂教學的反饋,可以從大量評論性質的文本語料中入手。而目前深度學習算法在文本情感分析方面展現出優異性能,可將其移植到教學評價系統中,通過收集學生大量的直接評論來分析學生情感傾向,這將輔助教師更全面地認識課堂教學質量,并提升相關教學管理的智能化水平。
1 學生情感分析在課程教學評價中的作用
在高校教學評價和質量評估體系中,來自學生受眾群體對教師課堂教學包括實驗實訓教學的直接反饋評價是非常重要的一環。通過充分運用心理學、統計學方法以及現代信息技術手段,在準確有效地收集學生反饋信息的基礎上加以分析,可使學校管理部門和教師對教學工作有一個清楚的認識,從而找到不足并改進工作方式方法,這對教學質量的保障有著非常重要的意義[1][2]。國外早就認識到大學課程教學質量的評價主體是學生,包括面向學生設置多樣化的評價指標體系,設立專門聯系學生與教師群體的“教與學技術委員會”等,其主旨在激勵和引導教師將傳統的教授模式向更加注重交流、探究和創新的模式轉變,從而更全面的提高人才培養質量[3][4]。
近年來,國內對大學課堂教學質量及教學評價現狀的研究表明,應當充分認識到學生作為評價主體在大學課程教學質量體系中的作用。吳艷[5]等通過對十所高校開展實證調查研究,發現不同年級不同特征的學生在評價教師的教學目標、教學方法、課堂管理等指標上具有顯著差異,認為課程教學是一種復雜性的雙向交互活動,其本身因評價主體的不同展現高度的不確定性。 俞佳君[6]認為我國高教改革已經進入內涵式發展階段,教學評價面臨從“教”到“學”的范式轉型,強調了從學生學習角度出發對教學活動進行價值判斷的重要性。周湘林[7]進一步指出學生對教學活動的直接評價是更實質更真實的評價,而結合教法、學法及效用等多方面的標準才能對教師教學質量做出較為中肯、全面的評價。
在教學評價的方法上,學生參與評教并結合科學的評價指標體系已成為共識[2][3][8][9][10],并且隨著網絡化技術的普及,目前多數高校均已正常實施。我們也注意到最近涌現出的新觀點。例如郭麗君[10]認為學生評價行為與教師的教學活動和教學效果之間可通過內在的調控機制建立起聯系,而這一聯系應當是流動與循環的,即需反映教學活動與教學質量評價之間的聯動性。王朋[11]通過研究美國大學教學評價的演變,分析了“以學生為中心”、“以教師為中心”和“以學習為中心”三種評價方式的目的與核心內涵,并指出“以學習為中心”方式成為當今美國大學的教學評價主流。
“以學習為中心”的教學評價方式強調教師的教學效果與學生的學習效果,二者構成了教學活動的兩級,是既對立又統一的。我們認為結合教與學兩面的效用評價才是理想的評價方式,但因為效果往往附著于學生自身的素質和能力,包括畢業就業及發展前景等因素,操作上存有滯后性和需多元協同等困難。從利于操作的事實評價入手不失為可行的方式。以學生為主體的教學效果事實評價具有多種形式,除了傳統的學生評教和成績測評以外,我們認為還應當重視教學過程中學生對教師教學的反饋,實質上是強調單向教學范式向互動教學范式的轉變。以提高學習效果為目的,利用學生評價主體的能動性反饋課程教學活動,促進教師提升教法和教學效果,從而在“教”與“學”之間形成反饋環,這是本文的出發點。
教學評價的本質屬性是工具性,即改進—證明功能,學生評教的結果應能證明教學成效和促進教師改進教法,這是教學評價得以進行的預設性前提[12]。而其中,學生對教師的教學僅以分數來評價往往過于片面。Carrell與West[13]的研究表明,學生評教分數與學習之間僅存有非常低的相關性,甚至不存在關系。獲得較高評教分數的教師往往過于關注學生的短期學習成績,并存在應試教育或取悅學生的嫌疑;給出較高評教分數的學生往往更在意成績而非知識和技能本身,多數處于淺層學習階段[13]。學生評教分數僅可作為“消費者滿意度指數”,并不能充分證明教學的有效性,因為該數字極大地受到學生對教學認知的水平及教師外貌、興趣等其他因素的影響[14]。
評教分數本身的固有屬性是抽象性和單一性,其蘊含信息量十分有限。一種觀點認為,設計出更科學更合理的教師教學評價表,通過評價條目的完善可以改進對教學的診斷甚至建構一致性的評價指標體系[7]。我們認為在此基礎上,還需增加對學生的情感分析。歸根結底,學生作為教學服務的受眾群體,其評價內容具有更實質更接近真實情況的特點。一方面,學生群體的因為對教學評價指標體系本身的認知達不到很高的理論層次,其測評行為易于流于形式;另一方面學生如果脫離了表格的約束,其通過語言文字直接表達出來的觀點往往卻是真摯的、富有情感的。這是通過評教分數無法獲取的重要信息,其價值在于學生群體作為人的屬性變得豐滿,而人的情緒、情感等相對更主觀的因素卻可能對學習效果帶來巨大的影響。
筆者所在的單位學生評教除了依據評價表格打分以外,還要求學生對老師的課程教學直接給出評論,以短文形式提交。事實上,除了期中與期末的集中評教軟件系統,也要求教師關注其所講授課程的校內論壇網站,其上也有學生對該課程教學實時表達的觀點。這些評論短文除了技術性問題討論之外,都或多或少蘊含了某個學生在特定階段的情感特征,如果能夠運用一定的技術方法,將這些蘊含在文字內的大量情感信息加以分析并總結,對教師的教學方法、教學內容乃至溝通技巧的調整和改進十分有益。情感分析可作為教學評價系統的附加功能,輔助教師對學生產生更具體更全面的認識,做到有的放矢,從而幫助學生獲得更高的學習質量,這是本文的立足點。
從大量評論性質的文本語料中抽離出有用的信息,進行情感傾向分析屬于機器學習的范疇,它最早開始于監督學習。傳統的監督學習在早期曾取得十分好的效果,如Pang[15]等對電影評論的情感分析。Zhang[16]等比較了幾種監督學習算法,得出基于特征的N元模型(N-Gram)輸入到支持向量機(SVM)中分析效果最好。但基于監督學習的解決方案的缺點也十分明顯,包括語料庫依靠人工標注、需要基于規范文本的分析等,面對互聯網海量不規范文本數據時有很大局限。另一方面,基于無監督學習的情感分析方法也開始出現。Turney[17]于2002年率先提出一種基于種子詞的無監督學習方法,通過計算文本中詞語與種子詞中積極情感詞和消極情感詞的點互信息來判斷文本的情感極性。之后Singh[18]等根據情感強度為詞賦予不同情感值,并且考慮了否定詞、副詞等對情感極性的影響。國內趙妍妍[19]等將文本情感分析歸納為情感信息抽取、分類和檢索歸納三項主要任務。孫艷[20]等提出了基于無監督學習的主題情感混合模型,通過對句子和詞的情感標簽采樣,得到每個主題的情感詞,從而對文本進行情感分類。
2006年Hinton[21]通過利用單層的RBM自編碼預訓練使得深層的神經網絡訓練變得可能,這項研究把神經網絡又推回到大家視線中。之后深度神經網絡開始在各種識別、預測及分類問題中取得優異的成績,成為目前最受關注的機器學習算法。期間谷歌于2013年推出word2vec工具[22]用于將文本語料轉化為詞向量,在此基礎上國內開始出現利用深度學習算法對微博進行情感分析的研究[23]。而Kim[24]基于卷積神經網絡(CNN)的情感分析研究進一步提高了準確率,但其模型對于中文的分析常出現因為不能充分表達復雜微妙的深層語境而無法抽取特征的困境。針對此國內近來的中文情感分析研究愈發強調word2vec工具的重要性,即通過計算語義相似度、建立情感詞典、多特征聚類融合等word2vec功能預處理文本語料數據,從而有效提高深度學習算法的性能[25][26]。本文將采用目前最主流的機器學習算法和工具處理學生對教師教學的評價短文情感分類問題。
2 情感分析方法的具體實施
受輸入數據的格式規范所限,傳統機器學習情感分析算法在面對未經處理的大量文本語料例如互聯網評論時,往往很難發掘深層的語義信息,對發言者情感傾向分類的準確率較低。深度學習屬于機器學習領域近來最為熱門的研究方向,其在解決眾多實際問題中的性能表現使得人們相信機器學習或者說人工智能的未來在于此。
深度學習通過構建多層神經網絡對數據進行分析以有效提取相關特征,是目前比較主流的用于解決情感分析問題的方法。本文側重于使用卷積神經網絡(下稱CNN)建立學習模型,解決在網絡中學生對教師教學評論語料的情感分類問題,下面給出基本方法及實驗流程。
2.1 輸入數據處理與模型訓練
輸入到CNN中的數據呈二維矩陣形式,故需將學生評論語料進行預處理。本文主要使用的工具為上文提及的word2vec,它亦是目前主流的文本預處理工具。因為語言文字本身的數據特性,需要word2vec將每個詞轉化為詞特征向量,并將每一句中的所有詞的詞向量組成二維矩陣,作為CNN模型的輸入。假設一個句子中每個詞對應的向量長度都為k,一段評論短文中句子最多包含n個詞,則輸入矩陣維度為k×n。注意長度不夠的句子需補充k維0向量,直至矩陣滿足CNN模型處理的要求。圖1反映了使用工具將文本句子轉化為數字矩陣的過程。
為了解決訓練時存在過度擬合的問題,提高訓練后模型的泛化能力,本文一方面通過在損失函數中增加L2正則化項進行參數約束,另一方面在全連接層還使用了dropouts策略。dropouts是一種抑制過度擬合的技巧,通過隨機將一些激活值設置為0從而相對減少過擬合。dropouts層位于softmax輸出層之前的隱藏單元,限于篇幅,這里不再詳述。
2.2 實驗流程設計
本文的實驗流程設計如圖2所示。總體上可分為訓練部分與測試部分,二者均需通過由文本預處理至CNN模型處理的諸多環節。其中文本預處理環節主要使用word2vec轉化詞向量,形成詞向量矩陣提供給基于CNN的情感分類器進行訓練。訓練數據的處理及模型的構建將在本節介紹,而測試數據部分在下一節。
訓練集基于第六屆中文傾向性分析評測(COAE2014)語料庫,它由中國中文信息學會信息檢索專業委員會向高校、科研機構及社會征集而來,目的是建立并完善中文傾向性分析研究的基礎數據集和評測標準。COAE2014的數據任務5情感極性判斷所提供的語料涵蓋關于科技、食品、安全等領域,其中已人工標注好5000條數據可用于情感分類器的訓練和交叉驗證。使用該語料庫可以保證獲得足夠的且便于驗證的網絡短文本,省卻了人工對詞語進行的情感極性標注。
文本預處理的第一步是要對語料進行及去停用詞處理,一般來說即對對語料集中的雜亂的標簽和特殊符號等無意義信息進行去噪處理,使用到flashtext方法。然后進行分詞與詞性標注,使用到thulac方法。表1舉例說明了上述各步驟中間結果。
預處理后我們得到了分好的詞語以及標注好的詞性,接下來需將詞語訓練轉化為詞向量,使用的工具為word2vec。word2vec有一系列的訓練參數且具有特定含義,可以比較好地對評價評論類語料分詞進行轉化。轉化后的向量集合作為CNN模型的輸入數據。
我們使用TensorFlow1.4構建CNN模型,TensorFlow是目前主流的開源機器學習框架[27]。針對本文所要解決的問題類型,在CNN中考慮文本的上下文信息,若卷積窗口的大小設置為m,文本長度為n,則特征圖的長度自然為n+1-m。這里將窗口的大小設置為5,考慮到計算的時間長短以及準確性高低,過濾器數量經過對比設置為100,根據數據估摸本文將batch設置為50,dropouts設置為0.1,迭代次數足夠即可我們設置為10。創建權重和偏置,定義可重復使用的初始化函數。截斷的正態分布噪聲設置為0.1,標準差設為0.1。為了使用線性整流函數(ReLU)激活,給偏置增加小正值以規避死亡節點。圖3與圖4反映了在TensorFlow1.4框架下載入數據集與初始化的情形。
緊接著對兩個卷積層進行創建,使用寫好的函數進行對偏置和權值參數分別初始化。對經過兩次池化操作的矩陣進行變形,然后連接到一個全連接層。為了減輕過擬合,下面使用一個dropouts層。在訓練時,我們隨機丟棄一部分節點的數據來減輕過擬合。最后我們將dropouts層的輸出連接一個softmax層,得到最終概率輸出。
在CNN模型創建好后開始訓練過程:首先初始化所有參數,設置訓練時dropouts的keep_prob比率為0.5;然后使用大小為50的mini-batch,共進行10次訓練迭代;為了實時監測模型的性能,keep_prob設為1用以對準確率定期進行一次評測。圖6展示了上述訓練過程的設置。
3 在教學評價系統上的測試結果
本文的測試數據采集自作者所在單位面向學生的教學評價軟件系統,該軟件系統運行于校園網內,學生可在任何地點登錄網頁進行評論。測試集由本院2016-2017學年度四個年級、三個專業的共約1000名學生對30位老師課堂教學的評價語料組成。在此測試集上,除了使用工具進行必要的文本預處理及詞向量轉化外,我們還進行了最優向量維度的選擇實驗。
向量維度對于模型復雜度的影響效果是顯著的,向量維度在增加的時候,整個模型的復雜度會成倍增加,本文將對比50維度,100維度,150維度,200維度幾種不同維度的二維詞向量矩陣,采用十折交叉法得到,即將樣本分成10等份并分別進行兩組實驗,最終結果取10次實驗結果的平均值。
如圖7所示,根據訓練詞向量在50維度,100維度、150維度和200維度的準確率比較,認為維度最優值是100。在此基礎上,我們對30位教師約40門專業課程進行了學生評價短文的情感傾向分析。我們將結果展現到每位相關教師的個人頁面,根據單個情感傾向分類結果統計為整體學生情感傾向。為了給教師比較好的觀感,該結論將間接地以詞云圖顏色表示。例如較為正面的顯示為紅色,顏色越深說明學生的評價越高;隨著顏色變淡直至灰色,說明總體評價不高。圖8為直接在TensorFlow1.4框架下對應一位教師一門課程生成的詞云圖,可以看出該教師在這門課程中得到了偏向正面的評價。同時詞云圖中各個詞的詞頻也易于觀察,教師可從中得到學生對其教學活動的直接反饋信息。
在測試集上,為了驗證本文情感分析方法的性能,我們使用標準的情感分類評級方法標注了每條數據(評價短文)的極性。同時也輔以學生最終的評教分數作為驗證(按大于95分:優,85至95:良,75至85:一般,小于75其他計,并認為優與良是正面評價,其余則相反)。隨后我們做了與其他模型的對比實驗。在詞向量的維數默認為100的前提下,本文選擇了如下這些模型或方法:
l SVM(支持向量機):選取PLSA作為情感特征,使用TF-IDF計算特征值,并利用libSVM工具進行分類工作;
l SVM+詞性:增加詞性特征,去掉部分無用的虛詞;
l RNN(循環神經網絡):除了使用簡單RNN模型訓練分類器,其余與本文相同;
l RNN+詞性:增加詞性特征,去掉部分無用的虛詞;
l LSTM(長短時記憶單元):除了利用含LSTM單元的RNN訓練分類器,其余與本文相同;
l LSTM+詞性:增加詞性特征,去掉部分無用的虛詞;
l CNN+Rand:在文本預處理后,使用隨機初始化方法構造詞向量,輸入至CNN模型進行訓練;
l CNN+Rand+詞性:隨機初始化構造詞向量,并去掉無意義虛詞,輸入模型中進行訓練;
l CNN+word2vec+詞性:本文方法。
表2是上述模型或方法在本文測試數據集上的性能表現,即對教學評價系統上的學生評價語料的分類預測性能。
在表2中,根據COAE官方建議,評價指標選擇了如下三個:
l 準確率(precision):表征模型對樣本分類的正確的比率,該指標越接近1越好;
l 召回率(recall):表征模型對樣本的識別程度,該指標越接近1越好;
l F值(F-measure):是準備率與召回率的綜合,該值越高說明模型性能越好。
在表中可以直接看出本文方法在三個指標中均取得最優,說明此方法相對其余方法更適合處理互聯網短文情感傾向分類工作。通過比較幾組含詞性與不含詞性方法間的性能發現,考慮詞性特征,即去除那些對文本情感影響不明顯的虛詞提升了分類準確率,說明語料中廣泛存在的虛詞對網絡短文本的情感傾向性影響不大甚至有副作用,建議在后續的教學管理系統中直接增加剔除虛詞的業務。
比較傳統的SVM模型與深度學習模型可以看到,CNN及簡單RNN和LSTM的準確率相較于傳統分類預測方法有顯著提升,其主要原因是深度學習算法可以通過神經元層數的增加擁有更強的學習能力,尤其在特征提取上這相較于傳統學習算法具有更大的算力優勢。這說明本文選擇的情感分析工具和方法是有效的。
4 結論
通過為傳統的教學評價環節引入基于深度學習的情感分析方法,提供給教學評價工作者新的分析工具與管理思路。同時,情感分析的結果也有助于教師更全面地更直觀地了解來自其教學活動受眾的反饋信息。我們認為學生的評教反饋信息不應僅是以往冷冰冰的評教打分,還可以以數據處理及融合的方式直接展現給教師,這將有助于在“教”和“學”之間建立起互通的渠道,從而進一步提高教學活動的質量。
參考文獻:
[1] 魏紅. 我國高校教師教學評價發展的回顧與展望[J]. 教師教育研究, 2001, 13(3):68-72.
[2] 蔡敏, 張麗. 大學生參與教師教學評價的調查研究[J]. 高等教育研究, 2005(3):69-73.
[3] 藍江橋. 中美兩國大學課程教學質量評價的比較與思考[J]. 高等教育研究, 2003(2):39-42.
[4] 張虎生, 李聯明, 王運來. 美國斯坦福大學的本科教學與啟示[J]. 江蘇高教, 2004(5):115-117.
[5] 吳艷, 陳永明. 大學課堂教學的現狀分析及思考——基于全國十所高校的實證調查[J]. 高教探索, 2015(11):88-93.
[6] 俞佳君. 以學習為中心:高校教學評價的新范式[J]. 高教探索, 2016(11):11-15.
[7] 周湘林. 以學生學習為核心的高校教師教學評價方法創新研究[J]. 現代大學教育, 2017(1):93-97.
[8] 駱蘭, 薛艷, 唐國強. 論高校課堂教學質量評估指標體系的構建[J]. 高教探索, 2006(6):55-56.
[9] 劉麗娜, 杜艷秋, 羅玉萍. 大學教師教學評價:發展邏輯、體系構成及多元協同[J]. 江蘇高教, 2018(1):44-48.
[10] 郭麗君. 教育生態視閾下的高校教學評價問題研究[J]. 湖南農業大學學報:社會科學版,2017, 18(4):91-94.
[11] 王朋. 學生·教師·學習:美國大學教學評價的路徑演變——基于約翰·比格斯的3P教學模型[J]. 高教探索, 2017(10):52-57.
[12] Tran N D. Reconceptualisation of Approaches to Teaching Evaluation in Higher Education[J]. Issues in Educational Research, 2015, 25(1):50-61.
[13] Carrell S E & West J E. Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors[J]. Journal of Political Economy, 2010, 118(3):409-432.
[14] McNatt D B. Negative Reputation and Biased Student Evaluations of Teaching: Longitudinal Results from a Naturally Occurring Experiment[J]. The Academy of Management Learning and Education, 2010, 9(2):225-242.
[15] Pang T B, Pang B, Lee L. Thumbs up? Sentiment Classification Using Machine Learning[J]. Empirical Methods in Natural Language Processing, 2002:79-86.
[16] Zhang Z, Ye Q, Li Y, Law R. Sentiment Classification of Online Cantonese Reviews by Supervised Machine Learning Approaches[J]. International Journal of Web Engineering & Technology, 2009, 5(4):382-397.
[17] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of Annual Meeting of the Association for Computational Linguistics, 2002:417-424.
[18] Singh P V, Sahoo N, Mukhopadhyay T. Seeking Variety: A Dynamic Model of Employee Blog Reading Behavior[J]. Ssrn Electronic Journal, 2010, 1617405.
[19] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8):1834-1848.
[20] 孫艷, 周學廣, 付偉. 基于主題情感混合模型的無監督文本情感分析[J]. 北京大學學報(自然科學版), 2013, 49(1):102-108.
[21] Hinton G E,Salakhutdinov R R. Reducing The Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-507.
[22] Mikolov T. Word2vec Project[EB/OL]. [2014]. https://code.google.com/p/word2vec/.
[23] 梁軍. 基于深度學習的微博情感分析[J]. 中文信息學報, 2014, 28(5):155-161.
[24] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[25] 陳昀. 基于多特征融合的中文評論情感分類算法[J]. 河北大學學報(自然科學版), 2015, 35(6):651-656.
[26] 黃仁, 張衛. 基于word2vec的互聯網商品評論情感傾向研究[J]. 計算機科學, 2016, 43(s1):387-389.
[27] Abadi M, et al. TensorFlow: Large-scale machine learning on heterogeneous systems[EB/OL]. [2015]. https://tensorflow.org.
【通聯編輯:王力】