嚴霞 張琨



摘? 要: 教學評價情感特征不明顯,復雜句式使用較多,而傳統的情感分析方法往往忽略對復雜句式的分析。針對評教文本上述特點,提出一種基于情感詞典的情感分析方法,該方法基于評教領域情感詞典,融合復雜句式特征,定量計算文本的情感強度。將該方法應用于南京理工大學研究生綜合管理信息系統中的評教文本,實驗結果表明,所提方法有效地解決了評教文本的情感分類問題,具有較強的實用性。
關鍵詞: 評教; 情感分析; 教學質量; 情感詞典
中圖分類號:TP391.1? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)01-51-04
Abstract: The emotional characteristics of teaching evaluation are not obvious. The more complex sentence patterns in teaching evaluation text are usually ignored by traditional algorithms. According to the characteristics of teaching text, a sentiment analysis algorithm based on sentiment dictionary is put forward to solve the problem. The proposed algorithm fuses complex sentence on the basis of domain-extended dictionary to quantify the emotional intensity. The algorithm is used in the evaluation texts of the postgraduates' comprehensive management information system in Nanjing University of Science and Technology. The final results show that the algorithm effectively solves the problem and has strong practicability.
Key words: teaching evaluation; sentiment analysis; teaching quality; sentiment dictionary
0 引言
學生是接受教育的對象,對教學質量有著直觀清晰的感受,評教信息能有效反應課程的質量情況[1]。隨著研究生培養規模和培養類型的不斷增加,評教數據與日俱增,教師和管理者很難通過人工方式處理海量評論的情感分類問題[2]。因此,從大量評教文本中高效自動提取出有價值的信息成為亟待研究的課題。
本文針對評教文本情感傾向不明顯,建議性評論數量大,復雜句式使用多等特點,提出一種基于評教領域情感詞典,融合復雜句式特征的情感強度計算方法,并根據建議詞表,自動抽取出評教文本中的建議性評價。以南京理工大學信息系統中產生和存儲的評教數據作為研究對象,驗證其有效性和科學性。
1 國內外研究現狀
文本情感分析旨在運用機器學習算法或基于語義詞典的分類方法分析海量評論的情感類別[3]。基于機器學習的分類方法主要是通過訓練樣本完成褒貶分類器的訓練,然后通過分類器自動判斷評論信息的正負情感傾向[4]。李燕玲[5]將改進的SVM算法應用于廣西大學的評教文本中,進行教學質量的預評估,并通過實驗驗證了該算法的可行。Yu B[6]等人針對分類精度有限的問題提出了一種結合字符和詞的雙輸入卷積神經網絡模型CP-CNN來提高分類效果。基于機器學習的情感分類算法存在處理過程復雜、準確率受數據集影響大等問題,而評教文本驗證數據集相對較小,準確率很難達到讓人滿意的效果。
基于語義詞典的分類方法是利用情感詞典識別待分析文本中表達或影響主觀情感的要素,通過數值化形式展現,并將得到的情感值累加起來獲取文本的整體情感類別。劉若蘭等[7]從網絡爬取教材在線評論文本,將建材領域的情感用詞加入到通用的情感詞典上,設計適合教材評論的情感分類算法,并通過實驗驗證了算法的有效性。陳開望[8]使用語義相似度算法構建適用于評教文本的情感詞典,將情感強度和極性數值量化,研究并實現了基于情感詞統計的情感分類算法。
此外,現有的基于語義詞典的方法缺乏對復雜句式的分析。因此,本文結合評教領域特有詞匯和評價相關網絡詞匯擴展基準詞匯,構建適用于評教文本的情感詞典,并基于否定詞表、程度詞表、轉折復雜結構詞表,設計適合評教文本的情感程度計算方法。
2 情感分析算法與建議抽取
2.1 數據預處理
2.1.1 數據清洗
評教文本具有隨意性和主觀性,非書面和非規范用語多,如:同音異字、錯別字、拼音表達的評論等。此外,語料中摻雜冗余評論、無價值評論(如“無”,“……”等)。如果不對這些噪音數據加以處理,則會導致語料分詞、詞性標注產生錯誤,勢必會影響分析結果的準確性,因此,執行分詞操作前,先要執行對原始數據的去噪操作。本文的去噪處理主要包括剔除無價值的評論和冗余評論、拼音替換、錯別字糾正、繁簡轉換等。
2.1.2 文本分詞
文本分詞是利用工具或算法將句子分割成單獨詞的過程[9]。分詞結果的準確性對后續情感分析有著不可忽視的影響。目前的分詞技術已取得很大的成功,準確率得到了大幅度提高,已有很多成熟的分詞工具供開發者使用。本文采用哈爾濱工業大學研發的自然語言處理工具(language technology platform, LTP)來進行分詞,該平臺提供了中文分詞,詞性標注、語義依存分析等功能。在分詞準確率測評中,LTP在很多數據集上都優于其它分詞系統。
2.1.3 評教領域情感詞典構建
國內已經整理出很多實用性強的情感詞典,其中使用最為廣泛且最具權威的是董振東教授編著的知網情感詞典。2007年,知網發布了最新版本“情感分析用詞語集(beta版)”,本文采用該詞語集中的評價詞典作為基準詞典,基準詞典共有6846個評價詞語,正面3730個,負面3116個。教學評價中含有的一些領域詞匯還尚未納入通用情感詞典中,如:層次分明,治學嚴謹,偏題,照本宣科等,將這些詞加入情感詞典,并人工標注其情感極性。此外,隨著互聯網的發展,“給力”“不忍吐槽”等網絡流行用語層出不窮,我們將與評論相關的常用的網絡詞加入基準詞典,形成評教領域情感詞典。
2.2 情感分析算法
2.2.1 特征選擇
本文選取四個特征作為識別情感和判別情感強度的要素:情感特征、程度副詞特征、否定詞特征、復雜句式特征。
⑴ 情感特征
情感特征是指評教文本中帶有正負情感表征的有代表性詞匯,觀點或情感大多由情感特征來展現[10]。因為教學評論字數很少,往往不超過200字,所以正負面情感詞更是決定了情感的傾向。為了定量表示詞匯的情感極性,使用數值1、-1、0來分別定量表示正、負以及中性情感特征詞匯。
⑵ 程度副詞特征
程度副詞特征用于判別情感強度。評教文本中含有大量的抒發自己感情的評論,如“老師講課特別認真”,“這門課有點難,要投入更多時間”。情感程度被定為好或一般,其差異很大程度上取決于程度副詞的使用。漢語中的程度副詞不多,可以逐個列舉出來。藺璜[11]列出85個常見程度副詞,并將其歸至到更加細致的7個分類。本文以知網中文情感分析用詞中提供的程度級別詞語為基準,參考藺璜的常用程度副詞分類表,人工整理了一份程度副詞,并按強度不同將程度副詞分為了三個級別,表1展示了三個級別作用與權重。
將程度副詞的修正系數與其修飾的第一個情感詞的值相乘。程度副詞e對第i個情感詞的修正系數de(i)定義為:
其中,e為第i個情感詞起往前特定長度內檢索到的第一個程度副詞,de(i)為程度副詞e對第i個情感詞強度的權重,M,N分別為第一級別和第三級別程度副詞的集合。
⑶ 否定詞特征
否定詞在評教文本情感傾向性判斷上有著重要影響,被奇數個否定詞修飾的情感詞會反轉其原有的極性。根據評教語料庫,參考郝雷紅[12]對否定副詞范圍的界定,整理出18個常見的否定詞。評教文本中可能含有多重否定的句子,若有奇數個否定詞修飾情感詞,則將該情感詞極性值乘以-1,若有偶數個或無否定詞修飾,則該情感詞極性保持不變。否定詞對第i個情感詞的修正系數定義為ne(i):
其中,cn為修飾第i個情感詞的否定副詞個數。
⑷ 復雜句式特征
根據句子的結構可以將中文文本分為簡單結構和復雜結構。簡單結構文本由主謂賓構成,結構簡單,情感極性單一。復雜結構文本由多個單句通過連接詞組合,各單句情感極性可能不同的文本,如“雖然老師布置的作業有些多,但這個課程讓我受益匪淺”,句子的情感極性更加偏向于“但是”引出的單句極性,因此分析評教數據極性更加需要考慮復雜句式。本文暫不考慮復雜句式中前后單句極性相同的連接詞,給極性相反的連接詞建立轉折詞表,如“……,但”、“……,卻”、“……,只是”、“即使……,也”、“雖然……,但是”等。
算法中,將文本模式分為兩種模式,無轉折復雜結構模式中,文本傾向與情感詞典分析極性相同。有轉折復雜結構模式中,評論文本情感值等于第二個關聯詞后文本的情感值。
2.2.2 情感分析
評教文本大多由多個句子組成,而前后句子的情感極性很多是不一致的,但往往單句內的情感傾向是一致的。因此本文將一條評論分成多個段,段之間由逗號、句號、感嘆號等隔開,若單段內含有轉折連接詞,則連接的兩段合并為一段處理。以段為獨立分析單元,先使用分詞工具將單段分詞。對于確定為情感詞的詞語,將該情感詞分值與程度副詞修正系數、否定修正系數相乘得到部分情感值,然后將獨立單元內所有部分情感值相加,從而得到該段情感值。獨立單元的情感強度和極性由情感值的大小和正負表示,情感分值大于零,則將該段歸類為正面情感,且絕對值越大,情感極性越強。評論的正面情感值則是評論各個情感值為正的獨立單元值相加,負面情感值為評論的各個情感值為負的獨立單元值相加,該評論的情感值由正負面情感差決定。獨立單元情感分值的計算方式如下:
其中qi為第i個情感詞的情感極性,正情感傾向,qi=1,負情感傾向qi=-1,ne(i)表示修飾該情感詞否定特征對qi取值的影響,de(i)表示修飾該情感詞的程度副詞對情感強度的影響,圖1為獨立單元的情感分值計算流程圖。
評論實例:“雖然選這門課程同學不是很多,但是老師每次講解都很細致,收獲很大”。分詞后數據為:“雖然/c選/v這/r門/q課程/n同學/n不/d是/v很/d多/a,/wp但是/c老師/n每/r次/q講解/v都/d很/d細致/a,/wp收獲/v很/d大/a”。轉折復雜結構判斷后分析數據為:“老師/n每/r次/q講解/v都/d很/d細致/a,/wp收獲/v很/d大/a”。該評論的情感分值:
2.3 建議提取
學生評價中有直接帶強烈感情色彩的,也有中肯建議的。建議性評論是學生評教中的重要組成部分,是教師與學生進行交流的重要方式。把建議提取出來反饋給教師本人,有助于提高教學質量。參考知網發布的“情感分析用詞語集(beta版)”中的主張詞表,根據中文用語習慣和語料庫,人工整理了26個帶有建議特征的詞語,包括“希望,更好,建議,可以……更,能夠”等,形成建議詞表。根據構建的建議詞表,采用匹配法抽取出評論文本中的帶建議信息的評論。
3 結論
實驗文本選取南京理工大學研究生綜合信息系統存儲的4620條非空評教數據。在數據清洗階段去除相似、無意義、冗余的評論后剩余2727條,經過人工逐條識別,具體數據信息如表2所示。
所有評價中帶有建議信息的評論有418條。將評論文本前后均為肯定的情況標注為正情感傾向,文本前后均為否定的情況標注為負情感傾向,一條評論中若包含兩種情感的取其中一種較為明顯的,若正負情感差值小(算法中Q<閾值y,y暫且設置為2),則歸為中性情感傾向。評論前后各段均為提建議的也統一標注為中性情感傾向。圖2為南京理工大學研究生綜合管理信息系統的一門課程前5條評教文本,其中1,4為正面情感傾向文本,5為負面情感傾向文本,2,3為中性情感傾向評價,帶有建議信息評價有2,3。
為驗證算法準確率,忽略情感強度,只判斷極性。采用常用指標精確率P(precision),召回率R(recall),準確率A(accuracy)對所獲得的結果進行檢驗。
其中判定正面情感樣本中,TP(True Positive)表示判斷正確的數目,FP(False Positive)表示判斷錯誤的數目。判定負面情感樣本中,TN(True Negative)表示判斷正確的數目,FN(False Negative)表示判斷錯誤的數目,得到結果如表3所示。
與傳統的基于詞典的情感計算方法相比,本文提出的計算規則準確率得到提高。算法還存在以下問題。
⑴ 若閾值y設置過大,則會降低正負情感評論分類的準確率,若閾值y過小,則會影響中性情感傾向評論的準確率。
⑵ 基于詞典的分類算法準確率很大依賴于情感詞典和判斷規則的質量。
⑶ 隨著時代的發展,網絡新詞、舊詞新意使原有詞典中的詞匯不適用于新語言環境,算法推廣擴展能力差。
因此,在進后的學習中,需要探索擴展性強,準確率更高的方法,使評價分析結果更加客觀、科學。
參考文獻(References):
[1] 教育部:更好發揮課程學習在研究生培養中的作用[J].中國大學生就業,2015.5:12-13
[2] 邢政權. 高校學生評教制度存在的問題及改革研究[D].西北農林科技大學,2017.
[3] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010.21(8):1834-1848
[4] Chen J Q, Zhang Y. Text Sentiment Analysis Based on Neural Networks with Language Model[J]. Modern Computer,2018.
[5] 李燕玲. BT-SVM多分類算法在教學質量評價中的應用[D].廣西大學,2014.
[6] Yu B, Zhang L, Management S O. Chinese short text classification based on CP-CNN[J]. Application Research of Computers,2018.
[7] 劉若蘭. 教材在線評論的情感傾向性分析研究[D].新疆師范大學,2017.
[8] 陳開望. 數字校園中文本情感傾向性計算方法研究[D].北方工業大學,2015.
[9] 孔希希,廖述魁,程兵.基于不同分詞模式的文本分類研究[J].數學的實踐與認識,2018.48(01):116-123
[10] Li Y, Shen B. Research on sentiment analysis of?microblogging based on LSA and TF-IDF[C]// IEEE International Conference on Computer and Communications. IEEE,2017:2584-2588
[11] Lin H, Guo S H. On the Characteristics, Range and Classification of Adverbs of Degree[J]. Journal of Shanxi University,2003.
[12] 郝雷紅.現代漢語否定副詞研究[D].首都師范大學,2003.