







[摘 要]教育信息化的快速發展,各個網絡學習平臺上的文本情感數據迅速增長,在線文本數據的情感研究廣受關注,但開放教育在線文本數據情感分析的研究較少。文章針對現有研究的不足,通過檢索、分析,闡述研究價值,介紹當前廣泛用于文本情感分析的方法,構建了樸素貝葉斯分類模型,采用此模型進行開放教育在線文本數據情感傾向分析。根據分析結果,管理者可以采取合理的干預措施,為完善教學平臺、提高在線教學的質量提供借鑒。
[關鍵詞]開放教育;在線文本;機器學習;情感分析
[中圖分類號]TP391.1 [文獻標識碼]A [文章編號]1008-7656(2023)02-0016-06
引言
開放大學是我國開展繼續教育的重要力量,在加快建設學習型社會、大力提高國民素質的背景下,怎樣提高開放教育學習者的在線學習質量和學習效果成為各界關注的熱點。
以往開放教育的學習評價、效果評估,通常是采用一些結構化數據分析技術,如分析網上的行為數據,包括登錄天數、發帖數、形考等。但是,對于一些非結構化、交互式的在線文本數據,如課程評論、聊天群文本、論壇等數據缺乏相應研究。這些在線文本數據反而更能貼切地反映出開放教育學習者在網絡學習平臺學習時所關注的話題及情感傾向[1]。
以關鍵詞“文本數據”“Text Data”在中國知網和萬方數據庫進行檢索,總共檢索到文獻31 013篇,再以關鍵詞“情感分析”檢索到文獻527篇如下頁圖1所示,再以關鍵詞“開放教育”檢索到文獻1篇。從“文本數據—情感分析”為關鍵詞檢索到的文獻結果示意圖中可以看出,以文本數據進行情感分析來改善教學平臺、提升學習者的學習效果和學習質量、開展課程評價的文獻占比不足10%,應用于開放教育的文獻不多,基于文本數據進行開放教育情感分析的研究更少。
通過對開放教育在線文本數據情感傾向研究,探索教師、學生使用學習平臺參與線上教學過程中的情感態度。在理論上對師生情感的問題進行歸納和總結,尋找有效的干預措施,旨在為提高在線教、學質量提供幫助;為學習平臺的優化提供建設性意見;為管理者進行教學監督、質量監控提供非結構性數據參考;為同類型的學習平臺進行網上學習產生的文本數據情感分析提供可參考的研究方法。
一、研究設計
(一)方法理論
在線文本的情感分析是指通過對在線文本數據進行量化,找出文本數據隱含的情感態度和觀點,探索用戶的情感傾向。常用的文本情感分析方法有情感詞典分析方法和機器學習方法。
基于情感詞典的情感分析方法是通過對文本數據中的每一個情感詞與人工構造的情感詞典進行比較,然后計算出情感詞數量,再根據情感得分計算規則算出文本數據的情感得分,最后得出文本數據的情感類別。情感詞典是人工采集建立的。采用情感詞典進行文本數據情感分析時,詞典的質量直接影響文本數據情感分析的質量,因此,需要根據情感分析的需求不斷地更新和完善現有的情感詞典。但是,基于各行業的專用詞語、網絡新興的詞語不斷涌現,僅通過人工數據需求來擴充情感詞典,不僅耗時耗力,也難以囊括所有的詞語。
基于機器學習的文本數據情感分析方法是利用幾個經典的機器學習算法,由人工提取文本特征,利用計算機按照特定的算法進行文本處理與情感分類。這種方法具有以下兩個優勢:第一,可以有效地減少研究人員的工作量及情感分析過程中的一些感性判斷;第二,可以根據數據庫的變化動態地對詞庫進行更新,具體方法如下。
1.支持向量機
支持向量機是定義在特征空間上間隔最大的二分類算法。可理解為求解凸二次規劃的問題 [2]。簡而言之,就是解凸二次規劃的最優化過程,解是一個最優超平面,這個解到兩邊間隔距離最大,如圖2所示。
其中,“wx+b=0”為分類超平面,這種超平面的解是無窮多的,情感判定的過程就是要求解間隔最大的分類超平面。若要處理的數據集是文本數據(非線性的),求解的過程中需要把文本數據由低維空間映射到高維空間,這樣就可以把需要處理的數據由非線性轉換成高維的線性數據來處理,更容易求解。
2.樸素貝葉斯分類算法
樸素貝葉斯分類算法是基于貝葉斯理論和特征條件獨立假設的分類算法。它在貝葉斯的基礎上作了一些改進。兩者的區別在于,樸素貝葉斯認為,一個特征的出現概率與其他的特征屬性是否出現無關。傳統的機器學習算法普遍應用于情感分類,針對文本數據數量不大的,樸素貝葉斯分類器在文本數據情感判別方面分類效果好、算法復雜程度低[3] [4]。
定義文本數據qk={q1,q2,..., qn},文本數據的情感類別為C= {C正,C負},C正為正面,C負為負面。文本數據情感類別的計算公式為(1)。
其中,公式(2)計算的是情感類別的先驗概率,qtk(qi)為聊天記錄文本qk中詞qi的權值,公式(3)為情感類別的后驗概率,NUM(Cj)為屬于情感類別Cj的聊天記錄文本數。
3.決策樹
決策樹是一種常用的分類方法,它是一種樹形結構,每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。
此方法采用樹形結構進行情感傾向分析,它是一種有監督的分類學習算法。非葉子節點是屬性的測試,邊為測試結果,葉子節點為判定后的情感類別。判定過程如下:自根節點起,逐個判定條件分支,確定情感類別,直到某葉子節點,該葉子節點的類別就是文本的情感類別。
(二)研究思路
下文主要從情感分類模型的構建和開放教育在線文本數據的采集與分析兩個方面加以介紹。
情感分類模型的構建:使用公開數據集,隨機分為訓練集與測試集兩部分,訓練分類模型。通過對比模型分類準確率,選取分類效果較好的模型進行文本數據情感分析。
開放教育在線文本數據的采集與分析:數據采集后,首先進行文本預處理和文本向量化,然后運用分類模型進行文本情感傾向分析,具體采用的技術方法如圖3所示。
(三)文本情感分類器構建
1.數據集
用于情感分析的文本數據一般是通過網絡爬蟲獲取或是人工制作,數據集建立的過程耗時耗力,為了方便研究,從網絡獲取現有ChnSentiCorp_htl_all數據集進行模型訓練。 此數據集是某酒店評論文本數據,數據字段(Label,數值1表示正面評論,數值0表示負面評論)和評論內容(Review),共采用7 000條評論數據,正面數據5 000條,負面數據2 000條。數據格式如表1所示。
2.文本預處理
經過文本數據預處理過程,將文本數據處理成計算機便于識別的自然語言。預處理過程主要包括以下幾個步驟:第一,數據清洗,將采集數據中的圖片、語音、視頻、系統消息等無效本文、重復文本數據進行剔除;第二,分詞,使用比較成熟的Python中jieba分詞庫對文本進行分詞操作;第三,使用已有的停用詞詞庫去除數據中容易影響情感分析的無用、停用詞。
3.文本向量化
采用Word2vec中的連續詞袋模型[5],通過對給定語料庫的學習,生成不同維度的詞向量,滿足文本情感傾向性分類要求。詞袋模型有分為三層:第一層為輸入層,輸入當前詞W前后的n個詞向量;第二層為隱藏層,將輸入層的2n個詞向量進行累加;第三次為輸出層,輸出層為一棵二叉樹,以詞庫中的詞作為葉子結點,以詞頻為權重計算出來的概率最高的詞向量。
4.模型訓練
用三種機器學習算法訓練模型。使用train_test_split函數將原始數據集按照8∶2的比例進行隨機劃分成訓練集和測試集。文本數據較多的作為訓練集進行模型訓練,數量少的作為測試集擬合模型,數據代入模型進行訓練,計算模型準確率。訓練過程重復進行60次,得到60個訓練集和測試集準確率,計算60次結果的平均值[6],結果如表2所示。
由表2可以看出,決策樹模型在訓練集上的準確率為0.914 2,結果較好,但在測試集上的準確率為0.826 3,在三種訓練模型中排最后。支持向量機模型在訓練集、測試集的準確率為0.910 8、0.887 5,訓練結果都不錯。使用樸素貝葉斯訓練出來的模型在訓練集準確率為0.901 3,測試集準確率為0.900 7,在三種模型中最好。對比三種模型訓練結果,樸素貝葉斯模型在兩個數據集上的訓練結果都較好,數值比較接近。因此,開放教育在線文本情感分析最終采用樸素貝葉斯模型。
二、開放教育文本數據情感分析
(一)數據獲取
2022年10月26日,筆者從 “一網一平臺-安徽分部”在線服務聊天群中導出自群建立以來的聊天記錄,總共9 747條。通過txt、word、execl等處理工具進行去段落標記、空格,分列,形成一條聊天數據一行記錄,再對一些聊天中的圖片、語音、視頻、系統消息等無效聊天本文、重復聊天文本數據進行剔除,得到有效文本數據6 139條[7]。
(二)數據處理與分析
對有效文本數據進行預處理和文本向量化,選擇樸素貝葉斯模型進行文本情感傾向分類,模型輸出結果為正面情感文本和負面情感文本。
1.正面、負面情感文本統計
基于樸素貝葉斯模型的開放教育在線文本情感傾向分析,得到的正面情感文本、負面情感文本數量按月統計后如表3所示。可以看出,每個月的正面文本數量高于負面,師生在群里進行交流時情感還是偏于正面。
2.負面情感分析
可以對負面情感文本數在總文本數量中占比進行分析,橫向為時間,縱向為負面情感在總文本數中的百分比。2022年3月份負面情感傾向占比最少,2022年10月份負面情感傾向占比最多。2022年3月至7月負面情感文本占呈遞增趨勢。3月份處于春季學期開學、平臺啟用前期,師生剛進入平臺教、學過程。隨著學期的推進,教、學過程的深入,負面的情感增多。8月份負面情感文本占比驟降,原因可能是春季學期結束進入暑假,教師和學生使用平臺教、學頻次減少,呈現的負面情感少。9月份秋季學期開學,9月到10月負面情感文本占比呈上升趨勢。可以看出,負面情感占比和學期的周期性之間呈現一定的規律性。
按時間順序對負面情感文本中出現頻次在前五位的詞語進行匯總分析,如表4所示。
可以看出,在平臺使用初期(3月),負面情感主要出現在賬號注冊、權限分配、平臺管理、登錄、使用等方面;學期中(4月—5月、9月—10月),隨著教、學工作的深入,負面情感主要集中在課程、選課、作業、成績、系統穩定、數據異常等方面;學期末,面臨學期結束和新學期的到來,負面情感集中在成績,招生、照片采集、學籍等方面。整個文本中出現次數較多的詞匯為“系統”“課程”“注冊”“照片”。可見,在系統的穩定、課程學習、課程注冊、照片采集等方面,負面情緒比較集中。
開放教育在線文本情感整體傾向偏于正面,負面情感傾向所占比例不高。但是,負面文本占比最高月份(10月)超過20%,數據采集日期截至10月26日,學期還在進行中,隨著教、學過程的深入,后期負面情感文本占比可能還有增長。管理者可以有針對性地采取一些干預措施緩解師生的負面情緒。
三、結語
通過了解開放教育文本數據情感分析的研究現狀,闡述對開放教育在線文本進行情感分析的重要性,構建了樸素貝葉斯分類模型,并采用該模型進行開放教育在線文本情感傾向的分析。針對負面情感傾向以及發生的時間順序,管理者可以有針對性地采取一些措施來緩解師生的負面情緒。一是學期前,進行系統性能優化、平臺功能完善。對平臺功能、性能進行測試、完善,減少在平臺使用過程中因平臺功能缺失、系統故障、數據同步等問題導致師生負面情感出現,保障學期進行中平臺的穩定運行、教與學過程的順利開展。二是提高服務意識。基層平臺運行與維護的專職人員有限,多數是兼職平臺技術支持,解決平臺問題占用大量工作時間,影響了工作效率。建議多從基層工作人員角度考慮問題,并及時處理出現的問題;難以及時處理的問題,應第一時間進行情緒安撫,避免由正常情緒下的問題反饋轉化為無人回應的負面情感發泄。三是定期組織操作培訓。新平臺使用過程中,多數負面情感是因為不熟悉平臺功能導致操作不當引起的。建議在整個學期分層次、分階段、有針對性地開展平臺使用培訓,提升師生在教學過程中的教學體驗,提高在線教學的質量。
[參考文獻]
[1]Zhang D,Xu H,Su Z,et al.Chinese comments sentiment classification based on word2vec and SVMperf[J]." Expert" " Systems" "with" Applications,2015,42(4):1857-1863.
[2]羅玉萍,潘慶先,劉麗娜,等.基于情感挖掘的學生評教系統設計及其應用[J].中國電化教育,2018(4):91-95.
[3]王澤辰,王樹鵬,孫立遠,等.基于情感對象識別和情感規則的微博傾向性分析[J].北京航空航天大學學報,2022(2):301-310.
[4]辛雨璇,王曉東.基于文本挖掘的電影評論情感分析研究[J].牡丹江師范學院學報(自然科學版),2021(1):25-28.
[5]MikolovT,Chen K,Corrado G,et al. Efficientestimation of word representations in vector space[J].Computer Science,2013(1):47-61.
[6]侯佩玲.云岡石窟景區在線評論文本情感分析研究[D].大連:東北財經大學,2022:22-26.
[7]張黎娜,張月蓉,童敏,基于成人學習者在線文本數據的挖掘和情感分析.安徽開放大學學報,2022(2):93-96.
[作者簡介]張黎娜,安徽開放大學工程師,碩士,研究方向:數據挖掘、情感分析;檀娟伢,安徽開放大學工程師,碩士,研究方向:數據挖掘;李梅,安徽開放大學工程師,碩士,研究方向:計算機軟件與理論;董露露,安徽開放大學講師,碩士,研究方向:自然語言處理、數據挖掘。
[責任編輯 方 仁]
[基金項目] 安徽省高校自然科學研究重點項目 “基于成人學習者網上課程討論區的數據挖掘和情感分析”(編號:KJ2020A1220);安徽省高校自然科學研究重點項目“基于數據挖掘技術的個性化學習模式研究”(編號:KJ2020A1218)
[收稿日期] 2023-02-16