鄭安琪 王宇琪 郝川艷
摘? 要: 通過分析在線學習平臺中的教育文本,能挖掘其所蘊含的情感、認知等信息進行學業預測。然而目前在線學習成績預測大多基于結構化數據,難以深入、精準地挖掘學習者的狀態、情感等信息,影響到預測的準確性。采用深度學習技術,其中CNN模型能夠有效提取局部特征,而LSTM模型能夠考慮全局文本順序的優勢,能對教育短文本數據進行分類和細粒度情感傾向分析,挖掘其包含的影響學習成績的因素,實現對在線學習成績的有效預測。
關鍵詞: 深度學習; 成績預測; 文本分析; 教育數據挖掘; 情感分析
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)12-69-04
Abstract: By analyzing the educational texts in the online learning platform, the emotional and cognitive information contained in them can be mined to make academic achievement prediction. However, at present, online academic performance prediction is mostly based on structured data, which makes it difficult to excavate learners' state, emotion and other information deeply and accurately, thus affecting the accuracy of the prediction. Adopting deep learning technology, in which CNN model can effectively extract local features and LSTM model has the advantage of considering global text order, can classify educational short text data and analyze fine-grained emotional tendency, mining the factors that influence academic performance to achieve effective prediction of online learning performance.
Key words: deep learning; performance prediction; text analysis; educational data mining; sentiment analysis
0 引言
在線學習中蘊含的教育大數據資源與人工智能等新興技術的融合,提升了教育大數據研究的深度與廣度;深度探索教育過程中各因素之間的內在關系,為教育發展及策略改進提供了有力的支持,將成為教育發展的重要方向[1]。同時,在教育大數據支持下,學習預測已經成為教育數據挖掘的重點內容,通過揭示學習過程各因素與成績之間的關系,形成預測模型,能夠預判學習者的最終表現及成績類別,從而為學業預警、調整教學策略及學習計劃制定等提供重要依據[2]。
當前有關學習情況預測的研究中,所選用的數據類型單一,大多局限于較為整齊的結構化數據,使用學習過程的文本數據進行預測的工作仍較少;而文本數據中蘊含著大量的情感信息和學習狀態信息,有效捕捉其中的情感傾向,診斷當前的學習狀態,能夠為學習成績預測提供重要的依據。近十年來,機器學習領域發展最快的一個分支,深度學習技術,在文本數據分析等方面表現出了優越的能力。它能夠學習樣本數據的內在規律和表示層次,對數據解釋進行強有力的支持。因此,本文提出使用卷積神經網絡(Convolutional Neural Network,CNN)與長短期記憶網絡(Long ShortTerm Memory,LSTM)相結合的方法進行在線學習成績預測。CNN 模型的卷積結構能夠有效提取大量數據中的局部特征,準確抓取到文本數據中的關鍵信息,同時,LSTM 模型具有能考慮到全局文本順序的優勢,可以綜合課程學習全過程分析語義及情感傾向,結合二者的特點,能夠更精準地挖掘學習成績的影響因素,實現有效預測。
1 相關工作
對教育數據篩選與整理,借助分析統計工具建立關系模型,可以挖掘學習者學習行為和學習效果之間的潛在聯系,從而對學習者后續的表現進行預測。已有的研究內容:一是基于日常表現數據對學習者能力及后續發展進行預測,該類方法基于學習者自身情況[3]、環境及學習過程中各因素[4],分析學習趨勢,進而為未來發展提供指向性建議;二是對學習者的課程成績進行預測,利用從學習平臺收集的客觀、結構化的基本信息數據、學習行為數據及階段性的學習成績來進行預測[5],同時,通過參考以往學生的課程成績,能分析各門課程間、前導課程與后續課程的相互聯系,為教學計劃制定提供重要依據[6]。
在成績預測的技術實現方面,在探究各因素之間的關系時,以往研究較多采用線性回歸、決策樹及神經網絡等算法,但由于與學習成績或效果相關聯的因素是多種類且復雜的,使用這類算法計算得到的關系預測模型,仍沒有達到理想的效果。
深度學習是機器學習算法重要的分支與發展成果之一,最早由多倫多大學的 Hinton 教授于2006年提出[7]。它的基本機制是讓機器能夠像人一樣具有分析學習能力,對樣本數據或訓練集進行學習,分析其內在規律,從而能夠有力地解釋識別諸如文本、圖像和聲音等數據,達到遠超過先前相關技術的目標,目前已經在諸多領域取得了優秀成果[8],教育領域也不例外。就深度學習在學習預測中的研究而言,其對教育數據具有良好的分析效果,使用復雜神經網絡對文本數據處理的分析及預測,能夠更有效地刻畫教育數據中豐富的內在信息。
2 深度學習技術對成績預測的支持
2.1 細粒度文本情感傾向分析
在線教育中,師生通過交流、評價和反饋等互動來深化和完善課程學習,平臺記錄下大量文本數據,其中蘊含了豐富的觀點、想法、態度及主觀情感等;當前文本情感傾向分析,可以分為篇章級、句子級的粗粒度文本情感分析以及短語級的細粒度文本分析[9],粗粒度分析方法適合判斷整體的情感,可以處理一些寫作作業的文本分析任務,但在線平臺產生的大多是簡短、隨意性較強的短文本,使用粗粒度分析難以得到細致、精準的處理結果。使用深度學習神經網絡模型能對多類型數據進行處理與變量轉換,模擬人類的神經系統對文本逐步分析、進行特征的提取,自動學習優化模型輸出,能有效地提高文本分類的有效性[10],實現細粒度情感分析,為成績預測提供支撐。
另一方面,影響學習結果的因素十分復雜,涉及的特征提取過程是一個巨大的需要專業領域知識的工程,人工特征提取存在著難以聯系上下文、特征稀疏等困難,很難精準高效地識別并歸納出特征,影響預測結果的有效性和準確性。而深度學習技術可以利用任何可向量化的數據作為輸入且不需要特別的注解和標記,從而減少了大量的人工特征提取工作。這對于學生成績建模極具優勢,可以提升預測結果的效度和信度[11]。
2.2 復雜函數關系的擬合
在線學習中各影響因素與學習成績之間的關系并不是簡單的線性關系,因素與因素之間,因素與成績之間的關系都是復雜多變的,各變量之間的函數關系通過簡單的分類回歸難以擬合。對于結構化數據,指定輸入(影響學習成績的各類數據)和輸出(最終學習成績)以后,提供足夠量的數據,通過訓練可以輕松地得出兩者之間的關系,從而在輸入新的數據時得到成績預測結果。但當輸入變為大量的、多類型的非結構化數據時,蘊含的影響因子復雜,很難得出輸入與輸出之間的映射關系,而神經網絡則能夠解決這個問題。典型的神經網絡結構由輸入層、隱藏層、輸出層構成。隱藏層的神經網絡模擬了人類大腦皮層神經網絡,由多個神經元組成。底層神經元的輸出是高層神經元的輸入,可以擬合任意復雜度的函數。深層神經網絡則是增加了網絡層數來模擬人腦復雜的層次化認知規律,以使機器獲得“抽象概念”的能力,在特征學習方面表現出了更為優越的性能[12]。因此使用深度學習技術可以有效的對非結構化數據實現特征學習,精準得出影響因素與成績之間的關系,實現預測任務。
3 基于深度學習的成績預測設計
在線學習平臺中,所留下的本文都具有簡短、隨意性強的特點,CNN的卷積層能有效提取此類短文本數據的特征,相比較傳統方法能夠更準確地捕捉文本中的特征,找到與學習效果有關聯的因素。而LSTM網絡則考慮了文本的前后順序關系,從學習者個體發展脈絡和時間序列出發,有效地提高了對文本的解釋能力。將CNN與LSTM相結合,能夠精準擬合各影響因素與成績之間的關系,提高預測的精準度。
3.1 基于CNN的短語特征提取
CNN是一種帶有卷積結構的深度神經網絡,基本結構由輸入層、卷積層、池化層(也稱為取樣層)、全連接層及輸出層構成,卷積層和池化層通常以多個交替排列的方式存在。正是由于這種結構,CNN擅于從大量的數據中提取局部特征,并且能夠很好地將結果泛化到同類型的數據集上。CNN顯現出的巨大的優勢在自然語言處理上同樣受到廣泛關注,能有效地提取文本特征并應用于文本分類問題中[13]。
3.1.1 文本嵌入
在線平臺中師生產生的短文本作為一種自然語言,需要對其進行向量化處理轉化為機器能夠理解的語言,也就是將文本數值化之后才可作為CNN模型的輸入數據,這一步驟稱為詞向量表示詞語。首先需要對文本數據進行分詞,然后轉化為詞向量。假設句子的最大長度為[l],每個詞最終轉化為[m]維的詞向量,詞向量[wi]表示為[wi=[xi1,…,xij,…,xim]],最后每個短文本句子都將表示為[m×l]的二維矩陣[Z=[w1,…wi…wl]]。
3.1.2 特征提取
將短文本變為可計算的詞向量以后,將其輸入CNN模型中進行特征提取;這一步工作主要由網絡模型中的卷積層來完成,經過卷積層處理后的特征矩陣表示為:
[b]為偏置量,[W]為濾波器,用于實現卷積操作。[f]為激活函數,可以為給神經元引入非線性因素,使得神經網絡可以達到能模擬非線性函數的效果,在此采用ReLU反向激活函數進行非線性映射:
3.1.3 池化
池化層的目的是保留主要的特征,去掉一些不必要的參數,從而降低信息冗余。在這一步驟中,將提取到的文本特征進行處理,實現了特征降維和特征不變性。我們采用最大值池化(Max pooling)方法來處理。池化后的特征表示為:
3.2 基于LSTM的短文本情感特征分類
經過CNN模型處理計算后,能準確有效地提取到師生互動話語短文本的特征。但在線學習平臺的教育文本記錄了課程全過程中學習者狀態的變化,與時間序列有著密不可分的聯系,CNN能夠提取到短文本的特征,但是卻沒有考慮到這一問題;而LSTM是一種時間循環網絡,對于有著時間特征的序列數據能夠有效地利用上下文的特征信息,將文本的順序信息考慮進去。因此,采用兩種模型結合的方式,能夠將CNN提取局部特征和LSTM考慮全局上下文信息的特點相結合,有效地對在線教育平臺中的短文本進行文本分類,從而分析情感傾向。
LSTM的功能主要由輸入門、遺忘門、記憶單元和輸出門等結構來完成,記憶門、遺忘門和輸出門的門控狀態以及當前輸入單元狀態分別表示為[zi],[zf],[zo],[z],通過前一個記憶單元的輸入信息[ht-1]和當前輸入信息[xt]計算得到,公式如下:
遺忘門的功能是選擇性地忘記上一個門的狀態[ct-1]在下一步中所不需要的信息,由[zf]進行控制;記憶門由[zi]控制,功能是決定輸入[xt]哪些信息將存儲在當前記憶單元中,其中包括sigmoid層(決定更新值)和tanh層(建立新的候選向量),該層可以補充遺忘門所遺忘的信息,得到當前傳輸給下一個記憶單元[ct]的輸入[z];最后為輸出門,由[zo]控制,經過Sigmoid和tanh兩函數的處理,兩者相乘即為輸出信息[ht]。公式如下:
3.3 學習成績預測
在線學習成績的預測,需要分析自變量及因變量之間的關系,即對各影響因素及成績之間的關系進行建模。得出相關模型后,輸入學習者現階段的數據預測出未來學習趨勢,同時根據不同維度并以時間為序列可視化呈現出學生的學習情況,為學習者及時調整學習策略或學習狀態提供依據。
如圖1所示,深度神經網絡模型(DNN)包含輸入層、隱藏層、輸出層,中間隱藏層的層數視情況而變化,每一層的全部神經元與下一層全部神經元以全連接的方式相連,多層隱藏層增加了模型的表達能力,能夠更精確的擬合變量間的關系。
在本研究的成績預測中,設學生在線短文本數據中包含的影響因素變量為[x],學生的最終成績為[z],以局部模型為例,基于深度神經網絡得出學生成績影響因素變量[x]與學生成績變量[z]之間的關系需通過線性關系:
及激活函數[σz]來表達。其中[i]為所在隱藏層的層數,[m]為共有隱藏層的層數,線性關系系數[w]及偏倚值[b]則為表達出影響因素變量與成績變量之間關系的重要參數,也是得出關系模型的所求參數。從局部模型來看,神經網絡仍是線性關系和激活函數的組合,但由于隱藏層數量和神經元數量的增加,使其能夠更精確的擬合變量之間的關系。同時,為提高模型表達力,使模型更有區分度,引用的激活函數為ReLU:
然后通過反向傳播算法(Back Propagation,BP)可求得系數[w]及偏倚值[b],由前向傳播過程隨機為系數[w]及偏倚值[b]賦值,最后輸入成績影響變量[x],層數[m],及激勵函數等,生成輸出變量[zt]。接下來,需判斷[zt]與收集到的真實的學習數據中的值,也就是期望值[z]的相符情況;若不相符,則重復反向傳播過程。輸出量[zt]與[z]之間的差異程度則由損失函數表達,在這里采用均方誤差來表示,公式為:
系數[w]及偏倚值[b]的計算過程為:先初始化系數[w]及偏倚值[b]的值為隨機值,通過前向傳播算法與反向傳播算法計算輸出各隱藏層與輸出層的線性系數[w]及偏倚值[b],得出影響因素與學習成績之間的關系模型。之后將新的學生數據代入到預測模型中,經過計算預測出學習者的最終成績,實現學習預警及干預功能。
4 總結
本文提出使用CNN模型和LSTM模型相結合的方式對學習過程的短文本數據進行文本分類和情感傾向處理,CNN的卷積層能有效提取短文本數據的特征,LSTM網絡則考慮了文本的前后順序關系。通過深度神經網絡進行成績預測,能夠基于多個隱藏層和神經元精準擬合各影響因素與成績之間的關系,提高預測的精準度。
本研究方法還存在著一些不足之處。一方面,LSTM的計算被限制為是順序進行的,時間片的計算依賴時刻的計算結果,但在線學習行為在每個時間階段上不一定能提供完整的特征信息;同時順序計算的過程中信息會丟失,盡管LSTM等門機制的結構在一定程度上緩解了長期依賴的問題,但是對于特別長期的依賴現象,LSTM依舊無能為力。另一方面,基于深度學習對學生成績進行預測,對在線學習數據收集具有較高的要求?;谏疃葘W習的預測需建立在數據量龐大的學習數據的基礎上,數據的內容也決定著預測的有效性。因此,當前在線學習平臺的功能設計、數據收集與記錄能力與范圍是影響學生成績預測的重要因素,仍是今后值得深入探究的重要方向。
參考文獻(References):
[1] 胡水星.教育數據挖掘及其教學應用實證分析[J].現代遠距離教育,2017.4:29-37
[2] 陳子健,朱曉亮.基于教育數據挖掘的在線學習者學業成績預測建模研究[J].中國電化教育,2017.12:75-81,89
[3] 舒忠梅,屈瓊斐.基于教育數據挖掘的大學生學習成果分析[J].東北大學學報(社會科學版),2014.16(3):309-314
[4] 錢增瑾,孫東平.數據挖掘在研究生教育管理信息系統中的應用[J].學位與研究生教育,2013.5:46-49
[5] 尤佳鑫,孫眾.云學習平臺大學生學業成績預測與干預研究[J].中國遠程教育,2016.9:14-20,79
[6] 黃建明.貝葉斯網絡在學生成績預測中的應用[J].計算機科學,2012.39(S3):280-282
[7] Geoffrey E. Hinton,Simon Osindero,Yee-Whye Teh. A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006.18(7).
[8] 陳先昌.基于卷積神經網絡的深度學習算法與應用研究[D].浙江工商大學,2014.
[9] 宋嚴.社交媒體文本信息多層次細粒度屬性挖掘方法研究[J].情報科學,2020.38(11):98-103
[10] 王婷,楊文忠.文本情感分析方法研究綜述[J].計算機工程與應用,2021.57(12):11-24
[11] Steven Tang,Joshua C. Peterson,Zachary A. Pardos.Deep Neural Networks and How They Apply to Sequential Education Data[P]. Learning @ Scale,2016.
[12] 焦李成,楊淑媛,劉芳,王士剛,馮志璽.神經網絡七十年:回顧與展望[J].計算機學報,2016.39(8):1697-1716
[13] ATTARDI G,SARTIANO D.Unipi at semeval-2016 task?4:convolutional neural networks for sentiment classification[C] //Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016).San Diego: Association for Computational Linguistics,2016:220224.