













摘" "要:在線學習由于其智能化和個性化愈發成為人們青睞的主流學習方式,然“情知分離”現象的存在嚴重阻礙了在線教學深層發展,如何即時、精確感知學習情感進而為改善學習績效提供參考便亟待研究。文章構建多模態數據融合的在線學習情感計算模型,采集被試面部表情、語音和文本數據,借助情感識別模型獲取各模態情感識別結果。在此基礎之上,通過基于決策級融合的方式實現多模態在線學習情感計算,并確定最優情感計算模型。研究發現,最優情感計算模型的平均識別精度較單模態情感識別提高了14.51%,證實該模型在在線學習場景下進行情感計算具有可行性和有效性。
關鍵詞:在線學習;情感計算;多模態數據;學習情感;在線教育
中圖分類號:G434" "文獻標識碼:A" "DOI:10.11968/tsyqb.1003-6938.2024034
Affective Computing for E-Learning Based on Multimodal Data Fusion
Abstract Due to its intelligent and personalization, online learning has increasingly become a favored mainstream learning method. However, the existence of the 'affective gap' severely hampers the development of online teaching activities. It is imperative to research how to instantaneously and accurately perceive emotional cues in learning to provide guidance for improving learning performance. This paper constructs a multimodal data fusion model for emotional computation in online learning. Facial expressions, voice, and text data of subjects are collected, and emotional recognition models are employed to obtain emotional recognition results for each modality. Based on decision-level fusion, multimodal emotional computation in online learning is achieved, determining the optimal emotional computation model. The study reveals that the average recognition accuracy based on the optimal emotional computation model has increased by 14.51% compared to single-modal emotional recognition. This confirms the feasibility and effectiveness of the model in emotional computation within online learning scenarios.
Key words E-learning; affective computing; multimodal data; learning emotion; online education
習近平在黨的二十大報告中強調,要“推進教育數字化,建設全民終身學習的學習型社會、學習型大國。”學習型社會、學習型大國的構建需要多元化的學習模式,在線學習已成主要方式。同時,在新冠肺炎疫情的影響下,各類在線學習平臺紛紛涌現,為在線學習提供了豐富的學習資源。豐富的學習資源又反哺在線學習為其提供知識來源多樣性、學習方式靈活性、學習資源普及性和學習過程互動性等支持,從而使在線學習能夠滿足學習者廣泛知識探知和跨時空便捷學習的現實需求。在線學習過程中,學習者的學習情感能夠對自身學習認知、學習效果和心理健康產生重要影響[1]。然而,不同于傳統線下教育學習,由于缺少教師實時判斷學習者學習情感進而調節授課節奏,在線學習難以在知識輸出的同時根據學習者學習情感變化及時進行調整,從而忽略“知情合一”和“知情共進”式教育教學,導致學習者學習效率降低從而引發學習倦怠感。因此,精準捕獲在線學習過程中學習者學習情感狀態并進行及時反饋調節是有效改善學習成效的重要環節,這便需要借助情感計算來實現。
情感計算的概念由皮卡德教授于1997年首次提出,他認為情感計算是與情感有關,來源于情感或能夠對情感施加影響的計算[2]。多模態數據融合的情感計算是通過采集兩種及以上數據類型對學習者情感狀態進行分析,以此實現不同數據的交叉印證和相互補償,確保學習情感識別準確率。目前,情感計算可參考數據來源主要包括生理數據(脈搏、心率等)、行為數據(表情、姿態、語音等)、文本數據(評論文本、在線學習交互文本)和自我報告等。相較于單模態數據而言,多模態數據能夠消減基于單模態數據的情感分析誤差從而提高情感識別精準度,實現多場景下學習情感數據的全方位采集[3]。因此,對在線學習場景中多模態數據融合進行情感計算,能夠更加精準分析學習者情感狀態,以此更好地探索學習者情感狀態變化規律。
1" "研究現狀與困境
1.1" " 研究現狀
1.1.1" "在線學習中學習情感計算研究
學習情感與學習認知過程緊密相關,是影響在線教育教學活動的重要因素[4]。一般而言,學習者的情感狀態都會伴隨著行為、生理和心理上的反應變化,因此情感計算主要依托于人體面部表情、語音和生理等數據進行。
首先,面部表情是表達情感的主要通道,同時也是情感識別的重要數據源[5]。江波等通過捕捉學習者面部表情提取面部特征點,并利用機器學習算法實現學習者困惑情緒識別[6];翟雪松等將面部表情和人臉姿態特征作為數據源進行融合,以此實現學習者學習情感計算[7];Hammoumi等圍繞基于卷積神經網絡的人臉表情識別及其在在線學習系統中的應用,提出了能夠有效識別在線學習情感的新系統[8]。
其次,語音在人類交流中發揮著重要作用,它展示了個體的認知狀態、意圖和情緒[9]。早在2007年,已有學者以語音特征為輸入數據,利用語音情感開發了在線學習情感計算模型[10];Bahreini等開發的FILT WAM能夠根據參與者的語音實時識別情緒狀態,準確率達到67%[11]。Lara等通過采集和分析在線學習者的語音數據,以此識別情感狀態并進行學習干預[12]。
第三,生理數據的真實性能夠更加準確地反映個體真實情感狀態,同樣也是情感計算中的重要輸入信號[13]。張琪和武法提梳理和總結了眼動(EM)結合腦電圖(EEG)、皮膚電反應(GSR)等生理數據在學習情感分析中的應用,從而獲知學習者學習情感和認知狀態的變化[14];Elatlassi提出采集腦電信號和眼動特征來評測學習者在在線學習環境中的參與度[15]。然而,受在線學習環境和生理信號監測設備的局限影響,現階段生理數據的獲取無法適應大范圍在線學習應用。
也有多位學者從其他數據角度出發對在線學習進行情感計算。如Hew等借助機器學習識別海量評論文本數據,以期計算學習者參與MOOC課程中的情感狀態[16];李慧構建的基于自注意力機制的BiLSTM文本情感分類模型能夠實現在線學習成績預測[17]。
多模態數據融合已然成為情感計算的切實可行方法。在傳統教學場景下,教師通過觀察學習者面部表情、肢體動作、聲音等判斷其學習情感繼而改變教學方式。因此,在線學習情感的獲取也需要使用多種模態數據。如王麗英等構建了融合操作事件、面部表情及生理特征的多模態數據融合模型以此實現學習情感的識別與監測[18];晉欣泉等構建的在線學習情緒測量模型能夠基于語音、姿態、生理、文本等大數據描述學習者的學習狀態[19];Santi開發了融合行為、生理等多種數據的工具(METOO),用于檢測和表達學習者情緒以及基于情緒的學習適應和情感反饋,并以此優化在線學習平臺[20]。
1.1.2" "在線學習中學習情感特征研究
學習情感特征能夠表征學生在學習過程中所體驗到的、與學習相關的情感狀態,這些情感狀態在很大程度上影響著學生的學習體驗、學習動機以及學習成果。
相比于基本情感,在線學習情感具有一些獨特的特點。由Ortony等提出的OCC情感理論涵括了22類情緒的層次結構[21];Boucher和Ekman提出害怕、生氣、厭棄、幸福、悲傷和驚訝六種基本情感信息[22];Plutchik提出高興、憤怒、恐懼、悲傷、厭惡、驚訝、期望、信任八種基本情感[23],由此可見人類基本情感豐富多彩。然而,基本情感僅能代表人們生活中較為高頻的情感,但在學習場景下,學習情感并非能夠涉及全部人類個體基本情感,困惑、厭倦等情感才是發生頻率較高的類別[24-25]。同時,在線學習場景中學習者單向知識輸入情感狀態較為穩定,較少出現大幅度情感變化[26]。趙宏和張馨邈的研究也證實了這點,并發現在線學習不同階段均以積極情緒為主,隨著學習的進行,學習者的學習情感呈現消極情緒占據上風的趨勢[27]。但Kort等認為,學習者的學習情感呈現消極情緒逐漸減少、積極情緒逐漸增多的趨勢[28]。
學習情感是學習者處于學習情境下的情感集合,明確在線學習中的細分學習情感應是實現在線學習情感計算研究的首要環節。在線學習情感計算研究中,由于其目的在于識別頻率最高、影響學習成效的情感類別,因此,離散型學習情感特征更適用于在線學習情感計算[5]。孫波等構建的智慧教學環境下基于面部表情的情感識別分析框架將學習者情感類型提取為高興、專注、困惑、疲勞[29];沈映珊和湯庸在分析社交學習網絡的基礎上從愉悅、覺醒、優勢三個維度出發提出了快樂、痛苦、緊張、平靜、驚奇、厭惡六類情感狀態[30];薛耀鋒等開發了面向在線學習的多模態情感計算原型系統,以此實現學習者高興、驚奇、中性、生氣、疲勞、困惑情感的研究分析[31]。
1.1.3" "在線學習中學習情感計算意義
“情知分離”在在線學習中存在普遍性,這將會對學習效果造成負面影響,進而導致在線教學活動漸傾向于重知輕情的學習方式,嚴重阻礙在線學習的深層發展[32]。因此,情感計算技術應用于在線學習活動中能夠有效識別學習者情感,進而解決上述問題。
首先,獲知學習情感能夠改善在線學習者的學習效果。情感動力模型(Model of Affect Dynamics)[33]認為,當學習者面臨學習障礙時,其個人認知將從平衡轉至失衡,從而引發學習情感的變化,如困惑情緒。因此,通過情感計算獲知學習情感并進行學習干預,使得認知失衡的學習者恢復至平衡狀態便是學習效果達到最優的過程。同時,在線學習過程中,消極情緒將會極大地影響學習者的學習效果,為此開發的情感調節系統[34]能夠根據學習者情感狀態推送合適的學習調節策略,從而改善學習效果。
其次,捕獲學習情感能夠促進在線學習的深層發展。長期以來,“情感缺位”是在線學習平臺發展的瓶頸。趙宏和張馨邈認為深入了解學習者的情感狀態及其變化軌跡,學習平臺能夠更系統地分析學習者的學習狀態并為其提供差異化的教學服務,進而擴大在線學習教育的積極影響[27]。此外,隨著深度學習技術的發展和精密傳感設備的普及,為在線學習平臺嵌入情感計算技術提供了多種可能,彌補了在線學習平臺重知輕情和情知分離的缺陷,突破在線學習限制,助力教育創新變革[35]。
綜上所述,通過情感計算獲取學習者學習情感能夠有效彌補在線學習中“情感缺失”和“情知分離”的缺陷,提高在線學習者的學習效果,進而促進在線學習的發展。考慮到目前基于多模態數據融合的學習情感識別效果較優,且有研究發現,在情感表達中,言語、語音和面部表情的重要性分別為7%、38%和55%[21]。因此,本研究擬采用在線學習者面部表情、語音和文本數據融合后實現情感計算。同時,為規避非學習情感或低引發學習情感造成計算誤差,如恐懼、憤怒等情感,本研究將在線學習情感標簽分為高興、投入、中性、困惑和疲勞五類。
1.2" " 現存困境
1.2.1" "認知負荷制約教師在線學習關注度
在線學習情境下,間接信息和任務疊加帶來的認知負荷挑戰限制了教師對學生學習狀態的即時關注和全面觀察。在傳統課堂教學情境下,教師在授課過程中能夠直觀地接收到來自學生的面部表情、肢體姿態和反應時間等非言語反饋,幫助其更加迅速、準確地知悉學生學習狀態和情感狀態,從而及時調整教學策略,確保每位學生都能得到必要的指導和支持。然而,在在線學習情境下,教師失去這些直觀線索,轉而需要依賴于文字、音頻或視頻等間接信息,這無疑增加了教師信息認知的復雜性。根據認知負荷理論(Cognitive Load Theory,CLT)[36],人們在處理復雜信息時的認知資源是有限的,間接信息的接收處理需要消耗認知資源。且由于在線學習平臺的多任務特性,教師在進行教學的同時,還需管理技術界面、回答學生問題、監控討論區等,任務的疊加導致教師的認知負荷急劇上升,致使教師即時、全面地關注和觀察變得困難。
1.2.2" "情知分離限制學生在線學習達成率
在線學習中的情知分離忽視了師生情感交流的重要性及其對學習效果的影響,致使其學習成效普遍不如傳統課堂教學[32]。情感交互是課堂學習過程中的潤滑劑,對學習效果的提升有著不可忽視的重要性[37]。然而,在線學習過程中過分重視對信息技術的應用和學生認知技能的培養,師生間的情感聯系及學生情感的內在價值卻被相對邊緣化。情感對學生的認知發展和學習動機有著深遠的影響,當學生的情感需求得到滿足,他們更有可能積極參與學習活動,展現出更高的學習興趣和學習熱情[38];相反,他們可能會失去學習的動力。在線學習中由于缺乏面對面的直接互動,學生可能會感到孤立,難以與教師和同伴建立起緊密的情感聯系,這種情感上的隔閡不僅削弱了學生的學習體驗,也影響了他們的認知吸收和學習成果。加之所述教師所面臨的在線教學認知負荷挑戰,致使形成“在線學習關注度缺失—在線學習達成率下滑”的非良性循環。
1.2.3" "群情忽視阻礙班級在線學習進展度
在線學習中教師因互動欠缺、認知負荷、技術限制易忽視對班級群體情感特征及其態勢的即時掌控,進而阻礙班級整體教學活動的如期開展。群體情感是指多個個體在特定的環境中對某個事件或觀念的共同體驗和情感傾向,其在在線學習情境中不僅能夠表征當下教學活動整體狀態,而且對學生個體的學習參與度也有著直接的影響。當教師進行在線教學時因人際互動缺乏、信息認知負荷、平臺技術限制等,無法即時地識別和適當地響應班級內可能出現的消極群體情感,如學生普遍的困惑、疲勞,這些問題可能會在在線學習中持續存在并逐漸累積。同時,由于個體情感和群體情感存在相互影響和塑造的羈絆,消極群體情感可能蔓延至其他在線學習者,最終對班級整體在線教學活動的正常開展產生負面影響。
由此可見,盡管在線學習能夠提供傳統課堂無法比擬的便利性和靈活性,但仍面臨亟待解決的問題。借助情感計算技術克服在線學習過程中的障礙與挑戰,對于幫助教師更有效地實施知情共進式教學至關重要,同時也是有效推動在線學習深層發展,實現更高效教學目標的重要途徑。
2" "多模態數據融合的在線學習情感計算模型
情感計算技術應用于在線學習場景中,能夠實現對學習者情感狀態變化的監測,從而干預學習過程以期提高學習效果和學習體驗。本研究通過調研在線學習情境,構建了基于多模態數據融合的在線學習情感計算模型(見圖1)。該模型聚焦于在線學習場景,通過采集學習者情感數據來實現學習者實時情感狀態的識別,以此能夠為后續學習過程提供情感反饋和學習干預參考。多模態數據融合的在線學習情感計算模型包括數據采集、數據識別、數據融合和可視化輸出四個模塊。
2.1" " 數據采集模塊
在線學習場景中,學習者情感數據收集方式由學習方式、技術介導和終端硬件等所決定。傳統課堂教學情境下,教師能夠借助學習者的面部表情、眼神互動、音量音色、肢體姿勢以及言語內容等主觀判斷學習者情感狀態,進而即時調整教學策略和授課節奏,當然這也是為何在線學習要采用多模態數據進行在線學習者情感識別的原因之一。雖然當前的在線學習因受限于學習方式、技術介導和終端硬件等客觀條件,并非能夠實現與上述多模態數據完全一致的采集條件。不過,學習者在參與在線學習過程中所使用的現代智能終端普遍內置高清攝像頭、錄音話筒,能夠在不對學習過程產生干擾的前提下采集學習者的面部表情和語音情感數據。且在線學習平臺能夠實時采集在線學習者所輸出的文本信息,抽取和分析文本信息中的情感字詞判斷學習者的學習情感。盡管包括心率、脈搏、腦電信號等在內的生理數據作為人類所表現出來的潛在反應是最為真實的數據,且能夠提供更為豐富的信息。然而,本研究旨在面向大規模在線學習的常態化應用場景中,由于生理數據的采集需要借助不同的監測設備,局限性和侵入性較大,故不再考慮此類數據進行情感計算。因此,本研究從侵入性、干擾性、設備要求、可實現性等方面對在線學習情感數據收集方法進行綜合考慮后,將學習者面部表情、語音、文本作為多模態數據融合的在線學習情感計算數據源。
2.2" " 數據識別模塊
根據在線學習情感數據的來源、類型和涉及對象,綜合多種方法對情感數據進行分析與識別。不同于傳統課堂教學情境的群體情感特征態勢識別,在線學習主要面向獨立終端的個體學習者的情感狀態進行分析和識別,這使得在情感識別過程中規避了實例分割、分割掩碼、聲源分離和端點檢測等復雜性需求,進而能夠更精確且更高效地捕捉和響應單個學習者的情感變化。首先,在在線學習過程中,面部表情作為學習者外顯行為中情感表達的最直觀方式,能夠客觀地反映學習者真實的情感狀態。借助OpenCV對采集到的視頻圖像進行人臉檢測,經過圖像增強、灰度化、幾何歸一化等圖像預處理操作后,由VGG16_Light確定和抽取不同面部表情對應不同情感狀態時的特征,獲取反映學習者情感狀態的共性信息,以此實現面部表情情感識別。其次,一體式攝錄設備采集在線學習者的語音,對相關情感音頻進行降噪、音頻強度歸一化等預處理操作,在獲取情感特征并在多次訓練后得到情感識別結果。最后,采用預訓練語言模型實現在線學習中學習者輸出文本信息的情感識別。
2.3" " 數據融合模塊
在線學習情感數據融合的方式將對在線學習者情感計算結果具有不同的影響。由于不同情感識別模型的識別精準度差異會導致不同的融合識別結果,以及不同情感識別模型對不同情感狀態識別效果也有所差異,因此,本研究將多模態數據融合的情感計算分為賦予各模態情感識別模型權重和賦予各模態情感識別模型中不同情感權重兩種方式。通過賦予各類情感識別模型不同的權重來進行情感計算以期獲得不同的融合結果,最終獲取基于面部表情、語音、文本情感數據的多模態數據融合的在線學習者最優情感計算模型。
2.4" " 可視化輸出模塊
在線學習情感的可視化輸出能夠幫助學習者、授課教師、在線學習平臺管理人員更加直觀、及時地了解在線學習者的實時情感狀態。一方面,基于個體學習者的在線學習情感可視化圖像,能夠準確地了解該學習者在某一課程或某一學習時間段的具體情感變化及不同情感持續時間,由此判斷在線學習者的學習狀態與學習效果,從而為相關教育人員做出教育決策提供參考。另一方面,基于多個學習者的在線學習情感可視化圖像,既可以準確地了解該學習團體的整體學習情感狀態變化,也可以憑此結果評價參與在線課程資源的教學質量和教學效果,呈現該在線課程資源教學實用性的綜合性評價。
3" "研究過程和方法
3.1" " 實驗模型
為了采集在線學習情境下的真實學習情感,本研究將綜合考慮被試、空間、設備等影響因素,以更加貼合真實在線學習環境的前提下進行實驗。被試個體因素:選取30名在校研究生為研究對象,15名男生,15名女生,年齡范圍為22歲-27歲,實驗前征得被試本人許可并提前告知此次研究所需收集的數據信息;空間因素:考慮到在線學習場景一般為學習者個人進行學習,因此本研究為被試提供干擾少、噪音小的獨立實驗空間,實驗環境模擬學生在線學習場景;誘導材料:針對高興、投入、中性、困惑和疲勞五類情感設計情感誘導材料,選取在線學習視頻,包括《幽默讓你備受歡迎》《AI繪畫》《中國歷代服飾賞析》《心理的進化》《Python數據分析》,每個視頻時長節選10分鐘-15分鐘內;設備因素:采用非侵入式的、具備錄音和攝像功能的一體式高清攝像頭接入在線學習終端,實現面部表情和語音數據的采集;標注工具:使用圖像標注工具labelImg標注學習者個人學習情感狀態。
3.2" " 數據采集
被試學習情感數據——面部表情、語音和文本數據分別來自一體式攝錄設備及在線學習平臺。其中,面部表情和語音數據是學習情感的實時體現,文本數據包括了課后作業、過程文本等,作為實時情感的有效補充、跟蹤和延續。在數據采集工作開始之前,分組對被試進行培訓,確保其能夠以更加自然的狀態準確表達各類情感。此外,被試在學習過程中的面部表情數據采集時常會出現肢體遮擋和因頭部運動造成圖像模糊,語音數據采集時環境噪音過大或被試聲量較小等阻礙,因此,需要對所采集的數據進行篩選,通過機器篩選、人工復查等手段刪除這部分數據。
為確保數據標注的可信度,采取被試自評標注和研究人員評價標注并行的方法開展。情感標簽包括高興、投入、中性、困惑和疲勞。首先,對被試人員進行包括LabelImg標注工具、數據標注規則、學習情感定義、面部活動單元(FACS)以及表情運動特征等內容的培訓。隨后,進行被試自評標注,將被試個人完整音視頻數據及文本數據提供給被試,由被試本人使用LabelImg標注工具對在線學習中不同時段的情感狀態按本文學習情感劃分類別進行評價標注。這樣做的目的是:(1)為幫助學習者回憶當時的學習情感做出精確標注;(2)為研究人員進行情感標注提供參考依據。最后,研究人員借助LabelImg標注工具對已完成一次標注的數據進行二次評價標注,以此保證每個數據均含有兩個情感標簽,當兩次標記出現沖突時表示樣本無效,從數據庫中刪除樣本。
最終,經過人工篩選、調整得到有效模態數據各5862條,三種模態數據集的訓練集、測試集、驗證集占比約為6:2:2。其中,訓練集為3518條、測試集為1172條、驗證集為1172條。
3.3" " 數據識別
3.3.1" "表情情感識別模型
本研究采用常用于圖像數據識別處理的卷積神經網絡提取被試面部表情特征。卷積神經網絡基本結構由輸入層、卷積層(用于特征提取)、池化層(用于縮減參數并留存關鍵信息)、全連接層(將特征轉換為目標輸出形式)和輸出層構成。為提高在線學習情感計算的效率并減少在線學習終端計算資源的消耗,本研究選取VGG16和ResNet50作為面部表情圖像數據識別處理的主干網絡來進行優化,提出輕量級的VGG16和ResNet50版本——VGG16_Light和ResNet50_Light來進行訓練,后續統稱為VGG16_L和ResNet50_L。在VGG16_L中,通過移除最后一個全連接層顯著減少網絡模型的參數量。同時,將輸出層的節點數調整為與情感類型數目相匹配的5個節點,旨在保留情感特征信息的同時,減少模型復雜度。在ResNet50_L中,引入Ghost模塊來增強模型的效率,其是一種創新的網絡結構組件,能夠通過并行分支和逐層聚合的方式有效降低模型計算復雜度和參數量,同時保持模型性能。此外,ResNet50_L保留了原始ResNet50的殘差連接設計,有助于解決深層網絡訓練中的梯度消失問題。隨后,對各網絡結構識別效果進行比對實驗,以此確定最佳卷積神經網絡(VGG16_L和ResNet50_L網絡結構見圖2、圖3)。
3.3.2" "語音情感識別模型
本研究采用分層粒度和特征模型(Hierarchical Grained and Feature Model,HGFM)進行語音數據情感識別。首先,對訓練集中相關情感音頻進行降噪、音頻強度歸一化等預處理操作,逐幀分割并提取手工特征。其次,使用門控循環單元(Gated Recurrent Unit,GRU)對包含過零率(Zero Crossing Rate,ZCR)、梅爾倒譜頻率(Mel-frequency Cepstral Coefficients,MFCC)、常數Q變換(Constant-Q Transform,CQT)的低維手工特征進行編碼,將其映射到高維情感特征空間,并通過自注意力機制進行加權,隨后再借助門控循環單元實現高維情感特征預測,從而在多次訓練后獲取音頻數據情感識別結果(細過程見圖4)。
在該模型訓練過程中,設定進程數(Workers)為4,輸入維度為33,門控循環單元第一、二層隱藏單元維度(Encoder Hidden Size)均為300,全連接層維度為100,批處理量(Batch Size)為32,初始學習率(Learning Rate)為0.001(指數衰減,衰減系數為0.8),Dropout為0.5,損失函數為交叉熵損失函數(Cross Entropy Loss, CEL)、優化器為Adam。
3.3.3" "文本情感識別模型
現階段較為主流的文本情感識別多采用預訓練語言模型,包括自回歸語言模型(Auto Regressive Language Model,ARLM)和自編碼語言模型(Auto Encoder Language Model,AELM)。自回歸語言模型在考慮單詞依賴關系方面表現出色,但其局限性在于僅能考慮單詞之間的依賴關系,無法同時捕獲上下文信息。相對而言,自編碼語言模型能夠學習并理解上下文信息,但卻忽略了單詞間的依賴關系。而XLNet的問世結合了自回歸語言模型和自編碼語言模型的優點,提出了排列語言模型(Permutation Language Model,PLM),該模型能夠通過對句子中Token的全排列,并采樣不同順序進行預測,成功地綜合了單詞依賴和上下文信息的學習。本研究在谷歌發布的XLNet模型基礎之上提出一種基于XLNet-BiGRU的文本情感識別模型(見圖5),并梳理其整體思路:
首先,輸入文本數據Xn(n=1,2,…,N)至XLNet層,表示第n個文本數據中的第i個詞語。使用XLNet模型對文本數據進行編碼,生成動態特征向量Tn,以考慮上下文的位置關系,從而有效地表達詞語在不同語句中的意義。隨后,將特征向量Tn作為輸入矩陣輸入至BiGRU層,在分別經過正向和反向的BiGRU層后,獲得hli和hri,將這些隱藏狀態向量以加權的方式連接,生成深層語義特征hi。其次,通過一個全連接層對hi進行操作,輸出維度匹配情感種類數量。最后,在Softmax層對全連接層的輸出結果歸一化處理,從而確定文本的情感類別。
3.3.4" "數據融合
在多模態數據融合過程中,情感計算的結果受所采用的融合方法所決定。本研究采取將三類情感識別模型的識別結果進行決策級融合來實現情感計算,賦予面部表情、語音、文本情感識別模型不同的權重,以此通過加權求和的方法獲得不同的結果對比選優。基于此,本研究將多模態數據融合的情感計算分為賦予各模態情感識別模型權重和賦予各模態情感識別模型中不同情感權重兩種方式。
假設面部表情、語音和文本三類情感識別模型的輸出結果為:pface、pvoice、ptext;各情感識別模型的輸出結果均含有五類情感信息:高興、投入、中性、困惑和疲勞,且這五類情感在面部表情、語音和文本模態中分別表示為i、j、k。那么,輸出結果的概率分布矩陣則可表示為:
P= ?圯 P=" "" " "" "" " " " " "" "" "" "" "(1)
根據式(1),則賦予各模態情感識別模型權重的計算結果為:
R=?姿1×pface+?姿2×pvoice+?姿3×ptext" " " " " " " " " " " " "(2)
其中,?姿1、?姿2、?姿3分別表示面部表情、語音、文本三模態情感識別模型的權重參數,且?姿1+?姿2+?姿3=1;R則表示融合模型的最終計算結果。
同根據式(1),賦予各模態情感識別模型中不同情感權重的計算結果為:
R=?姿1 + ?姿2 + ?姿3" " " " " " " " "(3)
其中,表示面部表情情感識別模型中各維情感信息的輸出結果,表示肢體姿態情感識別模型中各維情感信息的輸出結果,表示語音情感識別模型中各維情感信息的輸出結果。
4" "結果及分析
4.1" " 單模態情感識別結果
在面部表情情感識別模型訓練過程中,設定以下主要參數來構建和訓練網絡:激活函數、損失函數、優化器、批處理大小、迭代次數等。基于VGG16_L和ResNet50_L的面部表情情感識別模型歷經多次迭代優化,兩個模型的損失函數都逐漸趨向于一個穩定的值,表明它們在訓練數據上已經取得了較好的擬合效果。其中,基于VGG16_L的面部表情情感識別精度為76.12%,基于ResNet50_L的識別精度為65.31%。
由此可看出,在訓練數據和訓練參數一定的情況下,基于VGG16_L卷積神經網絡的面部表情情感識別模型識別精度顯著高于ResNet50_L模型。同時,VGG16_L網絡結構相對簡潔實用,能夠通過加深網絡結構提高特征提取能力,且超參數較少。因此,本研究采用VGG16_L卷積神經網絡實現面部表情的情感識別,得出表情、語音和文本三個情感識別模型在驗證集上對應五類情感的不同識別結果(見表1)。
對比三個情感識別模型識別結果,在平均識別精度上,表情75.78%,高于文本73.87%,高于語音68.32%。其中,表情情感識別模型對高興情感的識別效果最佳,識別精度為80.21%,猜測是由于該情感面部運動單元較為明顯,如臉頰抬起、嘴角后拉并抬高、牙齒露出等活動特征容易被捕獲。投入情感識別效果最差,僅為71.05%,猜測是由于該情感所關聯的面部活動單元無顯著變化。其次,語音情感識別模型中識別效果最優和最差的是中性和困惑情感,其識別精度分別是70.92%和63.84%。最后,文本情感識別模型中識別效果最優和最差的是困惑和疲勞情感,其識別精度分別是76.88%和69.94%。
4.2" " 多模態情感識別結果
4.2.1" "賦予各模態情感識別模型權重
通過賦予表情情感識別模型、語音情感識別模型、文本情感識別模型不同權重進行情感計算能夠得到多模態數據融合后的學習情感狀態。然在數據融合中面臨一個挑戰,即如何合理地分配不同模態情感識別模型的權重。由于目前尚無明確的理論或先驗數據指導我們在表情、語音和文本多模態數據融合中做出特定的權重分配選擇,但考慮到已有相關研究[7]在面部表情和人臉姿態的數據融合中通過實驗逐一測試權重分配。因此,為探索最佳的權重分配方案,本研究采取通過實驗測試的方法確定權重分配方案。同時,為避免太多的結果會使得比較和分析變得復雜,而結果數量如果太少則無法充分探索不同權重配置所帶來的影響。最終,經過實驗測試選擇0.1作為權重分配的步長,旨在確保能夠覆蓋廣泛的權重分配范圍,并識別出可能的最佳權重配置。該方法雖然簡單,但它允許通過比較不同權重配置下的性能來洞察模型的行為。其次,為保證三個識別模型權重參數之和為1,且每種模態情感識別模型權重至少為0.1,我們在0.1-0.8之間以0.1為固定步長人為分配權重,共得到36種權重分配結果。隨后與研究人員評價標注的情感標簽進行比對來判斷該模型情感識別精度,得出賦予各模態情感識別模型權重的部分權重參數情況和識別精度(見表1),并將識別結果中最高的七類進行篩選得出相應結果(見表2)。
對上述識別結果TOP7(見表3)觀察可以看出,當pface權值為0.7、pvoice權值為0.2、ptext權值為0.1時,該情感計算模型的識別精度為最高,達到了84.12%。除此之外,還可以觀察出兩種情況:(1)當pface所賦權重占比越大時,該情感識別模型的精度則越高,推測是由于該模型應用于在線學習場景,學習者語音和文本情感特征相比于面部表情活動特征較為淺顯而產生該結果;(2)當pface、pvoice、ptext賦值權重相接近時識別精度也較高。
4.2.2" "賦予各模態情感識別模型中不同情感權重
由賦予情感識別模型權重的識別結果可知,當pface所賦權重占比越大以及pface、pvoice、ptext賦值權重相接近時識別精度較高。因此,以此為條件賦予各模態情感識別模型五類情感權重并進行逐一計算。最終,得出賦予各模態情感識別模型中五類情感權重的最優識別精度(見表4)。
通過觀察得出:當面部表情情感識別模型中不同情感賦值權重為0.4、0.5、0.3、0.6、0.5,語音情感識別模型中不同情感賦值權重為0.3、0.2、0.5、0.2、0.2,文本情感識別模型中不同情感賦值權重為0.3、0.3、0.2、0.2、0.3時,該模型可達到87.17%的識別精度。其次,該融合方法中面部表情情感識別模型更適用于識別投入、困惑、疲勞情感,推測是這三種情感通常伴隨著較為顯著的臉部特征變化從而更易識別;語音情感識別模型在識別中性情感時表現較優;而三種情感識別模型對于高興情感的識別效果相趨近,可能是因為高興情感在面部表情、語音、文本數據中均具有明顯的變化特征。
4.2.3" "多模態情感識別模型效用性實驗
為驗證本研究所提出的多模態情感識別模型的效用性,將本研究模型與相關文獻中的多模態學習情感識別模型進行對比,得出相應結果(見表5)。
可以看出:本研究提出的賦予各模態情感識別模型中不同情感權重的多模態情感識別方法具有較佳的識別效果,均高于表5中相關文獻的識別精度,平均識別精度提高6.43%。同時可以發現,模態數量與識別精度并不成正比,只有當前模態提取的特征與識別模型實現有效的匹配才能獲得最佳的精度。
4.3" " 實證分析
本研究結果發現,賦予各模態情感識別模型中五類情感權重的平均識別精度為87.17%,高于賦予各模態情感識別模型權重84.12%,是本研究的最優情感計算模型。同時,使用該模型對五類學習情感進行識別:困惑情感識別精度最高為89.88%,其次是高興、投入、疲勞,分別為89.69%、86.25%、85.10%,對于中性情感識別表現較差,僅為82.39%(其混淆矩陣見圖6)。
梳理本研究全部結果,可得出:(1)基于在線學習者面部表情數據所進行的情感識別效果最好,可判斷面部表情應作為在線學習場景下情感計算的主要數據參考源;(2)在多模態數據融合的在線學習情感計算模型中,賦予各模態情感識別模型中五類情感權重的識別精度高于賦予各模態情感識別模型權重,是本研究中最優情感計算模型;(3)賦予各模態情感識別模型中五類情感權重對困惑情感識別精度最高,其次是高興、投入、疲勞,最后是中性情感。
5" "結語
在線學習場景下的學習情感計算是相關教育工作人員構思教學策略和實施干預措施的重要依據。本研究在前人研究的基礎上,構建了面向在線學習的多模態數據融合情感計算模型,將學習情感劃分為高興、投入、中性、困惑、疲勞五類,通過基于決策級融合的方式對采集到的面部表情、語音和文本數據進行融合計算,以此輸出可視化情感為相關教育人員對在線學習者進行良性干預提供參考。研究結果發現,該模型在實驗過程中對被試的情感識別精度表現良好。然而,本研究為確保被試情感數據采集過程不受侵擾,并未借助侵入型設備采集學習者生理數據進行情感識別。相比于面部表情、語音等外顯型數據而言,學習者的生理數據更能夠體現個人的真實情感狀態。作為人類所表現出來的潛在反應,生理數據是機體在活動中伴隨產生的,難以偽造和作假,從而能夠幫助研究取得更為精確的學習情感。盡管如此,本研究提出的面向在線學習的學習情感計算模型,為教育領域中在線學習情感分析提供了有效參考,也為解決在線學習中存在教師關注缺失、學習成效低下、群體情感忽視等問題提供了技術支持。后續將考慮結合非侵入式生理數據進一步展開學習情感計算研究,實現對學習者在線學習情感精度更高、效果更好地識別分析。
參考文獻:
[1]" Artino Jr A R,Jones II K D.Exploring the complex relations between achievement emotions and self-regulated learning behaviors in online learning[J].The Internet and Higher Education,2012,15(3):170-175.
[2]" Picard R W.Affective computing[M].MIT press,1997.
[3]" 王一巖,劉士玉,鄭永和.智能時代的學習者情緒感知:內涵、現狀與趨勢[J].遠程教育雜志,2021,39(2):34-43.
[4]" Robinson K.The interrelationship of emotion and cognition when students undertake collaborative group work online:An interdisciplinary approach[J].Computers amp; Education,2013,62:298-307.
[5]" 陳子健,朱曉亮.基于面部表情的學習者情緒自動識別研究——適切性、現狀、現存問題和提升路徑[J].遠程教育雜志,2019,37(4):64-72.
[6]" 江波,李萬健,李芷璇,等.基于面部表情的學習困惑自動識別法[J].開放教育研究,2018,24(4):101-108.
[7]" 翟雪松,許家奇,王永固.在線教育中的學習情感計算研究——基于多源數據融合視角[J].華東師范大學學報(教育科學版),2022,40(9):32-44.
[8]" El Hammoumi O,Benmarrakchi F,Ouherrou N,et al.Emotion recognition in e-learning systems[A].2018 6th international conference on multimedia computing and systems(ICMCS)[C].IEEE,2018:1-6.
[9]" 權學良,曾志剛,蔣建華,等.基于生理信號的情感計算研究綜述[C].自動化學報,2021,47(8):1769-1784.
[10]" Sadoughi N,Busso C.Speech-driven animation with meaningful behaviors[J].Speech Communication,2019,110:90-100.
[11]" Li W,Zhang Y,Fu Y.Speech emotion recognition in e-learning system based on affective computing[A].Third international conference on natural computation(ICNC 2007)[C].IEEE,2007,5:809-813.
[12]" Bahreini K,Nadolski R,Westera W.Towards real-time speech emotion recognition for affective e-learning[J].Education and information technologies,2016,21:1367-1386.
[13]" Lara-Alvarez C,Mitre-Hernandez H,Flores J J,et al.Induction of emotional states in educational video games through a fuzzy control system[J].IEEE Transactions on Affective Computing,2018,12(1):66-77.
[14]" 張琪,武法提.學習分析中的生物數據表征——眼動與多模態技術應用前瞻[J].電化教育研究,2016,37(9):76-81,109.
[15]" Elatlassi R.Modeling student engagement in online learning environments using real-time biometric measures:electroencephalography (EEG) and eye-tracking[D].Eugene:oregon State University,2018.
[16]" Hew K F,Hu X,Qiao C,et al.What predicts student satisfaction with MOOCs:A gradient boosting trees supervised machine learning and sentiment analysis approach[J].Computers amp; Education,2020,145:103724.
[17]" 李慧.融合情感特征的在線學習成績預測研究[J].小型微型計算機系統,2023,44(7):1360-1366.
[18]" 王麗英,何云帆,田俊華.在線學習行為多模態數據融合模型構建及實證[J].中國遠程教育,2020(6):22-30,51,76.
[19]" 晉欣泉,王林麗,楊現民.基于大數據的在線學習情緒測量模型構建[J].現代教育技術,2016,26(12):5-11.
[20]" Caballé Santi.Towards a multi-modal emotion-awareness e-Learning system[A].2015 International Conference on Intelligent Networking and Collaborative Systems[C].IEEE,2015:280-287.
[21]" Ortony A,Clore G L,Collins A.The Cognitive structure of emotions cambridge[M].Cambridge University Press,2022.
[22]" Boucher J D,Ekman P.Facial areas and emotional information[J].Journal of communication,1975,25(2):21-29.
[23]" Plutchik R.A general psychoevolutionary theory of emotion[M].Theories of emotion.Academic press,1980:3-33.
[24]" McDaniel B,D'Mello S,King B,et al.Facial features for affective state detection in learning environments[C].Proceedings of the annual meeting of the cognitive science society,2007.
[25]" D'Mello S K,Craig S D,Sullins J,et al.Predicting affective states expressed through an emote-aloud procedure from AutoTutor's mixed-initiative dialogue[J].International Journal of Artificial Intelligence in Education,2006,16(1):3-28.
[26]" 王云,李志霞,白清玉,等.在線討論中動態學習情緒和認知行為序列的關系研究[J].電化教育研究,2020,41(6):60-67.
[27]" 趙宏,張馨邈.遠程學習者在線學習情緒狀態及特征差異[J].現代遠程教育研究,2019(2):85-94.
[28]" Kort B,Reilly R,Picard R W.An affective model of interplay between emotions and learning:Reengineering educational pedagogy-building a learning companion[A].Proceedings IEEE international conference on advanced learning technologies[C].IEEE,2001:43-46.
[29]" 孫波,劉永娜,陳玖冰,等.智慧學習環境中基于面部表情的情感分析[J].現代遠程教育研究,2015(2):96-103.
[30]" 沈映珊,湯庸.社交學習網絡中基于學習認知的情感交互研究[J].現代教育技術,2015,25(9):90-96.
[31]" 薛耀鋒,楊金朋,郭威,等.面向在線學習的多模態情感計算研究[J].中國電化教育,2018(2):46-50,83.
[32]" 趙鑫,呂寒雪,吳濤.從“情知分離”到“情知共生”:在線學習變革的情感哲學審思[J].中國電化教育,2022(12):53-60.
[33]" D’Mello S,Graesser A.Dynamics of affective states during complex learning[J].Learning and Instruction,2012,22(2): 145-157.
[34]" Qin J,Zheng Q,Li H.A study of learner-oriented negative emotion compensation in e-learning[J].Journal of Educational Technology amp; Society,2014,17(4):420-431.
[35]" 葉俊民,周進,李超.情感計算教育應用的多維透視[J].開放教育研究,2020,26(6):77-88.
[36]" SWELLER J.Cognitive load during problem solving:effects on learningly[J].Cognitive science,1988,12(2):257-285.
[37]" 王天平,李珍.智能時代在線課程的應然樣態、實然困境與實踐路向[J].教育與教學研究,2024,38(4):20-31.
[38]" 1:1數字學習:學習革命的新浪潮[J].中國電化教育,2007(6):1-6.
[39]" 周炫余,劉林,陳圓圓,等.基于多模態數據融合的大學生心理健康自動評估模型設計與應用研究[J].電化教育研究,2021,42 (8):72-78.
作者簡介:司俊勇(1999-),男,鄭州航空工業管理學院碩士研究生;付永華(1979-),男,鄭州航空工業管理學院教授,研究方向:人機情感和智能教育信息處理。