張琪 李福華 孫基男



摘要:利用跨數據源分析教與學規律的研究已成為教育技術學演進的重要力量?;趯Χ嗄B學習分析本質的理解,構建冰山隱喻分析模型,以闡釋多模態數據流、數據建模與學習狀態輸出之間的關系,進而構造循環推理框架。該框架以環狀流動表征了多模態學習分析的流程,流程起始于涵蓋學習行為的輸入空間,通過數據空間的分配標注,并在同步空間進行時空匹配使數據得以對齊,進而在融合空間中實現對“數字一推理”區域的構造,最終實現反饋輸出以及對學習行為進行引導與千預的目的。多模態學習分析的研究需要繼續加強復雜計算模型構建,建立學術研究共同體與開源生物數據庫,擴展當前的互操作性標準,加強共同學習的模態互補研究,并將倫理價值和準則內嵌于框架設計之中,從而支撐計算教育學的建立與下一代互聯網教育創新。
關鍵詞:多模態;學習分析;計算教育學;數據映射;研究框架
中圖分類號:G434
文獻標識碼:A
一、引言
計算教育時代,復雜學習問題的數據分析需求日益增加,由此產生的“數據驅動”研究范式,超越了從“基本原理視角構建模型”的一般方法,相關研究陸續涌現已成為不爭的事實。基于跨學科視角分析多種情境中的有效學習是教育技術學演進的重要力量。在學習分析領域,對學習者全維數據的需求不斷增長,結合來自多個來源的數據已經成為教育研究的必要條件。2020年地平線報告歸納了學習分析領域的實踐,認為當前教育機構評價與細粒度數據的補充支撐了對學習者成功的分析(AnalyticsforStudentSuccess),強調學習分析的跨功能數據聯合與協調應用趨勢B。多模態學習分析(MultimodalLearningAnalytics,MLA)為立體化地理解“互聯網+教學”的規律奠定了基礎。在多模態學習分析領域,教育的跨模態數據是研究的對象與起點,數據的分析與建模是主要研究方法,建筑在信息科學基礎上的教與學問題研究賦予該領域獨有的印記,其結果是建立解決復雜教育問題的數據模型與解釋模型,指向智能教育的創新實踐,為構筑新時代中國氣派的教育學理論體系提供了支撐。
二、多模態與多模態學習分析
多模態(Multimodal)屬于被廣泛應用的概念,已在很多領域尤其在傳播學與功能語言學領域得到了深人的應用。在傳播學領域,多模態是指信息交流依賴的渠道和媒介,不同符號以交互方式傳遞信息與意義,每種模態可以通過一種或多種媒體進行表征。例如,言語可以被數字化記錄在計算機中,也可以被編碼為韻律指數或者震動產生壓力所導致的分貝值變化。在功能語言學領域,從20世紀90年代開始,研究人員認識到話語分析除了言語之外,表情、手勢、肢體語言等也是意義生成的有效模態,開辟了多模態話語分析的新領域。
學習者伴隨時間分辨率的情感和認知狀態與積極的學習成果有關。多模態術語指的是使用先進的傳感器技術和機器學習建立和處理過程性學習數據的信息模型8),以研究復雜情景中的學習,在學習行為和學習理論之間建立橋梁!。多模態學習分析的萌芽是對“麥格克效應”(McGurkEffect)的闡釋,結果產生了視聽語音識別領域(AVSR);其成熟源于機器學習模型精度的改進,即納入更多的數據特征維度并提升算法的表現。進人21世紀以來,表情識別、語義分析、情感計算、人因工程等領域的蓬勃發展,極大釋放了多模態學習分析的潛能,多種模態建模會改善大部分研究的模型精度已成為學術界的共識。
從早期的語音識別(VR)研究到近期對自然語言處理(NLP)與視覺模型(VFM)的關注,多模態學習分析已成為一個充滿朝氣的研究領域。下一代的教育服務,將是多感官的",多模態學習分析專注于學習過程中各相關模態相互作用的痕跡,將真實的教育問題置于數據驅動范式中重新審視,可以為學習空間創設和任務設計提供新思路。此外,在人工智能領域,實現計算機對真實世界的理解、解釋和推理!"2依然是一個巨大挑戰?,F有人工智能還不存在類似人腦多通道協同運作的體系。多模態學習分析的跨模態感知與推理有助于建立語義空間的聯結,納入結構化知識來幫助計算機深度認知,由此產生的“多模態智能”將成為人工智能未來的發展方向。
三、數據映射“冰山”模型
多模態學習分析研究是一種數據驅動型科學,計算教育學是一門“教育數據地質學”,兩者具備共同的研究趨向。多模態學習分析給研究者帶來了一些獨特的挑戰,這些挑戰是由多模態數據的復雜和多種形式所造成的,其中關鍵的問題在于模態數據與學習狀態對應關系的合理解讀。盡管傳感器提供了對肢體動作、面部表情、眼球運動等模態信號的記錄與測量,但學習者潛在的特征很難進行界定。尤其當大量有意義的變量被納人于研究者視線范圍之內,如何處理好教育與信息兩個層面價值的關系,建立模態數據與學習過程之間的映射關系至關重要。
為了清晰地說明多模態學習分析的數據流程,研究構建了數據映射分析模型,如圖1所示。從最初可以被觀測和記錄的數模轉換開始,即采集學習者的行為和學習情景數據,由傳感器自動捕獲形成多模態數據流,經歷“數據建?!保蓪W習狀態的輸出標簽。在圖1中,“觀察一數字”線以下是不可觀測區域,包括“觀察一數字”至“數字一推理”之間的建模區域,以及“數字一推理”以下的表征區域。利用“冰山”隱喻可以明確地說明可見與不可見區域之間的關系:多模態數據流、數據建模與學習狀態屬于同一冰山的不同方面,水平面以上的屬性是顯性的,容易被記錄與存儲;“水平面之下”部分需要多層次的解釋,越往下的部分越難以描述,解釋程度取決于水平面之下的深度。
具體來看,“數據建模”中首要的是定義表征學習狀態的組件,這取決于多模態數據的類型、算法選擇以及需要輸出的學習結果。其次需要對多模態數據流進行預處理,包括結構化、數據清洗,之后基于特征描述建立機器學習模型。常用的特征描述包括視覺目標檢測的梯度方向直方圖(HOG),以此來計算局部圖像梯度的方向信息的統計值,描述人體的姿態運動數據的歐拉角(EAs),描述音頻言語特征的梅爾頻率倒譜系數(MFCC)。這些低階特征數據被動態建模,利用聯合隱藏條件隨機場(JHCRF)、支持向量機(SVM)、隱馬爾可夫模型(HMM)等算法實現中階數據的訓練和識別。
學習狀態區域對應投入度、情感、認知、注意力等表征學習水平的“指標”。在這個層面,應用最成熟的是情緒識別。情緒被認為是生理變化的重要指數,在學習中起著重要作用”4。根據“體細胞標記假說”,前額葉在決策及情緒加工中的重要作用,尤其是顳上溝和杏仁核決策情緒的表達,以面部狀態的變化表現出來1,因此,對面部特征的提取以及前額葉控制的眼動指標被廣泛應用在情緒的建模。從更廣的視角,生物系統學認為內環境的穩態(自穩態)是人體維系正常生理功能的必要條件,其中一個重要的指標是喚醒度。作為引起學習者生理反應程度的指標,高喚醒表明積極或反應模式支持學習?!吧窠泝扰K整合模型”(NeurovisceralIntegrationModel)進一步揭示了人體如何作為一個復雜的互聯系統協調工作。根據該理論,中樞自主網絡(CAN)調控內臟活動、神經內分泌與行為反應間的關系叨,學習狀態是學習者根據所接受的刺激和意圖調整其功能,為目標定向準備充分的能源,以適應不斷變化的外部環境需求而做的反應。
學習狀態的“指標”數量和類型取決于三個方面。一是研究者的整體設計方案,包括被試樣本數、傳感器選擇、時間與精力投入、技術權衡等。二是學習指標是否有充分的教與學理論做支撐,能否有效干預。尤其是數據作為輸出使用時,該指標必須讓學習者明確如何才能提升該水平,具備一定的可操作性。此外,“偏差一方差權衡”(Bias-VarianceTradeof)思想對于判讀學習狀態的表征輸出至關重要。偏差是指機器學習希望輸出值與真實結果的偏離程度,是算法擬合能力的表征;方差是指度量訓練數據集的波動引起的錯誤,即相同樣本數訓練集的變動所導致的學習性能的變化。在機器學習領域,增大偏差會導致方差減小,增大方差將減小偏差。根據該思想,表征學習狀態指標的數量與其描述能力成正比,但它與其泛化性成反比。例如,支持向量機(SVM)算法通常擁有低偏差和高方差,但通過調整高斯核(GaussianKermel)參數Gamma值可以影響訓練數據中允許違反邊界的點的數目,會使偏差增大、方差減小。
通過上述建模輸出,向學習者提供干預或提示反饋,激發學習者對狀態的反思,以支持“學會學習”的能力,從而形成一個閉環控制系統。多模態學習分析的意義在于建立新的感覺運動環路,即以目標定向、學習責任和元認知水平調整為導向,借助反饋機制促使學習過程上升至良性發展的狀態。
四、循環推理框架
基于上述分析,構造循環推理框架,以更為細致地解析多模態數據映射關系,并討論分層分析的思想。如圖2所示,粗實線與虛線分別為“觀察一數字”分割線以及“數字一推理”分割線,循環推理框架以環狀流動為運作形式,起始于涵蓋學習行為的輸入空間,在數據空間進行分配標注實現數據表征,在同步空間中進行時空匹配使數據得以對齊融合,進而在融合空間中將各模型映射到同一個向量維度,實現對“數字一推理”區域的構造。最終對模型進行調參以及反饋輸出,實現對學習行為的引導與干預,如此往復,進人下一輪循環。
(一)輸入空間
動態、持續多模態數據源的匯聚是是科學量化教育問題的起點。輸入空間是研究者定義的“觀察一數字”線以上的區域。學習者在完成學習任務時,很自然地整合了各感覺器官的信息。根據“認知頻譜”(BandsofCognition)的界定,生物頻帶集中在微秒的時間尺度上,該范疇行為由自主神經系統通過交感神經和副交感神經的相互協調,共同調節四肢、面部、心跳、內臟、腺體和血管壁壓力,這種行為屬于無意識的、非理性事件,從數據獲取的角度位于連續區間。而由軀體神經系統控制的行為受學習者主觀意識支配,可被視為理性事件,該類行為狀態不具備連續性?!罢J知頻譜”框架還闡釋了“分解理論”(DecompositionThesis)與“關聯理論”(RelevanceThesis)的概念?;谠摾碚?,具備短時間、連續事件特征的非理性行為對于表征認知過程具有重要價值,是多模態數據的重要來源。
誠然,連續行為與非連續行為事件并非如此邊界分明,應以更廣的視角看待微觀成分。當融合不同的數據流時,重要的考慮因素是正在使用以及所呈現結果的時間尺度。當前,輸入空間還鮮有區分情景的研究。不同的學習場景,例如教師指導下的學習、自我報告、協作學習在行為與生理模式方面有著較大的差異。在面對面交流和社交互動中,非言語表達被認為占到九成以上的表達意義叫。根據具身認知理論,肢體語言和肢體的運動學被認為在學習期間具有重要作用,學習者經常通過整合動作實現對事物的理解以及強化詞語的含義2。因此,教育場景計算應面向不同場景“時間分辨率”中人與人、人與內容、人與情景的交互行為,建立全維感知能力與情景要素匹配的策略,研究場景解析模型與分析模型,進而實現場景計算的智能化。
根據學習行為的生理模式、運動方式,結合教育領域的常用傳感器,從文本、語言、姿態、面部表情、眼動與生理標志物6個方面介紹常用的多模態數據源。
1.文本
文本數據在自然語言處理領域的應用已有數十年的歷史。“互聯網+”時代,文本信息可以輕松地從論壇、文檔、測試、考試等途徑收集,是極有價值的分析方式,其實踐有可能會加速話語分析的研究。在學習科學領域,包含大量文本分析的研究,包括對文本內容的分類與編碼分析,或者利用主題建模和聚類技術研究學習者的思維與直覺。文本的另一種形式是手寫與勾勒,這種自然交互方式可以利用數字筆捕獲,以量化不同表面上完成的筆劃的位置、持續時間和壓力。結合計算機視覺、多個攝像頭可以分析寫作速度、節奏和壓力水平,區分不同寫作模式從而量化學習者的知識貢獻,識別群體中的專家。
2.語音
跟文本分析類似,語音數據允許學生在更自然的環境中流暢的表達,開辟了轉錄話語的可能性。在多模態學習分析領域,語音分析包括兩個方面,一是語音識別,指提取語音的實際內容。分析的結果可以進一步利用自然語言處理工具分析轉錄本,以確定主題與談論的內容。二是韻律特征分析,通過提取語音、語調、副語言等尋找更深層次的語義意義,以分析學習者的問題解決能力4、師生互動水平以及學習動機。
3.姿態
軀干位移、手勢以及上肢動作是多模態學習分析的常用數據源。例如,教師指白板的姿態,學生面對困難的問題時抬起肩膀、頭部的傾斜以及手腕的運動。這種連續行為通常是無意識的結果,揭示了學習者的內在狀態。此類數據可以由攝像頭獲取,或由Kinect為每個捕獲幀建深度圖像與人體骨骼點。也有研究使用肌電傳感器(EMG)獲取該類數據,以提供低成本的替代方案。Ochoa等根據PPT授課中演講者姿態評估演講技巧,圖3給出了Kinect數據中捕獲的23種姿態,被聚類為放下手臂、合掌(解釋)、單手(指點)、雙臂分開(解釋)、單臂向上(解釋)、雙臂(指點)6種類型(以不同的顏色和形狀標識),研究發現手臂移動的平滑度對預測演講技能具有重要價值。
4.面部表情
與肢體語言高度相關的是面部表情數據的采集。人臉可以通過相對簡單的動作傳達復雜的心理狀態,對面部表情的分析在計算機視覺領域、情感計算中得到了充分的研究,并已廣泛用于多模態人機交互實驗。教育領域的面部識別研究表明,學習過程中的情感更多的集中在迷惑、無聊、中性、好奇、喜悅、焦慮和沮喪,困惑的表達是學習過程成功的一個很好的指標,情感識別可以持續進行以探索影響學習者理解的因素。
5.眼動
嚴格來講,眼動是面部信息的一部分。鑒于注意力是學習的前提,學習者注視方向是注意力的重要指標”,眼動數據成為多模態學習分析的常用數據源。其獲取通常采用攝像機或眼動儀,后者可以提供更為精細的眼動指標。對眼跳路徑、眼跳次數的整合分析可以從一定程度表征學習者信息整合能力,被應用在量化認知過程和學習結果之間的關系。在小組學習場景中,學習者共同的理解依賴于彼此認知上的努力(合作伙伴建模)。在過去的二十年里,研究者開始利用眼動儀獲取聯合視覺注意(JVA)數據,分析交叉遞歸圖(Cross-recurrenceGraphs),以判斷協作質量的水平。聯合視覺注意是指學習伙伴傾向集中于共同的參考點,使得個體同時聚焦同一事物的趨勢,該現象已在計算機支持的協作學習和學習科學領域進行了廣泛的研究,成為表征協作問題解決能力的重要指標。
6.生理標志物
來自大腦、皮膚與心臟的信息是生理標志物的重要來源,對應腦電圖(EEG)、心電圖(ECG)、心率變異性(HRV)、電流皮膚反應(GSR)、皮膚電活動(EDA)、血容量脈搏(BVP)等。此外,心率與皮膚電指標因獲取方便,且已經證明與情緒、幸福感、心流體驗、生理喚醒程度6相關,從而得到廣泛關注。近年來高精度便攜式腦電系統以及神經影像學技術增加了對研究者大腦機制的理解,這類超微解析大腦的模態數據有助于學習者內隱狀態的精準化計算,更為深人地揭示人機協同環境中的學習機制與學習者成長規律。
(二)數據空間
機器學習中“特征”(Feature)和“表征”(Representation)具有相似的含義,前者強調實體的向量或張量表示(VectororTensor),后者多指算法模型的確立。深度學習出現之前,數據的特征提取是建模的基礎。隨著深度學習的應用,上述特征處理大都被數據驅動的描述方式所取代。例如,卷積神經網絡(CNN)以及深度置信網絡(DBN)組成的神經架構,深度自動編碼器(DAE)、深度神經網絡(DNN)和用于語言分析的遞歸神經網絡(RNN)等。上述深度結構網絡模型可以將人工規則轉變為對特征的學習,能夠更加有效地揭示數據之間隱藏的復雜內部結構,獲得更為符合的特征。
數據表征通過特定時間間隔的標注完成。標注的本質是將學習指標重復分配給多模態數據的不同區間,一般時間間隔以秒為單位,采用專家或學習者提供數值評判來完成,以訓練學習模型并測試獲得值與真值之間的符合程度。標注的數量取決于學習指標的數量、細粒程度以及算法模型的適配性。對學習指標的描述,輸出值可以為多元分類變量。例如,高投入、中投入與低投入;也可以作為離散變量呈現,即交流、困惑與中性等分布特征。標注一般會伴隨巨大的工作量,也有研究采用半自動標志技術以及遷移學習技術,以最大限度地減少標簽的問題。數據空間還包括數據預處理和選擇模型。如何組合來自異構來源的數據,處理不同程度的噪音以及處理缺失的數據對于建立良好表征能力的機器學習模型至關重要。
(三)同步空間
數據同步的意義在于建立統同一實例在不同模態信息中組建的對應關系。這個關系既可以是時間維度,例如姿態與眼動的對齊,也可以是是空間維度,例如圖像的語義分割。早期的研究多以無監督的方式對齊多模態序列。其方法源于測量不同模態中組件的相似性,這些相似性可以利用手動定義或者模版伸縮方式實現。其中,動態時間規整(DTW)屬于無監督對齊方式,該方法基于對兩個序列之間相似性的測量,并通過時間扭曲(插入幀)找到它們之間的最佳匹配,已被廣泛用于對齊多視圖時間序列。與無監督方法不同,基于深度學習的方法屬于顯式對齊,此類模型沒有明確的對齊數據,也不依賴于有監督的對齊示例,而是通過數據訓練潛在的對齊數據。例如,利用卷積神經網絡對關鍵點提取和輸出,基于對齊矩陣將多數據源對齊至同一角度和方向。近年來的研究集中在注意機制的“編碼一解碼”模型,以此實現跨模態的對齊,并在段落文本、圖像與視頻的跨模態檢索中獲得了更好的性能。
(四)融合空間
融合是整合各模態模型以帶來更穩健預測的方法。融合最直接的方法是將不同規則提取的特征向量拼接為高維特征向量,采用降維操作將原始高維組合特征向量投射至低維空間,進而得到新的低維數據表達。為充分利用各模態的數據信息,基于多核學習的融合方法也被相繼提出。多核學習方法為每一種不同的信息模態分配不同的核,對應相應的核函數,通過對每種核函數權值的組合提取出的相應的特征表達,使其能夠兼顧各模型內部的特征。
多模態數據的特征與決策級融合均屬多核融合方法,前者屬于早期融合方式,即提取后立即對特征進行整合。相比之下,決策級融合利用貝葉斯準則、模糊集理論、神經網絡、卡爾曼濾波法等方式,對單模態模型進行后期的平均、加權、投票、方差等,從而提供更大的靈活性。在這方面,團隊聯合“數字學習與教育公共服務教育部工程研究中心”做了一些探索,建立了生物數據信號與面部視覺情感表現序列映射的多模態學習分析圖譜,如圖4所示。多模態分析圖譜基于面部SIFT特征、腦電EEG信號的近似熵、能量與偏度特征以及心跳各峰值之間的時間差(心電Q、R、P、S、T等間隔提?。?、心跳變異率的數據特征,通過隱馬爾可夫模型(HMM)時間歸一化進行配準,采用多核學習和交叉驗證方法,使用循環神經網絡(RNN)和長短期記憶網絡(LSTM),針對不同模態特征選擇核函數和最優權值參數。未來的研究目標是構建高級融合框架,即嘗試從原始低級數據中提取語義信息,將看似相似的模態正確的分類,使模型能更真實的表征全局特征。
(五)調節空間
多模態學習分析的最終階段是建立穩連續的數據輸出。其中,調參的作用在于避免模型訓練錯誤以及提高訓練準確度。利用學習曲線、網格搜索與隨機搜索等方法,結合研究者的經驗以及對評估指標的理解,可以探索到調參邊緣。對于非常復雜計算模型,貝葉斯超參優化是常用的調參方式,由于充分考慮了先前的參數信息,該方法在進行高迭代次數建模時能起到較好的效果。
數據輸出的目的一方面是為教育研究者提供個性化指導的參考,提醒教師及時干預與監控。另一方面則是將反饋的數據提供給學習者,增強自我調節的能力與意識,引導學習者設定更為合理的學習路徑。從閉環控制的角度看,輸出的數據是否能夠影響學習者行為變化取決于學習者對數據意義的理解。當反饋數據能真實反映學習過程的狀態,并與學習相關目標和記錄的過程相聯系時,有意義的環路得以被創建,有效的反饋需要通過精心迭代設計來完成。
五、討論
智能時代,為了在變化的虛實融合世界中取得成功,學習者不僅要在科學、數學、閱讀等領域擁有良好的能力,而且還必須精熟21世紀技能、設計思維、計算思維,具備較好的心理韌性與自主學習能力。這些能力已被證明可以改善學習投人,并被迅速納入各類智能分析系統。多空間融合的學習環境正成為上述能力培養的重要場域陰,分析這些維度不僅需要跟蹤認知過程,還需要跟蹤各類非認知行為。多模態學習分析提供了讓學生接觸真實任務的機會,并允許他們在自然情況下與學習內容進行互動。聯合特征學習和跨模態關系建模,可以有效地利用不同模態內容的相關性,為學習者提供更具適應性的反饋模型,并促使其更為積極的行為改變。
多模態學習分析是位于教育學、學習科學、機器學習、信息科學等不同學科交叉點的領域,上述的分析框架可以作為推斷復雜結構的一般流程。從實現角度,這是一個頗有難度的挑戰。一方面,多模態數據的原始時間序列通常沒有直接的語義含義,并且可能無法被解讀。如前所述,多模態數據可能由日志文件、音頻、視覺數據組成,如果沒有復雜的計算模型,則無法分析有意義的信息,當前的分層數據推理方法還不能有效彌合原始低級數據與高級構造測量之間的差距。從數據建模的角度,對來自多個噪聲數據源的信息進行融合是一個重要的技術挑戰。另一方面,構建用于檢測和識別原始數據中序列和組合模式的識別方法不容易獲得的足夠的訓練數據。不同模態的意義解釋可能包含不同級別的語義含義,這些信息可能很難在評分模型中組合。評測指標與教育場景的結合度不夠,會導致建模的教育學意義不明。此外,雖然多模態學習分析的干預措施與單模態分析類似,但前者的實施會帶來額外的復雜性。在實際應用中,基于LMS行為數據的儀表盤比教室配備攝像頭等外設系統更容易被師生接受。
多模態學習分析的實踐需要對行為的時間序列進行歸類,結合隨機事件以及學習者特征、群體水平之間進行仔細權衡。亟待建立學術研究共同體、開源生物數據庫,分析不同學習情境與數據分析規則的映射關系,以精準量化學習者經歷不同學習時空的學習狀態。需要擴展當前操作性的標準(如xApi、LMS與NGDLE),建立統一聚合和存儲標準,以防止淺表層重復勞動。從而盡快形成跨學科深度融合,涵蓋支撐理論突破、關鍵技術攻關與常態化應用的協同創新體系。使用多數據源的意義在于對學習過程提供更有價值的見解以及產生更多積極的影響,但是當前還鮮有涉及多模態分析模型如何用于提供可操作性反饋與或干預的研究。需要更多的研究者聚焦該領域,鼓勵學術界與人因工程、神經科學、行為學專家進一步合作,不僅從行為學的角度探索反饋的方式、速度、動機關聯性以及可量性等,更從神經科學的視角,圍繞多巴胺對個體行為的促進反饋機制展開,關注學習者信息觸發的生理指標,深人探尋何種反饋對學習者有價值,以及是否能夠達成良性循環,建立延遲反饋、循環遞進、多維映射的有效干預機制。在真實教學場景中,某個模態數據缺失、噪音因素以及注釋數量不足或不可靠均屬于常態因素,如何互補其他模態的信息以實現共同學習至關重要,該類的研究還相當稀少。人工智能頂級國際期刊(IEEETPAMI)提出了并行、非并行和混合的共同學習概念以解決此類問題。其中,并行學習的模態來自同一數據集,實例之間存在直接對應關系;非平行學習模態來自異種數據集,期間沒有重疊的實例;混合學習模態數據由第三模態或數據集橋接,這些數據保持原先的狀態,利用樞軸模態以及神經網絡橋接相關的數據集,實現信息的協調交換。共同學習是多模態學習分析領域極具潛力的發展方向。
計算教育時代,基于數據密集型研究范式分析復雜教育問題已成為新教育生態構建的重要支撐。多模態學習分析學習過程的全維表征為研究取向,綜合采集學習情景數據、行為數據、時序數據以及模態傳感器事件,將其映射到大數據,結合數據驅動范式的需求,形成一整套理論體系與教學方法,從而實現賦能學習者深度理解與個性化供給服務的智能教育新形態。從建模方法上看,改善不同時間尺度上的建模表現,提升“學生畫像”的精準度是多模態學習分析的追求目標,其實現源于對“機制分析一數據建模一范式建構”的邏輯遞進關系展開深入研究。多模態學習分析從跨領域視角,評估教育教學問題中不同層級的變量對學習績效的直接和間接效應,以揭示教育技術本身蘊含的“常量”,回應“學科原理性問題缺乏有效數據模型支撐”這一追問,孕育了教育技術學科的新生長點。
從未來發展的視角,多模態學習分析無論是廣度還是深度方面都體現出兼容開放的成長態勢。但作為技術之于教育的研究領域,其實踐必然遵循一定的倫理規范。如今算法種類是如此之多,確定其潛在和實際的倫理影響極其困難,數據之間的統計學關聯可能隱藏著人類的過失、偏見和歧視,這些情況構成了“責任鴻溝”4。識別人類主觀性在算法設計和配置中的影響,需要長期與多用戶的設計研究。在相當長的一段時期內,應將模型的可解釋、可千預、可信任作為多模態學習分析的首要任務,必須將育人價值作為模型價值判斷的金標準。從系統設計的角度,需要通過嵌入設計,將倫理價值和準則整合到分析框架設計之中,以確?!坝幸饬x地人類控制”(MeaningfulHumanControl,MH)f2),需要將教育領域的公正、多元、包容等標準,還原為標記歧視、隱私保護、數據審查、可追溯架構等技術要求,以詮釋技術“向善”。
六、結語
近年來,“多模態分析”在國家自然科學基金委員會(NSFC)“教育信息科學與技術”方向以及各級別人文社會科學研究教育學立項中頻頻出現,掌握“數據標注、特征提煉、方案設計、調參分析”的技術人才被納入人工智能訓練師新職業范疇43),國內也相繼成立了相關國家級、區域級研究機構,多模態學習分析已被定位為理解和優化學習過程和學習情境,支撐教育智能與下一代互聯網教育創新的重要領域。多模態學習分析既確認了計算教育學的研究邊界,又體現學科的“特殊性”,同時也清楚地展現出獨有研究視角與價值。正如前述的“冰山隱喻”,不斷演進的學習分析學正像一座冰山,隱藏在水面之下的才是關鍵的部分,包括對學習過程的假設,倫理、技術與人文關系的平衡,多領域的合作,數據標注共享等,清晰地認識和闡釋上述關系是我國新時代教育技術研究應對挑戰的必然選擇。
參考文獻:
【1】王晶瑩,楊伊等.從大數據到計算教育學:概念、動因和出路【J】.中國電化教育,2020,(1):85-92.
【2】任友群,顧小清.教育技術學:學科發展之問與答【J】.教育研究,2019,40(1):141-152.
[3] Malcolm B.2020 EDUCAUSE Horizon ReportM TeachingandLearningEdition[DB/0l_.https://library.educause.edu/resources/2020/3/2020-educause-horizon-report-teaching-and-learning-edition,2020-03-02.
【4】張琪,王紅梅.學習投人的多模態數據表征:支撐理論、研究框架與關鍵技術【】.電化教育研究,2019,40(12):21-28.
【5】張琪,武法提等.多模態數據支持的學習投人評測:現狀、啟示與研究趨向【】.遠程教育雜志,2020,38(1):76-86.
[6] Kress G,van Leeuwen TReading and writing with images:a reviewof four texts.Reading Images:The Grammar of Visual Design [J].Computers and Composition,2001,1(18):85-87.
[7] Whitehill J, Serpell Z,Lin Y C,etal.The faces of engagement:Automaticrecognition of student engagement from facial expressions [J.IEEETransactions on Affective Computing,2014,5(1):86-98.
[8] Amer M R,Siddiquie B,Khan S,et alMultimodal fusion using dynamichybrid models [A].IEEE Winter Conference on Applications ofComputer Vision [C]Spring:IEEE Computer Society,2014.556-563.[9] Ochoa X,Worsley M,Weibel Net al.Multimodal learming analyticsdata challenges [A].Dragan Gasevie,Grace LProceedings of the SixthIntermational Conference on Leaning Anlytics & Knowledge [C].NewYork:Association for Computing Machinery,2016.498-499.
[10] Worsley M,Blikstein P.Deciphering the practices and affordancesof different reasoning strategies through multimodal learninganalytics [A].0choa X,MLA'14:Worsley M,Proceedings of the2014 ACM workshop on Multimodal Learning Analytics Workshopand Grand Challenge [C].New York:Association for ComputingMachinery,2014.21-27.
[11] Kukulska-Hulme A,Beirne E,Conole G,et al.lnnovating Pedagogy2020:0pen University Innovation Report 8[R].Milton Keynes:Instituteof Educational Technology,The Open University,2020.
【12】李政濤,文娟.計算教育學:是否可能,如何可能?【J】.遠程教育雜志,2019,37(6):12-18.
【13】賈佳亞人工智能多模態的未來BEB::- tp://loud.tecent.com/developer/news/409943,2019-07-16.
[14] Boekaerts M.The crucial role of motivation and emotion in classroomlearning [M]-Paris:OECDPublishing,2010.91-111.
[15] Nummenmaa L,Calder A J.Neural mechanisms of social attention [J]-Trends in cognitive sciences,2009,13(3):135-143.
[16] Pijeira-Diaz H J,Drachsler H,Jarvela s,et al.Sympatheticarousal commonalities and arousal contagion during collaborativelearning:How attuned are triad members? [J].Computers in HumanBehavior,2019.92(3):188-197.
[17]ThayerJFLane R D.Claude Berarar and heheat- brainconmectionFurtherelaboration of a model of neurovisceral integration [J.Neuroscience &Bioenhrioa ervs.20332-81-88
[18] Thayer J FHansen A LSaus-Rose E,et al.Heart rate variability,prefrontalneural function,and cognitive performance:the neurovisceral integrationperspective on self-regulation,adaptation,and health [J]-Annals ofBehavioral Medicine,2009,37(2):141-153.
[19] Anderson J R.Spanning seven orders of magnitude:A challenge forcognitive modeling [J].Cognitive Science,2002,26(1):85-112.
[20] Sinatra G M,Heddy B C,Lombardi D.The challenges of definingand measuring student engagement in science [J].EducationalPsychologist,2015,50(1):1-13.
[21] Mehrabian,A.Nonverbal betrayal of feeling [J.Journal of ExperimentalResearchin Personality,1971,5(1):64-73.
[22] Leong C W, Chen L,Feng G,et alUtilizing depth sensors for analyzingmutimodal presentations:Hardware,software and toolkits [A].Zhang ZCohen PProceedings of the 2015 ACM on International Conferenceon Multimodal Interaction [C].New York:Association for ComputingMachinery,2015.547-556.
[23] Zhou J,Hang K,Oviatt S,et al.Combining empirical and machinelearning techniques to predict math expertise using pen signalfeatures [A].Ochoa X,Worsley M,MLA‘14:Proceedings of the2014 ACM workshop on Multimodal Learming Analytics Workshopand Grand Challenge [C].New York:Association for ComputingMachinery,2014.29-36.
[24] Luzardo G,Guam6n,Bruno,Chiluiza K,et al.Estimation ofPresentations Skills Based on Slides and Audio Features [A].OchoaX,Worsley M,MLA 14:Proceedings of the 2014 ACM workshop onMultimodal Learning Analytics Workshop and Grand Challenge [C].New York:Association for Computing Machinery,2014.37-44
[25] Lubold N, Pon-Barry H,Walker E.Naturalness and rapport in a pitchadaptive learning companion [A].2015 EEE Workshop on AutomaticSpeech Recognition and Understanding (ASRU [C].Sottsdale:IEEESina PorossisgngSciety,2015103-110.
[26] Echeverria V,Avendaio A,Chiluiza K,et al.Presentation skillsestimation based on video and kinect data analysis [A].Ochoax,Worsley M,MLA'14:Proceedings of the 2014 ACM workshop onMultimodal Learning Analytics Workshop and Grand Challenge [C]New York:Association for Computing Machinery,2014.53-60.
[27] Kolog E A,Devine S N O,Ansong-Gyimah K,et al.Fine-grainedaffectdetection in learners'generated content using machine learning [J].Education and Information Tecnologies,2019,24(6):3767-3783.[28] Kolog E A,Montero C S.Towards automated e-counselling systembased on counsellos emotion perception [JEducation and informationtenologiese2018.232)-911-933
[29] Worsley M,Blikstein PLeveraging multimodal learning analytics todifferentiate student learming strategies [A].Baron J,Lynch G,MaziarzN,LAK '15:Proceedings of the Fifth International Conference onLearning Analytics And Knowledge [C]-New York:Association forComputing Machinery,2015.360-367.
[30] Yun S,Choi J,Yoo Y,et alAction-driven visual object tracking withdeep reinforcement learning [J]-IEEE transactions on neural networksand learming systems,2018,29(6):2239-2252.
[31] Frischen A,Bayliss A P,Tipper S P.Gaze cueing ofattention:visualattention,social cognition,and individual differences [J.Psychologicalbulletin,2007,133(4):694-724
【32】張琪,楊玲玉.e-Learning環境學習測量研究進展與趨勢一基于眼動應用視角【】中國電化教育,2016,(11):68-73.
[33] Dillenbourg P,Lemaignan S,Sangin M,et al.The symmetry ofpartner modelling [J].Intermational Jounal of Computer-SupportedCollaborative Learning,2016,11(2):227-253.
[34] Schneider B,Sharma K,Cuendet S,et al.Leveraging mobile eye-trackers to capture joint visual attention in co-located collaborativelearning groups [J].International Journal of Computer-SupportedCollaborative Leamning,2018,13(3):241-261.
[35] Bandara D,Song S,Hirshfield L,Velipasalar.A More CompletePicture of Emotion Using Electrocardiogram and ElectrodermalActivity to Complement Cognitive Data [A]Schmorrow D,FidopiastisC.10th International Conference on Foundations of AugmentedCognition:Neuroergonomics and Operational Neuroscience [C].NewYork:Springer-Verlag,2016.287-298.
[36] Mitri D D,Scheffel M,Drachsler H,et al.Leaming pulse:a machinelearning approach for predicting performance in self-regulatedlearning using multimodal data [A].Wise A,Winne PH,LynchC.Proceedings of the Seventh Intermational Learning Analytics &Knowledge Conference(LAK'17) [C].New York:Association forComputing Machinery,2017.188-197.
[37] Xiong C,Merity S,Socher R.Dynamic memory networks for visual andtextual question answering [A]Langford JIntemational conference onmachine learning [C].New York:arXiv e-prints,2016.2397-2406.[38] Fukui A,Park D H,Yang D,et al.Multimodal compact bilinear poolingfor visual question answering and visual grounding [EBO-https://arivor/pdf/1606.01847.2016-06-06.
【39】田陽,萬青青等.多空間融合視域下學習環境及學習情境探究【J】.中國電化教育,2020,(3):123-130.
[40] BaltruSaitis T,Ahuja C,Moreney L PMultimodal machine learning:Asurvey and taxonomy [J]-lEEE transactions on pattern analysis andmachine intelligence,2018,41(2):423-443.
[41] Mathias A.The responsibility gap:Ascribing responsibilityfor the actions of learning automata [J].Ethics and informationtechnology,2004,6(3):175-183.
【42】于雪,段偉文.人工智能的倫理建構【J】.理論探索,2019,(6):43-49.【43】中華人民共和國人力資源和社會生活保障部.人力資源社會保障部、市場監管總局、國家統計局聯合發布智能制造工程技術人員等16個新職業[EB/OL】http://www.mohrss.gov.cn/SYrlzyhshbzb/dongtaixinwen/buneiyaowen/202003/t20200302_361093.html,2020-03-02.
作者簡介:
張琪:副教授,博士,碩士生導師,研究方向為學習分析、教育智能(zqzqhata@sina.com)o
李福華:教授,博士,博士生導師,研究方向為教師教育、高等教育理論(fuhual@126.com)。
孫基男:研究員,博士,研究方向為教育智能、教育大數據(jn@pku.edu.cn)。
收稿日期:2020年3月31日
責任編輯:趙云建