舒瑩 姜強 趙蔚



【摘要】? 對學生學習行為進行全面的定量化描述、學業診斷、精準預警、處方干預,有助于準確識別學習危機學生,提供精準教學服務。本研究利用數據挖掘和學習分析技術,跟蹤分析在線學習中非干預行為數據,包括過程性結構化外顯信息(如學習狀態、學習交互、學業水平等)和非結構化內隱信息(如學習者情緒),確定在線學習危機預警因素。本研究采用樸素貝葉斯構建精準預警模型,利用準實驗設計對處于學習危機的學生進行聚類分組,并提出采用郵件通知人工干預和在線學習支持環境自動干預兩種策略,同時通過信譽積分和預警指標干預制度加以保障。研究結果表明,模型能夠準確識別學習者學習狀態與趨勢,發現學習異常者;干預策略能夠有效引導學生學習,化解學習危機,促進個性化教學和學生管理。
【關鍵詞】? 學習危機;精準預警;學習干預;學習分析;數據挖掘;在線學習質量;大數據;學習過程
【中圖分類號】? G442? ? ? ?【文獻標識碼】? A? ? ? ?【文章編號】? 1009-458x(2019)8-0027-09
一、引言
在線教育不斷演進發展,經歷“多媒體驅動信息表征多通道個體學習”“以社會性交互為核心的虛擬社區規模化學習”“基于大數據分析的個性化學習”三個階段,已從IT(Information Technology)邁向DT(Data Technology)時代。然而,目前在線學習仍存在高輟課率、低參與性、難以深度學習等質量危機,保證在線學習質量面臨諸多挑戰,精準預警與個性化干預可以有效解決這些嚴峻的現實問題。從預警理論和方法的堅實程度以及對預警結果正確性的信念大致可以把預警分為兩類:一類是基于嚴格理論的預測結果,如基于量子力學理論預測某A粒子在一定時間內衰變成某B粒子的概率;另一類的極端是對未來的預言,多數來源于未來學家和科幻作家,例如托夫勒在《第三次浪潮》中對互聯網科技時代的預言、諾查丹瑪斯在《諸世紀》中對世界末日的預言以及凡爾納在《海底兩萬里》中對潛艇和在《從地球到月球》中對人類登月的預言等(周濤, 2017)。這類預言更像是猜測而非預測,只能定性給出正確與否的判斷,而不能在數字上給出精確程度。本研究探究基于大數據分析的在線學習精準預警與干預,是基于跟蹤記錄學生的學習過程數據,利用數據挖掘方法分析學生的學習特點,對學習發展進行可量化預測。研究一方面有助于識別不同類別學習危機群體,提供更科學合理、差異化的教學決策,適應變化的學習需求,增強在線學習投入,提升學習效果;另一方面能夠推動頂層設計和實踐探索有機結合,形成基于全學習過程數據的個性化、精準的教學服務,重塑學習觀,有利于洞悉數據背后隱藏的學習成長軌跡、教育發展規律,提高決策的前瞻性和科學性。
二、研究現狀
國外研究者對于解決大學生在線學習危機、提升在線學習質量進行了大量探索,其研究方向主要分為兩類:第一類集中在大學生在線學習危機的預測因素方面,包括對學生的學習目標、學習需要、認知風格等相關數據的收集與分析,基于學生個人、社會、心理和環境等變量對學生在線學習行為表現進行預測。梅扎里等人(Mezzari & Adelina, 2013)通過使用學習情緒數據(如帖文中學生情感的體驗與表達)、學習交互數據(如回復和發布)、學業水平數據(如作業成績和測驗成績)探究在線學習危機的原因,主要包括缺乏動力、缺乏時間、缺乏與在線材料的互動、孤立感、技術知識不足等。余(Yu, 2015)將學生是否處于學習危機的指標分為學生概況(如性別、累積平均分(CGPA)等)和學生參與度(如登錄次數、發布討論數量等)兩類。艾哈邁德等(Ahmed & Elaraby, 2014)在研究中使用學生的課程信息、實驗室測試等級、研討會表現、作業成績、出勤率等數據預測學生的學習表現。科洛等(Kolo, Solomon A. Adepojub, & Alhassan, 2015)收集了尼日利亞教育學院計算機科學專業學生的數據結構課程相關數據進行研究,認為學生的個人屬性,如成績、地位、性別、財務實力、學習態度等是預測學習表現的重要因素。戈加等人(Goga et al., 2015)使用了尼日利亞巴布科克大學的學生數據,在審查文獻的基礎上將年齡、性別、父母的婚姻狀況、父母的職業等學生背景因素納入設計框架,基于背景因素預測學生第一學年的CGPA。此外,心理學因素也被提出作為指標來辨別具有高輟學率和學習風險的學生(Khalil & Ebner, 2014)。第二類是在線學習危機干預系統的研究。阿爾哈比等(Alharbi, Cornford, Dolder, & Lglesia, 2016)從管理者角度出發,通過使用數據挖掘技術預測處于學習危機的學生構建學習推薦系統,以指導大學生在課程的第一年進行模塊選擇,幫助學生提高學習效果。普渡大學的“課程信號”干預系統,輔助教師利用學習分析等技術手段為學生提供及時且具有針對性的反饋。不僅預測學生的學業行為表現,而且以可視化的方式向學生呈現其學習特征、學業歷史及學習努力過程,使每一位學生都能清楚自己的學習狀況與學習表現(Arnold & Pistilli, 2012)。
國內研究者針對在線學習危機的研究主要分為兩類:第一類是有關大學生在線學習危機預測模型的研究。武法提等(2016)梳理了當前國內外學習分析模型存在的問題,在此基礎上構建了個性化行為分析模型,設計了學習結果預測框架,旨在為個性化學習分析工具的設計提供理論指導。楊現民等(2016)從預警的實現形式、算法與工具、內容與方法等方面比較分析了國外五個典型學習預警系統,提出了學習預警系統的通用設計框架,并構建了學習預警系統的功能模型和過程模型。趙慧瓊等(2017)從學習分析的視角出發,利用多元回歸分析確定在線學習危機預警因素,在此基礎上構建干預模型,將干預模型應用于在線教學過程,及時識別出存在學習危機的學生并提供個性化干預對策,有效提高了大學生在線學習效果。第二類是有關大學生在線學習危機干預方法的研究。楊雪等(2017)基于學習分析對大學生在線學習拖延情況進行描述,采用電子郵件、彈出窗口、學習資源推送等干預策略對學生進行個性化干預,有效減少了拖延次數與時間,改善了在線學習效果。尤佳鑫等(2016)基于多元回歸模型預測結果,綜合考慮性別、活躍度等因素,對部分危機學生進行干預,干預的方式包括一對一和一對多面談、在線交流等,干預的內容包括警示、鼓勵和知識點答疑等,研究結果表明基于預測的教學干預取得了較好的效果,接受干預的學生成績進步顯著。
綜上所述,國內外學術界在在線學習預警和干預方面已積累寶貴經驗,但仍有亟待改善的地方:①多數從理論視角構建學習成績預測和評估框架,有必要加強實證研究;②大部分研究者使用結構化數據建立在線學習預警模型,難以準確解釋在線學習行為差異,需要引入非結構化數據;③經大數據分析診斷存在危機的學生,不僅要有技術干預,更需要制度的介入,最終實現由約束轉化為提高內在動機、自我效能和情緒的主動學習。
三、大學生在線學習危機預警因素
(一)結構化數據:外顯信息
學習管理系統會記錄學生在課程學習過程中留下的多種學習痕跡,如任務提交情況和實施互動評價情況等。通過收集這些日志數據并進行數據過濾與篩選,最終選定了包括學生學習狀態(包括完成作業時間、完成評價時間、登錄總時長等5項數據)、學習交互(包括發帖總次數、發帖總長度、給他人回復總數等6項數據)、學業水平(包括作業得分、測驗得分和考試成績3項數據)三個維度的結構化初始數據集,如表1所示。
(二)非結構化數據:內隱信息
依據朗(Lang, 1980)提出的自我評估人體模型評分量表(采用9分制,其中1分表示非常消極的評論,9分表示非常積極的評論,5分表示中性評論),采用人工注釋法對學生的自我反思日志以及學習評價等非結構化數據(306條自我反思日志和112條學習評價)中的情緒強度進行判定。為確保樣本數據編碼的可靠性,由兩名助理共同完成,經過數據比較Kappa系數為0.81,對意見不一致的編碼進行再次討論,以達成100%的共識,結果如表2所示。
通常,學生的情緒隨時間而發生改變,教師根據折線圖反應的情感變化向情緒波動或持續低下的學生提供實時反饋,如圖1所示。
其中,第三周學生的自我反思日志表達了“我對陌生術語感到困惑”,詞匯中“困惑”的情感詞的效價等級為4(情感強度低于4.5),意味著學生產生了消極情緒。第四周學生自我評估關鍵語句是“這門課程我很感興趣”,情感詞“感興趣”詞典的評價等級為7(情感強度高于5.5),表明學生后來又產生了積極情緒。
四、在線學習精準預警模型構建
本研究選擇樸素貝葉斯分類器作為研究預警模型,識別處于風險中的學生。它是簡化的貝葉斯網絡,是基于條件獨立性概念的圖形模型,使用有向圖以緊湊方式編碼一組變量的聯合概率分布來描述概率變量之間的依賴關系。已有研究表明相比邏輯回歸、支持向量機、決策樹、多層感知器、K-最近鄰算法等常用的預測方法,樸素貝葉斯方法識別出處于學習危機學生的精確度最高(Marbouti, Diefes-Dux, & Madhavan, 2016)。計算公式如下:
將全員學生數據隨機分為6∶4(30∶21名學生)的訓練集和測試集,基于樸素貝葉斯的預警模型分別在第二周、第四周、第六周對大學生在線學習成績進行預測,目標變量為學生成績,70分以上作為可以被接受的學業水平。其中,結構化數據包括學生學習狀態、學習交互、學業水平數據,而非結構化數據則取自學生自我反思日志和學習評論的情感分析內容。根據預測結果得出TP(預測結果判定為風險學生,事實上也是風險學生)、FP(預測結果判定為風險學生,事實上不是風險學生)和FN(預測結果判定為不是風險學生,事實上是風險學生),根據上述公式(3)、(4)、(5),比較了僅使用結構化數據和結合使用結構化與非結構化數據集兩種預測方式的P值、R值和F-Measure值差異,結果如表3所示。
可見,在預測數據集中添加非結構化數據,準確率在第二周從0.65上升到0.77,第四周從0.70上升到0.77,第六周從0.73上升到0.83;召回率在第二周從0.53上升到0.63,第四周從0.59上升到0.72,第六周從0.59上升到0.75;F-measure值在第2周從0.59上升到0.69,第4周從0.64上升到0.74,第六周從0.65上升到0.79。證明了納入非結構化數據顯著提高了預警模型的預測精度。
五、在線學習危機干預實證分析
(一)在線學習危機干預模型
基于預警模型,結合在線學習環境特征設計了在線學習危機干預模型,如圖2所示。通過預警模型識別學生是否存在學習危機,若診斷結果為不存在,則繼續進行下一輪診斷,實時更新學習者的個人在線學習診斷信息;若診斷結果存在學習危機,將學生分到通知干預組或在線學習支持環境干預組。
1. 通知干預
分配到“通知干預”組中的學生會收到一條消息,指出他們在線學習表現較差,可能無法完成課程,并指導他們如何提高自身的學習表現。學生收到的郵件信息中應該包含以下內容(如圖3所示),告知學生通過對其近期作業成績和其他一些可能預測學業水平的因素進行分析,發現該學生的表現可能會對其學習成績產生負面影響,并告知學生采取怎樣的措施可以改善其在線學習表現,提升自身的在線學習質量。
此外,通過分析學生提交作業的IP地址(如圖4所示),如果發現存在學術不端行為的學生,也將通過郵件方式給予提醒。
2. 在線學習支持環境干預
被分配到“在線學習支持環境”小組的學生會收到一份與其學習表現相對應的學習診斷報告,如圖5所示。報告包括提供綜合評估學習者在線學習風險儀表盤、每周學習風險報告、針對具體學習活動的診斷與建議、每節課后學生情緒分析。其中,儀表盤使用不同的顏色表示學生在線學習狀態,包括優秀、良好、普通、危險。每周學習風險報告以縱向線形式呈現,可用于跟蹤學期中學生學習表現的變化。學習活動的診斷與建議分為學習水平、學習交互和學習狀態三類,每個類別均由一個圖標表示,學生可以點擊該圖標接收教學助理或教師提供的建議和其他與表現相關的信息。每個類別的建議有助于學生理解其學習績效評估并作出相應的改進措施。情緒分析圖表有助于追蹤學生的學習狀態趨勢,情緒狀態的下降會引發警報,幫助學生反思他們與課程相關的情緒,從而改善在線學習表現。
除此之外,在線學習支持環境還包含以下四點內容:提高學生對學習支持服務的認識——由在線輔導人員指導學生使用各種由平臺提供的在線資源(如輔導服務、在線實驗室等);促進點對點互動——由高年級的優秀學生負責組織一個學習討論區,他們擔任同伴導師,從中學生可以獲得各種學習技巧,包括時間管理、減壓小貼士、如何處理考試焦慮等經驗分享;提供自我評估工具,如學習進度條、電子徽章、學習策略清單等,以幫助學生更好地了解自己的學業水平和學習風格,并可據此獲得提高學習質量的建議;提供教育腳手架,為學生提供一系列在線開放學習內容,如“網頁設計輕松學”“網頁設計課程實戰”等課程。
(二)在線學習危機干預制度
1. 信用積分
對于出現課程缺席、自評互評活動缺席、學習任務未按照要求完成等行為的學生,系統會扣除相應信譽積分,情節嚴重者將禁止參與該學習活動。倘若學生因不可抗因素導致信譽積分被扣除,可通過積極完成各項學習活動,并在活動中擁有出色的學習表現來恢復自己的信譽積分,信譽積分過低則無法通過該課程。
2. 預警指標
從學習狀態、學習交互、學業水平三個維度對每個任務的在線學習表現進行評價,采用訪談、頭腦風暴等方法,由學科領域權威專家制定預警指標。如圖6所示,預警閾值能夠根據學習者的個性特征進行動態微調,符合任一條件的學生都將作為督導對象,連續三周成為督導對象的學生將無法通過該課程。
(三)干預效果的實證分析
本研究根據“網頁設計與開發”課程教學觀察周(第1周~第7周)的學生學習診斷結果,選取其中32名學習風險學生作為研究對象,進行為期8周(第8周~第15周)的干預實驗,同時比較兩種干預策略效果。
1. 任務設計
除了完成作品,學習任務還包括互動評價、課后交流討論、測驗、自我反思日志、課程答疑討論和考試等,具體安排如表4所示。教師分別在第7周和第15周按照考試分數占50%、互動評價分數占30%、教師評價分數占20%給出學生成績,做出學習危機判斷。
2. 學生聚類分析
基于預警指標,通過Q型聚類分析方法將32名存在學習危機的學生分為三類,如圖7所示。其中,21名學生(序號為6、27、……32、22)學習成績分數較高,接近可接受的參考值,屬于輕度學習危機學生,他們的共同特征是具有較高的活動性,登錄學習平臺次數較頻繁,少數任務未完成,表現較為良好;8名學生(序號為4、25、……2、26)屬于中度學習危機學生,這個群組的共同特征是活動性一般,學習時間適中,完成部分學業任務,且完成任務平均時間較長,表現一般;3名學生(序號為12、23、1)屬于重度學習危機學生,他們的共同特征是具有較低的活動性,學習時間短,學習任務未完成次數較多,且完成任務平均時間長,表現較差。
然后,在準實驗研究下,根據聚類結果按照一定比例把學生分為三組,利用單因素方差分析得出組間學生先前知識水平沒有顯著性差異,p=0.639>0.05。其中,通知干預組11人(輕度學習危機者8人、中度學習危機者2人、重度學習危機者1人),在線學習支持環境干預組11人(輕度學習危機者7人、中度學習危機者3人、重度學習危機者1人),對照組10人(輕度學習危機者6人、中度學習危機者3人、重度學習危機者1人)。
3. 干預效果分析
對干預后三個小組的學習成績進行單因素方差分析,分析結果顯示對照組和通知干預組(p=0.019<0.05)以及對照組和在線學習支持環境干預組(p=0.001<0.05)均存在顯著性差異,干預組成績高于對照組,但兩個干預組之間(p=0.203>0.05)沒有顯著性差異,如表5所示。
另外,研究發現兩個干預組中最初被認定為高度學習危機的2名學生學習評價分數均達到了中度學習危機學生水平;最初被認定為中度學習危機的5名學生學習評價分數有2名達到了輕度學習危機學生水平,有1人達到了無風險水平;最初被認定為輕度學習危機的15名學生,有9人達到了無風險水平,如表6所示。
4. 問卷調查反饋
為了進一步驗證干預策略的有效性,分別對兩個干預組學生發放總計22份問卷,統計結果如表7所示。
從反饋結果來看,在通知干預組中,全部學生都認為通知郵件能夠使自己意識到學習問題,90.91%的學生認同通知郵件能夠提醒自己按時完成學習任務,避免出現任務逾期未完成的情況。在在線學習支持環境支持干預組中,90.91%的學生認為能夠通過查看在線學習診斷報告了解自己的學習狀態,及時查漏補缺;72.73%的學生認為學習進度條能夠促使他們積極參與學習活動,增強學習動機;僅有54.54%的學生認可學習討論區中的學習資源以及學習支持人員的指導作用,究其原因,學生C表示“盡管在討論區中學長學姐分享了學習技巧和學習資源,但由于分類不夠明確,難以獲取”,學生D表示“不太愿意與學習支持人員交流,會覺得有點麻煩”,由此提醒在后續研究中干預策略的設計需要著重考慮干預措施的用戶體驗。此外,77.27%的學生認為信譽積分和督導指標制度能夠促使其積極參與學習活動,按時完成學習任務,但也有個別學生表示各種約束使自己對學習產生了厭煩情緒,嚴重影響了在線學習體驗。
六、結論
本研究采用樸素貝葉斯網絡算法,通過整合學習狀態、學習交互、學業水平的14個結構化數據和自我反思日志與學習評論的非結構化數據,提高了在線學習危機預警精度。經大數據分析診斷識別存在學習危機的學生,聚類分析后設置干預組(通知干預組和在線學習支持環境干預組)和對照組,在信用積分與預警指標兩種干預制度保障下,準實驗研究結果表明兩個干預組與對照組均存在顯著性差異,干預組成績均高于對照組,但兩個干預組之間沒有顯著性差異,表明僅通過郵件通知讓學生意識到自己有學習危機的風險,就能激勵學生尋求幫助、改善自身的學業表現。此外,兩個干預組中學習危機學生的表現均有一定程度改善,其中高度學習危機者為0人,無風險學習者達到10人,進而印證了預警精確性和干預對策的有效性。本研究有助于人們理解影響在線學習危機的主要因素,利于教師和同伴及時發現學習異常的學生,采取有效干預和幫助措施,更好地引導學生學習。下一步研究包括:①樣本數據的獲取。預警的基礎是數據,由于本研究受特定教學活動的限制,樣本數較少,而且不同地區、不同民族的學習者學習行為存在一定的差異,后期會將成果應用到大規模在線課程學習體系中,增強預測研究的準確性和普適性。②預警指標動態調整與完善。預警指標體系的構建是學業危機預警的重要環節,但本研究在建立指標體系時僅根據數據的可獲取性挑選了一些主要指標進行分析,在以后的研究中還將考慮采集學生的腦電、心率等生理數據及人格心理數據,對預警指標進行動態修正、補充和完善,以期獲得更為可靠的預警結果,促進學生學業發展。
[參考文獻]
武法提,牟智佳. 2016. 基于學習者個性行為分析的學習結果預測框架設計研究[J]. 中國電化教育(01):41-48.
楊現民,葉洋,王林麗. 2016. 基于大數據的在線學習預警模型設計——“教育大數據研究與實踐專欄”之學習預警篇[J]. 現代教育技術,26(07):5-11.
楊雪,姜強,趙蔚,李勇帆,李松. 2017. 大數據時代基于學習分析的在線學習拖延診斷與干預研究[J]. 電化教育研究(07):51-57.
尤佳鑫,孫眾. 2016. 云學習平臺大學生學業成績預測與干預研究[J]. 中國遠程教育(09):14-20.
趙慧瓊,姜強,趙蔚,李勇帆,趙艷. 2017. 基于大數據學習分析的在線學習績效預警因素及干預對策的實證研究[J]. 電化教育研究(01):62-69.
周濤. 2017-05-31. 預測的局限性[EB/OL]. [2018-11-01]. http://blog.sciencenet.cn/blog-3075-1058131.html
Ahmed, Elaraby. (2014). Sayed Elaraby I. Data Mining: A prediction for Students Performance Using Classification Method. World Journal of Computer Application & Technology, 2(2),43-47.
Hanan Khalil, Martin Ebner. (2014). MOOCs Completion Rates and Possible Methods to Improve Retention-A Literature Review. World Conference on Educational Multimedia, Hypermedia and Telecommunications. Chesapeake, VA: AACE, 1236-1244.
Ke Arnold , MD Pistilli.(2012). Course signals at Purdue: using learning analytics to increase student success. International Conference on Learning Analytics and Knowledge. New York: ACM Press, 267-270.
Kolo David Kolo, Solomon A. Adepojub, John Kolo Alhassan. (2015). A Decision Tree Approach for Predicting Students Academic Performance. Education and Management Engineering, 5, 12-19.
Lang P J. (1980). Behavioral treatment and bio-behavioral assessment: Computer applications. Norwood, N. J.: Ablex Pub. Corp.
Marbouti F, Diefes-Dux H A, Madhavan K. (2016). Models for early prediction of at-risk students in a course using standards-based grading. Computers & Education, 103, 1-15.
Mezzari, Adelina. (2013). Strategies for the early detection of evasion propensity. Knowledge Management & E-Learning : an International Journal, 5(1), 104-116.
M Goga, S Kuyoro, N Goga.(2015). A Recommender for Improving the Student Academic Performance [J]. Procedia-Social and Behavioral Sciences, 180(5), 1481-1488.
Yu P T. (2015). The benefits of a challenge: student motivation and flow experience in tablet-PC-game-based learning. Interactive Learning Environments, 23(2), 172-190.
ZahyahAlharbi, James Cornford, Liam Dolder, Beatriz De La Iglesia. (2016). Using data mining techniques to predict students at risk of poor performance. Sai Computing Conference. London: IEEE Computer Society Press, 523-531.
收稿日期:2018-12-25
定稿日期:2019-04-24
作者簡介:舒瑩,碩士研究生;姜強,博士,副教授,博士生導師;趙蔚,博士,教授,博士生導師。東北師范大學信息科學與技術學院(130117)。
責任編輯 劉 莉 張志禎