楊豐玉,聶偉,鄭巍,喬廣超
(南昌航空大學軟件學院,南昌330063)
近年來隨著大數據技術的興起,大數據技術逐漸在教育領域得到廣泛應用,教育信息化技術得到快速發展。同時,國家對教育信息化的發展越發重視。2016 年,國務院印發《國家教育事業發展“十三五”規劃》鼓勵高校利用發展教育信息化技術,對教育教學活動中的學生行為數據進行廣泛收集、分析和研究,探索、發展學分制度,實行學生自主選課原則,從國家層面將教育信息化技術納入發展規劃中[1]。此外,《2017新媒體聯盟中國高等教育技術展望:地平線項目區域報告》分析了學習分析技術和量化技術在教育領域的發展前景,表示在未來四五年內,學習分析技術和量化技術能為教育領域帶來新的想象空間,為教育教學活動提供科學指導[2]。因此,如何利用學習預警技術、學習分析技術提高教學質量,是教育大數據發展過程中亟待解決的、具有重要意義的問題之一。
在線學習平臺出現之后,加速學生學習日志記錄數據的積累,海量學生學習日志記錄數據成倍增加,為學習預警研究提供了更為廣闊的數據支持。學習者學習行為產生的海量數據蘊含豐富信息,成為研究學習行為與學習成績的相關關系的重要基礎,為在線學習預警提供了新的思路[3]。大數據技術在教育領域的應用主要體現在,一是根據在線平臺獲取的數據,對數據進行管理分析,以此構建學習者學習行為模型,對學習者未來學習效果進行有效預測;二是對學習行為進行分析,判斷學習者當前學習狀態,生成學生“體檢”報告[4]。
目前在在線學習平臺的推動下,學習預警技術的發展與應用達到教育信息化的新高潮。國外學習預警主要集中于預警系統開發與應用、分析方法、可視化工具等領域;國內主要集中于學習預警模型設計、風險預測等領域。本文將著重從大數據角度分析學習預警概念、系統構建、系統應用以及學習預警系統的挑戰與展望。
學習預警(Early-Warning for Learning)指按照一定的標準對學生的學習背景、學習行為以及測驗成績等相關數據進行分析,根據分析結果向教學人員、學生發出提示信號,對有問題的學生提供有針對性的干預意見[5]。預警分析中,研究者力求了解學習者的學習過程,提前發現學習風險,并為學習者提供合理建議;學習預警系統主要是確定具有潛在的風險,通過對學生基本數據進行分析處理,生成學習預警報告[6]。
在國外,美國是學習預警系統研究與開發的領跑者,已經有一些學校和企業機構根據教育發展的需求成功研發出各具特色的學習預警系統,并在實際教學應用中獲得了較好的反饋,特別是在防止輟學方面,積累了寶貴的經驗[7-8]。
Hu Y.H.等人提出的預警系統可以通過分析學習管理系統(Learning Management System,LMS)中記錄的學習日志數據來幫助識別處于危險中的學生或預測學生的學習績效,以往的研究主要集中在課程結束后學習者績效評價指標的構建上,而忽視了“預警”系統在課程實施過程中對高危學生進行預測的實用價值[9]。
可汗學院(Khan Academy)在2013 年提出學習儀表板(Learning Dashboard)概念,并應用于數學課程。學習儀表盤通過學習行為分析模型分析學生當前學習狀態,并將學習狀態進行可視化呈現。同時,根據用戶的需求對數據進行分析。最后,向學習者、教師、研究人員和教育管理人員提供電子學習中的圖形和圖表等可視化形式[8]。
華金秋對學習預警制度和學習預警機制進行對比分析,指出前者是指通過利用大數據技術手段,構建一套學生學習狀態的預測、評價和干預制度,以此確保學生能夠順利完成學業;后者主要強調學校、學生、家長之間的協作交流,構建三位一體的教育教學模式,并能夠及時發現和識別學生潛在的問題,向學生、家長以及教學人員發出提示信號,預測可能產生的不良后果[10]。
美國新媒體聯盟在地平線報告中指出學習分析技術是利用數據收集工具采集學生學習過程中的行為數據,分析學習過程中的行為表現、參與狀態等數據,對教學狀態和學生學習狀態進行實時評價[11]。學習預警和學習分析是大數據技術在教育領域應用的兩種重要方法。學習預警與學習分析相互交織,卻又有所區別。相同點主要在于具有相同的研究對象和研究方法。主要區別在于研究目的不同。學習預警基于學生學習過程對學習結果進行預測,發現有問題的學生;學習分析側重于學習者學習過程的評價,對學習者學習能力和狀態進行評估研究,為其提供合適的教育教學方法。
分析技術早期主要應用于物理、生物等領域,在教育領域的應用較晚。隨著大數據技術的發展,教育信息化研究漸漸引入分析技術,其中學習預警技術和學習分析技術是分析技術在教育信息化研究中的具體應用[12]。Angela 等人[13]對學習分析在高等教育領域的應用中采用的術語和描述概念進行了總結,發現學習分析、學術分析和預測分析研究方向已經概念定義最為接近。徐鵬[4]則指出學習預警技術和學習分析技術均是分析相同的學習行為數據,但研究目的和對象不同。Abelardo 等人[14]提出學習分析指在提供有意義的教學指導,學習預警旨在分析學習行為與學習結果的關系和分析對問題學生的干預策略。肖巍等人[5]分析了數據挖掘和學習預警異同,指出數據挖掘利用相關算法從大量冗余數據中發現隱藏的關系和規律,數據挖掘技術促進學習預警的研究與發展,為其提供了新的研究方向。學習預警與學習分析具體比較情況如表1。

表1 學習預警和學習分析比較
學習成績是衡量學生學習效果的重要指標之一。根據相關文獻以及學生實際學習表現發現學生學習行為對學習成績有重要影響。因此,在學習預警研究過程中,利用數據挖掘技術分析影響學習效果的重要指標是學習預警研究的重要方向之一。同時,數據挖掘算法分析結果也受到輸入指標數據影響,因此如何做好預警指標數據處理至關重要。
陳益均等人[15]采用聚類算法和K-means 算法對學生數據進行分析,研究學生上網行為與英語四級通過率的關系,結果表明上網行為中的下載流量、在線時長、使用費用各指標對四級通過率影響最大。楊雪等人[16]利用Moodle 平臺數據進行處理和分析,發現完成作業時間、完成作業次數、互評時間、互評次數及自評次數和自評時間等6 個課程變量與學習成績主要相關。
李建偉等人[17]運用邏輯回歸算法分析入學成績、作業成績、學生類別等指標與已完成課程的平均成績相關性,構建學習風險預測模型。研究結果顯示作業成績與“已完成課程的平均成績”相關性最高,接下來依次是“已完成的課程數”、“生源地”、“學生類別”、“課程學習平均時長”、“章節測試成績”和“入學成績”。
王改花等人[18]總結數據預處理的具體步驟,包括數據清洗、數據集成、數據變換、數據規約等,通過數據預處理提取了不同學習背景、不同學歷、不同性別學生的9 個學習行為特征指標,分別為學習時間跨度、平均每次在線學習停留時長、學習總時長、重復學習率、討論交流、學習次數、接收反饋數量、學習筆記、總成績。利用決策樹方法對9 個學習行為特征與總成績進行逐個分析,結果發現成績與學科背景關系最密切,其次是性別,學歷對總成績的影響最小。

表2 學習預警指標相關研究情況
吳青等人[19]對Moodle 平臺數據進行提取處理得到各學員對各章節知識點瀏覽時間、在線作業成績、發言類型、發言次數和字數、性別、年齡、婚否與前置學歷等作為特征變量,將數據進行離散化處理。其中采用最近鄰算法中的IBk 算法處理異常值數據,具體方法是計算學員向量空間距離,再人工篩選剔除異常值。研究發現各章節知識點瀏覽時間和在線作業成績與學習成績顯著相關,發言次數和字數對學習成績略有影響,其他指標影響不顯著。
Wladis 等人[20]收集了來自美國東北一所大型城市社區學院1001 名在線學習學生和1329 名面對面學習學生的學習記錄。包括入學前平均學分績點、學生是否申請或接受經濟資助、年齡、性別、種族等特征變量信息。還有很多學者對學習預警指標選取進行了研究,表2 匯總了部分研究的具體情況。
通過對文獻進行分析,納入學習預警的數據指標主要分為以下幾類:
(1)學生網絡學習行為:主要包括章節測試成績、課程平均學習時長、上課時間、論壇交流互動次數、觀看視頻次數等;
(2)學生屬性:主要包括性別、年齡、入學成績、學生類別、國籍等;
(3)教師屬性:主要包括性別、年齡、好評度等;
(4)課程屬性:主要包括難易程度、歷史平均得分、分數段人數等;
(5)學習環境:主要包括學生資助情況、圖書館到館情況等。
確定學習預警的數據指標后,通常還需要對數據進行預處理。通過對國內外文獻進行分析,預警指標處理主要分為以下幾個方面:①缺失值、異常值處理;②數據標準化處理;③預警指標量化,如離散化、歸一化。對于不平衡數據常采用重抽樣或欠采用方法。
李建偉等人[17]對學習者數據分為行為數據和信息數據,在學習者特征屬性值選取中設置20%為缺失數據閾值,丟失數據超過20%的屬性進行丟棄,對于不平衡的數據采用SMOTE 采樣方法進行重抽樣。尹茂竹等人[25]數將據缺失值按照缺失機制劃分為完全的隨機缺失、隨機缺失、非隨機的缺失三類,對缺失值采用刪除存在缺失值的個案和缺失值插補兩種方法;引入Z分數概念處理成績不平衡問題,并對變量進行歸一化;對學生行為構建序號表,名義變量用0、1 表示法等進行數字化處理。陳子健等人[26]采用對原始數據中所有的單個屬性通過計算皮爾森相關系數活信息增益率進行評估并排序,然后依據排序結果來選擇屬性子集的方法確定影響學習成績相關指標。
學習預警框架通常定義了學習預警系統的體系結構,給出了學習預警數據的完整處理過程,因此學習預警框架設計的好壞直接關系到預警系統的效率與效果。目前很多學者從不同角度對學習預警的框架結構進行設計。
武法提等人[27]設計了學習效果預測框架。該框架包括學習內容分析、學習行為分析和學習預測分析三大模塊,如圖1 所示。學習內容主要從學習時長、交流活動、作業和考試情況進行分析;學習行為主要從學習活動行為和學習結果行為進行分析;學習預測主要采用聚類分析、時間序列分析、決策樹分析。

圖1 武法提的學習結果預測框架
金義富等人[28]采用離群數據挖掘與分析技術構建“三位一體”預警制度,將課程、課堂和課外結合起來,對學生進行全方位預警,并提出了LAOMA(Model of Learning Alert Based on Outlier Mining and Analysis)學生預警模型,如圖2 所示。其主要步驟是獲取包括主要知識點、測驗評分、作業情況以及與該課程相互關聯的其他課程完成情況和成績等數據、離群挖掘與分析、構建LAOMA 模型、兩類六級信號與影響因素反饋。

圖2 金義富等人的學習預警LAOMA模型框架
LAOMA 模型中還建立了學習預警兩類六級信號含義及其參考標準,用于描述學習預警的結構,詳見表3。

表3 金義富等人的兩類六級學習預警信號含義及判別標準表
Wu R.等人[29]提出了一個模糊認知診斷框架(FuzzyCDF),如圖3 所示,用于考生的客觀和主觀問題的認知建模。診斷框架從考生的潛在特征開始,然后確定被測試技能的熟練程度,計算考生的問題掌握情況,并通過考慮失誤和猜測因素生成考生在問題上的可觀察分數,提出了一種MCMC 抽樣算法來推斷FuzzyDF 的不可觀測參數。實驗證明,FuzzyCDF 可以更有效地預測考生的表現。
王林麗等人[30]提出了學習預警功能模型,具體分為數據收集、數據分析、預警信息呈現和提供干預四個階段,從學習者知識掌握程度、學習情緒變動和行為特征三個方面出發,構建在線學習預警功能模型,如圖4所示。

圖3 Wu R.的4層模糊認知診斷框架

圖4 王林麗等人的學習預警功能模型
此外,王林麗等人[30]還提出學習預警的過程模型,分為七步,明確預警目的和內容、數據采集、數據分析、預警信息和學習情況呈現、預警信息推送、個性化建議提出和資源推薦、個性化建議和個性化資源推送給相應的學習者,如圖5 所示。

圖5 王林麗等人的學習預警過程模型
李建偉等人[17]設計了在線學習風險預測框架,包括數據清洗、訓練模型和預測應用三個階段:數據清洗階段首先需要選取合適的數據源,然后處理數據異常值和缺失值,最后將數據分為訓練數據和預測數據;訓練模型是的使用機器學習算法對重抽樣數據進行訓練和調優的過程,最終生成最優模型;預測運用是對將學生的學習數據利用模型進行預測,得出預測結果。如圖6 所示。

圖6 風險預測框架
自教育大數據概念提出以后,國內外很多學者致力于學習預警方法的研究。通過對國內外文獻研究發現,大多數學習預警研究方法主要運用機器學習和數據挖掘技術。主要包括決策樹、隨機森林、邏輯回歸、反向神經網絡、聚類、支持向量機等。
Gokhan Akcapinar 等人[22]在開發學習預警系統過程中發現,在算法方面使用原始數據時隨機森林優于其他算法,使用分類數據時樸素貝葉斯優于其他算法。Pandey 等人[31]學生成績預測提供一種通用的解決方案,提出了綜合多分類器的概念,該分類器由決策樹、K 鄰近和貝葉斯分類器三種互補算法組成,利用概率組合規則的乘積對多個分類器進行集成,對學生成績進行預測。Sansone 等人[32]收集了2009 年美國940所高中學校約2.6 萬名九年級學生學習行為數據,對高中輟學率進行預警,利用學生成績、平時表現等組成的高維數據,結合支持向量機、boosted regression、postlasso 等機器學習工具能夠有效增強預測效果。
Wladis 等人[20]研究課程水平因素在多大程度上可用于預測在線或面對面的課程的結果。采用多層次建模方法,控制教師水平和學生特征的影響,測量課程水平特征與在線和面對面課程成功完成的關系。并利用隨機截距控制特定課程的隨機變化,建立多層次邏輯回歸模型,研究課程水平因素對課程結果的影響。
Iqbal 等人[33]收集國際電聯電器工程系225 名參加電氣工程課程的本科學生數據,并分別利用協同過濾(CF)、矩陣分解(MF)和受限玻爾茲曼機(RBM)對國際電聯電氣工程系學生學業成績進行預測。研究發現CF 依賴于歷史數據或用于預測結果的項目,對稀疏過大的數據表現差;SVD 與梯度下降算法一起使用能夠增強預測學生成績的準確性但可能包含難以解釋的負值;RBM 適用表格數據建模在預測學生特定課程中的表現優于其他技術方法。表4 收集了多名學者對學習預警方法研究的具體情況。
通過對文獻研究發現,分類和聚類是學習預警研究中最典型的技術,貝葉斯定理、決策樹、隱馬爾科夫模型以及Instance-Based Learning 是學習預警研究最常用的方法[40]。對于機器學習方法評價,常采用混淆矩陣和曲線下面積(AUC)。如Jae 等人[41]使用機器學習研究高中生輟學率,預測模型績效評價指標采用二元分類的四個性能指標:準確度、靈敏度、特異性以及曲線下面積。
學習預警系通過對學習者學習行為產生的海量數據的獲取與分析,構建預警模型和干預措施庫,對學習者學習危機進行識別和預警,并通過可視化工具向教師、學習者展示學生學習狀態,針對危機學生提供相對應的干預措施。

表4 學習預警方法相關研究情況
美國是學習預警系統研究與開發的領跑者,已經有一些學校和企業機構根據教育發展的需求成功研發出各具特色的學習預警系統,并在實際教學應用中獲得了較好的反饋[42]。美國可汗學院將可視化分析工具融入學習管理系統中,推出了一款可用于實現預警功能的學習支持工具——學習儀表盤[43]。此外加拿大學者Leah P.Macfadyen 等人利用學生管理系統平臺,采用數據挖掘技術開發“學習預警系統”,并在系統中設計了可視化儀表盤,能夠快速識別鎖定處于“危險狀態”下的學習者,并提供干預建議[44];加拿大一所大學對相當數量的被留校觀察的學生進行SAT 成績、幾人電話聯系情況、宿舍停留時間等作為數據源進行分析,識別出他們在學習和生活中出現的問題[45]。綜上,通過對國外預警系統文獻檢索分析發現,國外在線學習預警系統的理論研究和實際應用能力較成熟[27],目前典型案例有學生成功系統[46]、電子顧問[47]、海星預警系統[48]、普渡大學的課程信號系統[49]以及可汗學院的儀表盤應用。表5 分別從實現形式、預警內容、預警方式、技術、成效、不足等角度詳細分析了國外五大典型學習預警系統。
相對而言,國內學習預警系統應用典型案例較少。Wu C.等人[50]以華僑大學旅游學院為試點,建立“學校-學生-家長”三位一體的“學習預警與干預體系”。其將預警系統分為兩部分:預警等級評估系統和預警干預系統。預警等級評估系統由評價矩陣對學生進行分類和劃分等級。評價體系由教育學者設定。預警干預系統則是以評價體系為標準,及時對學生和教學人員以及家長發布預警序列,同時學院采取動態跟蹤學生模式。

表5 國外典型學習預警系統
大數據技術在教育領域的運用帶來了機遇和挑戰。隨著MOOC 等技術和平臺的興起,給學習預警、學習行為分析提供了海量數據源。基于大數據的學習預警技術,在應用中面對著各種挑戰與展望。
(1)道德和隱私的挑戰
隨著網絡的發展,人們使用各種終端設備接入互聯網,產生了海量的行為數據,這必然涉及到隱私問題。學習預警過程中,需要通過MOOC 等平臺收集學生行為數據,行為數據的采集是否需要征求學習者同意?海量的行為數據增加了學習者的透明性,如何防止數據泄露也是一大難題。
趙瓊慧等人[51]認為大數據學習分析中倫理道德挑戰主要集中在個人隱私泄露、數據訪問權限模糊、數據可信性受威脅等。針對這些挑戰,趙瓊慧提出三大安全與隱私保護策略,分別是:遵守透明原則、征得學習者的知情同意、提高數據質量(真實性和完整性)。同時,相關的法律制度和道德規范的指定與實施需要與安全技術的使用保持同步,相互補充。
李青等人[52]制定了七大隱私保護策略,如:通過立法保護學習者的信息隱私、形成大數據時代的數據倫理觀念、建立學習者數據的使用規則、確定參與各方的權利和義務以及問責機制、行政主管部門應形式監管職責、培養學習者保護自己隱私的意識、推動教育信息行業的行為自律等。
通過研究先關文獻發現,目前國內為已有相關學者從事倫理道德保護的相關研究,國家機關也指定了相管法律文件,但都處于研究的初期階段,尚未形成系統的、全面的隱私保護機制。道德和隱私的挑戰,需要政府職能部門和研究機構共同努力,構建脈絡清晰的隱私保護體系。
(2)目前學習預警研究存在的問題
通過對學習預警相關文獻進行分析,發現在現有研究中,尤其是國內研究主要存在的問題如下:
①學習預警干預研究頗多,但主要體現在理論層面的干預,缺乏實踐驗證。目前國外學習預警系統應用較為成熟,如可汗學院等。國內學習預警系統研究主要集中在理論研究層面,缺乏實踐應用經驗。
②學習效果影響因素研究,主要集中在研究相關變量與學習成績的相關性,對相關變量與學習成績數量關系研究不夠深入。如表2 主要列舉相關指標與學習成績具有強相關性,但鮮有文章相關變量與學習成績影響相關系數進行研究。
③目前研究主要針對一定時期內學生行為數據對學習成績的預測,缺乏動態可視化成績預測研究。通過對文獻進行分析,目前研究主要集中于針對一段時間內學生行為表現對期末成績的影響,尚未利用時間序列分析發現學習者隨時間變化而變化的規律等[17]。
針對目前缺乏動態可視化成績預測研究,研究基于時間序列的動態可視化學生畫像模型是學習預警研究的一大方向。動態可視化學生畫像能夠隨時間的變化展現不同時間段學生的學習狀態。有助于學習者、教學人員實時掌握學習者學習狀態,學習者能夠根據畫像及時調整學習方法,教學人員能及時調整教學方案并對有問題學習進行教學干預。
另外開發完善的學習預警系統順應高校的需求。學習預警技術結合學習分析技術、干預研究等構建完善的學習行為研究體系,能夠精確檢測學習者學習狀態,提高學習者學習積極性,極大地推動教育信息化的發展,在教育領域發揮促進作用。