胡致杰
(廣東理工學院信息技術學院,廣東 肇慶 526100)
大數據可以說是在物聯網與云計算之后,IT領域中的一項突出變革。該科技手段擁有數據量級大、涵蓋信息類型多、處理效率高等特點。在教育領域中,通過大數據,對學生的學習行為及過程實施準確性的量化分析,同時還能優化學習行為績效,全面制定學習方案與路徑,對實現個性化及自適應的學習,予以有力的技術支撐。
以“教”的視角來講,個性化自適應學習需根據學生個體特點,予以差異性學習服務。在多元智能理論下,智能包含語言、節奏、自我認知等,各項智能均反映出學生的潛力及天賦,體現其興趣偏好與理解水平,但每種潛能并非均衡成長的,學生個體特點會在認知的各個時期,以差異化的形式表現出來。理論上,教師應利用全程監控,盡可能挖掘出學習者在某些方面的潛能,并輔助其增強對自己的認知與創新力。但在以往的教育模式中,教師不能隨時了解學生的狀態以及學習成果,使得其無法及時優化教育方案。進入大數據時代后,信息傳遞及取得的方法都隨之出現變化,諸多線上學習方式能較為完整地記錄學習者的知識基礎、學習過程、知識需要等,這給進一步了解學生提供了可行的技術條件[1]。
以“學”的角度來看,個性化自適應學習是基于大數據技術,實現自我調整、自主學習的形式。以構建主義層面來說,學習應當是學生自主、積極獲得未掌握的信息,繼而依托于既有認知體系,內化新內容,實現優化認知結構。而站在元認知理論的視角,元認知的知識與監控能力,對學習有巨大影響,關系到學習行為的效率與學生創新力。通過教育大數據分析,能給各位學生提供與之高吻合度的資料、學習渠道,讓其形成學習元認知以及自主學習的意識。
首先,學習行為中的自主意識逐漸深化。常規自適應系統中,會為學習者提供固定統一的學習流程以及相應的數字化資料,但未能注意到學習者的主觀想法,即自主性。而大數據環境下,立足于個性化特色的自適應系統得以全面開放,使學生產生對學習行為的把控感及成就感,享有在自主管控范疇中,流程、資料的選擇權,達到個性化的學習效果。學生在比較輕松的狀態下完成學習,并符合其在吸收知識方面的需要,同時還比較強調學生的各項能力成長。
其次,學習行為逐漸群體化。大數據環境下,無論是線下學習或者利用系統開展學習,學生均不是單獨進行,而是在不同的人際網絡下,比如校園、學習小組、網絡興趣群等。而群體的學習經歷都是學習者可以借鑒與參考的對象,而且通過和他人交流,也能弱化學生使用系統進行學習時,內心的孤獨感[2]。
最后,逐漸加強對學習情感的關注度。自適應系統在分析中,都會存在一個假設,即學生可以一直使用系統開展日常的學習活動,同時,系統本身可以對學習者的行為實施準確性分析。而實踐現象表示,用于網絡學習系統軟件,結業率并不高,學生會因為某些因素考慮不再使用軟件程序。曾有一個關于系統使用的實驗,最終只有兩名學生學習完所有課程。而格雷澤等學者,針對在線學習時的情感狀態進行研究,并歸納出對學習行為有較大影響的情感狀態,如厭煩、熱情、困惑等。個性化的自適應系統,可利用數據分析的方式,感知學習者的情緒表現,支持情感交互,借助此種模式,能維系學習期間的注意力和參與感。
一方面,學習資源應設置成情境化的形式。因為落實學習行為事件、地點、應用終端的多元化,使得學習場景也具有多樣性的特征。因此,需要學習資源的處理設計方向,可以更加清晰,而且各項資源應當擁有相互獨立、實效性高、小數據容量等特征。另外,鑒于通過不同終端設備使用,所以要求學習資源擁有良好的適應性。
另一方面,各學習資源之間應當在空間上形成關聯性。現如今,學習資源的零散化愈發明顯,但并不表示沒有任何規律。資源內容需基于某知識點,將具體知識點整理成一個數據包,其中包括掌握此知識點應當了解的全部資源,比如練習題、實踐活動、微課等。而且絕大部分學科的知識點都有內在聯系,不僅是學科本身的知識結構聯系,還存在某些組織關系。根據前面討論,學習者在吸收某知識點中,具有不同程度的隨意性,隨時隨地可能進行學習,同時不會根據整體的知識體系逐一學習。因此,自適應系統應當建立多層次的知識點關聯體系,也就是基于知識結構聯系或群體學習經歷等各類關系,以提升學習資源推薦的適宜性[3]。
一是學習系統需具有生態性。以往的自適應系統,一般還處于研究實驗中,尚未形成深厚的用戶基礎,通常是本校或具體專業的用戶,還不符合大數據分析對于數據量級的要求。而個性化的自適應系統,設計基礎環節便是形成系統結構,確保可以承載海量數據與不同的信息源。比如,“作業幫”累計激活用戶達到一億多,而且在義務教育階段的學習者,已經切實解決學習請求的數量,達到百億次的級別。該種數據規模是常規實驗類學習系統不能承載的。立足于大數據及云計算,支持系統間的交互性。根據現如今的網絡應用狀態,系統輸出內容能成為其他系統輸入,例如,在學生成績系統中包含的學習者以往測試信息,能借助數據連接,成功導入學習系統,借此實現對當前用戶學習水平的客觀性評估。
二是數據收集更為精確。大數據中,云計算與物聯網、移動網絡均給學習者創造良好的技術支撐,而學習者終端設備不同,可能是臺式電腦、筆記本、平板及手機等登錄系統學習。在此過程中,網頁日志、視頻、GPS數據、點擊記錄等都可以被收集保留,而且數據形式也打破原本結構狀態,也有半結構及非結構類的信息。數據資料以多樣化形態呈現,并通過更為精確的路徑被獲取及儲存。
三是系統可實現自我升級。“適應”是基于在個體和環境間形成關聯的動態化過程;“適應性”則表示個體和環境之間,在追求互相適應期間展現出的適應水平。支持構建個性化的自適應系統,是根據“有限”規則,但實施活動行為的主體是人,存在極高的復雜性,而“有限”規則不能完全支撐“無限”復雜的活動運行。學習系統需擁有自我調節參數的性能,并且在數據計算與使用次數不斷增多中,能利用機器學習,實現自行優化,逐步提高挖掘學習者特征與預測的準確性[4]。
首先是應用層。其負責的工作內容有:各用戶操作的所有業務,如學習活動、評價、路徑等。
其次是控制層。這是個性化自適應系統的重點,應借助自適應引擎,全面聯系學習者的特征模型,給其推薦智能化及定制化的學習的服務。另外,為能使學生感受到個性化的學習,應當落實全方位學習評價。基于此,合理改進引擎規則,保證引擎可以進行智能優化。
再次是數據層。該層次結構在運行中會依托于感知層,對數據資料進行不間斷、精準性的收集與匯總。還可產生完整的網絡日志與信息點擊流,網絡日志中涉及圖像、音頻及動態數據等有關學習的內容。另外,系統數據層運行中,還會產生巨大的初始數據池,包括結構化與半結構類的數據池。
最后是感知層,也就是資源接收的一方。通常由筆記本、平板、傳感裝置等構成。借助系統感知層,能輔助學習者感知及取得不同形式的學習資源。信息來源通常是學生信息系統、作業系統等[5]。詳見圖1。

圖1 個性化自適應系統總體框架
結合圖1的總體框架結構模型,簡單分析系統運行過程。
在自適應系統下,學生能按照個人學習需要確定具體的學習單元。正式開始學習時,系統能大致分析學生當下的知識掌握狀況,如相關定義、過程類知識、高級思維等,學生需參與學前測試。
基于學生的學前測試結果,獲取學生每道題耗時、正確率等,并借助聚類方式完成學生的基礎建檔。個性化的自適應引擎,則按照建檔情況與領域知識模型,給學生推薦“定制化”的學習資料。
學生在學習期間的所有操作行為,都會以數據的形式保存在系統數據庫內,具體有:學習需要、學前測試、過程操作、單元測試等內容。另外,數據庫中還會儲存學生個人的完整資料信息。
在學習行為結束后,系統會根據學習的內容生成單元測試題目,并基于單元測試結果形成學習者的知識模型,系統能把此類信息全面反饋給學生,使其能對自己單元學習的成效形成一定的了解。
在自適應系統運行中,能夠自動采集學生數據庫內的學習操作行為、測試信息。而后自適應引擎會基于學生近期的學習行為信息,持續預測學習失敗的概率,將預測結果轉移到系統相應的管理單元中,讓教師與管理者能有效對學習者予以必要指導及干預。
自適應系統會自動采集學生數據庫內有關學習經驗等方面的信息,同樣借助關聯規則,提煉出單元學習的次序和最終成績的關聯性。基于此,系統學習引擎按照當下的學習內容,給學生推送個性化的學習信息。除此之外,系統結合學生已有的學習經驗,逐步完善優化領域知識模型。
把各項知識點通過“有向圖”的形式構成“知識地圖”,把知識點分成前驅與后繼兩個部分,用于顯示知識點的聯系。個性化自適應系統基于領域知識模型并結合學生的學習經驗,加以優化調整。學習引擎按照知識模型,不僅能給學生提供最優的學習路徑,還能基于學生目前的學習路徑與相應閾值,衡量學生目前有無偏離設定的路徑。
自適應系統在運行期間會不間斷采集學生數據庫內的互動交流信息,確定其社交網絡。學習引擎借助協同過濾的手段,分析各位學生之間在學習喜好方面的相似度,實現準確性的偏好預測,以此篩選出學生容易被吸引的知識內容與活動,為其推送“定制化”的學習資源。
個性化自適應系統工作中,學生的學習信息會得到循環應用,而且支持不間斷更新。根據圖2所示,系統各個模塊中的信息會在數據不間斷地更新中持續調整。學生在參與學習中,形成的數據信息會保留在個人數據庫內。系統會基于學生數據庫內的信息,建立領域知識模型及學生模型等,自適應引擎則基于模型及學生當前的操作行為情況,實施預測及推送,確定最優的學習路徑以及個性化的學習資料。學生在學習新知識期間,會形成新的行為信息,同時保存在數據庫內,自適應系統基于產生新信息,持續調整各項支撐模型。聯系學生目前學習行為信息,對其今后的學習需要加以預測,并改變資源推薦的方案,把動態化的信息反饋給學生。

圖2 數據循環應用
領域知識模型為自適應系統的核心關鍵,包含教學目標、學科結構、習題、學習資料等,如圖3所示。在設計模型中,應先確定其中包含的每項要素之間內在聯系,比如優先次序,同時還應明確基本屬性與語義標準。此支撐模型的特征如下:

圖3 領域知識模型的一般結構
其一,學習資源對象的實際風格狀態。假設學習資源對象在各個學習風格層面上均有存在值,此時其風格能用下述公式表示:

其二,領域知識本身的難度級別,其同樣要教師確定,分成“容易”“一般”與“困難”三種,具體用下述公式代表:

學習者支撐模式是針對學生表現出的特征數據,進行抽象性的表述,實際反映在其進行學習行為期間的學科知識情況、目標與認知偏好、風格等。而形成學生特征的信息包括個體自主反饋(顯性)和系統交互期間形成的歷史操作信息(隱性)。其中,自主反饋內容是來自于用戶注冊系統操作中填寫的信息資料。該類信息的不足主要是用戶的自我認知準確性對特征分析有一定的影響;優勢為能在用戶使用系統前,大體上判斷學生的風格。而隱性信息是根據學生自身開展的一系列學習操作,提煉出其興趣偏好。該類信息的使用優勢是不會被學生用戶干擾,能隨時掌握學生的興趣調整,而不足便是顯性數據的優勢。為提升對學習者特征判斷的準確性,需把二者結合運用,其中信息內容有:用戶基本資料、認知能力、學習經歷等。此支撐模型的基本特征為:
一是學生基本信息。此類內容在學習全過程都不會發生調整。二是學習風格。基于風格量表,能得到四元組表達式,其與領域知識模型的學習資源對象風格表述方式類似,此處不進行詳細參數說明。三是學生認知能力。其能用表示,描述對于領域知識,學生的掌握情況。其中的Mi是指學生對知識單元“i”的掌握情況。在各知識單元中,學生認知情況,能用下述公式表示:

式中,kN是指知識點;A代表知識點能否適應學生;V是指知識點當前有無被訪問;T代表知識點有無被測試;AL是指知識點的掌握情況。其中A、V和T均取“0”或“1”,系統默認值是“0”;AL的取值“1”“2”和“3”,分別表示不同的掌握情況,而對此的量化評價是通過學生用戶的任務完成狀態決定。
四是學習歷史經歷。包含學生用戶近期訪問資料的操作。五是學習偏好。這是通過學習者自主提供的信息,如留言、評價數據、輸入關鍵詞等,把各項偏好數據,實施分詞處理,篩選出關鍵名詞,由向量空間模型描述。鑒于學生用戶提供數據的行為屬于連續操作,所以在篩選關鍵名詞中,會設定為“最近訪問”[6]。
個性化的自適應引擎,是基于學習者的支撐模型,評估學生用戶的知識儲備和認知能力,實時提供與學生高吻合度的知識內容資源及呈現形式,同時不間斷對學習過程實施監測及管理,基于此,維護及更新學習者模型。其運行機理為:按照學習者模型及目標,確定服務策略。并會一直監控學習情況,保留學習過程的歷史資料。在完成學習后,及時評價學生用戶,以此判斷服務策略的有效性。而上文提到對學習行為的外在干預具體為:教師影響,其基于實際的教育進度、課程安排、個人經驗、對學習者情況的了解,對系統服務策略實施強制性干擾,變成引擎規則;群體類干預,學生用戶所處群體環境,在學習進行中,對其學習策略的制定,產生指導性的價值,一般會運用協同過濾算法。而在自適應引擎中,情感診斷、路徑與資源推薦,屬于其中的核心內容。
首先,情感診斷。學習情感通常是借助表情及文字傳達出來,系統對學生用戶在學習實踐中的表情、和他人交流中的文字內容,捕捉到學生的情感信號。其中的表情信號來自面部與身體姿態,通過識別計算,確定情感狀態。具體是基于對面部的識別,提取表情特征,借助相應的分析字典,計算出當下的情緒傾向。在文字內容上的識別,需運用網絡爬蟲與文字截取,得到學生用戶的交流文字,篩選出敏感內容,基于情感字典,確定當前的情緒傾向。
其次,內容呈現。個性化的學習內容,具體反映在兩個呈現維度:首次學習內容,基于學前測試狀況,完成聚類建檔,給各個類別的學生予以基礎的個性化內容;在對學生某個單元完成相應測試后,基于作答狀況,優化學習者模型,倘若測試合格,可安排進入下一單元,若沒有合格,會根據答題過程與結果等各項資料,改變學習內容。其中,聚類是將具有相似性的對象,分成多個“簇”。借助對學前測試結果的采集,實現聚類建檔。該算法的關鍵在于在聚類的Y個對象里,挑選N個對象,視為聚類中心,而后計算其他對象與之的間距,由此配置給具有相似性的聚類。下一步則重新確定聚類中心,不斷循環進行該過程,直至沒有對象可以影響聚類結果。本系統對于學前測試,采取二次聚類。
再次,路徑推薦。在個性化的自適應系統中,路徑推薦涉及兩個層面,即知識點的學習路徑與資源的輸出路徑。基于系統知識模型,對各知識點學習的次序,并非完全根據完整的知識框架關系確定,或是根據學生所處群體中的普遍學習路徑,或是學生用戶個人傾向自主確定具體要學習的內容,該過程存在諸多形式及數量的資源作為支撐,同時,每位學習者對具體知識點對應資源的梳理過程也有差異。因此,應借助自適應引擎,基于學生用戶特征模型,給其推送定制化的服務路徑。蟻群算法是20世紀90年代初被提出的群體智能算法,是對蟻群覓食行為進行模擬,螞蟻覓食期間,經過的地方會留下“信息素”,后來的螞蟻能基于對信息素的辨別,走向信息素最多的道路,由此得出最佳的覓食方向。國內部分學者認為路徑推薦的系統和蟻群覓食類似,把學生用戶視為螞蟻,相應的學習目標當成尋找的食物;而學生用戶對獲取知識點的評價,等同于信息素;推薦路徑則為最佳覓食路徑。本文所述系統,根據領域知識模型,確定一項多種群選擇路徑的算法。學生用戶在各自群體范疇中,也就是現實中的學習小組、校園群體等,或是以某學習興趣為基礎,組成的線上群體。而站在學生用戶的角度,在各群體成員,留給其的“信息素”及數量都會有差異,這會使各群體成員的評價結果攜帶的權值有區別,由此能得出最貼合學生個性化特征的路徑。
最后,學習資源推薦。協同過濾算法屬于目前使用效果較優的推薦算法,運行基本思路為:借助對各位使用者之間的類似偏好,進行資源推薦。該算法和其他算法相比較,能夠支持推薦無法有效分析出內容的資源,比如資源質量等。同時,個性化水平偏高,可以管理常規機器系統不能自動判斷分析出的信息,因為分享其他用戶評價及經驗,所以共享水平較高。但該算法也有不足,例如,用戶信任、冷啟動等。本文所述學習系統,根據協同過濾方式,確立加權的協同過濾算法。生成“項目-用戶”的評分矩陣,利用權值啟動法,以克服該類算法的稀疏矩陣及冷啟動不足,聯系學生用戶的學習風格、知識框架、興趣傾向等指標,同時也要注意教師干預,把各項條件轉變成權值,完成矩陣的原始填充。在系統運行期間,根據學生用戶的操作變化,實時更改評分矩陣,借此能處理用戶信任的缺陷。另外,因為需要在大數據平臺中運行,還應注重不同算法并行的情況。
在如今的“教與學”過程中,融入大量信息化的元素,把動態化的行為過程以數字化的形式保存下來,由此形成的數據資源,能給教學安排與過程調整、效果優化提供客觀性的決策依據。上文立足于大數據的總體背景,以及現代人才培養對個性化學習的要求,探討建立新型自適應學習系統的根本方向,得到領域知識、學習者與自適應引擎三個系統支撐模型,根據學生用戶的系統使用表現與其他干預因素,判斷其個性化的學習需要,以此向其推薦適宜的學習路徑及資源,實時提供正面激勵,維系其學習興致。