李 振 周東岱,2 劉 娜 董曉曉 鐘紹春
(1.東北師范大學 信息科學與技術學院,吉林長春 130117;2.吉林省“互聯網+”教育科技創新中心,吉林長春 130117;3.教育部 數字化學習支撐技術工程研究中心,吉林長春 130117)
2012年,美國教育部提出以大數據為支撐、通過教育數據挖掘和學習分析來促進教學變革[1]的理念。2015年,我國開始戰略部署教育大數據,中國教育大數據研究院、教育大數據應用技術國家工程實驗室等研究機構相繼成立,各地教育信息化發展規劃也紛紛將大數據列為“十三五”期間大力發展的重要內容,大數據已經成為推動教育變革的新動力。
近年來,網絡學習空間、電子書包、翻轉課堂、MOOC、微課等的出現,促使傳統課堂教學模式與在線教育相互融合。在這種技術豐富的新型學習環境下,大量網絡化、數字化的學習系統被應用,使得對學生個體全過程的行為數據采集成為可能。而平臺建設是教育大數據發展的基礎,它覆蓋了從數據采集、存儲計算、分析挖掘到具體應用的整個生命周期。但是,目前相關教育大數據的研究大多停留在理論探索階段,尚沒有形成一個針對教育領域統一的、完整的大數據平臺架構。因此,本研究對教育大數據平臺的架構及其關鍵實現技術進行研究,以期為學術界和產業界提供參考。
大數據是指“規模超過了傳統數據庫軟件獲取、存儲、管理和分析能力的數據集”[2]。實際上,大數據不僅包括“大”的數據,而且涉及與之相適應的技術與思維方式:①在技術層面,為處理海量的、多模態的、實時產生的數據,產生了與之相適應的計算、存儲、分析挖掘技術——計算方面,出現了面向批量數據、流式數據、圖式數據的并行計算模型[3];存儲方面,出現了諸如HDFS、HBase、Tachyon等分布式存儲技術;分析挖掘方面,除了將傳統數據挖掘和機器學習技術應用于大數據的并行計算,還出現了模擬人類智能的深度學習、認知計算等新技術。②在思維層面,舍恩伯格等[4]總結了大數據時代的三大思維轉變,即使用全量數據、關注相關關系、接收混雜數據;此外,與傳統的模型驅動和機理建模的方法所不同的是,數據驅動的創新思維方式無需了解內在機制和客觀規律,而是從數據出發自上而下地探究問題的內在機理。
對于教育大數據的內涵,目前沒有統一的說法。如《中國基礎教育大數據發展藍皮書(2015)》將教育大數據界定為教育活動中產生的、蘊含著巨大價值的數據集合[5];而杜婧敏等[6]從數據特征、來源、目標、技術的視角對其進行了解讀。從廣義的角度來說,本研究認為教育大數據的內涵包括:①教育大數據指“大”的數據集合,這些數據既具有一般大數據體量大、類型多、產生速度快、價值豐富的共性特征,又具有教育數據多層性、時間性和序列性的領域特點;②教育大數據還包括支持其處理的計算模型、存儲技術和數據分析挖掘技術;③教育大數據也指利用全量的、混雜的數據發現相關關系,并以數據驅動的方式來理解優化學習過程、學習環境和探究教育規律的思維方式。教育大數據要從理論走向實踐應用,其關鍵在于平臺的構建。
教育大數據平臺的定位是為教育大數據的匯集融合、海量存儲、高效計算、深入分析挖掘以及教育應用的開發與運行提供基礎支撐,因此該平臺應滿足以下功能性需求:①數據采集方面,應提供各種數據適配接口,支持結構化的數據庫記錄、非結構化的教育教學資源、實時的行為數據流等各種多源、異構數據的匯集;②數據存儲方面,面對海量數據的存儲需求,應提供高可擴展性、高容錯性、高吞吐量、低成本的分布式存儲方案,支持文件系統、SQL/NoSQL數據庫、數據倉庫等存儲方式,并提供高效的管理與快速查詢功能;③數據計算方面,應提供面向海量數據的并行計算引擎,滿足批量計算、實時計算、圖式計算等不同應用場景的計算需求;④分析挖掘方面,應提供面向教育領域的分析挖掘模型及其相應的算法,能實現算法的并行化,并支持算法參數的靈活配置。
如前文所述,教育大數據平臺覆蓋了從數據采集、存儲計算、分析挖掘到具體應用的整個生命周期。基于此,結合前面的需求分析,本研究設計了教育大數據平臺的架構,如圖1所示。
(1)數據源
教育大數據的來源可分為四種類型:①管理類數據,包括學籍數據、學生成績、上網數據、一卡通數據等,這些數據多以結構化的形式存儲在關系型數據庫中;②資源類數據,包括媒體素材、試卷、課件、案例等,這類數據多以文本、音視頻等非結構化的形式存儲在文件系統中;③行為類數據,包括教師教學行為和學生學習行為產生的數據,前者涉及講解與演示行為、答疑與指導行為、提問與對話行為、評價與激勵行為等,后者則分為信息檢索類、信息加工類、信息發布類、信息交流類等;④評價類數據,包括學業水平考試類數據和綜合素質評價類數據。
(2)采集層
教育數據的采集方式可以分為批量采集和實時采集兩種:批量采集一般用于導入、同步、復制歷史收集的日志數據、數據庫記錄、資源文件、互聯網數據等;實時采集主要利用 Agent技術實時收集、傳輸在線行為類數據,而對于線下傳統教學環境中的數據可以利用點陣數碼筆、圖像識別等采集技術進行獲取。
(3)存儲層
對于從數據源采集到的各類教育數據,需要不同的存儲方式對其進行保存,存儲方式包括文件系統、數據庫、數據倉庫、消息系統、內存存儲系統等。為應對海量教育數據的存儲需求,這些存儲方式大多采用分布式架構。為支持復雜的分析挖掘任務,存儲層會以分布式數據倉庫為主要的存儲及管理方式,并分為臨時存儲區、操作性數據倉庫、大數據倉庫和數據集市四層。

圖1 教育大數據平臺的架構
(4)計算層
教育大數據的價值挖掘需要相應的計算引擎為其提供強大的計算能力,計算引擎包括批處理計算引擎、流計算引擎、內存計算引擎、圖計算引擎等[7]。其中,批處理計算引擎用于對大規模歷史數據進行并行運算;流計算引擎用于對實時產生的流式數據進行處理;為提高數據計算的速度,出現了利用內存空間進行數據運算的內存計算引擎;為應對大規模圖數據的處理需求,圖計算引擎也應運而生,為學科知識圖譜的構建提供了新的技術支持。
(5)分析挖掘層
大數據的教育應用主要涉及兩個方面:①教育數據挖掘,側重于新算法、新模型的構建;②學習分析,側重于直接應用已有技術解決教育領域中存在的問題。雖然二者的側重點有所不同,但涉及的分析、挖掘技術相差不大,主要包括關聯規則挖掘、聚類分析、趨勢預測、時序分析、回歸分析、情感分析、語義分析、社交網絡分析等。基于這些通用算法,結合領域特征,可以構建解決教育問題的新方法。
(6)應用層
教育大數據的價值體現在具體的應用中。基于數據分析挖掘的技術可以對學習者進行數字畫像,包括分析學習者的風格類別,測量學習者的現有知識水平,診斷學習者的認知能力,發現學習者的行為模式、學習規律,預測學習者未來的學習表現;然后,自動進行個性化推薦,并對預警的學生進行干預。在教師教學方面,可對教師的教學行為進行診斷,以便教師調整教學模式、教學計劃等。通過對教學資源的分析,可以構建反映學科知識內在邏輯關系的知識圖譜。此外,也可以對區域教育的均衡發展狀況進行監測、預警。
從心理學角度來說,學習行為有五大基本要素:主體、客體、上下文、手段、結果。基于這五大基本要素,美國高級分布式學習(Advanced Distributed Learning,ADL)組織發布了Experience API(xAPI)規范[8]。從行為發生角度來說,在線學習行為發生在學習者與圖形用戶界面的交互過程中,并通過事件模型來響應用戶的行為動作。本研究基于xAPI規范、事件模型和大數據中的Flume采集技術,設計了學習行為大數據的采集框架(如圖2所示),具體采集過程如下:學習者與界面進行交互,在組件上實施一個行為動作,產生事件對象,并通知相應的事件監聽器;事件監聽器對應的事件處理器會收集行為的相關要素,聚合后將其發送給服務器端的數據接收組件 Source;Source將其存入數據緩存組件 Channel中,數據分發組件 Sink從Channel中讀取數據,并將其發送到消息隊列Kafka中。

圖2 學習行為大數據的采集框架
教育大數據與傳統中小規模數據相比,在數據來源、結構、體量等方面有本質的區別[9]。這些特征的變化,使得傳統數據存儲與計算技術難以應對現有教育大數據的需求,故促使數據的存儲方式、計算模式和體系結構均發生了變化:存儲方式從傳統集中式向分布式發展,計算模式從傳統單機多線程計算向集群并行運算演進,體系結構從計算、存儲相分離向一體化融合方向發展。本研究將目前可用的教育大數據存儲與計算技術進行了分類總結,如表1所示。

表1 教育大數據存儲與計算技術分類
教育大數據的核心是綜合運用數理統計、機器學習、數據挖掘、模式識別等技術,在對教育數據進行預處理、探索性分析的基礎上,通過分析模型、預測模型的構建,從數據中提取出有價值的信息,以此促進教學過程的優化與教育變革。本研究對目前可用的教育大數據分析挖掘技術中常用的算法和教育應用案例進行了歸納總結,如表2所示。

表2 教育大數據分析挖掘技術分類
對教育大數據分析挖掘技術的進一步研究可從以下兩方面著手:①以傳統小數據分析挖掘技術為基礎,針對具體教育問題開展相應的并行算法研究,以應對海量、高速、多樣的教育大數據處理需求;②充分挖掘教育數據的領域特征,以傳統學習理論、網絡學習新型理論、教育測量理論、系統科學理論為基礎,結合深度學習、認知計算等新技術,研發新型教育大數據分析挖掘技術。
教育大數據是學生學習個性化、教師教學精準化的需求,是量化學習過程、深入研究學習內在發生機制的需求,也是精細化管理、利用數據進行決策支持的需求。教育大數據的發展應以教育大數據平臺為依托,以破解當前教育面臨的實際問題為導向,通過海量教育數據的采集、存儲與計算、分析挖掘,驅動教育在個性化學習、精準教學、科學決策、教育研究等多方面的變革與創新,促進大數據與教育教學的深度融合。本研究按照軟件開發的思路,通過需求分析、架構設計構建了教育大數據平臺,并對該平臺涉及的關鍵實現技術進行了詳細闡述。后續研究將基于該平臺深入開展個性化學習模式、精準教學模式的實踐應用,以期為學習者提供更優質的個性化支持服務。
[1]U.S. Department of Education. Enhancing teaching and learning through educational data mining and learnin g analytics[OL].
[2]Manyika J. Big data: The next frontier for innovation, competition, and productivity[OL].
[3]潘巍,李戰懷.大數據環境下并行計算模型的研究進展[J].華東師范大學學報(自然科學版),2014,(5):43-54.
[4](英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.盛楊燕,周濤譯.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013:27-67.
[5]楊現民.互聯網+教育:中國基礎教育大數據[M].北京:電子工業出版社,2016:29-33.
[6]杜婧敏,方海光,李維楊,等.教育大數據研究綜述[J].中國教育信息化,2016,(19):1-4.
[7]鄭緯民.從系統角度審視大數據計算[J].大數據,2015,(1):10-19.
[8]顧小清,鄭隆威,簡菁.獲取教育大數據:基于 xAPI規范對學習經歷數據的獲取與共享[J].現代遠程教育研究,2014,(5):13-23.
[9]李振,周東岱,劉娜.教育大數據整合:現狀、問題、架構與實現策略[J].圖書館學研究,2017,(20):47-50.
[10]Wang Y H, Tseng M H, Liao H C. Data mining for adaptive learning sequence in English language instruction[J].Expert Systems with Applications, 2009,(4):7681-7686.
[11]Feldman J, Monteserin A, Amandi A. Detecting students’ perception style by using games[J]. Computers &Education, 2014,(1):14-22.
[12]Wang Y H, Liao H C. Data mining for adaptive learning in a TESL-based e-learning system[J]. Expert Systems with Applications, 2011,(6):6480-6485.
[13]Araya R, Jiménez A, Bahamondez M, et al. Teaching modeling skills using a massively multiplayer online mathematics game[J]. World Wide Web, 2014,(2):213-227.
[14]Hachey A C, Wladis C W, Conway K M. Do prior online course outcomes provide more information than G.P.A.alone in predicting subsequent online course grades and retention? An observational study at an urban community college[J]. Computers & Education, 2014,(1):59-67.
[15]Rajendran R, Iyer S, Murthy S, et al. A theory-driven approach to predict frustration in an ITS[J]. IEEE Transactions on Learning Technologies, 2013,(4):378-388.
[16]Chen S M, Sue P J. Constructing concept maps for adaptive learning systems based on data mining techniques[J].Expert Systems with Applications, 2013,(7):2746-2755.
[17]Chatti M A, Dyckhoff A L, Schroeder U. et al. A reference model for learning analytics[J]. International Journal of Technology Enhanced Learning, 2012,(5):318-331.
[18]Lang C, Siemens G. Handbook of learning analytics[M]. New York: SOLAR, 2017:175-187.
[19]Aher S B, Lobo L M R J. Combination of machine learning algorithms for recommendation of courses in e-learning system based on historical data[J]. Knowledge-Based Systems, 2013,(1):1-14.
[20]Salehi M, Kamalabadi I N, Ghoushchi M B G. An effective recommendation framework for personal learning environments using a learner preference tree and a GA[J]. IEEE Transactions on Learning Technologies, 2013,(4):350-363.[21]Yudelson M V, Koedinger K R, Gordon G J. Individualized bayesian knowledge tracing models[A]. Lane H C.Artificial intelligence in education[C]. Berlin: Springer, 2013:171-180.
[22]Tr?ka N. Pechenizkiy M. From local patterns to global models: Towards domain driven educational process mining[A]. The Institute of Electrical and Electronics Engineers. Proceedings of ninth international conference on intelligent systems design and applications (ISDA’09)[C]. Washington: IEEE Computer Society, 2009:1114-1119.
[23]Mercer N. The analysis of classroom talk: Methods and methodologies[J]. British Journal of Educational Psychology, 2010,(1):1-14.
[24]He W. Examining students’ online interaction in a live video streaming environment using data mining and text mining[J]. Computers in Human Behavior, 2013,(1):90-102.
[25]吳永和,李若晨,王浩楠.學習分析研究的現狀與未來發展——2017年學習分析與知識國際會議評析[J].開放教育研究,2017,(5):42-56.