楊現民 唐斯斯 李冀紅
(1.江蘇師范大學 智慧教育研究中心,江蘇徐州 221116;2.國家信息中心 中國智慧城市發展研究中心,北京 100045)
教育大數據的技術體系框架與發展趨勢*
——“教育大數據研究與實踐專欄”之整體框架篇
楊現民1唐斯斯2李冀紅1
(1.江蘇師范大學 智慧教育研究中心,江蘇徐州 221116;2.國家信息中心 中國智慧城市發展研究中心,北京 100045)
文章明確了教育大數據的內涵,指出教育大數據具有戰略層價值和應用層價值。基于大數據的一般處理流程并結合教育業務特點,文章構建了教育大數據的通用技術框架,包括教育數據采集層、教育數據處理層、教育數據分析與展現層和教育數據應用服務層。最后,文章分析了十三五期間我國教育大數據的整體發展趨勢,主要表現在:教育數據開放程度不斷提升、教育數據資產規模逐漸壯大、教育數據創新應用效應逐步擴大、教育大數據行業生態逐步完善以及教育大數據專門人才培養備受重視。
大數據;教育大數據;技術框架;發展趨勢
隨著大數據理念與技術在各行各業的滲透應用,教育大數據的建設與發展逐步引起了教育管理部門、企業、學校以及教育研究者的廣泛關注。2015年,國家相繼出臺了一系列相關文件,以促進教育大數據的快速發展。如2015年9月2日,教育部辦公廳印發《關于“十三五”期間全面深入推進教育信息化工作的指導意見(征求意見稿)》,提出要“依托網絡學習空間逐步實現對學生日常學習情況的大數據采集和分析,優化教學模式”;9月5日,國務院正式發布《促進大數據發展行動綱要》,對10個大數據工程進行了規劃,并在“公共服務大數據工程”中明確提出要建設教育文化大數據。與此同時,各省市(如北京、江蘇、浙江等)也在加快推進教育大數據的建設,諸多地區已將教育大數據作為重點內容寫入區域智慧教育發展規劃或行動計劃中。此外,中國教育大數據研究院、江蘇省高校教育大數據重點實驗室等專業研究機構陸續成立;教育大數據行業也在逐步興起;在2015年中國國際智慧教育展覽會上,已有一些教育信息化企業推出了教育大數據相關產品,涵蓋教育數據采集、存儲、處理與創新應用等多方面。
由此可見,2015年堪稱中國的教育大數據元年。一系列相關政策文件與規劃建議的發布,確立了教育大數據在推動教育改革與發展方面的戰略地位。地方政府、研究機構、學校以及行業、企業力量的加入,將大大推動我國教育大數據的發展。在此大背景下,《現代教育技術》雜志社與江蘇師范大學共同策劃了“教育大數據研究與實踐專欄”,旨在從理論與實踐兩個層面深入探討教育大數據,一方面讓國內讀者系統了解教育大數據的相關知識,另一方面結合我國教育改革與發展需求提出教育大數據建設、應用與發展的思路及建議,以便為教育的決策者、管理者和實踐者提供借鑒。
本專欄共12篇文章,涉及研究熱點與趨勢、采集與分析技術、應用案例、數據網絡構建與管理、產業生態以及政策環境等六方面內容。具體來說,第一篇為整體框架介紹,重在闡釋教育大數據的內涵、體量與價值,構建技術體系框架并探討教育大數據的整體發展趨勢。最后一篇為專欄總結,回顧、梳理各主題的核心內容,明確未來的研究方向與核心議題。中間部分包括六個主題:主題一為研究熱點篇,應用知識圖譜技術分析教育大數據的研究現狀、熱點及趨勢;主題二為關鍵技術篇,探討教育數據的來源、分類、采集工具與技術、各種教育數據分析模型;主題三為應用案例篇,系統梳理國內外典型教育大數據的應用案例,歸納應用模式與實施策略;主題四為管理篇,聚焦各個層面教育數據網絡的構建,分析現存數據管理難題及其解決對策;主題五為產業篇,重點分析教育大數據產業鏈、發展階段和行業生態,明晰行業問題與發展趨勢;主題六為政策篇,對國內外教育大數據相關政策進行系統梳理、比較與分析,提出促進我國教育大數據發展的政策建議。
1 教育大數據的內涵
隨著大數據理念的傳播及其應用的逐步深入,大數據的內涵也在不斷變化和拓展。人們逐漸認識到,大數據不僅僅是一種技術,也是一種能力,即從海量復雜的數據中尋找有意義關聯、挖掘事物變化規律、準確預測事物發展趨勢的能力。此外,大數據還是一種思維方式,即讓數據開口說話,讓數據成為人類思考問題、決策行為的基本出發點。實際上,大數據正在演變為一種社會文化,即人人生產數據、人人共享數據、人人熱愛數據、人人管理數據的文化——這種文化正在潛移默化地影響著各個行業。教育領域雖然長期“保守”,但在大數據文化力量的沖擊下,也在加速走向開放、“擁抱”大數據。
目前,學術界對教育大數據(Big Data in Education,BDE)的概念尚未有明確的界定。本研究認為,教育大數據特指教育領域的大數據,即整個教育活動過程中所產生的以及根據教育需要采集到的、一切用于教育發展并可創造巨大潛在價值的數據集合[1]。教育大數據直接產生于各種教育活動(包括教學活動、管理活動、科研活動、校園活動等),每個教育利益相關者既是教育數據的生產者也是教育數據的消費者。教育大數據具有明確的目標指向性,即指向教育發展,能在提升教育質量、促進教育公平、實現個性化學習、優化教育資源配置、輔助教育科學決策等方面發揮有效作用。因此,教育大數據的建設并非要盲目囊括一切數據,而是要對數據予以有選擇性的采集、存儲與分析。與傳統教育數據相比,教育大數據的采集具有更強的實時性、連貫性、全面性和自然性,其分析處理更加復雜和多樣,應用更加多元、深入;與電子商務、交通、醫療、金融保險等領域的大數據相比,教育大數據的采集過程更復雜,應用模式更具挑戰性,且更注重因果關系。
2 教育大數據的體量
IT界普遍認為,大數據指體量在Tb級別以上或者條目在百萬級別以上的數據。實際上,大數據是個相對于小數據而言的概念;大數據并非等同于大量的數據,而是突出強調跨領域數據的交叉融合和數據的流動生長。
部分教育領域從業者常有這樣的困惑:教育到底有沒有大數據?《中國基礎教育大數據發展白皮書》(以下簡稱《白皮書》)編委會面向全國教育信息化領域的研究者、管理者、一線教師等進行了一項調查,全國共有28個省市的757人參與了該項調查。結果顯示,調查對象中約有75.3%認為教育領域存在大數據,9.51%認為教育領域根本不存在大數據,還有15.19%表示不清楚。那么,到底教育大數據的體量有多大?如果按IT界對大數據體量的界定,教育領域是否存在真正的大數據?為此,《白皮書》編委會對基礎教育階段一年的數據量進行了估算。
基礎教育大數據體量估算的維度與基準值如圖1所示,包括對師生基本信息數據、課業測試與作業數據、校園實錄數據和課程資源數據的估量。依據教育部發布的《2014年全國教育事業發展統計公報》中的數據和圖1的基準值進行計算,對班級、校園、區域和全國基礎教育大數據一年的數據量予以估算,所得估算結果如圖2所示。

圖1 基礎教育大數據體量估算的維度與基準值

圖2 基礎教育大數據體量估算結果(一年)
需要說明的是,《白皮書》只粗略地計算出了正規學校教育中產生的數據,而許多非正規教育活動的數據如校外輔導班的學習數據、網絡自主學習數據等并沒有計算在內。即使在數據不全的情況下,我國基礎教育階段一年的數據量也可達到12Eb=12288Pb。網絡上對Pb級數據體量予以了形象說明:假設手機播放MP3的編碼速度為平均每分鐘1Mb,而1首歌曲的平均時長為4分鐘,那么1Pb歌曲可以連續播放2000年;如果智能手機、相機所拍照片的平均大小為3Mb,打印照片的平均大小為8.5英寸,那么總共1Pb照片的并排排列長度就能達到48000英里——大約可以環繞地球2周[2]。
因此,可以肯定地說,無論是按Eb還是Pb量級來規定大數據的體量要求,中國教育領域都存在真正的大數據!
3 教育大數據的價值
目前,新聞媒體已有不少有關教育大數據的報道,學術界也對教育大數據的應用模式與價值進行了初步探討。《白皮書》調查結果顯示,絕大多數用戶(96.17%)認為教育大數據能夠助推和引領教育改革。歸納起來,教育大數據的價值主要體現在兩個層面:
(1)戰略層價值
體現在:①教育大數據是一種無形的戰略資產、是一座可無限開采的“金礦”,充分的挖掘與應用是實現數據“資產”增值的唯一途徑;②教育改革既要有膽魄,更要有科學的依據,教育大數據是推動教育領域全面深化改革的科學力量;③教育大數據匯聚、存儲了教育領域的信息資產,是發展智慧教育最重要的基礎[3]。
(2)應用層價值
體現在:①開展數據驅動的教育決策,實現教育設備與環境的智能管控,提升教育危機預防與安全管理的能力;②持續優化教與學,輔助教師開展精準教學,輔助學生實現個性化學習;③促使教育評價從“經驗主義”走向“數據主義”、從“宏觀群體評價”走向“微觀個體評價”、從“單一評價”走向“綜合評價”;④教育數據的合理、合法、有效、創新應用,不斷催生越來越多樣化且越來越智慧化的教育服務;⑤推動社會科學的研究范式從抽樣模式走向全樣本模式,使社會科學成為一門實實在在的實證科學[4]。
教育大數據的最終價值應體現在與教育主流業務的深度融合以及持續推動教育系統的智慧化變革上。目前,國內外已有一些教育大數據的創新應用案例,涵蓋教學、管理、評價、服務等方面,這些案例將在本專欄的應用案例篇得到詳細的剖析。總的來說,目前教育大數據的應用層價值已經初顯;隨著應用范圍和效果的累積,教育大數據的戰略層價值也將逐步實現。
一般而言,大數據的處理流程包括數據采集、數據處理、數據分析與應用服務四個環節。依據此流程同時結合教育的業務特點,本研究構建了教育大數據技術體系框架,如圖3所示。

圖3 教育大數據技術體系框架
該框架從下往上依次是:教育數據采集層、教育數據處理層、教育數據分析與展現層和教育數據應用服務層——通過數據傳輸接口,數據采集層將采集到的各類教育數據傳遞給數據處理層,并通過數據整合、存儲形成教育數據平臺;基于該教育數據平臺,分析與展現層可實現教育數據的可視化展現和大數據的分析與挖掘,并將分析結果通過數據接口傳遞給應用服務層。在該框架中,安全與監控貫穿整個流程,以保證教育數據各個環節的安全性和可控性;標準與規范則是整個框架的基礎,以保障各個環節之間以及整個系統教育數據的融通與共享。具體來說,各個環節的主要任務及其涉及的關鍵技術如下:
1 教育數據采集
為了保證大數據的可用性,首先必須在數據的源頭上把好質量關,做好從原始數據到高質量信息的預處理。與傳統教育數據相比,教育大數據的來源更加多樣化,包括業務系統內部數據、互聯網數據和物聯網數據等,不僅數量龐大、格式不一,而且質量良莠不齊。因此,教育數據采集環節必須規范數據格式并進行初步預處理,以便于后續教育數據的存儲、管理與應用。
該環節涉及的關鍵技術包括:數據源的選擇和高質量原始數據的采集方法,多源數據的實體識別和解析方法,數據清洗和自動修復方法,數據演化的溯源管理,數據加載、流計算、信息傳輸技術等。
2 教育數據處理
教育數據處理環節包含數據整合和數據存儲。其中,數據整合是指通過高質量的數據整合方法,對數據進行加工處理,并在盡可能保留原有語義的情況下去粗取精、消除噪聲,從全局的角度保證數據的一致性和相關性;數據存儲是所有數據的集中存放地,主要用來存放各種結構化、半結構化和非結構化的歷史數據、預測數據、匯總數據以及需要共享的數據等。教育大數據的存儲系統不僅需要以極低的成本存儲海量數據,還要適應多樣化的非結構化數據管理需求,具備數據格式上的可擴展性。
教育業務具有較強的差異性和靈活性,因此需要根據教育數據的類型和具體的分析目標,靈活選用或改進數據處理的算法模型。目前,主流的開源大數據處理平臺有Hadoop、Spark等。
3 教育數據分析與展現
教育數據分析與展現環節的主要任務是對上一個環節處理后的數據進行深度價值挖掘,涉及的關鍵技術包括教育數據挖掘和學習分析。
(1)教育數據挖掘
教育數據挖掘是一個將來自各教育系統的原始數據轉換為有用信息的過程,這些有用信息可為教師、學生、家長、教育研究人員以及教育軟件系統開發人員所利用[5]。傳統教育數據挖掘的多是結構化、單一對象的小數據集,其挖掘更側重根據先驗知識預先人工建立模型,然后依據既定模型進行分析。對于非結構化、多源異構的教育大數據集的分析,往往缺乏先驗知識,很難建立顯式的數學模型,這就需要發展更加立體化、全息高維的數據挖掘方法與技術。
(2)學習分析
學習分析是指通過測量、收集、分析、匯報學習者和他們所處環境的數據,用以理解和優化學習以及學習發生的環境[6]。學習分析和教育數據挖掘密切相關,應用的分析方法也較為相似。目前,學習分析領域常用的分析方法包括網絡分析法、話語分析法和內容分析法[7]。近年來,越來越多的研究者如Yang X M等[8]、Hou H T等[9]開始應用滯后序列分析法,來識別各種在線學習行為模式。
除了教育數據挖據與學習分析,如何利用數據可視化技術讓復雜的分析結果以更加直觀、易于理解的方式呈現給用戶,也是教育大數據發展過程中亟需解決的重要問題。
4 教育數據應用服務
教育數據應用服務是將教育數據分析的結果用于改善不同的教育業務,最終服務教育的整體改革與發展。當前,教育數據應用服務主要聚焦在精準教學、科學管理、全面而有個性的發展評價、個性化服務以及基于全樣本的科學研究五個方面,服務對象主要包括教師、學生、家長、教育管理者和社會公眾五類用戶。
通過對教育大數據的分析,可以輔助教師更好地調整和改進教學策略,重構教學計劃,完善課程的設計與開發;向學生推薦個性化的學習資源、學習任務、學習活動和學習路徑;幫助家長更加全面、真實地認識孩子,與學校一起促進孩子的個性化成長;幫助教育管理者進行更科學的管理決策;幫助社會公眾把握教育的發展現狀,享受更具針對性、更適合自己的終身學習服務。
2015年國家大數據戰略與“互聯網+”行動計劃的推出,為大數據理念與技術在教育領域的快速滲透和應用推廣提供了強有力的保障。十三五期間,大數據與教育核心業務的融合,將成為驅動新一輪教育改革與發展的創新動力,教育大數據將呈現如下發展趨勢:
1 教育數據開放程度不斷提升
大數據時代,政務公共數據作為社會大眾共享的無形財富,其開放已成為數據整合和共享應用的前提條件。目前,已有40多個國家開始推動本國公共數據的開放建設,并在全球范圍內掀起了一股公共數據開放的熱潮。教育數據作為公共數據的重要組成部分和基礎內容,可以預計其開放的范圍將越來越大、開放的程度將越來越高。在這一背景下,我國的教育政策有必要逐步走向開放,允許更多的企業和社會力量共同參與教育決策與治理;而教育數據的適度開放和合理運營,將有助于減輕我國政府和教育機構的經濟壓力,同時激活更多的教育創新因子,多方協同提升教育的質量和服務水平。當然,隨之而來的教育數據隱私與安全問題也將更加突出,這就需要我國通過技術、制度、培訓等多種措施來保障教育大數據的安全。
2 教育數據資產規模逐漸壯大
十三五期間,學習大數據與管理大數據的建設可能被寫入各地教育信息化發展規劃,教育大數據作為重要戰略資產的意識將逐步加強。隨著“三通”工程(網絡學習空間人人通、優質資源班班通、寬帶網絡校校通)的進一步開展以及全國各地數字校園、智慧校園、智慧城市建設步伐的不斷推進,越來越多的教育數據能夠被采集和分析,教育數據將會以幾何級的規模遞增。“兩平臺”(國家教育管理公共服務平臺和國家教育資源公共服務平臺)將成為國家教育數據網絡的中心節點,帶動全國教育數據資產的快速累積。點陣數碼筆、拍照搜題、物聯感知、情境識別等這些自然便捷的教育數據采集設備和技術,將逐步融入教育的核心業務之中,讓每位教育利益相關者都成為教育大數據網絡中的神經元、成為教育數據資產的創造體。
3 教育數據創新應用效應逐步擴大
當前,國內已有一些高校和科研機構開展了教育大數據的應用研究與實踐探索,在經濟困難學生預警、大學報考難度預測、學校資產智能管理等方面取得了初步的成效,并產生了一定的社會影響。然而從整體來看,我國的教育大數據應用仍然比較零散,缺乏成熟的應用推廣模式。如何進一步擴大教育大數據的應用范圍和價值,是十三五期間教育大數據發展的重點任務。隨著全國各地教育大數據研究機構、教育大數據行業、企業以及學校力量的加入,教育數據創新應用的廣度和深度都將大為拓展。教育大數據在促進教育公平、提升教育質量、減輕學業負擔、改革考試招生制度等方面,將發揮越來越重要的作用。
4 教育大數據行業生態逐步完善
國內教育大數據行業快速發展的“苗頭”已經初顯,如市場上已經出現了不少教育大數據的相關產品(包括題庫類產品、適應性學習平臺類產品、學習預警類產品等),用戶規模也在逐步擴大。雖然教育大數據產業存在專業人才缺乏、產品同質現象嚴重、行業標準與規范缺失等諸多問題,但隨著我國教育信息化政策環境的逐步完善以及行業結構的逐步優化,十三五期間有望形成和諧健康的教育大數據行業生態。基礎設施提供商、數據采集提供商、數據挖掘與分析提供商、數據應用服務提供商、數據安全提供商、終端用戶、教育行政部門以及教育大數據標準研制單位等諸多角色通過合理分工、有效協同,將推進教育大數據行業的持續有序發展。
5 教育大數據專門人才培養備受重視
專業人才缺乏是制約我國教育大數據發展的重要因素。為此,國內部分高校紛紛開設大數據相關專業及課程,以培養高質量的大數據專門人才。較之其它行業,教育行業具有很強的獨特性和復雜性,需要一批既懂教育又掌握大數據核心技術的高端人才。基于此,國內高校有可能在十三五期間依托教育技術專業或增設新的專業,或與企業、行業聯合開設教育大數據系列課程,以培養高端教育大數據專門人才。
[1]楊現民,王榴卉,唐斯斯.教育大數據的應用模式與政策建議[J].電化教育研究,2015,(9):54-61.
[2]百度知道.什么是PB級別的數據[OL].
[3]柯清超.大數據與智慧教育[J].中國教育信息化,2013,(24):8-10.
[4]北大新媒體.大數據助力社會科學研究[OL].
[5]Rvan Shaun Joazeiro De Baker,Barner T,Beck J E.The 1st international conference on educational data mining proceedings[OL].
[6]Siemens G,Long P.Penetrating the fog:Analytics in learning and education[J].Educause Review,2011,(5):30-32.
[7]顧小清,張進良,蔡慧英.學習分析:正在浮現中的數據技術[J].遠程教育雜志,2012,(1):18-25.
[8]Yang X M,Li J H,Guo X S.Group interactive network and behavioral patterns in online English-to-Chinese cooperative translation activity[J].The Internet and Higher Education,2015,(25):28-36.
[9]Hou H T,Chang K E,Sung Y T.An analysis of peer assessment online discussions within a course that uses project-based learning[J].Interactive Learning Environments,2007,(3):237-251.
The Technological System Framework and Development Trend of Big Data in Education——Integrated Framework of “Research and Practice about Big Data in Education Column”
YANG Xian-min1TANG Si-si2LI Ji-hong1
(1.Research Center of Wisdom Education,Jiangsu Normal University,Xuzhou,Jiangsu,China 221116; 2.China Smarter City Development and Research Center,National Information Center,Beijing,China 100045)
Real big data exists in Chinese education field.The paper defined the connotation of Big Data in Education(BDE),and pointed out its value at strategy and application level.Based on the general process of big data and peculiarity of educational affairs,a general technology framework including four levels:educational data acquisition layer,educational data process layer,educational data analysis and presenting layer,and educational data application service layer,was conducted.Finally,this paper analyzed the development trend of BDE in 13th Five Year,which mainly reflected in the aspects of a continue increase in openness degree of educational data,a gradual expanding in educational data assets,a consistent escalating in educational data innovative application effect,a progressive elaboration of ecosystem in BDE industry,and a great attention focusing on cultivating talent in BDE.
big data; big data in education; technology framework; development trend
小米
G40-057
A 【論文編號】1009—8097(2016)01—0005—08
10.3969/j.issn.1009-8097.2016.01.001
本文為江蘇高校優勢學科建設工程資助項目“江蘇師范大學教育學省優勢學科建設”(項目編號:蘇政辦發〔2014〕37號)、江蘇省科技基礎設施建設計劃項目“江蘇省教育信息化工程技術研究中心”(項目編號:BM2013224)的階段性研究成果。
楊現民,副主任,副教授,博士,研究方向為智慧教育、移動與泛在學習,郵箱為yangxianmin8888@163.com。
2015年12月25日