李娜娜 萬 青 任芝軍 閆運忠
(河北工業(yè)大學 天津 300401)
McKinsey定義大數(shù)據(jù)技術[1]為一種在獲取、存儲、管理、分析等方面規(guī)模遠超傳統(tǒng)數(shù)據(jù)庫軟件工具處理數(shù)據(jù)能力范圍的數(shù)據(jù)集合,具有海量數(shù)據(jù)信息、快速的數(shù)據(jù)流轉、多樣化的數(shù)據(jù)類型以及價值密度低四大特征。大數(shù)據(jù)的意義不在于獲取龐大復雜海量數(shù)據(jù)信息,而在于對看似無關聯(lián)數(shù)據(jù)進行專業(yè)化、定制化處理,以達到挖掘數(shù)據(jù)背后隱藏關聯(lián)信息,獲取數(shù)據(jù)增值的能力。舍恩伯格和庫克耶在《大數(shù)據(jù)時代》[2]指出大數(shù)據(jù)不采用抽樣調查的隨機分析法,而是對全部海量數(shù)據(jù)進行分析處理。IBM 提出大數(shù)據(jù)具有海量、高速、多樣性、可變性、低價值密度、復雜性、真實性[3]7V 特征。
在線教學不受時間空間限制,以自己喜歡的學習模式開展自主學習。《教育信息化十年發(fā)展規(guī)劃(2011-2020)》中提出,學校在教育教學方面的變革要以學習者采取多樣化、個性化學習方法改革上取得突破進展。[4]在線學習已成為混合式教育、差異性教育、終身學習型教育領域主要研究熱點。[5]
今年新冠病毒肆虐,全球絕大多數(shù)學習者采用了在線教方式學習,在線教育的用戶滲透率得到空前提高,各層次用戶群體對在線教育持續(xù)關注度熱情不減。但是,由于在線教學對學習者自主學習能力提出較高的要求,學習過程狀態(tài)無法得到實時評估,學習效果參差不齊。在缺乏授課者實時隨堂監(jiān)管情況下,部分學習者會出現(xiàn)因缺乏自我有效管控而導致專注力不夠、學習狀態(tài)渙散等效率低下行為。因此需要建立一種在線教學監(jiān)督系統(tǒng),通過收集在線學習全流程中學習者的學習效率反饋數(shù)據(jù),對采集的各類型數(shù)據(jù)進行處理分析,得出學習者的學習效果分析結果,根據(jù)反饋推斷出知識掌握情況,同時給出指導性的改進意見,提升學習全過程的知識認知水平。
如何利用大數(shù)據(jù),最大程度挖掘在線教育教學潛在價值,成為各研究所重點研究內容。美國2005 年DQC[6]建議教育決策者大量收集高質量教育教學數(shù)據(jù),為更好提升學習效果給出策略性可行建議。2009 年在全美開展的SO1[7]項目,希望利用數(shù)據(jù)分析技術對學校每個學習者的特點、學習進度開展針對性的分析與未來學習能力預測。同時為每一位學習者提供個性化的學習任務清單,來適應不同教學進度。在《教育數(shù)據(jù)挖掘分析提升教學概述》[8]中明確表示在教育教學領域中結合教育大數(shù)據(jù)運用數(shù)據(jù)挖掘和分析數(shù)據(jù)技術提升教學水平。近年我國也陸續(xù)出臺《促進大數(shù)據(jù)發(fā)展行動綱要》《“互聯(lián)網(wǎng)+”行動計劃》《新一代人工智能發(fā)展規(guī)劃》等文件,明確發(fā)展教育文化系統(tǒng)大數(shù)據(jù)。[9-10]
教育數(shù)據(jù)分析是利用相關數(shù)據(jù)分析手段對采集到的數(shù)據(jù)進行歸納、分析、解讀的過程。根據(jù)分析結果判斷采取不同干預措施以及學習改進計劃,提升學習者的學習成效。
(1)數(shù)據(jù)采集:包括數(shù)據(jù)庫采集中ETL和Sqoop,關系型數(shù)據(jù)庫MySQL 和Oracle 等;網(wǎng)絡數(shù)據(jù)采集中借助于網(wǎng)絡爬蟲或網(wǎng)站公開的API;文件采集中實時文件采集和處理技術flume、基于ELK 的日志采集和增量采集等。
(2)大數(shù)據(jù)預處理:數(shù)據(jù)分析前為提高數(shù)據(jù)質量,將采集到的原始數(shù)據(jù)“清洗、填補、平滑、合并、規(guī)格化、一致性檢驗”操作,為后期分析奠定基礎。
(3)大數(shù)據(jù)存儲:用存儲器以數(shù)據(jù)庫的形式,存儲采集到數(shù)據(jù)的過程,包含三種典型路線:基于MPP架構的新型數(shù)據(jù)庫集群;基于Hadoop 的技術擴展和封裝;大數(shù)據(jù)一體機。
(4)大數(shù)據(jù)分析挖掘:數(shù)據(jù)挖掘算法、可視化分析、語義引擎、預測性分析、數(shù)據(jù)質量管理等方面,對復雜無規(guī)律的數(shù)據(jù)進行萃取、提煉、分析、整合的過程。
(5)數(shù)據(jù)反饋:以可視化方式將分析結果數(shù)據(jù)呈現(xiàn)給學習者,以此作為制定教學效果判別依據(jù)。
(6)可行性建議:根據(jù)可視化反饋結果結合可行性建議進行有針對性的學習方式改進。
綜上所述,當今教育現(xiàn)代化背景下,利用大數(shù)據(jù)分析技術,通過對在線學習過程中產(chǎn)生的結構化、半結構化、非結構化數(shù)據(jù)進行采集挖掘分析,可以得出不同學科背景、不同學習能力等學習者的學習差異、了解不同學習者的行為學習特征。以此為據(jù),制定出可視性、差異化、定制性學習策略,為學習者在線學習的效率提升提供可行的方案。