呂海燕+周立軍+張杰??
摘要:本文基于我院自行開發并已廣泛投入使用的計算機基礎信息化導學平臺中的日志數據。首先對平臺中學員登陸情況、資源瀏覽情況相關的數據進行收集預處理;接下來對學員的登陸行為、和資源瀏覽情況進行統計分析;在此基礎上,采用決策樹算法分析得到了對影響學員登陸行為及資源瀏覽行為的影響因素。依據分析結果,可使教育教學工作者基于學習者的學習情況來實現教學內容組織、構建教學模式等。
關鍵詞:大數據;信息化導學平臺;教育數據挖掘;登陸行為;資源瀏覽行為
中圖分類號:TP311文獻標識碼:ADOI:10.3969/j.issn.10036199.2017.01.027
“數據驅動學校,分析變革教育”的大數據時代已經來臨,利用教育數據挖掘技術和學習分析技術,構建教育領域相關模型,探索教育變量之間的相關關系,為教育教學決策提供有效支持將成為未來教育的發展趨勢。“大數據”的出現,將掀起人類教與學的又一次變革。
1教育數據挖掘及其價值
教育數據挖掘是一個將來自各種教育系統的原始數據轉換為有用信息的過程,這些有用信息可為教師、學生及其家長、教育研究人員以及教育軟件系統開發人員所利用。[1]教育數據挖掘也可被看作是嵌入已有教育系統的一個新的模塊,并與教育系統中的各種要素產生良性互動,最終實現改進教學的目的。[1]教育數據挖掘對于我們教育工作者來講,教育數據挖掘的作用主要是向我們提供更多更客觀的反饋信息,使我們能夠更好地調整和優化教學策略、改進教學過程、完善課程開發,基于學習者的學習情況來實現教學內容組織、創新以及構建教學模式等。[2]根據數據挖掘的應用領域,可以將教育數據挖掘分為ELearning(教學)數據挖掘、EManagement(管理)數據挖掘和EResearch(科研)數據挖掘。而在ELearning(教學)數據挖掘領域.[3]本文,主要是從ELearning(教學)數據挖掘應用出發,基于我院的信息化導學平臺日志數據,對學員的學習行為進行分析。
2學生在線學習行為分析教育數據挖掘模式構建
學習者在線學習行為分析主要是基于網絡教學平臺對師生學習過程的記錄數據,針對行為主體(教師、學生)的行為方式(登陸、瀏覽資源、在線交流等)、行為客體(各類資源、網路課程模塊等)的被使用情況以及行為發生時間進行統計、可視化和各類挖掘,并結合師生的特征數據對影響在線學習行為的因素進行挖據。
教育數據挖掘模式為完成特定挖掘任務而建,是多種數據挖掘工具和算法的集成應用。
教育數據挖掘模式由“數據挖掘工作”“工具與算法”以及“數據”三要素構成。[4]“工具與算法”為數據挖掘工作提供支撐,并產生相應的“數據”,如圖1所示。這三個要素在時間上的展開將分別形成數據挖掘工作流、工具與算法流以及數據流。其中數據挖掘工作流包括數據收集、數據預處理、數據挖掘、模式解釋評價與應用等環節。其中,學習過程數據挖掘模式用于學習過程及學習行為分析,其挖掘模式如圖2所示。
其中,在數據挖掘工作流的核心環節,主要的數據挖掘任務有學習者登陸行為分析、學習資源瀏覽模式分析、學生行為影響因素分析等。
3基于信息化導學平臺的學生學習行為影響因素分析
計算機基礎課程信息化導學平臺,是我院自行開發并已廣泛投入使用的計算機類基礎課程在線自主學習平臺。該平臺具有較強的交互性、開放性、跟蹤性、反饋型,教學資源豐富多樣[5]。學員通過該平臺進行自主學習過程中會產生大量的各種日志數據,如學員的登陸行為數據信息、學員對各種資源的瀏覽情況的數據記錄等。本文主要采用網絡日志分析這一非反應性研究方法及相關分析、差異檢驗、聚類分析等數據挖掘方法,對學員的在線學習網絡日志進行細致深入的分析,以探索學員在線學習行為的內在影響因素。
3.1數據采集與預處理
以15級學員為主,選取了學員的基本信息數據和在使用信息化導學平臺時產生的登陸、資源瀏覽、學習體驗等日志數據,以及學員在使用形成性考試平臺時產生的考試數據,共四份數據。將這些數據導入數據庫,形成四張數據表。這四張數據表的關聯通過“學號”這一字段來建立。如圖3所示。經過聯合查詢,對這四張數據表進行交集運算,取得這四張表中共有的學員,共1265名。然后將這1265名學員對應的基本信息數據、登陸數據、資源瀏覽數據和形成性測驗數據作為分析對象,進行統計分析和數據挖掘。
3.2學員學習登陸行為描述與影響因素分析
在登陸行為數據表中,學生學號和登陸時間是兩個主要字段。本文不以學生的登陸次數為計數單位,而是以某個時間單位的登陸人數來統計。如果以登陸次數來統計可能會由于個別學員的反復登陸而造成學員學習強大的假象。因此,本文主要以登陸時間 “周”為分類字段統計學員的登陸率(登陸平臺的人數除以學員總數);以學號為字段統計每個學員的登陸天數。本文以 2015年10月11日課程開學日所在周為第一周,該課程的持續周數15周。
(1)以時間段“周”為單位統計,發現學員群體學習的周期
對于學員個體而言,學習周期是不確定的。但是從教學這的角度來說,需要了解整個學員群體的學習周期,即通過登陸平臺的記錄,分析統計多長時間內整個學生群體都會登陸參與學習,以衡量群體在線學習開展的速度。作為教學者,需要了解,隨著學習時間的推移,有多少學生不再來學習了,以衡量群體在線學習終止的速度。通過對每周累計登陸率的統計分析得到學員的學習周期,如圖4所示。
可以看出,到第5周,有40%的學員參與了在線學習;第6周開始急劇增加;到最后一周,所有學員全部參與了在線學習。這說明,學員整體開展在線學習的速度是慢的,提醒教學者應該加以干預,如在第2周就應該督促學員登陸導學平臺參與學習。作為教學者,也可 以此為參考對教學資源在時間上進行合理分配。
(2)影響學員登陸行為的影響因素分析
Microsoft決策樹算法由Microsoft SQL Server Analysis Services提供的分類和回歸算法,用于對離散和連續屬性進行預測性建模。對于離散屬性,該算法根據數據集中輸入列之間的關系進行預測。決策樹根據向特定結果發展的趨勢進行預測。對于連續屬性,該算法使用線性回歸確定決策樹的拆分位置。該算法原理是:通過在樹中創建一系列拆分來生成數據挖掘模型。這些拆分以“節點”來表示。每當發現輸入列與可預測列密切相關時,該算法便會向該模型中添加一個節點。該算法確定拆分的方式不同,主要取決于它預測的是連續列還是離散列。為了提高效率,微軟決策樹采用了兩層結構,在建樹算法和數據庫直接設立了一個數據挖掘中間件,如圖5所示。
綜合考慮學員的層次(本科、飛行員、士官)、專業、性別三種因素,本文采用Microsoft決策樹算法構建挖掘結構和挖掘模型,對學員的登陸行為(以天數為衡量單位)影響因素進行分析。以層次、專業、性別為輸入值,以登陸天數為預測值,建立如下圖6所示的決策樹。
其中的比例比為 登陸天數 “ 不少于5天”的學員與 “少于5天”的學員的比例。通過分析結果可以看出,層次、專業、性別對登陸天數的影響程度是不一樣的。層次影響最強,其次是專業,最后是性別。其中,飛行員、士官層次學員的登陸天數明顯低于本科層次學員;飛行員和士官層次之間,飛行員的登陸天數要高于士官層次學員;而在某個層次內,如本科層次,不同的專業之間學員的登陸天數差別也有明顯區別(由于保密原因,這里不便明確具體專業信息),而性別對登陸天數的影響最小。依據這些分析結果,教學者可以對不同層次、專業的學員在線學習行為進行合理的引導和調整。如對于本科層次內,不同專業之間的登陸行為之所以有較大差別,是因為不同的專業由不同的學員隊進行管理、其專業指向性也有所不同,因此學員的學風有較大差別。學員管理者可以依據分析結果,對相應的學員隊進行有針對性的加強管理,以提高其學習效果。
3.3學員資源瀏覽行為描述與影響因素分析
計算機基礎課程信息化導學平臺中的學習資源豐富多樣。其中,課程包含了我院計算機基礎類的所有通識課程,主要有《大學計算機基礎》、《計算機程序設計》和《計算機硬件基礎》三門課程;課程的教學資源一般按照案例、章節和知識點進行編排,資源類型有操作視頻演示、Flash動畫交互操作、類型豐富多樣的測試題等。通過學員對各門課程以及課程中相應資源模塊的瀏覽日志進行統計分析,以找到影響學員瀏覽行為的因素。統計分析結果如表1所示。
可以看出,從各資源模塊的被使用程度和被學員的關注程度來看(主要通過“瀏覽頻次”和“學生參與率”反映),由高到低依次是課程各章節案例庫、視頻資源區、Flash動畫交互區、問題庫、輔助資料庫、常用軟件工具庫,這些恰好是這些資源模塊在課程首頁由上而下呈現的順序。這說明各課程模塊首頁的布局反映了學員的學習習慣,也可能是這種布局對各資源模塊的被使用程度產生了影響。對課程資源模塊設計的指導意義在于,要使某種資源得到學員的關注,應將其置于相應課程模塊首頁的顯著位置。
從學員對課程各資源模塊的學習情況來看(主要通過“單個資源人均瀏覽頻次”),由高到低依次是Flash動畫交互區、問題庫、課程各章節案例庫、視頻資源庫、常用軟件工具庫、輔助資料庫。學員對Flash動畫交互區的學習程度最高的原因主要是,該模塊采用動畫以交互的方式讓學員學會相應的操作,更能激發學員的學習興趣,吸引學員反復學習。學員訪問程度次高的是問題庫,說明學員有較強的通過常見問題庫來解答學習過程中各種疑問的需求。今后應該進一步豐富問題庫,并將問題庫的檢索區域置于課程首頁的顯著位置,以便及時方便地解答學員的各種疑惑,幫助學員完成相應課程的學習。
4結論
本文通過對15級學員基于計算機基礎信息化導學平臺進行在線學習時產生的登錄數據和資源瀏覽數據進行統計、挖掘分析,發現了學員在線學習行為的一些基本特點及其影響因素。從群體角度看,在線學習行為在時間的分布上相對均衡,以周為時間段第6、7周的學員登錄率最高;從個體角度看,學員在線學習時間相對較少;影響學員在線學習時間投入的內在因素有層次、專業及性別等因素,其中層次因素是最重要的因素。相同層次的學員,不同專業之間的學員在線學習投入的主要影響因素是其專業,而這與其專業特點和所在學員管理隊有較大關系;學員對不同資源的學習程度的不同主要取決于資源在課程頁面上的分布、學習資源的特色及學員的自身需求,若想要某一類型的資源引起學員的足夠重視,可以首先將其置于課程首頁的顯著位置,同時要基于學員的興趣改進資源的特色等。
參考文獻
[1]洪雪峰.教育數據挖掘下的學習效果探析[J].長沙鐵道學院學報:社會科學版,2014(5):196-198.
[2]BIENKOWSKI M,FENG M,MEANS B.Enhancing Teaching and Learning through Educational Data Miningand Learning Analytics:An Issue Brief[M].Washington,D.C,2012.
[3]BAKER R S J.Data Mining for Education.International Encyclopedia of Education[M].3rd ed.Oxford,UK:Elsevier,2011.
[4]RAMASWAMI M,BHASKARAN, CHAIDR A.Based Performance Prediction Model in Educational Data Mining[J].IJCSI International Journal of Computer Science Issues,2010(1):10-18.
[5]呂海燕.基于“信息化導學平臺”的翻轉課堂教學模式[J].計算機教育,2016(2):73-78.
[6]葛道凱,張少剛.教育數據挖掘方法與應用[M].北京:科學出版社,2012.9.
第36卷第1期2017年3月計算技術與自動化Computing Technology and AutomationVol36,No1Mar. 2 0 1 7第36卷第1期2017年3月計算技術與自動化Computing Technology and AutomationVol36,No1Mar. 2 0 1 7