張鸰


摘要:隨著信息化教學手段的普及,高等院校越來越重視網絡教學平臺的建設,在智慧校園的建設中都加大了線上教學的投入力度。但隨著也帶來了以往在線下教學過程中沒有遇到的一些問題,比如教學管理實施等,其中最突出的問題就是如何來進行網絡教學評價。與傳統的線下授課不同,網絡教學無法實現如組織集中聽課等課堂評課等常規的評價方式,教學行為發生的對象變成了屏幕鼠標鍵盤,而不再直接展現給教學評價人員,因此評價手段也必須由信息化的方式來進行分析。本文利用數據挖掘技術對線上教學方式的隱含影響因素做深層的分析,探索教育各關鍵要素之間的關聯,初步構建出實現網絡教學評價的相關流程,從而為教育教學管理和決策提供有效支持。
關鍵詞: 數據挖掘;分類回歸樹算法;線上教學;教學評價
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)29-0006-03
1 數據挖掘技術簡析
數據挖掘(Data Mining)一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程,通常會利用計算機技術、機器學習、統計學技術、情報分析和模式識別等技術來實現。[1]。數據挖掘實現過程主要有三步:數據準備、數據挖掘、結果的解和評估。簡單來說數據挖掘技術是指從大量紛繁錯雜的信息中獲取有效的數據,幫助使用者制定決策的一種技術手段。數據挖掘接觸多樣化的數據結構和類型,因此對接了包括:普通的事務數據、關系數據庫數據、數據倉庫數據,以及現在流行的流媒體數據、超文本數據、時空及序列數據、網格數據等等。數據挖掘技術發展到現在,在很多的專業學科領域都得到了應用,并隨之催生出了很多新的數據挖掘技術。當下在教育教學方面數據挖掘技術也廣泛的深入,常見的有:被用于對線上學習效果與學習行為關聯性進行分析的關聯和相關性挖掘算法;通過對采集信息進行分析聚類出具有特定相似性的群體的聚類分析算法;可以實現對線上教學留言板、論壇、聊天室的評論的交流數據進行分析的文本挖掘技術;通過對采集到的學生基本信息既可以實現對學生成績進行預測的決策樹算法;常被用于進行線上教育教學研究的統計分析挖掘算法等。可以根據不同的應用場合和項目,選擇適合特定任務的數據挖掘技術。本文根據需求采用了決策樹算法中的分類和回歸樹算法。
2 分類回歸樹算法
在數據挖掘中,決策樹通過對不同屬性節點的劃分,把一個新的樣本經過層層判斷劃分到不同的類別當中。決策樹算法根據選擇劃分節點的不同方式主要分為ID3、C4.5、CART三種算法。ID3是決策樹算法中很常用的一種方法,其主要思想是通過信息增益來進行決策樹的劃分屬性選擇,而C4.5算法可以看成是對ID3算法的一個改進。ID3、C4.5算法主要用于分類問題,它們均是基于信息熵來進行劃分節點選取的。
分類回歸樹算法(CART,Classification And Regression Tree)是一種決策樹分類方法,它采用一種二分遞歸分割的技術,從名稱可知它包括了分類樹和回歸樹兩種決策樹。CART和前面兩種算法的差異主要是在每一次節點做判斷時,只考慮二分類的情況,即使征能夠取到多個值(比如屬性顏色有紅、黃、藍三種取值,ID3和C4.5直接就劃分為紅、黃、藍三個子類,而CART只能在一次劃分時劃分為是不是紅(黃、藍)然后再進行判斷。)
2.1 CART分類過程
2. 3 CART剪枝
為什么要對決策樹進行剪枝?這樣做的原因是為了避免出現過擬合的情況。觀察通過前面的算法生成的決策樹,會發現這個決策樹是非常詳細,分支量大,分支層數多,對每個屬性進行詳細的分析。利用這種決策樹實施的訓練樣本的分類,可以達到非常低的錯誤率,可以對原訓練樣本集進行正確的樣品分類。
剪枝的方法包括兩種:預先剪枝(Pre-Pruning)和生成后剪枝(Post-Pruning):Pre-Prune是指在決策樹子節點的產生階段,利用剪枝算法去判別是否需要產生該子節點。而Post Prune就是指利用剪枝算法對于已生成過擬合的原始決策樹實施分析和處理,將冗余和偏離較大的子節點去掉的方式。
3 數據分析流程
前面完成了數據挖掘技術的選型,下面結合線上教學環節對數據分析流程簡單梳理。對于線上教學的考核評估第一個要素就是要明確所分析的對象。本文擬從線上課程的各個教學模塊、任課教師和該課程學生的測試成績等三方面內容展開分析,利用數據挖掘技術來評估線上教學的效果。
使用者的學習過程存儲在線上平臺的學習行為數據庫內,同時線上系統的日志管理機制又準確記錄了學習者在各個線上學習模塊的學習行為。另一方面,通過數據接口對接能夠得到教學管理系統的成績數據。然后將采集到的數據按照數據處理的相關流程確定主外鍵、關聯度、位置,最終形成學習者的學習行為統計報表。例如教師T開設了線上課程K,學生S 在課程的線上學習時長為30個小時,在線答疑模塊訪問9次、完成線下作業5次等等。
完成了數據的采集以后,接下來就是利用數據挖掘算法進行分析。可以對整個數據分析流程總結如下圖1:
其中:施教者對所開發各教學模塊使用過程中的定性對比結果構成分類樹;學習者對各學習模塊訪問數量具體對比形成回歸樹。通過對學生學習行為和教師開發教學模塊之間的因果分析判斷,結合算法原理以及實現過程形成了CART算法的基本模型。
4 分類回歸樹算法應用
關鍵因素分析:
① 教學管理人員:制定線上平臺教學考核標準,提供接口實現數據挖掘系統與教務系統之間的對接;
② 后臺技術人員:針對特定線上課程,分析其中的學生行為和考試成績關系,判斷其對網上教學課程的教學效果評估是否達到有效地實現。
前導要素:技術人員按時更新學生行為數據庫,教學管理人員提供考試成績,技術人員按時通過CART算法建立分類回歸樹進行分析,結果提交給教學管理人員。后繼要素:隨著線上教學平臺數據量的積累量,系統將進入良性發展,利用CART算法構建的模型也會越來越準確,更加能夠真實地反映出線上教學平臺的教學效果。具體流程如圖2所示。
5 結束語
通過以決策樹算法對學生的在平臺的行為和考試成績進行分析,就可以得出了比較直觀和具有說服力的規則分析,找出了在網絡教學平臺中相對有效的教學方式,以及在特定教學方式中實現了優秀教學效果的任課教師,達成了對網絡教學的教學效果進行評估參考的效果。
參考文獻:
[1] 李雄飛,李軍.數據挖掘與知識發現[M].北京:高等教育出版社,2003.
[2] 許海洋,汪國安,王萬森.模糊聚類分析在數據挖掘中的應用研究[J]. 計算機工程與應用,2005(17).
[3] 田欣.決策樹算法的研究綜述[J]. 現代營銷,2015(5).
[4] 高海燕.數據挖掘技術及應用淺析[J]. 中國科技博覽,2012(6).
【通聯編輯:唐一東】