孫玉榮 羅立宇 黃慧華
【摘要】網絡教學的一個關鍵問題是如何實現教與學的有效結合,通過關聯規則技術對收集到的學生網上學習歷史數據進行分析,可以發現學習時間、學習次數、BBS討論與測試成績之間的關聯,幫助教師調整教學計劃;通過分類模型挖掘技術,實現對學生的網絡分層教學,提升教學質量。
【關鍵詞】數據挖掘; 網絡教學;關聯規則;分類模型
【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009—8097(2009)06—0104—03
數據挖掘技術可以從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術把獲取的信息和知識提供給決策支持系統。這種技術已廣泛地用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等[1,2,3] ,隨著信息技術的發展,數據挖掘在網絡教學中的應用研究也逐漸深入[4,5,6] 。網絡教學成為一種新型教學手段,理論上學習者可以在任何時間、任何地點以任何形式、從任何章節開始學習任何內容,實現個性化學習。但在網絡教學實施過程中,教學內容和組織活動卻不能隨著學生的學習狀況發生動態變化,導致了教與學脫離的現象,教學效果達不到預期效果。因此可以利用該技術對收集到的與學生學習相關的歷史數據進行分析,從而可以為教師深入理解學生的實際學習情況,制定相關的教學目標供 其學習提供有力的決策支持,是提升教學效果的有力手段。
一 擬解決的關鍵問題
本文探討 在現有的網絡教學平臺基礎上,以在教學信息數據庫中采集到的學生學習記錄為樣本,應用數據挖掘技術,挖掘有用的規則,探討學生的學習習慣, 學習興趣和學習成績間的關系,從而及時了解學生對每一章節知識的掌握程度并根據每個學生的情況制定下一章節的教學目標,為其提供不同的教學內容,從而使教學更適合學生
個性的發展,實現網絡分層教學,最終實現教學過程的動態調節。
二 數據預處理
由于人為的原因、設備的故障及數據傳輸中的錯誤,導致現實世界的數據含有臟的、不完整的和不一致的數據。數據預處理技術可以檢測數據異常,調整數據并歸約待分析的數據,從而改進數據的質量,提高其后挖掘過程的精度和性能。
本文數據源于《數據結構》網絡教學課程,48節理論課,24節實驗,4.5個學分。學生111人,其中06級信息與計算科學專業班合計64人,07級地理信息系統專業一個班計47人。針對1節提出的問題,本文通過對網絡教學平臺教學信息數據庫中的學生信息表、學生學習進度表、測試信息表等進行數據挖掘,說明其在網絡教學中的應用。各表結構如表1至表3所示(本文中學生信息經過掩飾處理)。
其中內容是指客觀性考題,如單項選擇題等。主觀性考題,如算法設計之類考題可以以教師組織的BBS討論為依據評分,在此以有效討論次數(有實質性的討論內容)計算。
首先去除數據表中的冗余信息,如學生信息表中除學號信息以外的各分項信息,每一章節學習進度表中的節、日期信息,每章測試信息表中的題號、內容、答案等信息;對某些匯總數據項進行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個組并概化為不及格,合格和優秀三個層次;學習時間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個組,單位:小時;學習次數匯總后分為(0,3),(3,6),(6,)等 三個組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個層次[7];同時下一章節的教學目標制定為三個層次,內容呈現分別表示為A類、B類、C類三個層次的內容,提供給學生學習。然后檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理。經過數據預處理工作,得到一張描述學生學習過程信息的數據表格,表4是我們整理出的某一章節的學生學習情況數據。
三 數據挖掘過程
主要是利用關聯分析、序列模式分析、分類分析和聚類分析等分析方法對數據庫中的潛在規則進行挖掘。針對1節中提出的問題,根據國內外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關聯規則挖掘算法進行關聯規則挖掘和用于 分類模型判定樹歸納算法進行數據挖掘。
1 關聯規則挖掘
關聯規則挖掘可以發現大量數據中項集之間有趣的關聯或相關聯系,通過這種挖掘技術對表4進行挖掘,可以發現學生的學習時間、學習次數及網絡課堂討論和學習效果之間的關系,使教師了解學生的網上學習行為和目標掌握程度,幫助教師調整教學計劃,如設計有意義的討論課題提升學生的學習興趣,從而間接增加學生的學習時間和學習次數。
首先給出關聯規則的形式化描述:設 是m個項的集合,D是數據庫事務的集合,每個事務有一個標識符。關聯規則就是形如 的蘊含式,其中 ,并且 。規則的支持度記為 ,是事務D中包含的 事務數與所有事務數之比,置信度記為 ,是指包含的 事務數與包含的 事務數之比。
給定事務數據庫D挖掘關聯規則問題就是產生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關聯規則。
表5是使用FP-Tree算法對學生學習情況表進行挖掘得到的一系列關聯規則(因篇幅限制,本文僅列出部分內容)。
從上表可以看出,學習時間在6小時以上并且成績為優秀的同學占全班的20.51%,學習時間6小時以上的同學中有34.78%的學生成績為優秀。學習時間在2小時以下的并且成績不及格的同學占全班的7.69%,學習時間2小時以下的同學中有75%的學生成績不及格。學習時間在6小時以上,學習次數多于6次且成績為優秀的學生占全班的7.69%,這部分同學中有75%也積極參與BBS討論,而學習時間少于2小時,次數少于3次,基本不參與討論的同學,不及格率為100%,這部分同學占全班的7.69%。比例明顯偏高,需要調整教學的內容和設計討論問題以提高學生的興趣。從表中還可以看出,學習次數多于6次的學生中有92.31%的學生其學習時間一般也會超過6小時,這部分學生占全班的61.54%,通過關聯規則的挖掘,可以掌握學生網上學習行為,從而為教師的教學策略調整提供依據,可以更好地進行學生的培養。
2 分類模型挖掘
著名的心理學家、教育學家布盧姆提出的掌握學習理論認為:“只要在提供恰當的材料和進行教學的同時給每個學生提供適度的幫助和充分的時間,幾乎所有的學生都能完成學習任務或達到規定的學習目標”。
通過構造判定樹可以建立學生分層教學模型,并依據判定樹為學生提供不同層次的教學內容而 實現對學生的網絡分層教學。分類模型判定樹歸納算法主要表述為計算每個屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創建樹的結點,并以該屬性標記,對屬性的每個值創建分支,并據此劃分樣本。由于樣本數據中存在噪聲或孤立點,通過樹剪枝去除不合理的分支,以提高在未知數據上分類的準確性。據此算法構造的判定樹如圖1所示。
判定樹的第一層條件為每一章節的單元測試成績,分別表示為優秀、合格和不及格。不及格的同學下一章節進入C類教學目標學習,優秀的同學則進入A類教學目標學習,合格的同學則根據學習的次數決定下一章節的教學目標。學習次數為0~2次的同學進入B類教學目標學習,3~5次的同學則需要根據學習時間判定,根據判定樹可知,所有同學進入B類教學目標學習,這和我們日常的判斷邏輯相符,因為學習次數較多,學習時間較長,但成績卻是合格的同學很有可能是因為方法不當等原因導致接受知識能力較差,進入A類目標學習顯然是不合理的。當學習次數大于6次時,可以根據學生參與BBS討論的次數決定學生的下一章節的學習目標,討論次數0~2次的同學其學習目標定為B類,3次以上的同學其學習目標則定為A類,這類學生表現出對知識的渴求,興趣較濃,理解知識的能力相對較強。
根據判定樹,可以根據學生學習本章節的實際情況對學生學習下一章節內容的效果進行預測,據此對學生進行分類,提供不同的教學內容供其學習,以提高整體教學質量。
參考文獻
[1] 湯小文,蔡慶生. 數據挖掘在電信業中的應用[J].計算機工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚勇等.電子商務網站推薦系統中關聯規則推薦模型的實現[J].計算機工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數據倉庫的聯機分析挖掘系統[J].計算機工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術及其在網絡教學評價中的應用[J].南京工業大學學報(自然科學版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數據挖掘的遠程學習過程評價系統設計與實現[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬浩.基于數據挖掘的遠程學習者網上學習行為研究[J].中國遠程教育,2008,(5):44-47.
[7] 龔志武.關于成人學生網上學習行為影響因素的實證研究[J].中國電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
Abstract: A key matter of network teaching is how to realize combining teaching with learning. It is helpful to find out the association of learning hours, times, BBS discussion and test result by analysis the historic data of learning with the technique of association rules. A teacher can revise the teaching plan according to the association. To a teacher, it is also easy to realize a network level teaching, enhance teaching quality with the technique of classification model.
Keywords: Data Mining; Network Teaching; Association Rules; Classification Model