張樹滑
關鍵詞: 數(shù)據(jù)挖掘; ID3決策樹; 體育成績; SQL Server; B/S模式; 體能分析
中圖分類號: TN02?34 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)05?0104?03
Design of sports achievement data mining and physical fitness analysis
system based on ID3 algorithm
ZHANG Shuhua
(Guangxi University of Foreign Languages, Nanning 530222, China)
Abstract: The ID3 decision tree algorithm is applied to the sports performance data mining to effectively analyze the students′ physical fitness, and improve the management level and quality of physical teaching. The shortcomings of the existing performance analysis system are analyzed, and the overall system architecture and data mining implementation process are introduced. The principle of ID3 decision tree algorithm and its software implementation flow are designed. The Analysis Services development environment in the multidimensional mode of Microsoft SQL Server 2012 tool is used to realize the software module of decision tree algorithm. The system operation results show that the proposed system can provide the valuable scientific basis for student achievement management and analysis based on data mining.
Keywords: data mining; ID3 decision tree; sports achievement; SQL Server; B/S mode; physical fitness analysis
在學校教育工作中,每一門課程的教學活動均需要給學生評出相應的成績,以便對學生掌握該門課程相關知識的情況進行考核。課程的成績在一定程度上真實反映應了學生在某專業(yè)方面的能力和素質,例如音樂、數(shù)學、美術、體育等[1]。這些課程的教學管理工作產生了數(shù)量巨大的學生成績數(shù)據(jù),如何處理和分析這些數(shù)據(jù)以便挖掘出更有價值的隱藏信息得到了眾多教育工作者的關注[2?3]。
數(shù)據(jù)挖掘是20世紀90年代出現(xiàn)的一門交叉學科,涉及數(shù)據(jù)庫技術、知識工程、概率與統(tǒng)計、模式識別、神經元網絡、可視化技術等各領域的研究成果[4]。數(shù)據(jù)挖掘的本質是從大量有噪聲、不完全、模糊、隨機的數(shù)據(jù)中抽取出隱藏的并具一定可利用價值的信息和關系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]關聯(lián)分析、分類和預測、聚類分析和孤立點分析。其中,針對分類和預測問題典型的算法是決策樹。常用的算法包括ID3,C4.5,AC2,CN2等。因ID3具有結構簡單、分類速度快且使用范圍廣等優(yōu)點,本文選擇ID3決策樹算法實現(xiàn)體育成績的數(shù)據(jù)挖掘。通過數(shù)據(jù)特征和關系對學生體能進行有效分析,從而為體育課程教師的因材施教提供了有價值的數(shù)據(jù)支持。首先對現(xiàn)有成績分析的不足進行分析,并介紹了系統(tǒng)總體架構和數(shù)據(jù)挖掘實施流程。然后對ID3決策樹算法的原理和軟件實現(xiàn)流程進行設計。最后使用Microsoft SQL Server 2012工具多維模式中的Analysis Services開發(fā)環(huán)境實現(xiàn)了決策樹算法的軟件模塊。

1.1 ?現(xiàn)有成績分析的不足
對學生掌握所學課程相關知識的情況進行考核,是廣大教師開展教學活動的關鍵內容。傳統(tǒng)學生成績分析工作通常采用Excel辦公軟件或者綜合辦公系統(tǒng)實現(xiàn),其突出表現(xiàn)為工作強度大、表格分散和操作效率低,教師需要人工完成查詢、分類和匯總工作。成績數(shù)據(jù)的分析結果延遲性較高,無法及時為教師實施的教學活動提供實時、有價值的信息。
此外,現(xiàn)有的多數(shù)成績統(tǒng)計系統(tǒng)仍然采用簡單的均值、方差、區(qū)別顯著性檢驗或者信度計算方法,來實現(xiàn)成績數(shù)據(jù)分析,因此根本無法發(fā)現(xiàn)學生成績數(shù)據(jù)中隱含的信息或者關系。成績考核評分很容易,但是如何對學生成績進行分析并提取出所需要的隱藏信息也很重要。因此,本文針對以上問題,應用數(shù)據(jù)挖掘技術對體育成績數(shù)據(jù)進行分析,以便形成有價值的學生體能特征信息,為制定個性化的相應教學措施提供可參考的科學依據(jù),供教學管理人員做出相應的決策。
1.2 ?系統(tǒng)總體架構設計
體育成績數(shù)據(jù)挖掘與體能分析系統(tǒng)的三層總體架構如圖1所示??梢钥闯?,用戶分為體育教師、學生和系統(tǒng)管理員三種類型。首先是面向人機交互的系統(tǒng)表示層,包括測試項目管理、成績管理、成績統(tǒng)計分析和擴展項目。其次,作為系統(tǒng)核心部件的業(yè)務邏輯層包含表示層中所有項目的相關業(yè)務邏輯,完成邏輯判斷和處理。最后是與數(shù)據(jù)庫和文檔相連的數(shù)據(jù)訪問層。
1.3 ?數(shù)據(jù)挖掘實施流程
數(shù)據(jù)挖掘系統(tǒng)中標準的流程為:首先需要確定挖掘對象及其目標,選取合適的模型并進行數(shù)據(jù)采集。然后對數(shù)據(jù)進行預處理以便實施選擇的數(shù)據(jù)挖掘算法。最后對數(shù)據(jù)挖掘的結果進行分析。標準的數(shù)據(jù)挖掘系統(tǒng)結構[6?7]如圖2所示。按照圖2的流程設計了所需系統(tǒng)的挖掘功能,如圖3所示。
現(xiàn)階段,數(shù)據(jù)挖掘在課程教學活動中的研究較少,大多數(shù)處于理論研究階段。文獻[8]將決策樹算法應用于提高實踐課程教學效果的探索中,用C4.5算法和ID3算法對訓練樣本建立模型并進行分類預測,準確率分別為80%和71%。文獻[9]提出一種結合概率推理與決策理論來構建C++智能教學系統(tǒng)(Intelligent Tutoring System,ITS)中學生學習模型的方法,以幫助ITS達到自適應教學的目的。通過分析可以發(fā)現(xiàn),ID3決策樹算法在教學數(shù)據(jù)挖掘中具有較好的應用效果,因此本文選擇ID3決策樹算法實現(xiàn)體育成績的數(shù)據(jù)挖掘。

2.1 ?ID3決策樹算法的設計
ID3決策樹算法的關鍵是按照遞歸思想進行信息增益和熵的計算。計算初始熵的方法[10]如下:
[S(I)=i=1cNiNlog2NiN] (1)
式中:[Ni]為類別[Ci]中的樣本個數(shù);[N]為樣本的數(shù)量;[c]為類別的數(shù)量。
對決策樹的根節(jié)點進行屬性選擇的過程中,分支的新熵計算方法如下:
[S(I,Ak,J)=i=1cnkj(i)nkjlog2nkj(i)nkj] (2)
式中:[Ak]表示屬性;[nkj]為每個分支的樣本個數(shù);[nkj(i)]為每個分支的[nkj]個樣本中屬于類別[Ci]的樣本數(shù)。
計算信息增益的方法如下:
[ΔS(K)=S(I)-S(I,Ak)] (3)
挑選具有最大信息增益的屬性[Ak0]作為決策樹的根,[Ak0]的判斷條件為:
[Δ熵(k0)>Δ熵(k), ? ?k=1,2,…,K且k≠k0] (4)
2.2 ?軟件整體設計思路
決策樹算法軟件總體設計流程如圖4所示。

3.1 ?數(shù)據(jù)挖掘軟件模塊實現(xiàn)
系統(tǒng)應用平臺為Window 7操作系統(tǒng)。數(shù)據(jù)庫軟件采用Microsoft SQL Server 2012。采用三層B/S架構完成數(shù)據(jù)挖掘算法軟件的開發(fā)。軟件開發(fā)環(huán)境使用Microsoft SQL Server 2012工具多維模式中的Analysis Services。利用Analysis Services項目模板創(chuàng)建名為“體育成績分析”的數(shù)據(jù)挖掘項目,如圖5所示。

以某學校12個班級學生的體育課程成績?yōu)槔M行數(shù)據(jù)挖掘分析,并將ID3算法在體育課程分析系統(tǒng)中進行具體應用。
3.2 ?系統(tǒng)測試結果
對設計的體育成績數(shù)據(jù)挖掘與體能分析系統(tǒng)進行測試。測試結果顯示系統(tǒng)運行狀態(tài)良好,操作流暢,人機交互效果良好。其次,在學生體能分析中,基于ID3決策樹算法的挖掘分類結果如圖6所示。從圖6所示挖掘結果可以看出各個體育項目的測試成績與學生個人體能之間的關系,例如,學生在籃球項目測試方面取得了較好的成績,這說明該學生在體能鍛煉上更傾向于籃球項目。

本文提出ID3決策樹算法在體育成績數(shù)據(jù)挖掘與體能分析中的應用系統(tǒng)。首先對現(xiàn)有成績分析的不足進行分析,并介紹了系統(tǒng)總體架構和數(shù)據(jù)挖掘實施流程;然后對ID3決策樹算法的原理及其軟件實現(xiàn)流程進行設計;最后使用Microsoft SQL Server 2012工具多維模式中的Analysis Services開發(fā)環(huán)境實現(xiàn)了決策樹算法軟件模塊。運行結果顯示,提出的系統(tǒng)能夠為基于數(shù)據(jù)挖掘的學生成績管理與分析提供有價值的科學依據(jù)。
參考文獻
[1] 賀超波,陳啟買,石玉強,等.實驗教學數(shù)據(jù)管理與分析系統(tǒng)的研究與實踐[J].實驗技術與管理,2012,29(1):110?113.
HE Chaobo, CHEN Qimai, SHI Yuqiang, et al. Research and practice of experimental teaching data management and analysis system [J]. Journal of experimental technology and management, 2012, 29(1): 110?113.
[2] 王彩虹,高旭陽.基于英語閱讀教學數(shù)據(jù)庫的云服務模式研究[J].圖書館學研究,2011(19):49?52.
WANG Caihong, GAO Xuyang. Research on cloud service model based on English reading teaching database [J]. Library science research, 2011(19): 49?52.
[3] 弓靜,王莉,郝強,等.基于PACS系統(tǒng)醫(yī)學影像學教學數(shù)據(jù)庫的開發(fā)及應用[J].基礎醫(yī)學教育,2017,19(1):66?68.
GONG Jing, WANG Li, HAO Qiang, et al. Development and application of medical imaging teaching database based on PACS system [J]. Basic medical education, 2017, 19(1): 66?68.
[4] JOSEPH S R, HLOMANI H, LETSHOLO K. Data view [J]. Neuroscience, 2016, 12(3): 719?743.
[5] LU H, SETIONO R, LIU H. Effective data mining using neural networks [J]. IEEE transactions on knowledge & data engineering, 2016, 8(6): 957?961.
[6] BUCZAK A L, GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection [J]. IEEE communications surveys & tutorials, 2017, 18(2): 1153?1176.
[7] ADENIYI D A, WEI Z, YAN Y Q. Automated Web usage data mining and recommendation system using K?Nearest Neighbor (KNN) classification method [J]. Applied computing & informatics, 2016, 12(1): 90?108.
[8] 陰亞芳,孫朝陽.決策樹算法在實踐教學中的應用研究[J].計算機與數(shù)字工程,2018,46(6):1078?1082.
YIN Yafang, SUN Chaoyang. Application research of decision tree algorithm in practice teaching [J]. Computer and digital engineering, 2018, 46(6): 1078?1082.
[9] 楊誠一,朱巧明.基于概率推理和決策樹的教學系統(tǒng)的設計與實現(xiàn)[J].計算機應用與軟件,2009(12):170?173.
YANG Chengyi, ZHU Qiaoming. Design and implementation of teaching system based on probabilistic reasoning and decision tree [J]. Computer applications and software, 2009(12): 170?173.
[10] PHU V N, TRAN V T N, CHAU V T N, et al. A decision tree using ID3 algorithm for English semantic analysis [J]. International journal of speech technology, 2017, 20(4): 1?21.