李紅剛 殷立新 劉宏偉 李紅彪
摘 要:文章在介紹了數據倉庫、聯機分析處理(OLAP)的概念基礎上,結合教學學生綜合測評系統構建數據倉庫,利用決策樹分類方法實現數據分析的功能。
關鍵詞:數據倉庫;聯機分析處理;數據挖掘
隨著中國高等教育從精英教育向大眾化教育的轉變,必將給學生的管理帶來許多問題。學生信息龐大而復雜,學生工作管理者越來越意識到管理的復雜性,越來越難以預測學生的狀態和發展。因此,學校希望學生的海量數據不僅是簡單地用在備份和查詢上,而是更迫切需要管理信息系統具備協助測評決策的能力。經過大量的分析與研究,數據倉庫和數據挖掘技術是解決這一問題非常有效的途徑。數據倉庫和數據挖掘技術在教學綜合測評系統中的應用正是建立在此基礎之上。
1 數據倉庫、OLAP
(1)根據數據倉庫之父Inmon[1]定義,數據倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策。
(2)聯機分析處理(On-Line Analytical Processing,OLAP)技術是用于解決海量數據高效分析的先進技術。可以主要應用于數據倉庫系統,能夠用于復雜的分析操作,側重決策支持,能夠提供直觀明了的查詢結果。
(3)多維綜合測評聯機分析。教學綜合測評系統的數據倉庫采用自下而上的構建方法。系統使用多維數據模型,雪花模式。該模型將數據視為數據立方體模型,這是多維數據存儲的隱喻,允許對維和事實定義的數據以多維形式進行建模和觀察。通過維度表,我們可以在創建數據立方體后以各種角度輕松執行數據切片,切塊、上卷、下鉆、鉆過、鉆透等操作。通過多維數據分析,可以隨時查看任何學生或年級的任何一項或綜合測評的結果。這有利于學校大學生管理者通過多維數據立方體的展示來了解每個學期和每個學生或班級的各個方面的發展,開展有針對性的教育工作,可以宏觀地掌握學生的發展,也為支持學生的管理和教育發揮了有效的決策作用[2]。
2 研究的內容
利用學校多年來的基礎數據,在建立相對完整的關系數據庫的基礎上,創建系統的數據倉庫,然后進行各種OLAP分析。以各測評項目為目標,作為測評分析的主題。例如,綜合系統可以基于學生編號、學期、學年、學術水平等方面多維度查詢。評估結果可以使用數據挖掘—在線分析挖掘(On-line Analytical Mining,OLAM)的多維數據挖掘方法來生成全面評估多維立方體的視覺嘗試,每個學生的學習成績和其他方面都可以在立方體中表達,可以一目了然地看到學生各方面的情況。教學綜合測評旨在確定學生入學與學生就業之間的關系,以確定課程設置,并找出學生來源與學生成績和就業之間的關系;用人單位選拔優秀人才;它可以在畢業資格審核,學位授予,重修、輔修、評定“三好學生”和獎學金中發揮輔助決策作用[3]。
3 解決方案
Microsoft在SQL Server上提供Analysis Services,這是一種數據倉庫解決方案,也是Microsoft決策支持服務的關鍵組件。為了使教學綜合測評更加直觀和高效,學校管理者利用數據挖掘系統—DBMiner軟件實現數據立方體的可視化[4-5]。
(1)數據倉庫體系結構整個數據倉庫系統是一個包含4個層次的體系結構,具體如圖1所示。
(2)OLAP。使用微軟公司SQLServer上的Analysis Manager來創建多維數據集,設計學生綜合測評事實表與學生、教師、考試、設置、成績、測評內容、德育等維度表。
(3)將決策樹分類方法應用于數據挖掘。決策樹提供了一種在什么條件下顯示值得遵守規則的方法。在沿著決策樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最后會到達一個葉子結尾。這個過程就是利用決策樹進行分類的過程[6]。
教學綜合測評方面定性指標包括德育水平、學業水平、課外實踐能力等。
①根據相應的規則對每個指標進行分類。綜合素質:按優、良、中、差分為1、2、3、4四個等級;德育水平:按好、一般、差分為1、2、3級;學業水平:按優秀、良好、一般、較差、差分為1、2、3、4、5級;課外實踐能力:按合格、不合格分為1、2級;
②建立決策樹分類規則如圖2所示。
根據先前建立的決策樹分類規則,建立數據訓練集,并且在由分類規則和訓練數據生成的決策樹算法之后,自動生成用于預測學術水平的決策樹。決策樹葉子顏色的深淺直觀表示了事件發生的概率大小[7-8]。例如,我們可以看到整體質量為優秀的群體中,學業水平為優秀的所占比例和良好的所占比例,根據兩者合計占有比例,可以觀察是否占有絕對優勢。因此,我們可以分析和預測具有良好綜合素質的學生,學術水平也是優秀的。
4 結語
本文對實現這些功能所面臨的主要技術問題進行了較深入的研究,基于數據倉庫、數據建模技術的數據倉庫應用系統的實現方法,數據倉庫系統的體系結構,數據裝載和控制機制分析數據挖掘算法等,通過構建數據倉庫并利用OLAP和決策樹分類的強大功能,可以實現強大的基于Web的數據分析。用戶可以在Web瀏覽器中對數據執行統計和分析,以實現數據挖掘。基于數據倉庫與數據挖掘技術的教學綜合測評系統軟件,在學校實際應用中取得了良好的效果,大大減輕了教學、學工、督導等相關工作人員的工作量,擴大了數據統計的覆蓋面,提升了統計數據的效率和測評數據的準確度,為學校教學工作起到輔助決策的作用。
[參考文獻]
[1]INMON W H.數據倉庫[M].王志海,譯.北京:機械工業出版社,2000.
[2]TONY B.SQLServer2000數據倉庫與Analysis Services[M].邵勇,譯.北京:中國電力出版社,2002.
[3]沈兆陽.SQLServer2000 OLAP解決方案—數據倉庫與Analysis Services[M].北京:清華大學出版社,2001.
[4]孫榮明.數據挖掘對教學管理的優化設計[J].電腦知識與技術,2016(24):3-5.
[5]翟繼友. 基于決策樹的教師教學質量評價分析[J].教育評論,2015(9):65-67.
[6]任鎖平. 基于數據挖掘的高職教學質量監控評價系統設計及應用[J].電子設計工程,2015(16):25-27.
[7]楊國靜.基于數據挖掘的高校教學數據分析研究[D].石家莊:河北師范大學,2015.
[8]彭麗娟.基于數據挖掘的高職院校教學管理系統的設計與實現[D].成都:電子科技大學,2014.
Abstract:Based on the concept of data warehouse and online analytical processing(OLAP), a data warehouse is constructed by combining the comprehensive assessment system of teaching students, and the function of data analysis is realized by using the decision tree classification method.
Key words:data warehouse; OLAP; data mining