朱麗麗ZHU Li-li
(金陵科技學院,南京 211169)
(Jinling Institute of Technology,Nanjing 211169,China)
隨著高等教育在我國的快速發展,學校在校人數的迅猛增加,但是大量的信息只是簡單地存儲在數據庫中,隱藏在這些數據中的潛在信息被閑置,不能被充分利用。而現有的學生數據庫也僅作為事務管理和信息檢索(增加、刪除、修改、查詢等等),利用信息化管理這種先進的技術手段來實現學生、教師、管理人員的緊密結合,大大提高綜合教育質量,這些恰恰是數據挖掘所能幫助解決的問題。
整合系統中不同的數據,形成統一的模式以方便處理。利用現代化信息管理工具處理這些信息,從中挖掘出一些規律和方法,為決策者提供有力的支持,讓這些長期積累下來的信息變成知識,這些將是研究解決的關鍵問題。對學生信息數據庫中的一系列數據挖掘操作必將對教師的教學環節提出有針對性的建議和意見,對學校的學生管理工作提供更多有用的知識,以使學校的學生管理工作有的放矢,從而幫助學校決策或調整策略。
各學校也在不斷改進教學管理體制如學分制、學年學分制、完全學分制等等,同時不斷更新培養方案、調整課程設置努力做到因材施教,努力使學生在校期間受到良好的教育。所有這些政策的出臺都要以事實和數據為依據。而這些依據是在普通的教務管理系統所無法實現的,本文以高校教學管理為例,結合高校管理的具體要求,提出將數據挖掘技術應用到高校管理中的設想。通過對數據挖掘的關鍵技術的研究,尋找并設計合適的數據挖掘算法,在教學過程中通過對在校學生相關課程成績的數據挖掘,對課程的設置做適當的調整,不斷激發學生的學習興趣,凝練具有學校自身特點的教學管理模式和方法。
到目前為止,相關學者已經提出了:①利用OLAP 分析和數據挖掘進行知識發現。②決策樹算法在高校教學管理的應用研究。③分類規則在高校管理決策中的應用研究。④傳統關聯規則在高校教學管理中的應用研究。⑤聚類規則挖掘高校教學質量中的應用研究。
聚類:與分類分析不同,聚類分析輸入的是一組未分類記錄,并且這些記錄應分成幾類事先也不知道。聚類分析就是通過分析數據庫中的記錄數據,根據一定的分類規則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規則是由聚類分析工具決定的。聚類分析的方法很多,其中包括系統聚類法、分解法、加入法、動態聚類法、模糊聚類法、運籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結果。
Apriori 是關聯規則中最經典的布爾關聯挖掘算法,為了使提出的挖掘算法不失一般性,選擇Apriori 作為混合關聯挖掘中關聯規則部分的基本算法。Apriori 性質為:“頻繁項集的所有非空子集都必須也是頻繁的”。該性質屬于一種特殊的分類,稱作反單調,意指如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。Apriori 算法的執行過程分為兩個步驟:首先是連接步,即為了尋找Lk,通過Lk-1與自己連接產生候選k-項集的集合,記為Ck;其次是剪枝步,即由于Ck是Lk的超集,掃描數據庫,確定Ck中每個候選的計數,刪除不滿足計數要求的項集,從而確定Lk。
對于數據問題,目前采用高校的實際信息,確保數據真實可靠,有進一步研究的價值。對于數據挖掘技術的特點與高校學生成績信息相結合,建立了適用于高校管理的數據挖掘模型。目前采用Fayyad 過程模型,它偏向于技術方面。根據Fayyad 的數據挖掘過程模型,數據挖掘可以理解為一個循環迭代過程,該模型從數據入手,到知識結束。對于算法,目前采用關聯規則挖掘,用Apriori 算法來實現。對離散數據采用泛化,以保證系統對挖掘的精度,分析大學階段各科目學習成績之間的關聯關系。
3.1 數據準備 數據挖掘進行之前對數據進行選擇的必要性,數據選擇和預處理的步驟、方法。數據選擇操作一般包括3 步:數據源中數據表的選擇、數據表中的各屬性間進行選擇、多個數據表中相同屬性的整理和統一。數據預處理一般包括3 個步驟:①數據清理;②數據集成;③數據規約。
3.2 挖掘系統的設計 包括:系統的設計思想、數據的準備、系統采用的挖掘過程模型以及主要的算法。界面顯示前,必須對最小支持度和最小置信度進行參數設置。不同的最小支持度和最小置信度得到的挖掘結果也不一樣。
3.3 系統結果分析 包括:學生信息管理結果、數據預處理結果、關聯規則挖掘的頻繁項集、關聯規則并對挖掘的結果進行說明與分析,見圖1 和圖2。

圖1 顯示2 頻繁項目

圖2 顯示規則集
規則1 看出:部分課程之間存在緊密的關系,它們相互制約相互影響。一門課程的學習直接影響另一門課程的學習。高等數學成績為優良的學生中,有60%的學生C 語言與數據結構成績也優良,這說明了高等數學成績優良,C 語言與數據結構成績優良的可能性達到60%。
規則2 看出:計算機軟件基礎成績為優良,面向對象程序設計成績為優良的學生中,有60%的學生計算機軟件工程成績也優良。這說明計算機軟件基礎成績為優良,面向對象程序設計成績為優良,計算機軟件工程成績為優良的可能性達到60%。
課程間的先序和后繼關系決定了學生學習效果,好的課程間先后關系能夠讓學生學有動力,學有興趣,事半功倍。不好的課程間先后關系能讓學生不及格率增加,學得費勁,不想學,甚至厭學。
數據庫挖掘技術全面應用于高校教育教學管理中,將高校教學管理信息化提升至更高層次。通過對教學管理數據進行微觀、中觀直至宏觀的統計分析、綜合和推理,發現各類教學活動數據間的關聯性、變化趨勢以及一般性的概括知識,以這些信息再開發所得的知識來指導高校教學管理和決策活動,可以更科學、更合理地進行管理和決策,有利于教學活動有序、正常地進行。
通過本文的研究,從理論和實踐上提供一套有效的方法和工具,為高校全面進行數據倉庫、數據挖掘的研究與開發提供參考。
[1]邵峰晶,于忠清編著.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003,08.
[2]符開耀,朱文湘,朱建軍.關聯規則分析及其在教務管理系統中的應用[J].微計算機信息,2007,28(7):692-695.
[3]查東輝,胡致杰.數據挖掘在高校教務及科研管理中的應用[J].科技管理研究,2009(4):109-110.