陳甲華



摘 要
大學教學信息系統數據中隱藏著大量有潛在價值的信息。利用數據挖掘技術對大學教務系統的海量數據進行分析,發掘出對教學有利的規律和因素,對大學的教學改革和教學研究有著重要的意義。本文提出一種改進的Apriori關聯規則分析算法來提高大學成績分析的效率和規則的可信性;并通過數據挖掘工具IBM SPSS Modeler建立了大學成績關聯規則分析模型;最后,以某大學信管專業2008-2012級全部學生的課程成績數據進行實證研究。
【關鍵詞】數據挖掘 大學成績關聯規則Apriori算法
隨著高校信息化建設的推進,高校的教學信息系統數據存儲量日益增大。用戶通常只是在信息系統上進行錄入、匯總、查詢等一些簡單的業務處理,大多沒有意識到海量數據背后的價值,也沒有充分發掘海量教務數據中蘊含的大量潛在的有用規律為教學決策提供依據。本文運用數據挖掘技術,對大學成績數據進行挖掘,分析大學成績之間的關聯規則,對教學決策和教學安排提供有效的理論支持。
1 基于改進Apriori算法的大學成績分析模型
1.1 Apriori算法在大學成績分析中的局限性
Apriori算法是一種經典的布爾型關聯規則算法。該算法通過多次逐層搜索數據庫中數據集,利用頻繁項集的先驗知識對候選集進行剪枝,并對產生頻繁項集進行多次迭代,直到數據集中沒有頻繁集的方法。Apriori算法比較復雜且有一定局限性,主要體現在以下幾個方面:
(1)降低支持度閾值通常將會導致更多的項集是頻繁的,這給算法的計算復雜度帶來很不利影響。因為必須產生更多候選項集并對其計數,同時頻繁項集最大長度增加,算法需要掃描次數也將增多。
(2)Apriori算法計算項集的支持度需要反復掃描數據集,所以隨著事務數增加,它的運行時間增加。
(3)隨著項數的增加,需要更多的空間來存儲項的支持度計數。如果頻繁集的數目更多,產生候選集更多,增加計算量和I/O開銷。
(4)候選剪枝方法增加計算量。
(5)在現實中數據挖掘中,置信度并不一定能體現規則的可信度,即置信度的高低不代表規則的可信賴的高低,因為它忽略了規則后件中項集的支持度。
1.2 改進的Apriori算法
基于Apriori算法的局限性,結合大學成績分析的要求本文做了兩個改進:
1.2.1 新的剪枝方法
采用一種新的方法改進候選產生與剪枝,減少計算量和重復掃描數據庫的次數。在apriori_gen函數中候選項集的產生過程中合并一對頻繁(k-1)-項集(僅當它們的前k-2個項相同)。在候選項集的剪枝時運用頻繁集的先驗原理,確保它的子集都是頻繁集,否則立即剪枝。
1.2.2 以提升率代替置信度
基于上述置信度的局限性,本文中運用用提升率來代替置信度以確保規則的可信度。提升率是規則的置信度和規則后件中項集的支持度之間的比率,計算公式如下:
當Lift(X→Y)>1時,表示X對Y有誘導作用,即X與Y正相關,提升率越高正相關程度就越大;
當Lift(X→Y)=1時,表示X與Y相互獨立,沒有相關性;
當Lift(X→Y)<1時,表示X對Y有抑制作用,即X與Y負相關,提升率越高負相關程度就越大。
1.3 基于改進Apriori算法的大學成績分析模型的構建
采用改進后的Apriori算法,在 Modeler中建立大學成績關聯規則分析模型。模型的建立流程如圖1所示。
“數據”節點:基于數據導出的格式,本文選用.xls。
“類型”節點:讀取數據的類型,設置數據的輸入和輸出方向。
“填充”節點:對于數據的缺失值,根據數據的格式,進行數據填充,可以是0或NULL。
“過濾”節點:過濾與分析對象不一致的字段。
“Apriori”節點:是分析算法模型,可以直接設置最小支持度和最小置信度。
2 實證研究
2.1 數據的來源
本文大學生成績數據來源于某大學教務信息系統。通過SQL連接查詢,得到“學期”、“班級名稱”、“學號”、“課程名稱”、“課程性質”、“課程平臺名稱”、“考試方式”、“總評成績”10個字段的2008-2012級信管專業所有學生的15684條記錄,導出到Excel。
2.2 數據預處理
2.2.1 數據清洗
首先,運用Excel自動篩選,將“課程性質”為“素質課”的記錄全部刪除;然后,對全部記錄進行排序:主要關鍵字“學號”,第二關鍵字“課程名稱”,第三關鍵字“總評成績”;再后,根據“學期”,“總評成績”保留首考成績。
2.2.2 數據離散化
初步清洗過的數據是考試課100制數值型、CET考試710分制數值型、考查課{“優秀”,“良好”,“中等”,“及格”,“不及格”}離散型。運用下述規則將數據進行離散化:
(1)課程性質:“必修課”→1、“選修課”→2;
(2)考試方式:“考試”→1、“考查”→2;
(3)考試課成績:[90,100]→5、[80,90)→4、[70,80)→3、[60,70)→2、[0,60)→1;
(4)考查課成績:“優秀”→5、“良好”→4、“中等”→3、“及格”→2、“不及格”→1;
(5)CET成績:[0,425)→1、[425,500)→2、[500,750]→3.
經過處理后得到離散化的學生成績信息表,如表1所示。
2.2.3 數據布爾化
在Modeler中建立布爾化操作流,運行操作流,將學生成績信息布爾化數據導出為.xls文件。
2.3 建立挖掘模型
根據上述流程,根據具體的大學成績分析要求,在Modeler中建立數據分析流模型,如圖2所示。
設置相關參數,運行模型,即得出分析結果。如對專業課程成績之間的關聯分析,設置參數最小支持度為0.38,最小置信度為0.5,提升度為1,規則數為30。運行模型,就會得到各門專業課程間的關聯的分析數據,如表3所示。
4 結論分析
本文針對某大學信管專業學生成績作了6組關聯規則度的分析,即考核方式與課程成績的關聯分析、課程性質方式與課程成績的關聯分析、全部課程分析關聯、公共基礎課程的關聯分析、基礎專業課程的關聯分析、專業課程的關聯分析。通過上述方法建立并運行分析模型得到以下分析結論:
(1)考核方式、課程性質對成績沒有顯著影響;
(2)課程之間關聯規則
①毛澤東思想→馬克思主義哲學原理;
②統計學→宏觀經濟學;
③大學計算機→軟件工程→畢業實習;
④大學計算機→軟件工程→信息系統開發環境與工具→Web程序開發→管理信息系統→電子商務專業英語→畢業實習→畢業論文;
⑤管理學基礎→市場營銷學→電子商務;
⑥大學英語均值→CET-4;
⑦大學英語均值→電子商務專業英語;
⑧向對象程序設計→ASP程序設計;
⑨操作系統→操作系統課程設計→軟件工程;
⑩面向對象的程序設計→軟件工程。
4 結束語
本文改進了Apriori分析模型來提升大學成績分析的運算效率和過濾高置信度卻虛假的規則,并運用數據挖掘工具IBM SPSS Modeler 建立了大學成績關聯規則分析模型。本研究對大學的教學部門深度挖掘大學成績背后隱含的信息,對于教學安排、教學決策和教學改革具有較強的指導意義。
參考文獻
[1]樊同科,孫姜燕.基于數據挖掘的高校學生學習成績分析應用研究[J].計算機與現代化,2013(03):82-84.
[2]Chin-Ag Wu,Wen-Yang Lin,Chang-Long Gangli-a et al.Toward intelligent data warehouse min-ing:An ontology-integrated approach for culti-dimensional association mining[J].Expert Systems with Application,2011,38(09):11011-11023.
[3]Med hat H A Awadalla1,A.S.G.E.,Aggregate Func-tion Based Enhanced Apriori Algorithm for Mining Association Rules.IJCSI,2012,9(03).
[4]馬占欣,王新社,黃維通,等.對最小置信度門限的置疑[J].計算機科學,2007(06):216-218.
[5]劉以安,羊斌.關聯規則挖掘中對Apriori算法的一種改進研究[J].計算機應用,2007(02):418-420.
[6]劉華婷,郭仁祥,姜浩.關聯規則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009(01):146-149.