李佐軍
(臨滄師范高等專科學校信息科學與技術系,云南臨滄 677000)
基于關聯規則興趣度的課程設置研究
李佐軍
(臨滄師范高等專科學校信息科學與技術系,云南臨滄 677000)
介紹數據挖掘和關聯規則的概念,引入一個關聯規則新的度量值——興趣度,并使用Visual FoxPro開發了一個關聯規則挖掘系統。在設定最小支持度、最小置信度和興趣度的條件下,使用挖掘系統對計算機專業學生的專業課成績進行關聯分析,通過分析找出它們間的內在聯系,為課程設置提供依據。
關聯規則;興趣度;課程設置
隨著我國高校辦學規模的擴大和競爭的加劇,學校如何實現“全面貫徹黨的教育方針,堅持教育為社會主義現代化建設服務、為人民服務,把立德樹人作為教育的根本任務,培養德智體美全面發展的社會主義建設者和接班人”〔1〕的目標,關鍵是看專業培養目標,而專業培養目標主要體現在課程設置上。本文以計算機專業的課程設置為案例,使用關聯規則挖掘技術分析各課程間關系,確保課程設置合理,更好的為培養目標服務。
1.1數據挖掘數據挖掘(Data Mining,DM),是從海量的歷史數據中獲取未知的,但又有利用價值的信息和知識的過程,是數據庫技術、概率與數理統計、人工智能等多門學科綜合而成的交叉學科〔2〕。從圖1可看出,預處理、挖掘和評估表示組成了數據挖掘過程,也構成了知識發現的過程〔3〕。

圖1 數據挖掘步驟
按照不同挖掘角度來劃分,數據挖掘主要方法包括關聯規則、估計、預測、聚類、描述和可視化、分類、復雜數據類型挖掘(如Text、Web、圖形圖像、視頻音頻等)等〔4〕。
1.2關聯規則
1.2.1 關聯規則的定義 關聯規則是由R.A.Grawal等人在1993年的SIGMOD會議上提出來的,將關聯規則描述為:設I={i1,i2,…,in}是項目集,D是事務集,T是I上子集,TíI,TID標識單個事務,則關聯規則就是形如(X?Y)的蘊含式,其中X∈I,Y∈I且,X叫做規則的條件,Y叫做規則的結果,表示為(X?Y)〔5〕。
1.2.2 關聯規則的閾值 為了提高關聯規則挖掘的準確率,引入了支持度(記為S)和置信度(記為C)兩個參數,它們的計算式分別表示為(1)和(2)式。

其中D表示事務數據庫,N表示事務數據庫D中各項事務數的總和,Count(X)表示事務X在事務數據庫D中的出現次數,Count(X∪Y)表示事務X與Y在事務數據庫D中同時出現的次數。支持度S反映出了事務X在事務數據庫D中出現的頻率,置信度C反映出了事務X出現時事務Y中出現的頻率。
在關聯規則(X?Y)中,發現有用關聯規則所必須滿足的最小支持閾值叫做最小支持度,表示為Min-S;同樣地,所必須滿足的最小可信度值稱為最小置信度,表示為Min-C。所以支持度用來衡量關聯規則在整個數據集中的重要性,置信度則用來表示關聯規則的可信程度。
1.3 Apriori算法
1.3.1 Apriori算法基本思想 Apriori算法是關聯規則的最經典算法,是最有影響力的布爾型關聯規則挖掘頻繁項集的算法之一,是使用逐層搜索迭代算法由k項集探索生成(k+1)項集的過程〔6〕。Apriori算法的程序流程如圖2所示。
1.3.2 Apriori算法描述 由Apriori算法思想知道,Apriori算法是使用逐層搜索迭代方法在候選項集基礎上找出頻繁各項集的過程,其算法偽代碼如圖3所示。
2.1興趣度的提出背景在關聯規則挖掘中,只使用支持度S和置信度C兩個基本參數是不能完全衡量規則的價值的,會導致滿足最小支持度和最小置信度的部分強關聯規則無使用價值;當最小支持度閾值和最小置信度閾值太小時,會產生相互矛盾的規則;當太大時,則將會遺漏有意義的規則〔7〕。所以,人們提出了關聯規則新的度量值——興趣度,來彌補支持度與置信度的不足,提高關聯規則挖掘的“抗干擾”能力。

圖2 Apriori算法流程圖

圖3 Apriori算法偽代碼
2.2興趣度設計目前,關于興趣度模型主要有概率興趣度模型、Symth函數興趣度模型、Gini指標興趣度模型、Piantesky-Shapiro興趣度模型、基于差異思想的興趣度模型等〔8〕。將應用一種由文獻〔9〕提出的興趣度模型,其定義如下:
設I={i1,i2,…,in}是項目集,D是事務數據庫,關聯規則(X?Y)的興趣度模型如(3)式所示。

其中,P(Y)=Count(Y)∕N,P(Y|X)=Count(X∪Y)∕Count(X),N表示事務數據庫D中各事務數的總和,所以(3)式變為(4)式。

對于興趣度值I(X?Y)來說,其值越大挖掘出的關聯規則越有趣,參考價值也越高。
3.1數據準備數據挖掘采用的原數據是我校計算機專業學生專業課成績,其結構如表1所示。

表1 學生專業課成績表
3.2數據預處理采集的原始數據可能存在缺失、不合法等問題,不能直接作為數據挖掘的對象,必須對其進行預處理。對于成績數據的預處理主要包括數據合法性判斷、缺失數據處理、進一步離散化處理等操作。
對于合法性判斷,學生成績數據一般是0至100之間的數值數據,若不是則標記為缺失數據。對于缺失數據處理,采用平均值填充的方法處理。對于進一步離散化處理,以每個科目的平均分作為界點將學生成績分為“優良”與“一般”兩類,當成績在此門課成績平均值之上(含等于)的學生成績標記為“優良”,反之則標記為“一般”。預處理后的學生專業課成績如表2所示。

表2 學生專業課成績離散化結果
3.3關聯規則挖掘數據挖掘工具是采用以Visual FoxPro作為平臺而開發的成績分析系統,其主要包括系統管理、算法驗證、數據預處理、數據離散化、關聯挖掘、數據查看等功能模塊。在關聯規則挖掘時,設定最小支持度、置信度和興趣度閾值后,顯示滿足閾值的規則,其結果如圖4所示。

圖4 關聯挖掘結果
3.4關聯規則挖掘結果分析
3.4.1 閾值選取 研究關聯規則挖掘涉及支持度、置信度、興趣度3個閾值參數,支持度是衡量規則的重要性,置信度是衡量規則的可信程度,用來彌補支持度和置信度不足的興趣度是衡量用戶對規則感興趣程度的。當閾值設置得過低時,挖掘出來的規則越多,但是規則的有用程度就越低;反之,挖掘出來的規則就越少,但是卻會失去比較有用的規則;所以設置適合閾值是非常重要的〔10〕。因此,在實驗時多次輸入閾值進行測試對比后發現當支持度、置信度和興趣度閾值分別為10%、50%和2時顯示規則效果最好,顯示的科目信息比較完整,能反映出各專業成績間的關系,具體測試閾值如表3所示。
3.4.2 結果分析 當最小支持度、置信度和興趣度閾值分別為10%、50%和2時,其關聯挖掘結果如圖4所示。做進一步分析,可得如下結論。
第一,從規則1-10看出,數學基礎、電路技術對計算機專業課程的學習很重要,如操作系統、C語言程序設計、數據結構、數據庫技術等。所以在課程設置時將數學基礎、電路技術作為其它專業基礎課程的先行課安排在第一學期,或第一學期的前半學期,并適當增加數學基礎、電路技術的課時。

表3 閾值對規則顯示的影響比較
第二,從規則11-15看出,計算機導論作為第一門專業課,對操作系統、C語言程序設計、數據結構、數據庫技術、動畫設計等專業課學習影響很大。所以應適當增加計算機導論課時,任課教師也要正確引導學生學習計算機專業知識,提高學生學習興趣。
第三,從規則16-24看出,操作系統、C語言程序設計、數據結構3門課程對其他專業課的學習影響比較大。所以在課程設置時應適當增加此3門課程的課時,任課教師也要強化這3門課程教學。
第四,從規則25-30看出,各專業課間也相互影響,所以在設置時應該充分考慮各門專業課間的關系,使其相互滲透、相互促進。
由以上分析可總結:在進行計算機專業課程設置時,首先將數學基礎、電路技術、計算機導論作為專業課程體系第一階段開設,其次操作系統、C語言程序設計、數據結構作為專業課程體系第二階段開設,最后將數據庫技術、網頁制作等應用型專業課作為專業課程體系第三階段開設。通過規則的分析就可以得出計算機專業所開設課程的相關性,可以知道哪些課程應該先學,哪些課程應該后學,要學好后續的課程必須把相關的先行課程學好,這就為教育管理工作者進行指定教學計劃和教學方案提供了決策支持,也為學生選課和獲取某門課程好成績提供了方向性的指導意見〔11〕。
文章對關聯規則挖掘技術在課程設置中的應用進行研究探索,并在分析中引入興趣度閾值,大大提高了挖掘規則使用價值。文中以關聯規則挖掘算法進行了挖掘,找出一些客觀反映課程間關系的規則,并根據挖掘結果提出一些有益于課程設置的建議,為專業負責人進行課程設置提供新的依據。
〔1〕楊榮彬,李汝恒,胡永茂,等.論地方高校建筑學基礎教育課程的教學設計〔J〕.大理學院學報,2013,12(10):81-85.
〔2〕陳京民.數據倉庫原理、設計與應用〔M〕.北京:中國水利水電出版社,2004.
〔3〕李佐軍.關聯規則算法在招生中的應用研究〔J〕.普洱學院學報,2010,26(3):46-50.
〔4〕詹柳春.數據挖掘技術在高校招生錄取數據中的應用研究〔D〕.武漢:華南理工大學,2012.
〔5〕石偉勝,陳濤.關聯規則理論研究及其在教學中應用〔J〕.電腦知識與技術,2006(26):162.
〔6〕HAN J W,KAMBER Micheline.數據挖掘概念及技術〔M〕.范明,孟小峰,譯.北京:機械工業出版,2008:147-154.
〔7〕董輝.基于興趣度的高職課程關聯規則挖掘〔J〕.吉首大學學報:自然科學版,2012,33(3):41-46.
〔8〕吳杰.基于興趣度的關聯規則挖掘〔D〕.長春:哈爾濱工業大學,2009.
〔9〕李永立,吳沖,王崑聲.一種新的關聯規則興趣度度量方法〔J〕.情報科學,2011,30(5):503-507.
〔10〕劉獨玉.關聯規則挖掘算法研究〔D〕.成都:電子科技大學,2007.
〔11〕黃秋勇.基于關聯規則挖掘的課程設置合理性分析〔J〕.電腦學習,2010(5):57-59.
〔12〕邵峰晶,于忠清.數據挖掘原理與算法〔M〕.北京:中國水利水電出版杜,2003.
(責任編輯 袁 霞)
A Study of Curriculum Setting Based on Association Rule Interestingness
LI Zuojun
(Department of Information Science&Technology,Lincang Teachers'College,Lincang,Yunnan 677000,China)
This paper mainly gives a general introduction to data mining,concept and algorithm of association rule and also introduces a new concept——association rule interestingness.Under the condition of defaulting minimum support,minimum confidence and interestingness,the author developed the software of association rule mining by using Visual FoxPro to make an analysis of computer majors'grades of their specialized courses with the hope that the relationship between the specialized courses could be found out,which can provide a scientific basis for curriculum setting.
association rule;interestingness;curriculum setting
TP311.1
A
1672-2345(2014)06-0020-04
10.3969∕j.issn.1672-2345.2014.06.006
臨滄師范高等專科學校2011年度自然科學、基礎應用研究基金資助項目(LCSZL2010009)
2013-12-02
2014-02-21
李佐軍,講師,主要從事數據挖掘技術和教學管理研究.