朱艷鵬,王曉權(quán)
(合肥工業(yè)大學(xué)(宣城校區(qū))商學(xué)系,安徽 宣城 242000)
云時(shí)代來臨,大數(shù)據(jù)也引起了越來越多的關(guān)注。大數(shù)據(jù)具有Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)的特征,如何從這些海量的數(shù)據(jù)中挖掘出有用的信息以指導(dǎo)決策顯得至關(guān)重要。目前,我國各高校普遍采用教務(wù)管理系統(tǒng)對學(xué)生成績等信息進(jìn)行管理。對于動輒上萬人的高等院校來說,隨著時(shí)間的積累,教務(wù)管理系統(tǒng)中必然存在著大量的數(shù)據(jù),遺憾的是,這些數(shù)據(jù)目前只是一條條被擱置的記錄,鮮少有人問津,更何談從中發(fā)現(xiàn)規(guī)律并應(yīng)用到教學(xué)實(shí)踐中去。我們知道,大學(xué)基礎(chǔ)課程的學(xué)習(xí)對于后續(xù)專業(yè)課程的學(xué)習(xí)有影響,但這種影響是確實(shí)存在,還是無端臆測,需要科學(xué)的理論予以支撐,需要嚴(yán)謹(jǐn)?shù)姆椒ㄓ枰詸z驗(yàn)。本文將關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的算法Apriori進(jìn)行改進(jìn),并應(yīng)用到高校學(xué)生成績管理中,以發(fā)現(xiàn)某些學(xué)科間的關(guān)聯(lián)關(guān)系,旨在為高校廣大師生及教學(xué)科目的設(shè)置和教學(xué)計(jì)劃的制訂提供參考。
信息時(shí)代,數(shù)據(jù)無處不在,數(shù)據(jù)挖掘作為一種數(shù)據(jù)處理的手段,也在飛速地發(fā)展。數(shù)據(jù)挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但有時(shí)潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的產(chǎn)生可以追溯到20世紀(jì)80年代末,它是多學(xué)科交叉的產(chǎn)物,早期的理論基礎(chǔ)主要源于統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫系統(tǒng)。經(jīng)過近20年的發(fā)展,已逐步形成一套獨(dú)有的理論和方法,包括聚類、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)之一,其概念由Agrawal、Imielinski、Swami提出。關(guān)聯(lián)規(guī)則的典型問題是對超市中的購物籃進(jìn)行分析,即通過分析顧客購物籃中的商品組合,發(fā)現(xiàn)商品間的關(guān)聯(lián)關(guān)系,沃爾瑪超市“啤酒+尿布”的故事,可以說是對關(guān)聯(lián)規(guī)則最成功的運(yùn)用。
關(guān)聯(lián)規(guī)則挖掘算法有很多,大致可以分為3類:①Apriori算法;②頻繁模式增長算法 (FP-growth);③垂直數(shù)據(jù)格式(ECLAT)。
(1)Apriori算法是關(guān)聯(lián)規(guī)則挖掘中的典型算法,其思想簡明、實(shí)現(xiàn)方便,由Agrawal和Srikant于1994年提出,它利用先驗(yàn)性質(zhì)(頻繁項(xiàng)集的所有非空子集也一定是頻繁的),采用逐層迭代的方法進(jìn)行挖掘。該算法對數(shù)據(jù)集進(jìn)行多次遍歷,其中k項(xiàng)集用于搜索(k+1)項(xiàng)集,直至不能發(fā)現(xiàn)新的頻繁項(xiàng)集。
(2)FP-growth由Han提出,它通過構(gòu)造一個(gè)高度壓縮的FP-tree,生產(chǎn)頻繁模式集,而不用生成候選項(xiàng)集,可以說是對Apriori算法最出色的改進(jìn)算法。
(3)ECLAT由Zaki提出,它將Apriori算法中所使用的水平數(shù)據(jù)格式變換成可對TID集合進(jìn)行求交集運(yùn)算的垂直數(shù)據(jù)格式。
關(guān)聯(lián)規(guī)則是在數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系,也被稱為購物籃分析(Market Basket Analysis)。 其定義為:假設(shè) I={i1,i2,…,im}表示一個(gè)項(xiàng)集,D表示事務(wù)集,其中每一個(gè)事務(wù)t是一個(gè)項(xiàng)集,即t?I。每一個(gè)事物都有唯一表示TID。若X?t,則稱事務(wù)t包括I的一個(gè)子集X。關(guān)聯(lián)規(guī)則是一種蘊(yùn)含形式X?Y,其中X?I、Y?I且 X∩Y=φ。在事務(wù)集 D中,規(guī)則 X?Y的支持度s(support)是 D 中事務(wù)同時(shí)包含 X、Y 的百分比,即:support(X?Y)=P(X∪U);規(guī)則 X?Y 的置信度 c(confidence)是 D 中事務(wù)已經(jīng)包含X的情況下,包含 Y的百分比,即confidence(X?Y)=P(X|U)。關(guān)聯(lián)規(guī)則的任務(wù)是產(chǎn)生所有不小于用戶給定的最小支持度閾值(minsup)和最小置信度閾值(minconf)的關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘過程大致可以分為兩個(gè)階段:
(1)找出所有的頻繁項(xiàng)集,即找出所有支持度大于最小支持度閾值(minsup)的項(xiàng)集。
(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,即產(chǎn)生支持度和置信度分別大于或等于最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則。
Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的基本算法,它使用支持度—置信度構(gòu)架,但二者不足以過濾掉無趣的規(guī)則,可引入提升度(lift)來過濾掉無趣的關(guān)聯(lián)規(guī)則。
若其值小于1,則X的出現(xiàn)與Y的出現(xiàn)是負(fù)相關(guān)的;若其值大于1,則X和Y是正相關(guān)的;若其值等于1,則X和Y之間沒有相關(guān)性。
在Apriori算法的基礎(chǔ)上,可以引入很多技術(shù)來提高其效率,包括哈希、劃分、采樣等。哈希技術(shù)通過哈希函數(shù)將每個(gè)項(xiàng)集散列到相應(yīng)的桶中;劃分是將一個(gè)大的挖掘問題轉(zhuǎn)化為多個(gè)更小的問題,進(jìn)而對每部分?jǐn)?shù)據(jù)分別進(jìn)行挖掘;采樣簡而言之是指從完整的數(shù)據(jù)集中隨機(jī)挑選數(shù)據(jù)子集進(jìn)行挖掘。
在對數(shù)據(jù)進(jìn)行挖掘前,要對數(shù)據(jù)進(jìn)行預(yù)處理,以使數(shù)據(jù)滿足準(zhǔn)確性、完整性和一致性的要求。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)消減等。在數(shù)據(jù)清理時(shí)若數(shù)據(jù)記錄中存在缺失值,通常采用以下幾種方法進(jìn)行填補(bǔ):①忽略元組;②人工填寫缺失值;③使用一個(gè)全局常量填充缺失值;④使用屬性的中心度量(如均值或中位數(shù))填充缺失值;⑤使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù);⑥使用最有可能的值進(jìn)行填充。
傳統(tǒng)的關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,一般包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、應(yīng)用關(guān)聯(lián)規(guī)則模型挖掘、生成頻繁項(xiàng)集、產(chǎn)生關(guān)聯(lián)規(guī)則、分析并得出結(jié)論。本研究中對生成的關(guān)聯(lián)規(guī)則進(jìn)行模式評估,并在原有的“支持度—置信度”框架之外,加入提升度,通過提升度來過濾掉用戶不感興趣的關(guān)聯(lián)規(guī)則,從而對有意義的規(guī)則進(jìn)行分析。

圖1 改進(jìn)后的關(guān)聯(lián)規(guī)則挖掘流程
本文選擇安徽省某高校商學(xué)系教務(wù)管理系統(tǒng)中學(xué)生成績作為研究對象,時(shí)間跨度為2012年9月-2014年6月。從中選取概率論與數(shù)理統(tǒng)計(jì)、線性代數(shù)、運(yùn)籌學(xué)、統(tǒng)計(jì)學(xué)原理、計(jì)量經(jīng)濟(jì)學(xué)、財(cái)務(wù)管理、投資學(xué)原理等經(jīng)管類核心課程成績,將該系102名學(xué)生上述7門成績作為關(guān)聯(lián)規(guī)則挖掘的原始數(shù)據(jù)信息。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)消減等過程。教務(wù)管理系統(tǒng)中成績數(shù)據(jù)主要問題在于存在缺失值,以及補(bǔ)考成績只記為通過或者不通過,針對上述情況,采用忽略元組的方法進(jìn)行數(shù)據(jù)預(yù)處理。
同時(shí)出于方便數(shù)據(jù)挖掘之目的,對學(xué)生成績和課程名稱進(jìn)行轉(zhuǎn)換,課程名稱由中文名稱轉(zhuǎn)換為英文替換代碼(如運(yùn)籌學(xué)轉(zhuǎn)化為Course3),學(xué)生成績由百分制轉(zhuǎn)換為等級制,[100,90]轉(zhuǎn)化為 A,[90,80]轉(zhuǎn)化為 B,以此類推,60 分以下記為 E。 特別地,補(bǔ)考通過記為D,補(bǔ)考未通過記為E。
依據(jù)改進(jìn)后的數(shù)據(jù)挖掘流程,對經(jīng)過預(yù)處理的數(shù)據(jù)應(yīng)用Apriori算法生成侯選集,然后基于侯選集,根據(jù)給定的最小支持度判斷并確定頻繁項(xiàng)集。同時(shí)從頻繁項(xiàng)集產(chǎn)生簡單關(guān)聯(lián)規(guī)則,然后根據(jù)指定的最小置信度閾值選出強(qiáng)關(guān)聯(lián)規(guī)則,對這些關(guān)聯(lián)規(guī)則只選取提升度大于1的規(guī)則,進(jìn)而對過濾出的規(guī)則進(jìn)行分析。本文中最小支持度為0.1,最小置信度定為0.8。
本例中,所得結(jié)果見表1。

表1 生成關(guān)聯(lián)規(guī)則表
依據(jù)數(shù)據(jù)挖掘產(chǎn)生的結(jié)果,結(jié)合選定各門課程的性質(zhì)進(jìn)行分析,可以得到如下結(jié)論:
(1)數(shù)學(xué)基礎(chǔ)課程成績關(guān)聯(lián)密切,可以根據(jù)規(guī)則8看出,“概率論與數(shù)理統(tǒng)計(jì)”成績?yōu)椤皟?yōu)”與“線性代數(shù)”成績?yōu)椤皟?yōu)”關(guān)系支持度和置信度高,且提升度也較高,因此根據(jù)數(shù)據(jù)挖掘結(jié)果可以得出數(shù)學(xué)基礎(chǔ)課程關(guān)聯(lián)較為緊密。
(2)數(shù)學(xué)基礎(chǔ)課程成績優(yōu)異是統(tǒng)計(jì)學(xué)和投資學(xué)成績優(yōu)異的基礎(chǔ)。根據(jù)規(guī)則2、規(guī)則5可以得出,對于統(tǒng)計(jì)學(xué)、投資學(xué)這兩門需要較多數(shù)學(xué)運(yùn)算的學(xué)科,數(shù)學(xué)基礎(chǔ)課程的學(xué)習(xí)和運(yùn)算能力對學(xué)習(xí)這兩門專業(yè)課產(chǎn)生重要影響。
(3)運(yùn)籌學(xué)和財(cái)務(wù)管理這兩門管理類學(xué)科需要較好的數(shù)學(xué)基礎(chǔ)。從規(guī)則4中,可以看出基礎(chǔ)課程較好的學(xué)生在這兩門課中表現(xiàn)優(yōu)異,反之亦然。
(1)從學(xué)生角度,商學(xué)系學(xué)生如果希望能夠在專業(yè)課程中有較為出色的表現(xiàn),必須掌握數(shù)學(xué)基礎(chǔ)課程,夯實(shí)數(shù)學(xué)基礎(chǔ),進(jìn)而具備在專業(yè)課表現(xiàn)優(yōu)秀乃至繼續(xù)深造的可能性。
(2)從教師角度,數(shù)學(xué)基礎(chǔ)教師應(yīng)該在嚴(yán)格要求學(xué)生學(xué)好基礎(chǔ)課程的同時(shí),將專業(yè)課中案例等與基礎(chǔ)課程相結(jié)合,使其認(rèn)識到基礎(chǔ)課程的重要性并感受到基礎(chǔ)課程的魅力。而專業(yè)課老師則應(yīng)該在教學(xué)過程中適當(dāng)補(bǔ)充相應(yīng)的數(shù)學(xué)基礎(chǔ)知識,而不是默認(rèn)學(xué)生們都已學(xué)過相關(guān)課程而不再講解。
(3)從教務(wù)管理部門角度,教務(wù)管理部門應(yīng)該合理控制、安排基礎(chǔ)課程和專業(yè)課程的開課順序、間隔時(shí)間等,同時(shí)不能夠一味壓縮專業(yè)課程或基礎(chǔ)課程的課時(shí)量,致使課堂教學(xué)學(xué)時(shí)不足、學(xué)生掌握知識深度不夠,給后續(xù)學(xué)習(xí)造成不便。
本文由當(dāng)前高校教務(wù)管理中廣泛遇到的數(shù)據(jù)得不到有效利用,無法為師生、教學(xué)管理服務(wù)的問題出發(fā),建立關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘流程,對選定的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并對結(jié)果進(jìn)行分析及提出相應(yīng)的對策。
本文主要完善了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘流程,特別是將提升度加入模式識別,使其區(qū)別于以往Apriori算法中 “支持度—置信度”的框架,剔除無趣的關(guān)聯(lián)規(guī)則,使結(jié)果更為可靠。最后根據(jù)挖掘結(jié)果從不同角度提出相應(yīng)的建議和對策。
[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques[M].北京: 機(jī)械工業(yè)出版社,2012:157-183.
[2]Xindong Wu, Vipin Kumar.The Top Ten Algorithms in Data Mining[M].北京:清華大學(xué)出版社,2013:56-72.
[3]Efraim Turban Ramesh Sharda Dursun Delen.Business Intelligence -A managetical approach[M].北京:機(jī)械工業(yè)出版社,2012:128-130.
[4]姜晚云.關(guān)聯(lián)規(guī)則在成績分析中應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2006.