999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Apriori 算法的數(shù)據(jù)關(guān)聯(lián)規(guī)則在教務(wù)管理中研究

2015-08-16 12:23:50朱艷鵬王曉權(quán)
中國管理信息化 2015年17期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

朱艷鵬,王曉權(quán)

(合肥工業(yè)大學(xué)(宣城校區(qū))商學(xué)系,安徽 宣城 242000)

0 引言

云時(shí)代來臨,大數(shù)據(jù)也引起了越來越多的關(guān)注。大數(shù)據(jù)具有Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)的特征,如何從這些海量的數(shù)據(jù)中挖掘出有用的信息以指導(dǎo)決策顯得至關(guān)重要。目前,我國各高校普遍采用教務(wù)管理系統(tǒng)對學(xué)生成績等信息進(jìn)行管理。對于動輒上萬人的高等院校來說,隨著時(shí)間的積累,教務(wù)管理系統(tǒng)中必然存在著大量的數(shù)據(jù),遺憾的是,這些數(shù)據(jù)目前只是一條條被擱置的記錄,鮮少有人問津,更何談從中發(fā)現(xiàn)規(guī)律并應(yīng)用到教學(xué)實(shí)踐中去。我們知道,大學(xué)基礎(chǔ)課程的學(xué)習(xí)對于后續(xù)專業(yè)課程的學(xué)習(xí)有影響,但這種影響是確實(shí)存在,還是無端臆測,需要科學(xué)的理論予以支撐,需要嚴(yán)謹(jǐn)?shù)姆椒ㄓ枰詸z驗(yàn)。本文將關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的算法Apriori進(jìn)行改進(jìn),并應(yīng)用到高校學(xué)生成績管理中,以發(fā)現(xiàn)某些學(xué)科間的關(guān)聯(lián)關(guān)系,旨在為高校廣大師生及教學(xué)科目的設(shè)置和教學(xué)計(jì)劃的制訂提供參考。

1 理論綜述

信息時(shí)代,數(shù)據(jù)無處不在,數(shù)據(jù)挖掘作為一種數(shù)據(jù)處理的手段,也在飛速地發(fā)展。數(shù)據(jù)挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但有時(shí)潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的產(chǎn)生可以追溯到20世紀(jì)80年代末,它是多學(xué)科交叉的產(chǎn)物,早期的理論基礎(chǔ)主要源于統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫系統(tǒng)。經(jīng)過近20年的發(fā)展,已逐步形成一套獨(dú)有的理論和方法,包括聚類、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等。

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)之一,其概念由Agrawal、Imielinski、Swami提出。關(guān)聯(lián)規(guī)則的典型問題是對超市中的購物籃進(jìn)行分析,即通過分析顧客購物籃中的商品組合,發(fā)現(xiàn)商品間的關(guān)聯(lián)關(guān)系,沃爾瑪超市“啤酒+尿布”的故事,可以說是對關(guān)聯(lián)規(guī)則最成功的運(yùn)用。

關(guān)聯(lián)規(guī)則挖掘算法有很多,大致可以分為3類:①Apriori算法;②頻繁模式增長算法 (FP-growth);③垂直數(shù)據(jù)格式(ECLAT)。

(1)Apriori算法是關(guān)聯(lián)規(guī)則挖掘中的典型算法,其思想簡明、實(shí)現(xiàn)方便,由Agrawal和Srikant于1994年提出,它利用先驗(yàn)性質(zhì)(頻繁項(xiàng)集的所有非空子集也一定是頻繁的),采用逐層迭代的方法進(jìn)行挖掘。該算法對數(shù)據(jù)集進(jìn)行多次遍歷,其中k項(xiàng)集用于搜索(k+1)項(xiàng)集,直至不能發(fā)現(xiàn)新的頻繁項(xiàng)集。

(2)FP-growth由Han提出,它通過構(gòu)造一個(gè)高度壓縮的FP-tree,生產(chǎn)頻繁模式集,而不用生成候選項(xiàng)集,可以說是對Apriori算法最出色的改進(jìn)算法。

(3)ECLAT由Zaki提出,它將Apriori算法中所使用的水平數(shù)據(jù)格式變換成可對TID集合進(jìn)行求交集運(yùn)算的垂直數(shù)據(jù)格式。

2 理論基礎(chǔ)

2.1 關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則是在數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系,也被稱為購物籃分析(Market Basket Analysis)。 其定義為:假設(shè) I={i1,i2,…,im}表示一個(gè)項(xiàng)集,D表示事務(wù)集,其中每一個(gè)事務(wù)t是一個(gè)項(xiàng)集,即t?I。每一個(gè)事物都有唯一表示TID。若X?t,則稱事務(wù)t包括I的一個(gè)子集X。關(guān)聯(lián)規(guī)則是一種蘊(yùn)含形式X?Y,其中X?I、Y?I且 X∩Y=φ。在事務(wù)集 D中,規(guī)則 X?Y的支持度s(support)是 D 中事務(wù)同時(shí)包含 X、Y 的百分比,即:support(X?Y)=P(X∪U);規(guī)則 X?Y 的置信度 c(confidence)是 D 中事務(wù)已經(jīng)包含X的情況下,包含 Y的百分比,即confidence(X?Y)=P(X|U)。關(guān)聯(lián)規(guī)則的任務(wù)是產(chǎn)生所有不小于用戶給定的最小支持度閾值(minsup)和最小置信度閾值(minconf)的關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則挖掘過程大致可以分為兩個(gè)階段:

(1)找出所有的頻繁項(xiàng)集,即找出所有支持度大于最小支持度閾值(minsup)的項(xiàng)集。

(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,即產(chǎn)生支持度和置信度分別大于或等于最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則。

Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的基本算法,它使用支持度—置信度構(gòu)架,但二者不足以過濾掉無趣的規(guī)則,可引入提升度(lift)來過濾掉無趣的關(guān)聯(lián)規(guī)則。

若其值小于1,則X的出現(xiàn)與Y的出現(xiàn)是負(fù)相關(guān)的;若其值大于1,則X和Y是正相關(guān)的;若其值等于1,則X和Y之間沒有相關(guān)性。

在Apriori算法的基礎(chǔ)上,可以引入很多技術(shù)來提高其效率,包括哈希、劃分、采樣等。哈希技術(shù)通過哈希函數(shù)將每個(gè)項(xiàng)集散列到相應(yīng)的桶中;劃分是將一個(gè)大的挖掘問題轉(zhuǎn)化為多個(gè)更小的問題,進(jìn)而對每部分?jǐn)?shù)據(jù)分別進(jìn)行挖掘;采樣簡而言之是指從完整的數(shù)據(jù)集中隨機(jī)挑選數(shù)據(jù)子集進(jìn)行挖掘。

在對數(shù)據(jù)進(jìn)行挖掘前,要對數(shù)據(jù)進(jìn)行預(yù)處理,以使數(shù)據(jù)滿足準(zhǔn)確性、完整性和一致性的要求。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)消減等。在數(shù)據(jù)清理時(shí)若數(shù)據(jù)記錄中存在缺失值,通常采用以下幾種方法進(jìn)行填補(bǔ):①忽略元組;②人工填寫缺失值;③使用一個(gè)全局常量填充缺失值;④使用屬性的中心度量(如均值或中位數(shù))填充缺失值;⑤使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù);⑥使用最有可能的值進(jìn)行填充。

2.2 改進(jìn)后的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘流程

傳統(tǒng)的關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,一般包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、應(yīng)用關(guān)聯(lián)規(guī)則模型挖掘、生成頻繁項(xiàng)集、產(chǎn)生關(guān)聯(lián)規(guī)則、分析并得出結(jié)論。本研究中對生成的關(guān)聯(lián)規(guī)則進(jìn)行模式評估,并在原有的“支持度—置信度”框架之外,加入提升度,通過提升度來過濾掉用戶不感興趣的關(guān)聯(lián)規(guī)則,從而對有意義的規(guī)則進(jìn)行分析。

圖1 改進(jìn)后的關(guān)聯(lián)規(guī)則挖掘流程

3 關(guān)聯(lián)規(guī)則在成績分析中的應(yīng)用

3.1 數(shù)據(jù)準(zhǔn)備

本文選擇安徽省某高校商學(xué)系教務(wù)管理系統(tǒng)中學(xué)生成績作為研究對象,時(shí)間跨度為2012年9月-2014年6月。從中選取概率論與數(shù)理統(tǒng)計(jì)、線性代數(shù)、運(yùn)籌學(xué)、統(tǒng)計(jì)學(xué)原理、計(jì)量經(jīng)濟(jì)學(xué)、財(cái)務(wù)管理、投資學(xué)原理等經(jīng)管類核心課程成績,將該系102名學(xué)生上述7門成績作為關(guān)聯(lián)規(guī)則挖掘的原始數(shù)據(jù)信息。

3.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)消減等過程。教務(wù)管理系統(tǒng)中成績數(shù)據(jù)主要問題在于存在缺失值,以及補(bǔ)考成績只記為通過或者不通過,針對上述情況,采用忽略元組的方法進(jìn)行數(shù)據(jù)預(yù)處理。

同時(shí)出于方便數(shù)據(jù)挖掘之目的,對學(xué)生成績和課程名稱進(jìn)行轉(zhuǎn)換,課程名稱由中文名稱轉(zhuǎn)換為英文替換代碼(如運(yùn)籌學(xué)轉(zhuǎn)化為Course3),學(xué)生成績由百分制轉(zhuǎn)換為等級制,[100,90]轉(zhuǎn)化為 A,[90,80]轉(zhuǎn)化為 B,以此類推,60 分以下記為 E。 特別地,補(bǔ)考通過記為D,補(bǔ)考未通過記為E。

3.3 應(yīng)用Apriori算法及生成關(guān)聯(lián)規(guī)則

依據(jù)改進(jìn)后的數(shù)據(jù)挖掘流程,對經(jīng)過預(yù)處理的數(shù)據(jù)應(yīng)用Apriori算法生成侯選集,然后基于侯選集,根據(jù)給定的最小支持度判斷并確定頻繁項(xiàng)集。同時(shí)從頻繁項(xiàng)集產(chǎn)生簡單關(guān)聯(lián)規(guī)則,然后根據(jù)指定的最小置信度閾值選出強(qiáng)關(guān)聯(lián)規(guī)則,對這些關(guān)聯(lián)規(guī)則只選取提升度大于1的規(guī)則,進(jìn)而對過濾出的規(guī)則進(jìn)行分析。本文中最小支持度為0.1,最小置信度定為0.8。

本例中,所得結(jié)果見表1。

表1 生成關(guān)聯(lián)規(guī)則表

3.4 數(shù)據(jù)挖掘結(jié)果分析

依據(jù)數(shù)據(jù)挖掘產(chǎn)生的結(jié)果,結(jié)合選定各門課程的性質(zhì)進(jìn)行分析,可以得到如下結(jié)論:

(1)數(shù)學(xué)基礎(chǔ)課程成績關(guān)聯(lián)密切,可以根據(jù)規(guī)則8看出,“概率論與數(shù)理統(tǒng)計(jì)”成績?yōu)椤皟?yōu)”與“線性代數(shù)”成績?yōu)椤皟?yōu)”關(guān)系支持度和置信度高,且提升度也較高,因此根據(jù)數(shù)據(jù)挖掘結(jié)果可以得出數(shù)學(xué)基礎(chǔ)課程關(guān)聯(lián)較為緊密。

(2)數(shù)學(xué)基礎(chǔ)課程成績優(yōu)異是統(tǒng)計(jì)學(xué)和投資學(xué)成績優(yōu)異的基礎(chǔ)。根據(jù)規(guī)則2、規(guī)則5可以得出,對于統(tǒng)計(jì)學(xué)、投資學(xué)這兩門需要較多數(shù)學(xué)運(yùn)算的學(xué)科,數(shù)學(xué)基礎(chǔ)課程的學(xué)習(xí)和運(yùn)算能力對學(xué)習(xí)這兩門專業(yè)課產(chǎn)生重要影響。

(3)運(yùn)籌學(xué)和財(cái)務(wù)管理這兩門管理類學(xué)科需要較好的數(shù)學(xué)基礎(chǔ)。從規(guī)則4中,可以看出基礎(chǔ)課程較好的學(xué)生在這兩門課中表現(xiàn)優(yōu)異,反之亦然。

3.5 數(shù)據(jù)挖掘結(jié)果啟示

(1)從學(xué)生角度,商學(xué)系學(xué)生如果希望能夠在專業(yè)課程中有較為出色的表現(xiàn),必須掌握數(shù)學(xué)基礎(chǔ)課程,夯實(shí)數(shù)學(xué)基礎(chǔ),進(jìn)而具備在專業(yè)課表現(xiàn)優(yōu)秀乃至繼續(xù)深造的可能性。

(2)從教師角度,數(shù)學(xué)基礎(chǔ)教師應(yīng)該在嚴(yán)格要求學(xué)生學(xué)好基礎(chǔ)課程的同時(shí),將專業(yè)課中案例等與基礎(chǔ)課程相結(jié)合,使其認(rèn)識到基礎(chǔ)課程的重要性并感受到基礎(chǔ)課程的魅力。而專業(yè)課老師則應(yīng)該在教學(xué)過程中適當(dāng)補(bǔ)充相應(yīng)的數(shù)學(xué)基礎(chǔ)知識,而不是默認(rèn)學(xué)生們都已學(xué)過相關(guān)課程而不再講解。

(3)從教務(wù)管理部門角度,教務(wù)管理部門應(yīng)該合理控制、安排基礎(chǔ)課程和專業(yè)課程的開課順序、間隔時(shí)間等,同時(shí)不能夠一味壓縮專業(yè)課程或基礎(chǔ)課程的課時(shí)量,致使課堂教學(xué)學(xué)時(shí)不足、學(xué)生掌握知識深度不夠,給后續(xù)學(xué)習(xí)造成不便。

4 結(jié)束語

本文由當(dāng)前高校教務(wù)管理中廣泛遇到的數(shù)據(jù)得不到有效利用,無法為師生、教學(xué)管理服務(wù)的問題出發(fā),建立關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘流程,對選定的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并對結(jié)果進(jìn)行分析及提出相應(yīng)的對策。

本文主要完善了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘流程,特別是將提升度加入模式識別,使其區(qū)別于以往Apriori算法中 “支持度—置信度”的框架,剔除無趣的關(guān)聯(lián)規(guī)則,使結(jié)果更為可靠。最后根據(jù)挖掘結(jié)果從不同角度提出相應(yīng)的建議和對策。

[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques[M].北京: 機(jī)械工業(yè)出版社,2012:157-183.

[2]Xindong Wu, Vipin Kumar.The Top Ten Algorithms in Data Mining[M].北京:清華大學(xué)出版社,2013:56-72.

[3]Efraim Turban Ramesh Sharda Dursun Delen.Business Intelligence -A managetical approach[M].北京:機(jī)械工業(yè)出版社,2012:128-130.

[4]姜晚云.關(guān)聯(lián)規(guī)則在成績分析中應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2006.

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 在线国产毛片| 91亚洲影院| 亚洲一区二区三区麻豆| 亚洲最大福利网站| 日本精品视频一区二区| 中文字幕欧美日韩高清| 国产成人综合久久| 国产精选自拍| 久久大香香蕉国产免费网站| 丁香五月激情图片| 日韩精品高清自在线| 在线日韩一区二区| 久草网视频在线| 久久综合久久鬼| 国产成人久久777777| 亚洲开心婷婷中文字幕| 精品撒尿视频一区二区三区| 欧美一级在线播放| 黄色网页在线播放| 第九色区aⅴ天堂久久香| 亚洲人成人伊人成综合网无码| 国产精品自拍露脸视频| 久久久久久国产精品mv| 国产在线麻豆波多野结衣| 九九九精品视频| AV片亚洲国产男人的天堂| 少妇高潮惨叫久久久久久| 欧美色99| 国产一区二区三区免费| 欧美一级在线看| 国产自在线播放| 日韩亚洲综合在线| 麻豆精品在线| 国产真实乱了在线播放| 国产爽妇精品| 久久大香香蕉国产免费网站| 国产精品视频999| 国产精选小视频在线观看| 亚亚洲乱码一二三四区| 免费不卡在线观看av| 亚洲美女一区二区三区| 69国产精品视频免费| 国产va视频| 欧美一级特黄aaaaaa在线看片| 91亚洲精品国产自在现线| 国产高清在线观看| 999精品色在线观看| 99re经典视频在线| 免费毛片在线| 免费看黄片一区二区三区| 日本欧美午夜| 一级一级一片免费| 精品无码人妻一区二区| 日本国产一区在线观看| 欧美日韩在线国产| 国产欧美在线观看视频| 欧美19综合中文字幕| 91成人精品视频| 国产va免费精品| 欧美视频在线第一页| 一本大道无码高清| 天堂亚洲网| 57pao国产成视频免费播放| 精品一区二区三区视频免费观看| 国产高潮流白浆视频| 在线播放国产99re| 亚洲中文字幕久久无码精品A| 国产青青操| 精品偷拍一区二区| 99re热精品视频国产免费| 亚洲IV视频免费在线光看| 亚洲精品另类| 欧美日韩精品一区二区在线线| 最新亚洲人成无码网站欣赏网| 国产91视频免费观看| 99激情网| 色老头综合网| 欧美激情第一区| 国模极品一区二区三区| 中文字幕伦视频| 久久中文字幕av不卡一区二区| 日韩少妇激情一区二区|