摘要:本文以研究高職院校新生報到率為目的。以伊犁職業技術學院為例,通過關聯規則對高校學生的信息庫進行數據挖掘,挖掘出影響學生報到率的有效信息。為學院的招生決策提供有價值的信息。
關鍵詞: 數據挖掘;關聯規則;招生參考系統
引言
從2002年開始,國家教育部在全國實現高校招生網上遠程錄取,高校招生手段發生了革命性變化,同時也給招生工作帶來了變革的契機,計算機管理著大量的招生信息,使得采用信息領域的新技術、新成果為招生工作服務成為可能。利用數據挖掘技術在招生數據上的應用,為有效利用招生信息進行快速、準確和方便的決策支持提供了新的思路。
2、數據挖掘
2.1數據挖掘的概念
數據挖掘(DateMining)就是從眾多的、有噪聲的、不完全的、模糊的、隨機的大量數據中,提取隱含在其中人們事先不知道但又是潛在有用的信息和知識的過程。數據挖掘要經過數據采集、預處理、數據分析、結果表示等一系列過程,最后將分析結果呈現在用戶面前。
2.2數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,作為前瞻的、基于知識的決策。數據挖掘的目標是從數據中發現隱含的、有意義的知識。具體的功能主要有以下4個方面。
1、概念描述
概念描述就是對某類對象的內涵進行描述,并概括其主要特征。
2、關聯分析
數據關聯是數據中存在的一類重要的可被發現的知識,若兩個或多個變量間存農著某種規律性,就稱為關聯。數據關聯分析的目的是找出數據庫中隱藏的關聯網。
3、自動預測趨勢和行為
挖掘技術會自動在大量數據中尋找出預側性的信息,以往需要使用大量人工手動分析的問題如今可以迅速直接由數據本身得出結論。可以為決策者們提供一種比較塊捷的方式。
4、聚類分析
聚類分析其目的在于客觀地按被處理對象的特征分類,將同特征的對象歸為一類。
2.3數據挖掘常用算法
一般說來,可以有多種算法用于數據挖掘,但不存在一個普通適用的算法。一個算法在某個領域可能很有效,但在另一領域可能就不太適用。因此,在實際應用中,應結合實際,選擇合適的挖掘算法。
我們可以把數據挖掘算法分為以下幾種。
1.人工神經網絡
2.決策樹方法
3.遺傳算法
4.模糊論方法
5.粗糙集方法
6.關聯規則
7.覆蓋正例排斥反例方法
8.樸素貝葉斯模型
9.可視化技術
3、關聯規則在數據挖掘中的應用
3. 1關聯規則挖掘的基本概念
關聯規則是一種重要的數據挖掘方法,也是最活躍的一研究個分支。關聯規則挖掘主要是通過特定的搜索算法,挖掘出數據集中項集之間有價值的關聯關系,從而給出數據集的關聯特征描述。關聯規則最大的優點就是能夠發現被大量日常操作行為所掩蓋的,蘊藏于大童業務數據下的事務之間的關聯關系。具體來說,關聯規則就是形如“A→B(support,confidence)”的蘊涵式,其中support是該規則的支持度,confidence是該規則的一可信度。
3.2關聯規則的應用
對于伊犁職業技術學院來說,針對新生報到率不高的現狀,我們希望能在學院新生錄取、報到信息庫中的學生信息中找到影響學生不來報到的規則,以此制定出有效的招生決策,用以指導今后的招生工作。例如,我們發現扭內學生的報到率要明顯高于疆外學生,那么在今后制定招生計劃時,我們可以適當減少疆外計劃。
為了簡單的說明使用關聯規則算法對學生信息庫進行挖掘的過程,我們在此權討論單維關聯規則((single-dimensional associarion rule),也就是在學生信息庫中挖掘出的與學生報到情況有關的關聯規則中的項或屬性,這些項或屬性每個只涉及一個維。
我們僅考慮錄取時學生的某些因素(性別、考生類別、高考成績、考生生源地)和學生報到情況的關系,假設我們己在學生信息庫中找出頻繁項集,那么由它們所產生的強關聯規則是直接了當的(強關聯規則滿足最小支持度和最小置信度)。置信度可以用下式表示:
confidence(A=>B)=P(A|B)=support_count(A∪B)/support_count(A)
其中,support_count (A ∪B)是包含項集A∪B的事務數,support_count (A)是包含項集A。
根據該式,關聯規則可以產生如下:
①對于每個頻繁頂集1,產生1的所有非空子集:
②對于1的每個非空子集s,如果support_count (A∪B)/support_count(A)min conf,則輸出規則“s=>(l-s)。其中min_canf是最小置閾值。
下面我們利用伊犁職業技術學院05級新生報到情況的樣本數據集為例,討論以下因素(性別、考生類別、高考成績、考生生源地)與學生報到情況的關系.05年錄取的學生總數為486人、而報到的學生只有248人。
1.討論性別與學生報到的關系。在錄取總人數甲有233名男生,報到總人數中有148個男生:
男=>報到[support=47.9%,
confidence==3 5%]
由此可以看出,男生的報到的置信度與女生比起來較高,而且支持度也比較高,所以這個關聯規則應該成立,即男生=>報報到為強關聯規則。我們可以得出的結論是男生報到的可能性大于女生
2.討論考生類別與學生是否報到的關系。在錄取人數中考生類別為農村往屆的學生有72人,來報到的有51人;城鎮應屆考生錄取了112人,報到了51人;城鎮應屆錄取了138人,報到了62人,農村應屆考生錄取了213人,報到了80人。根據關聯規則算法可以得出:
農村往屆學生=>報到[support=13.81%, confidence=70. 83%]
城鎮往屆學生=>報到[support=13.96%, confidence=80. 95%]
農村應屆學生二>報到[support=13.81%,Confidence=70. 83%]
城鎮應屆學生=>報到[support=43.82%, cnnfidexlce=37.55%]
由此可以看出,農村往屆的學生、農村應屆的學生、城鎮往屆的學生的置信度基本相差不大,但支持度非常高,所以前面三類的關聯規則是應該存在的。城市應屆考生來報到的置信度較高,但支持度很低。在錄取時應該考慮他們有可能不來報到,可以通過給這些考生打電話,來確認他們是否來報到。從分析中我們還可以看出,城鎮往屆學生他們來報到的支持度是最高的,這與我們的實際情況甚至一致。
3.討論高考總分與學生是否報到的關系。我們根據學生的高考分數劃分了5個本分數段。即大于400分的,介于350與400分間的,介于300與350分之間的,介于200分與300分之間的,和小于200分的。分數在300以下的學生都為“三校生”。在學院05年的錄取數據中,分數在400分以上的有11人,前來報到的有7人;分數在300-350分的有30人,來報到的有4人;分數在300-350分的有134人,來報到的有44人:分數200-300分的有235人,來報到的有109人;分數在200以下的有80人,來報到的有80人。通過分析我們得到:
高考總分(gkzf<200)=>報到[support=16.46%, confidence=93.5%]
高考總分(200
高考總分(300
高考總分(350
高考總分(400
由以上結果可以看出,高考成績低于200分的同學報到的可能性是最大的,高考成績在200-300分之間的同學報到率次之。這符合我院的實際情況。因為“三校生”大部分為我院的中職學生,畢業后通過自冶區的“三校生”考試又重新考入高職院校就讀。一些成績較好的中職考生,選擇了烏魯木齊的一些學校繼續學習。成績較低的學生,就考入我院繼續學習。高考成績在3O0-350分的置信度與支持度均高于高考成績在350-400分的。這說明,分數較低的學生的報到率要高。雖然從分析結果看,高考總分高于400的同學報到的支持度也很高,但是由于人數不多,所以也并不能說明考分高于400分的同學的報到率就高。這一規則可以刪去。
4、討論高考考生生源對學生是否報到的影響。在2005年,伊犁職業技術學院在疆外錄取了36人,報到了15人,在疆內錄取了450人,報到了233人。
生源地為疆外考生補報到[support=7.04%,confidence=41.66%]
生源地為疆內考生公報到[support=93.56%,confidence=51.77%]
由此結果可以觀察出,疆內學生的報到率要高。
通對以上四類屬性、十二個因素的逐項分析,可以作出這樣的判斷:性別為女生、考生類別為城鎮應屆、高考總分在350到400分之間、生源地為疆外,這些因素都是影響學生報到的主要原因。所以,為了保證該學院有一個較高的報到率,招生人員應該在同等情況下,盡夏避開選擇具有這些因素的學生。
在此要說明一下,為了說明間題,以上數據大部分是手工計算的。而且如果要想更精確的說明問題,還應該計算出報關度來。
4、結論
通過以上對學生信碑息庫的單維關聯規則的研究可以看出,挖掘結果對學院實際的招生工作是具有一定的指導作用的,但比較簡單。如果我們希望挖掘出更深層次的關聯規則,就需要合理的選擇最小置信度(minsup)或最小支持度(Minsupport)的值。這就需要根據具體實踐情況井和學降招生辦的工作人員進行反復討論。只有聚焦到真正感興趣的關聯上,得出具有實踐意義的關聯規則,才能為學院的招生工作更供強有力的指導,為學院的招生決策提供有價值的信息,