999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯規(guī)則的數據挖掘技術在獨立院校招生中的研究

2015-11-08 06:24:04紀威劉志偉
計算機與網絡 2015年13期
關鍵詞:數據挖掘關聯規(guī)則

紀威 劉志偉

(天津商業(yè)大學寶德學院,天津 300384)

基于關聯規(guī)則的數據挖掘技術在獨立院校招生中的研究

紀威劉志偉

(天津商業(yè)大學寶德學院,天津300384)

文章結合獨立院校招生工作的實際情況,簡要介紹了數據挖掘技術的基本概念、挖掘過程及模型,同時利用數據挖掘技術中的關聯規(guī)則及算法探討在獨立院校招生決策方面的基本應用。通過對大量招生數據及新生信息進行有效挖掘和分析,尋找學生入學信息諸多因素與在校培養(yǎng)結果之間的關聯關系,從而為我院招生決策者提供科學依據與決策支持,進而將對獨立院校在快速多變的生源競爭中把握發(fā)展方向起到引領作用。

數據挖掘獨立院校招生決策關聯規(guī)則

1 引言

獨立院校相對普通高校而言是國家按照新機制、新模式與社會力量合作舉辦的具有本科層次的學院,其生源質量是獨立院校的生存之本,在生源競爭越來越激烈的情況下,如何利用已有信息資源為招生決策服務,是我們面臨的緊迫課題。隨著數據挖掘技術在教育招生環(huán)境下的應用,可以對招生系統積累的海量數據進行挖掘和提煉,進行多維分析、合并歸類和高度集成,從而獲取有價值的信息,大大提高招生決策水平,有效增強獨立院校的競爭力。

2 數據挖掘技術

2.1數據挖掘概念

數據挖掘又被稱作數據庫中的知識發(fā)現(KDD)。它是從海量的、不完全的、有噪聲的、模糊的、具有不確定性的數據集中,提取蘊含在其中的、事先未知的、可信賴的、有用的規(guī)律和知識的過程。發(fā)現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的[1]。發(fā)現的知識要可接受和理解,并能被用于信息處理,優(yōu)化查詢,支持決策和過程控制等,還可以用于數據自身的維護。

2.2數據挖掘過程

在數據挖掘過程中,被探討的對象是整個操作的基礎,數據挖掘的全部過程受它驅動,最終挖掘結果需要它的支撐,系統的整體研究工作需要它的指引。挖掘過程不是自動進行,多數需要人工的引導和干預。在數據挖掘整個過程中,大約有60%的時間需要對數據庫進行前期整理和數據準備,因為數據的準確性和格式化對數據挖掘的影響較大,而通常來說,數據挖掘的后續(xù)操作只占總工作量的10%左右。數據挖掘過程步驟的具體內容如圖1所示:

圖1 數據挖掘的過程

3 數據挖掘模型

數據挖掘模型的建立要從對數據的分析開始。針對選定的挖掘算法,將數據轉化成一個分析模型。建立的分析模型是否適合挖掘算法對挖掘能否成功起著關鍵的作用[2]。數據挖掘模型主要分兩種,一種是Fayyad總結出的過程模型,以下稱為Fayyad過程模型:另一種是遵循CRISP-DM標準的過程模型,本文稱其為CRISP-DM過程模型。

3.1Fayyad過程模型

Fayyad過程模型偏向于技術方面,因此,數據挖掘可以理解為一個循環(huán)迭代過程,該模型從數據入手,到知識結束。從圖2中可以看出,該過程模型的執(zhí)行分以下幾個部分:

(1)數據預處理:包括數據提煉清洗、數據合成、選擇數據、轉換數據等幾個過程;

(2)數據挖掘:這是知識挖掘的基本步驟之一,功能就是利用智能方法挖掘數據知識或規(guī)律模式;

(3)模式評估:根據規(guī)定的評估要求從數據挖掘結果中挑選出有價值的模式知識;

(4)知識表示:利用可視化的數據表達技術,提供給用戶需要挖掘出的有用知識。

圖2 Fayyad挖掘模型過程

3.2CRISP-DM過程模型

CRISP-DM(Cross-Industry Process for Data Mining交叉行業(yè)數據挖掘過程標準)如圖3所示。CRISP-DM過程模型注重技術的應用,解決了Fayyad模型存在的兩個問題。CRISP-DM過程模型從數據挖掘技術應用的角度劃分數據挖掘任務,將數據挖掘技術與應用緊密結合,更加注重數據挖掘的模型質量和如何與業(yè)務聯系問題相結合。CRISP-DM強調,數據挖掘不單是數據的組織或者呈現,也不僅是數據分析和統計建模,而是一個從理解業(yè)務需求、尋求解決方案到接受實踐檢驗的完整過程。

圖3 CRISP-DM過程模型

該模型的執(zhí)行分以下六個步驟進行:

(1)業(yè)務理解:對客戶實際需求與目標的理解,轉換為數據挖掘的一個定義和為了達到此項目目標的初步解決方案;

(2)數據理解:檢測目前數據的基本質量,對相關數據有初步的了解和掌握,探尋數據中有意義的子集數據,從而形成對潛在數據信息的假設;

(3)預處理:包括從最原始海量數據中創(chuàng)建最終有價值數據集的所有工作,主要包括:數據制表,記錄參數,數據轉換和選擇,以及清理數據等;

(4)建模:有針對性的選擇和使用多種建模方法,并將其參數結果校準為理想的數據值;

(5)評估:評估目前已經建立的模型,確保構建的模型達到企業(yè)需求的目標;

(6)部署:把所有建模數據信息用客戶能夠操作的方式呈現和組織出來。

CRISP-DM過程模型從數據挖掘技術應用的角度劃分數據挖掘任務,將數據挖掘技術和應用緊密結合,注重數據挖掘的質量和如何與業(yè)務問題相結合。

4 在獨立院校招生中的應用研究

4.1關聯規(guī)則及其Apriori算法

4.1.1關聯規(guī)則的概念

關聯規(guī)則挖掘在數據挖掘中是最經典的算法之一。它是指在交易數據、關系數據或其它信息載體中,查找存在于項目集或對象集合之間的頻繁模式、關聯、相關性或因果關系,可以發(fā)現隱藏在數據之中、不易被發(fā)現的關聯事件。

設I={i1,i2…in。}是項的集合。記W為數據庫事務Z的集合,這里每個事務Z是項的集合,并且使得ZI。對應每一個交易有惟一的標識符,記作ZIW。設M是一數據項的集合,當且僅當MZ,那么稱交易Z包含M。關聯規(guī)則是具有MN的蘊涵式,其中MI,NI,并且M∩N=。規(guī)則MN在交易數據庫W中的支持度S是包含M和N的交易數與所有交易數之比,記為Support(MN),即Support(MN)=P(MUN);規(guī)則MN在交易集中的置信度C是指包含M和N的交易數與包含M的交易數之比,記為Confidence(MN),即 Confidence(MN)=P(N|M)。同時滿足最小支持度閡值(min_sup)和最小置信度閉值(min_conf)的關聯規(guī)則稱強規(guī)則,用0~100%之間的值表示支持度和置信度值。

4.1.2Apriori算法

Apriori算法是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。該算法是由Agrawal等人在1993年設計的一種基本算法,這是一個基于兩階段頻集思想的方法[3],關聯規(guī)則挖掘算法的設計可以分解為兩個子問題:①找到所有支持度大于最小支持度的項集,稱為頻繁項集;②使用第1步找到的頻繁項集產生期望的規(guī)則。其算法的實現過程可描述為:首先, Apriori算法求出項數為1的頻繁集L1,然后,再由L1產生項數為2的候選集C2,掃描事務數據庫W,計算支持度求出L2,依次類推,產生Ck,掃描W求出Lk。一旦從數據庫中產生了頻繁集,則可以從中直接產生強關聯規(guī)則。

4.2關聯規(guī)則在獨立院校生源分析中的挖掘流程

4.2.1挖掘問題的提出

利用全國院校秋季高考統招考生基本信息和在校期間諸多成績等數據,從高考分數、學生素養(yǎng)、生源區(qū)域等方面,對學生的入學基本信息與在校期間各項成績指標進行關聯性分析,從而提取在數據背后隱藏的有價值信息。

4.2.2數據前期準備

本系統需用到多個源信息數據庫,第一要將多個源數據庫中的信息進行整合;第二檢索全部相關因素的信息數據,并從中挑選出信息用于數據挖掘的應用;第三再對選出數據實施相關的轉換操作,加工之后的數據不僅反映源信息的真實情況還要適合挖掘算法的實際需要。數據預處理進程中的一個難點工作就是數據的轉換,它需要在系統建設實施中不斷實踐摸索、逐步修正,進而完善數據的轉換方案,同時將系統數據的質量問題得到最終解決[4]。數據準備工作大體上分為以下三部分:

(1)學生信息預處理工作

招生錄取結束后,學生的基本信息包括:新生錄取情況(招生的年份、錄取的專業(yè)方向);學生基本信息內容(應試卷種、科類、考生號、姓名、出生日期、性別、身份證號、考何種外語、考生類別、民族、政治面貌、畢業(yè)學校、畢業(yè)類別、考試類型、戶口所在地、獲獎情況、專業(yè)志愿填報等);考試成績內容(高考總成績、各門課程單獨成績、加分狀況、考生會考成績等)。為了方便進行數據挖掘操作,需要對以上信息進行適當的轉化與歸約等一系列預處理工作。在上述內容中,操作最困難的預處理數據是:高考總成績和考生來源地。普通高等學校招生是在全國高考基礎上進行分省錄取操作,各個省份根據錄取院校所屬一本、二本、三本、高職的層次和錄取招生的計劃類型將各院校錄取時間劃分成不同的批次,然后按照所在省份招生計劃總數和考生報考總數按照一定比例(一般為1:1.1)規(guī)劃出各個院校錄取批次控制分數線。各錄取院校在所屬批次內按照各省公布的專業(yè)招生計劃數來進行考生錄取工作,由于各個省份招生專業(yè)計劃不一樣,各個錄取批次的控制分數線不同,故院校在各省的最終錄取分數線也不同,直接導致錄取考生的分數也有較大的差異,所以無法將全部學生的高考分數直接進行對比,因此要將各個省份的學生考試總成績轉換成標準分數才能操作。

(2)考生來源地預處理工作

在普通高校招生考試中,對于考生來源地的原始數據信息統計工作,內容過于詳細,與數據挖掘技術要求在操作上不太一致,因此要針對不同的數據挖掘目標,對考生來源地信息進行歸約操作。在這里,可將同省考生歸為一類;也可按全國各省份在版圖中的所屬位置大致規(guī)約為:東南地區(qū)、西南地區(qū)、西北地區(qū)、東北地區(qū)、華中地區(qū)、華東地區(qū)和華北地區(qū)等部分;還可按照省會、地區(qū)、城鎮(zhèn)、鄉(xiāng)村等將考生來源地進行規(guī)約操作。

(3)在校成績預處理工作

學生在校期間要進行四年的學習生活,在這個過程中包括8個學期,每個學期都有各門課程的考試成績、綜合測評、比賽獲獎及畢業(yè)設計、畢業(yè)論文、畢業(yè)實習和就業(yè)等相關數據內容。其中,每個學期各門課程的成績只體現在專業(yè)學習中的情況,而綜合測評的成績則是學生在校期間德智體等多方面真實情況反映,它是一種量化和科學化的計算方法。每個學年的綜合測評成績按智育和德育來進行考核,其中智育成績占70%,德育成績占30%。在我院,將每名學生按年級、專業(yè)分別進行統計,其綜合測評成績以優(yōu)、良、中、及格、不及格五個等級標準來表示,從而進一步的推進數據挖掘工作。

4.2.3數據關聯規(guī)則的挖掘

通過上述預處理工作,同時在基于數據分析的基礎上,針對學生入學信息與在校間成績進行關聯操作,從而尋找學生在入學時的多因素與在校間成績的基本關系[5]。在這里,可參考不同的維度對學生高考成績、考生類別、來源地、畢業(yè)學校、獲獎狀況等與大學綜合測評成績之間的關聯關系進行有效的分析。通過數據的關聯分析,可得出不同科類、不同地區(qū)、不同入學成績水平以及不同素質學生在經過大學四年的教育培養(yǎng)后所產生結果的關聯性與差異性,然后再從人才專業(yè)培養(yǎng)結果的角度出發(fā),逆向分析出哪類學生更具有學習的潛質、更能成為本專業(yè)優(yōu)秀畢業(yè)生等,從而總結出具有實際參考價值的結論,更好的指導學校招生計劃制定與宣傳工作的開展。4.2.4模型解釋與評價

在數據關聯分析之后,會導出一系列的關聯規(guī)則,我們則要在多種關聯規(guī)則中選取有用的規(guī)則條款,并進行解釋和評價,同時參考關聯規(guī)則分析結果,合理地設定最小支持度(min_sup)與最小可信度(min_conf)是非常必要的[6]。如果可信度過大或支持度過大,部分所需的關聯規(guī)則就不可能挖掘出來;如果可信度過小,則所產生的關聯規(guī)則冗余度相對較大,很難從中發(fā)現有價值的關聯規(guī)則數據;如果支持度過小,則頻繁項集產生所需的時間可能無法忍受,頻繁項集的數量也會隨之非常巨大。

5 結束語

隨著數據挖掘技術在獨立院校招生領域的廣泛應用,其價值已經不可估量,它能從海量學生信息中發(fā)現各種潛在規(guī)則,構建考生信息數據倉庫,為招生決策分析提供基礎,指導招生決策人員進行招生策略地調整,科學地指導招生、合理設置專業(yè)、高效地開展宣傳,從而達到提高新生報到率和保證生源質量的目的。

[1]許碩.數據挖掘技術在民辦高校招生工作中的應用研究[J].遼寧師專學報(社會科學版),2012,(06):112-114.

[2]李霞.數據挖掘在高校教學和管理中的應用研究[J].廣東外語外貿大學學報,2012,(04):97-100.

[3]韋映梅,鄒海林.基于數據挖掘技術的招生電子檔案信息系統模型構建[J].蘭臺世界,2014,(14):19-20.

[4]徐健.數據挖掘技術在高校招生信息處理中的應用[J].農業(yè)網絡信息,2013,(11):133-137.

[5]何小明,張自力.基于OLAP與數據挖掘的高考招生數據分析[J].計算機科學,2012,(06):175-187.

[6]何廣東.基于數據挖掘的高校招生決策支持系統的設計與實現[J].無線互聯科技,2012,(11):93-94.

Research of Independent Colleges Admissions Base on Data Mining Technology of Association Rules

JI Wei,LIU ZHI-wei
(Tian Jin University of Commerce Boustead College,Tianjin 300384,China)

In this paper,the actual situation of independent enrollment colleges,introduces the fundamental concepts of data mining technology,mining and modeling process,while using data mining techniques and algorithms of association rules on the fundamental application in independent colleges admissions decision-making.Through a large number of freshmen admissions data and information for effective mining and analysis,looking student enrollment information and culture and many other factors relationship between the results in the school,so as to provide a scientific basis and decision support to hospital admissions decision-makers,and thus will be independent hospital grasp the development direction of the school play a leading role in the students compete in the rapidly changing.

data mining;independent colleges;admissions decisions;association rules

TP274

A

1008-1739(2015)13-58-4

定稿日期:2015-06-12

本文系天津商業(yè)大學寶德學院科研基金規(guī)劃課題《基于B/S結構的新生報到系統網絡平臺的研究》成果,項目編號:BD20129106

猜你喜歡
數據挖掘關聯規(guī)則
撐竿跳規(guī)則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規(guī)則和演變
探討人工智能與數據挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 在线视频97| 日韩精品亚洲一区中文字幕| 69视频国产| 亚洲无码精品在线播放 | 亚洲一区二区视频在线观看| 国产免费久久精品99re丫丫一| 天堂在线亚洲| 亚洲高清日韩heyzo| 全色黄大色大片免费久久老太| 九九久久精品国产av片囯产区| 久久狠狠色噜噜狠狠狠狠97视色 | 久久这里只有精品2| 99精品国产自在现线观看| 国产白浆视频| 91精品国产自产在线老师啪l| 国产福利一区视频| 啦啦啦网站在线观看a毛片| 91九色视频网| 欧美黄色网站在线看| 日本欧美午夜| 国产成人久久综合777777麻豆| 国产农村1级毛片| 午夜丁香婷婷| 亚洲国产精品日韩专区AV| 国产一区二区三区免费| AⅤ色综合久久天堂AV色综合| 久久精品人人做人人综合试看| 女人18毛片久久| 九色视频一区| 夜精品a一区二区三区| 亚洲一区二区三区国产精华液| 亚洲男人天堂久久| 久热精品免费| 欧美午夜小视频| 亚洲欧美精品一中文字幕| 国产三级毛片| 久久6免费视频| 国产丝袜91| 亚洲天堂首页| 国内精品91| 永久在线播放| 日本午夜视频在线观看| 日韩无码真实干出血视频| 黄网站欧美内射| a天堂视频在线| 国产精品页| 亚洲日产2021三区在线| 亚洲AV色香蕉一区二区| 亚洲精品无码不卡在线播放| 美女高潮全身流白浆福利区| 国产美女无遮挡免费视频网站 | 国产极品美女在线观看| 国产精品蜜臀| 欧美一区国产| 欧美a级完整在线观看| www亚洲精品| 亚洲视频免费播放| 国产精品自拍露脸视频| 国产黑丝视频在线观看| m男亚洲一区中文字幕| 亚洲欧美在线综合一区二区三区| 免费jizz在线播放| 国产日本欧美在线观看| 亚洲一区二区三区在线视频| 国产亚洲视频免费播放| 精品综合久久久久久97超人该| 丁香五月婷婷激情基地| 狠狠做深爱婷婷综合一区| 精品国产网| 久久99久久无码毛片一区二区| 日本欧美视频在线观看| 亚洲天堂网站在线| 热久久综合这里只有精品电影| av手机版在线播放| 日韩不卡免费视频| 久久久久无码国产精品不卡| 亚洲人在线| 亚洲一区无码在线| 国产成人禁片在线观看| 一级全黄毛片| 四虎影视8848永久精品| 中文字幕1区2区|