999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則在學生助學系統中的應用研究

2012-04-29 08:48:09周麗娜李劍
考試周刊 2012年62期
關鍵詞:數據挖掘關聯規則

周麗娜 李劍

摘要: 高等教育體制改革的不斷深入和發展促進了我國高等教育規模不斷擴大,高校學生人數逐年增加,由此積累的大量助學信息亟須分析整合。關聯規則是數據挖掘的一個重要分支,主要側重于確定數據庫中不同領域間的聯系,找出滿足給定支持度和置信度的多個域之間的依賴關系,能為幫困助學數據分析提供很好的技術支持。本文就是通過對數據挖掘和關聯規則的研究,對家庭經濟困難學生在校期間的綜合表現與就業去向進行關聯,從中得到輔助學校學工部門有針對性地開展幫困助學工作的建議。

關鍵詞: 數據挖掘關聯規則學生助學系統

1.引言

隨著我國高等教育體制改革的不斷深入和發展,全國高等教育在學總人數已逾千萬,這標志著我國高等教育進入了國際公認的大眾化發展階段。在招生規模不斷擴大的同時,家庭經濟困難學生的問題日益突出。經濟有困難的學生能否順利入學并完成學業,已成為社會普遍關心的問題。

為解決家庭經濟困難學生的學習問題,政府和高校經過多年的努力,建立起一套以國家助學貸款為主體的高校貧困學生資助政策體系。國家從2000年開始推行國家助學貸款制度,經過這些年的工作,各高校學生工作部門都積累了大量與貸款學生有關的原始數據,包括學生的基本信息、在校期間的文化課成績信息、獲獎助學金信息、參加學校的勤工助學的工作情況信息及就業去向信息等,而且這些數據會隨著學校招生規模的不斷擴大、辦學時間的增長而繼續增加。

2.關聯規則

2.1數據挖掘與關聯規則。

數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。數據挖掘最早出現在第11屆國際聯合人工智能學術會議上,它又被稱為數據庫中的知識發現,就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數據挖掘就是從大量數據中提取或“挖掘”知識。

數據挖掘功能用于指定數據挖掘任務中要找的模式類型。一般地,數據挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻畫數據庫中數據的一般特性;預測性挖掘任務在當前數據上進行推斷,以進行預測。

數據挖掘在學生的招生與就業工作中發揮著作用。有學者通過對歷年的招生信息的分析研究,提出了修改招生計劃的指導意見,變被動招生為主動招生。在就業工作方面,也有人通過對歷年學生的在校表現和就業情況進行綜合分析,提出有相應的分類指導意見。

關聯規則是數據挖掘的一個重要分支,最初其研究對象為交易數據庫,主要目的就是發現交易數據庫中交易項目之間是否存在某種關系,后來又推廣到關系型數據庫,主要目的是從數據庫中挖掘出項集之間的關聯規則。規則的支持度和置信度是規則興趣度的兩種度量。

關聯規則的挖掘主要包括以下兩個主要過程:首先是找出所有頻繁項集,這些項集出現的頻率至少和預定義的最小支持計數一樣。其次是由頻繁項集產生強關聯規則:找出的關聯規則必須滿足最小支持度和最小置信度。

2.2關聯規則分類。

根據分類的標準不同,關聯規則可以有以下幾種分類方式:基于規則中處理的變量類別分類、基于規則中數據的抽象層次分類和基于規則中涉及的數據維數分類。

根據規則中處理的變量的值,可以將規則分為布爾關聯規則和量化關聯規則。布爾型關聯規則顯示了這些變量之間的關系,而量化關聯規則通常是在處理數值型數據時對數值進行分段量化得來的。根據規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則,兩者的區別在于是否涉及不同層次的數據項。如果不涉及不同層次的數據項,得到的是單層關聯規則。在不同抽象層次中挖掘出的關聯規則稱為多層關聯規則。根據關聯規則所涉及的數據維數不同,可以分為單維關聯規則和多維關聯規則。如果關聯規則各項僅涉及一個維度,則稱之為單維關聯規則。如果關聯規則涉及兩個或兩個以上維度,則稱之為多維關聯規則。

3.助學系統關聯規則挖掘

通過開展助學工作,學校已基本形成了助學貸款、獎學金、困難補助、勤工助學和社會助學等五大幫困助學措施,同時也積累了相當多的與助學有關的信息。通過初步分析,可能影響學生就業的諸方面因素有:學生的獎學金獲得情況、貸款額度、勤工助學表現、學歷、專業,等等。助學系統關聯規則挖掘就是希望對以上因素進行分析,找到一些有實際指導意義的規則。整個助學系統數據挖掘大體上分成數據的搜集、清理、集成、變換等預處理工作和關聯規則挖掘工作。

3.1助學系統數據預處理。

3.1.1數據采集

助學系統涉及學校的多個部門,如學生處負責管理獎學金評定等;招生與就業指導辦公室負責管理學生的生源信息和就業信息;財務處負責管理學生的助學貸款信息等;教務處負責管理學生的學籍信息和成績信息等。勤工助學因為涉及多個部門,由設置勤工助學崗位的部門或學院負責對學生的日常考核,匯總工作則由學生處負責完成。

3.1.2數據清理

收集到的學校學生信息有其自身的特點:數據比較完整、數據值的可信度比較高,但是由于有些原始數據是由人工處理完成的,空值的出現不可避免。比如就業信息表中,就有部分記錄信息不完整。通常正常畢業的學生采集的數據基本上比較完整,而對于休學、延學、參軍、結業等不能按時完成學業的學生來說,就業系統中只會保存他們的一些最基本信息。對于這些空值可以考慮將這些信息從就業信息表中移除出去或用約定方法進行數據填充。

同時由于各部門處理數據的側重點、操作人員的處理習慣等各有不同,造成即使是相同的信息也會出現不同表示。例如同樣是表示專業名稱信息,有些部門使用專業名稱全稱,而有些則使用簡稱。對于這樣的情況,可以通過給出標準數據,將其他數據統一改寫成標準數據形式。

3.1.3數據集成

數據集成則是將多個數據源中的數據結合、存放在一個一致的數據存儲中。將多個數據源中的數據集成起來,能夠減少或避免結果數據集中數據的冗余和不一致性。由于歷史和技術普及等多方面的原因,造成數據存儲有多種形式。比如就業信息多以DBF文件格式存儲,而在學校內部,辦公處理軟件的使用率比較高,多數老師習慣于將數據以Excel電子表格或Word文檔形式進行保存。助學系統數據挖掘所處理的數據也是以上述幾種格式為主。在進行數據挖掘前需要對這些以不同形式存儲的數據進行處理,轉換成單一形式。

3.1.4數據轉換

數據轉換就是將數據轉換或歸并已構成一個適合數據挖掘的描述形式,用更抽象、更高層次的概念來取代低層次或數據層的數據對象,將有關屬性數據按比例投影到特定小范圍之中。助學系統的各數據表的屬性通常有大量的不同的屬性值,這時就應當進行進一步概化。

如學生貸款信息中“貸款金額”,該屬性就存在大量不同的值,貸款金額在很大程度上反映了學生的家庭經濟狀況。為了使該信息適用于數據挖掘,就需要對年均貸款額進行概化。在助學系統數據挖掘中,要找出學生在校表現與就業信息的關聯,就離不開就業單位信息。但是學生的就業單位重復率低,存在大量不同的就業單位信息。在挖掘中就不能直接使用就業單位信息,將就業單位按性質進行分類后該數據就比較適合進行數據挖掘了。除了上面提到的一些需要概化處理的信息外,還有勤工助學考核信息、專業信息、生源地、就業地、成績、性別和本專科類別等也需要加以處理。

3.2生成關聯規則。

對數據進行清理和轉換后,再通過“學號”匹配可以將助學系統的各數據表連接成信息總表,這時的數據可以更為有效地進行關聯規則數據挖掘。

關聯規則的生成是整個系統的核心工作。應用數據挖掘技術對收集的助學系統數據進行挖掘分析,可以發現隱藏在數據中的有用的知識,并將其提取出來供學校和相關教師參考。經典Apriori算法的基本思想將關聯規則的生成大體上劃分成了兩步:產生頻繁集和生成強關聯規則。

在搜索頻繁k項集時,首先要找出頻繁1項集。在完成對數據的預處理后,求取頻繁1項集只需簡單地掃描信息總表,對每個項的出現次數計數,生成候選1項集。再通過設置最小支持度計數,篩選生成頻繁1項集。找到頻繁1項集后,通過將頻繁1項集與自己進行連接生成候選2項集。再對得到的候選2項集的出現進行計次,滿足最小支持度計數的予以保留,生成頻繁2項集。依此類推生成頻繁k項集。當頻繁k項集生成以后,對于任意一個頻繁k項集,找出其中所有可能的真子集,作為關聯規則的前件,計算相應規則的置信度。當某一規則的置信度大于給定的最小置信度時,輸出該規則。

3.3規則分析。

通過挖掘系統生成的規則,首先需進行符號轉換,將之前預處理時編碼化的數據還原成原始信息。得到轉換后的規則應該進行理解和分析。通過初步分析,挖掘出的規則大致可以分成符合預先設想的和之前未被發現的兩類。

例如曾獲得過獎學金并且貸款額度中等的學生比未獲獎學金且貸款額度中的支持度小,說明前者的人數較后者少;同時前者的置信度高說明獲得獎學金的同學有更多的就業機會。這些都符合先驗知識。而有些規則無法用先驗知識解釋,比如同樣是參加勤工助學活動,在寧波女生就業比例比男生高。這從一個側面說明女生同男生相比,更傾向于在自己熟悉的環境中就業。

4.結語

本文以寧波工程學院助學系統為依托,深入開展了關聯規則數據挖掘工作。首先,完成了助學系統的數據預處理。通過對原始數據的清理、集成和轉換,將這些數據初步加工成適用于關聯規則挖掘的數據。其次,完成關聯規則挖掘算法的實現,建立針對以上預處理數據的關聯規則挖掘系統,在引入挖掘原始數據后進行數據挖掘。最后,利用挖掘系統對收集的數據進行關聯分析,生成關聯規則。學生通過對關聯規則的理解和分析,產生對貧困生就業有指導性價值的意見。

參考文獻:

[1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.

[2]Jiawei Han,Micheline Kamber.范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[3]王登.數據挖掘技術及其在高校素質教育應用中的探討[J].現在電子技術,2007,4:95-97.

[4]劉鵬,孫莉,趙潔,等.數據挖掘技術在高校人力資源管理中的應用研究[J].計算機工程與應用,2008,44(10):201-233.

[5]康振華,趙燕麗,周金剛.數據挖掘在高校就業工作中的應用研究[J].中國科教創新導刊,2007,474:86-87.

基金項目:寧波市教育科學規劃課題2009-46。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲第一综合天堂另类专| 成人av专区精品无码国产 | www.精品国产| 欧美日在线观看| 亚洲一区免费看| 国产麻豆va精品视频| 国产第一色| 欧美日韩另类在线| 国产91透明丝袜美腿在线| 免费一看一级毛片| 992Tv视频国产精品| 欧美精品啪啪| 91成人试看福利体验区| 国产精品视频白浆免费视频| 亚洲美女一级毛片| 亚洲综合色区在线播放2019 | 日本a级免费| 亚洲欧洲日韩综合色天使| 国产一二视频| 亚洲精品麻豆| 国产精品久线在线观看| 丰满人妻被猛烈进入无码| 国产农村妇女精品一二区| 国产女人在线视频| 九色在线视频导航91| 美女国产在线| 日韩欧美国产区| 亚洲天堂成人在线观看| 欧美性猛交一区二区三区| AⅤ色综合久久天堂AV色综合| 精品成人免费自拍视频| 国产丝袜第一页| 妇女自拍偷自拍亚洲精品| 国产国模一区二区三区四区| 欧美亚洲欧美| 久久久久人妻一区精品| 91人人妻人人做人人爽男同| 就去吻亚洲精品国产欧美| 成人在线第一页| 国产精品丝袜视频| 中文字幕人妻无码系列第三区| 97超碰精品成人国产| 在线欧美日韩| 亚洲一区毛片| 国产美女一级毛片| 国产毛片高清一级国语| 久久久精品久久久久三级| 不卡国产视频第一页| 欧美日韩中文国产| 中文字幕无码电影| 亚洲无码在线午夜电影| 亚洲妓女综合网995久久| 国产在线观看一区精品| 亚洲AV无码乱码在线观看裸奔| 亚洲欧洲日本在线| 天天做天天爱夜夜爽毛片毛片| 亚洲精品国产首次亮相| 婷婷亚洲视频| 婷婷丁香在线观看| 狠狠做深爱婷婷综合一区| 最新国产成人剧情在线播放| 91福利免费| 97久久人人超碰国产精品| 成人精品亚洲| 伊人婷婷色香五月综合缴缴情| a级毛片在线免费| 午夜免费视频网站| 国内自拍久第一页| 99视频只有精品| 精品久久久久久成人AV| 国产真实乱人视频| 超清无码一区二区三区| 在线观看国产精美视频| 四虎综合网| 欧美激情视频一区二区三区免费| 国产精品va免费视频| 亚洲精品国产综合99| 一级一级特黄女人精品毛片| 欧美一级色视频| 欧美一区日韩一区中文字幕页| 亚洲精品成人7777在线观看| 制服丝袜一区二区三区在线|