周麗娜 李劍
摘要: 高等教育體制改革的不斷深入和發展促進了我國高等教育規模不斷擴大,高校學生人數逐年增加,由此積累的大量助學信息亟須分析整合。關聯規則是數據挖掘的一個重要分支,主要側重于確定數據庫中不同領域間的聯系,找出滿足給定支持度和置信度的多個域之間的依賴關系,能為幫困助學數據分析提供很好的技術支持。本文就是通過對數據挖掘和關聯規則的研究,對家庭經濟困難學生在校期間的綜合表現與就業去向進行關聯,從中得到輔助學校學工部門有針對性地開展幫困助學工作的建議。
關鍵詞: 數據挖掘關聯規則學生助學系統
1.引言
隨著我國高等教育體制改革的不斷深入和發展,全國高等教育在學總人數已逾千萬,這標志著我國高等教育進入了國際公認的大眾化發展階段。在招生規模不斷擴大的同時,家庭經濟困難學生的問題日益突出。經濟有困難的學生能否順利入學并完成學業,已成為社會普遍關心的問題。
為解決家庭經濟困難學生的學習問題,政府和高校經過多年的努力,建立起一套以國家助學貸款為主體的高校貧困學生資助政策體系。國家從2000年開始推行國家助學貸款制度,經過這些年的工作,各高校學生工作部門都積累了大量與貸款學生有關的原始數據,包括學生的基本信息、在校期間的文化課成績信息、獲獎助學金信息、參加學校的勤工助學的工作情況信息及就業去向信息等,而且這些數據會隨著學校招生規模的不斷擴大、辦學時間的增長而繼續增加。
2.關聯規則
2.1數據挖掘與關聯規則。
數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。數據挖掘最早出現在第11屆國際聯合人工智能學術會議上,它又被稱為數據庫中的知識發現,就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數據挖掘就是從大量數據中提取或“挖掘”知識。
數據挖掘功能用于指定數據挖掘任務中要找的模式類型。一般地,數據挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻畫數據庫中數據的一般特性;預測性挖掘任務在當前數據上進行推斷,以進行預測。
數據挖掘在學生的招生與就業工作中發揮著作用。有學者通過對歷年的招生信息的分析研究,提出了修改招生計劃的指導意見,變被動招生為主動招生。在就業工作方面,也有人通過對歷年學生的在校表現和就業情況進行綜合分析,提出有相應的分類指導意見。
關聯規則是數據挖掘的一個重要分支,最初其研究對象為交易數據庫,主要目的就是發現交易數據庫中交易項目之間是否存在某種關系,后來又推廣到關系型數據庫,主要目的是從數據庫中挖掘出項集之間的關聯規則。規則的支持度和置信度是規則興趣度的兩種度量。
關聯規則的挖掘主要包括以下兩個主要過程:首先是找出所有頻繁項集,這些項集出現的頻率至少和預定義的最小支持計數一樣。其次是由頻繁項集產生強關聯規則:找出的關聯規則必須滿足最小支持度和最小置信度。
2.2關聯規則分類。
根據分類的標準不同,關聯規則可以有以下幾種分類方式:基于規則中處理的變量類別分類、基于規則中數據的抽象層次分類和基于規則中涉及的數據維數分類。
根據規則中處理的變量的值,可以將規則分為布爾關聯規則和量化關聯規則。布爾型關聯規則顯示了這些變量之間的關系,而量化關聯規則通常是在處理數值型數據時對數值進行分段量化得來的。根據規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則,兩者的區別在于是否涉及不同層次的數據項。如果不涉及不同層次的數據項,得到的是單層關聯規則。在不同抽象層次中挖掘出的關聯規則稱為多層關聯規則。根據關聯規則所涉及的數據維數不同,可以分為單維關聯規則和多維關聯規則。如果關聯規則各項僅涉及一個維度,則稱之為單維關聯規則。如果關聯規則涉及兩個或兩個以上維度,則稱之為多維關聯規則。
3.助學系統關聯規則挖掘
通過開展助學工作,學校已基本形成了助學貸款、獎學金、困難補助、勤工助學和社會助學等五大幫困助學措施,同時也積累了相當多的與助學有關的信息。通過初步分析,可能影響學生就業的諸方面因素有:學生的獎學金獲得情況、貸款額度、勤工助學表現、學歷、專業,等等。助學系統關聯規則挖掘就是希望對以上因素進行分析,找到一些有實際指導意義的規則。整個助學系統數據挖掘大體上分成數據的搜集、清理、集成、變換等預處理工作和關聯規則挖掘工作。
3.1助學系統數據預處理。
3.1.1數據采集
助學系統涉及學校的多個部門,如學生處負責管理獎學金評定等;招生與就業指導辦公室負責管理學生的生源信息和就業信息;財務處負責管理學生的助學貸款信息等;教務處負責管理學生的學籍信息和成績信息等。勤工助學因為涉及多個部門,由設置勤工助學崗位的部門或學院負責對學生的日常考核,匯總工作則由學生處負責完成。
3.1.2數據清理
收集到的學校學生信息有其自身的特點:數據比較完整、數據值的可信度比較高,但是由于有些原始數據是由人工處理完成的,空值的出現不可避免。比如就業信息表中,就有部分記錄信息不完整。通常正常畢業的學生采集的數據基本上比較完整,而對于休學、延學、參軍、結業等不能按時完成學業的學生來說,就業系統中只會保存他們的一些最基本信息。對于這些空值可以考慮將這些信息從就業信息表中移除出去或用約定方法進行數據填充。
同時由于各部門處理數據的側重點、操作人員的處理習慣等各有不同,造成即使是相同的信息也會出現不同表示。例如同樣是表示專業名稱信息,有些部門使用專業名稱全稱,而有些則使用簡稱。對于這樣的情況,可以通過給出標準數據,將其他數據統一改寫成標準數據形式。
3.1.3數據集成
數據集成則是將多個數據源中的數據結合、存放在一個一致的數據存儲中。將多個數據源中的數據集成起來,能夠減少或避免結果數據集中數據的冗余和不一致性。由于歷史和技術普及等多方面的原因,造成數據存儲有多種形式。比如就業信息多以DBF文件格式存儲,而在學校內部,辦公處理軟件的使用率比較高,多數老師習慣于將數據以Excel電子表格或Word文檔形式進行保存。助學系統數據挖掘所處理的數據也是以上述幾種格式為主。在進行數據挖掘前需要對這些以不同形式存儲的數據進行處理,轉換成單一形式。
3.1.4數據轉換
數據轉換就是將數據轉換或歸并已構成一個適合數據挖掘的描述形式,用更抽象、更高層次的概念來取代低層次或數據層的數據對象,將有關屬性數據按比例投影到特定小范圍之中。助學系統的各數據表的屬性通常有大量的不同的屬性值,這時就應當進行進一步概化。
如學生貸款信息中“貸款金額”,該屬性就存在大量不同的值,貸款金額在很大程度上反映了學生的家庭經濟狀況。為了使該信息適用于數據挖掘,就需要對年均貸款額進行概化。在助學系統數據挖掘中,要找出學生在校表現與就業信息的關聯,就離不開就業單位信息。但是學生的就業單位重復率低,存在大量不同的就業單位信息。在挖掘中就不能直接使用就業單位信息,將就業單位按性質進行分類后該數據就比較適合進行數據挖掘了。除了上面提到的一些需要概化處理的信息外,還有勤工助學考核信息、專業信息、生源地、就業地、成績、性別和本專科類別等也需要加以處理。
3.2生成關聯規則。
對數據進行清理和轉換后,再通過“學號”匹配可以將助學系統的各數據表連接成信息總表,這時的數據可以更為有效地進行關聯規則數據挖掘。
關聯規則的生成是整個系統的核心工作。應用數據挖掘技術對收集的助學系統數據進行挖掘分析,可以發現隱藏在數據中的有用的知識,并將其提取出來供學校和相關教師參考。經典Apriori算法的基本思想將關聯規則的生成大體上劃分成了兩步:產生頻繁集和生成強關聯規則。
在搜索頻繁k項集時,首先要找出頻繁1項集。在完成對數據的預處理后,求取頻繁1項集只需簡單地掃描信息總表,對每個項的出現次數計數,生成候選1項集。再通過設置最小支持度計數,篩選生成頻繁1項集。找到頻繁1項集后,通過將頻繁1項集與自己進行連接生成候選2項集。再對得到的候選2項集的出現進行計次,滿足最小支持度計數的予以保留,生成頻繁2項集。依此類推生成頻繁k項集。當頻繁k項集生成以后,對于任意一個頻繁k項集,找出其中所有可能的真子集,作為關聯規則的前件,計算相應規則的置信度。當某一規則的置信度大于給定的最小置信度時,輸出該規則。
3.3規則分析。
通過挖掘系統生成的規則,首先需進行符號轉換,將之前預處理時編碼化的數據還原成原始信息。得到轉換后的規則應該進行理解和分析。通過初步分析,挖掘出的規則大致可以分成符合預先設想的和之前未被發現的兩類。
例如曾獲得過獎學金并且貸款額度中等的學生比未獲獎學金且貸款額度中的支持度小,說明前者的人數較后者少;同時前者的置信度高說明獲得獎學金的同學有更多的就業機會。這些都符合先驗知識。而有些規則無法用先驗知識解釋,比如同樣是參加勤工助學活動,在寧波女生就業比例比男生高。這從一個側面說明女生同男生相比,更傾向于在自己熟悉的環境中就業。
4.結語
本文以寧波工程學院助學系統為依托,深入開展了關聯規則數據挖掘工作。首先,完成了助學系統的數據預處理。通過對原始數據的清理、集成和轉換,將這些數據初步加工成適用于關聯規則挖掘的數據。其次,完成關聯規則挖掘算法的實現,建立針對以上預處理數據的關聯規則挖掘系統,在引入挖掘原始數據后進行數據挖掘。最后,利用挖掘系統對收集的數據進行關聯分析,生成關聯規則。學生通過對關聯規則的理解和分析,產生對貧困生就業有指導性價值的意見。
參考文獻:
[1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.
[2]Jiawei Han,Micheline Kamber.范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[3]王登.數據挖掘技術及其在高校素質教育應用中的探討[J].現在電子技術,2007,4:95-97.
[4]劉鵬,孫莉,趙潔,等.數據挖掘技術在高校人力資源管理中的應用研究[J].計算機工程與應用,2008,44(10):201-233.
[5]康振華,趙燕麗,周金剛.數據挖掘在高校就業工作中的應用研究[J].中國科教創新導刊,2007,474:86-87.
基金項目:寧波市教育科學規劃課題2009-46。