桑冬青
(淮南職業技術學院,安徽 淮南 232001)
關聯規則在煤炭類高校招生工作中的應用
桑冬青
(淮南職業技術學院,安徽 淮南 232001)
本文結合煤炭類院校的具體情況,介紹了關聯規則技術的定義及關聯規矩的典型算法,探討了把基于關聯規則的數據挖掘技術應用到煤炭類特色的院校的招生工作中,對煤炭主體專業的相關數據進行預處理,提取挖掘出有效的關聯規則進行分析,用于指導院校在合理專業設置、有效開展宣傳、服務社會等各方面的工作的正確決策.
數據挖掘;關聯規則;招生;煤炭類高校
近幾年,參加高考的考生數量逐年減少,高職院校之間的招生競爭日趨嚴重,保證招生已成為各高職院校生存與發展的關鍵.因此各院校如何有針對性的編制招生計劃,對保障院校在專業建設的合理性、專業發展、有目的專業重點宣傳方面,同時對提高新生報到率方面,變得尤為重要.
筆者所在的學校,作為企業辦學特色院校,許多專業的設置具有明顯的行業相關性,隨著近幾年煤炭行業的起伏變化,對本校的行業特色專業的招生也造成了明顯的影響.
以往招生工作的傳統的直覺經驗式的招生計劃投放方式,在當前的嚴峻形勢下已不能滿足要求.本文試圖采用數據挖掘中的關聯規則針對招生數據進行挖掘分析,發現更準確的有價值信息,為招生相關工作的決策提供支持.
關聯規則表示不同數據項目在同一事件中出現的相關性,就是從大量數據中挖掘出關聯規則.關聯規則分析用于發現隱藏在大型數據集中的有意義的聯系.在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構.
關聯規則算法是數據挖掘技術中重要的一類算法.1993年,R.Agrawal等人首次提出了挖掘顧客交易數據中項目集間的關聯規則問題,其核心是基于兩階段頻繁集思想的遞推算法.該關聯規則在分類上屬于單維、單層及布爾關聯規則,其中的代表算法是Apriori算法.Apriori算法將發現關聯規則的過程分為兩個步驟:第一步通過迭代,檢索出事務數據庫中的所有頻繁項集,即支持度不低于用戶設定的閾值的項集;第二步利用頻繁項集構造出滿足用戶最小信任度的規則.其中,挖掘或識別出所有頻繁項集是該算法的核心,占整個計算量的大部分.
本文用來挖掘的數據為某院校的實際招生數據,其中包括了近五年的全部錄取數據和新生報到數據.數據包括的字段:考生號、姓名、錄取專業、性別、畢業中學、投檔成績、考生類別、科類等,其中錄取專業歷年計劃有所不同.
從已有的數據源來看,可以有各種不同的挖掘思路,生成多種挖掘結果.本文結合數據來源院校的特色,只挖掘與院校特色相關方面的數據,從中分析行業變化對招生工作的影響.
本文挖掘的煤炭相關院校,通常情況下在確定每年的招生計劃都會參考往年的招生數據,重點調整煤炭主體專業和煤炭相關專業計劃.當然由于需要參照的變量很多,不可能一一涉及,本文主要從煤炭相關的數據進行挖掘分析,然后有針對性的投放煤炭主體專業和煤炭相關專業的招生計劃.其中考生的生源地分析后,可以考慮煤炭高度相關的地區,重點進行招生宣傳.當然,不可否認由于行業的高度相關,煤炭行業的變化對煤炭主體專業和煤炭相關專業的報考也是相當敏感.通過相關的挖掘,及時對煤炭主體專業和煤炭相關專業的計劃調整將至關重要,避免招生計劃的白白流失,促進學院的健康發展.
對于已有數據字段值過于離散,對問題分析不具有代表性,必須把離散的字段數據進行高層次的抽象和概括,把數據進行規約,更有利于挖掘出有效的、有價值的信息.
結合以上提出的問題,對待挖掘數據進行分析,本文主要處理“錄取年份”、“考生號”、“錄取專業”、“畢業中學”、“考生類別”這幾個字段的數據,如表1所示.為了滿足關聯規則算法的要求,必須對數據進行泛化處理.通過結合煤炭相關概念,把“錄取專業”、“畢業中學”進行煤炭特色化處理,挖掘煤炭行業變化對招生的影響.

表1 招生數據表
需要進行泛化的數據如下:
3.2.1 錄取專業
錄取專業本身屬于離散型數據,同時它是直接影響考生報考的數據,并且錄取專業也是高度的行業相關.結合數據源院校的煤炭行業相關,錄取專業的泛化主要考慮煤炭因素對考生的報考、招生專業設置的影響.煤炭專業和煤炭相關專業占學院的生源構成比重大,也是學院的辦學特色.通過數據挖掘可以清楚,哪些地區的考生是招生的重點.同時通過數據挖掘判斷行業的變化對招生的影響到底有多大.考慮到院校所在地的特殊性,把錄取專業泛化為如下幾種情況:煤炭主體專業、煤炭相關專業、社會專業.
3.2.2 畢業學校
畢業學校作為離散型的數據,考慮到煤炭行業所在地的學校報考煤礦主體專業和煤炭相關專業的幾率較高,可以把畢業學校泛化成本地煤礦學校、外地煤礦學校、本地社會學校和外地社會學校.通過以上畢業學校的泛化,進行數據挖掘,希望發現那些地區的中學是煤炭主體專業和煤炭相關專業的報考生源地.把挖掘結果分析作為招生工作的決策依據,有重點、有針對性的進行招生政策實施.
3.2.3 考生類別
考生類別包括農村應屆、城市應屆、農村往屆、城市往屆四種情況,不需要進行泛化,引入考生類別進行數據挖掘,可以更有針對性的對生源進行有效的招生宣傳工作.
3.2.4 錄取年份
對錄取年份的數據挖掘,主要是考慮可以縱向對比每年的招生變化情況,指導學院有效的調整招生計劃,合理的設置今后的招生專業.
根據以上描述方法,首先將近五年的招生數據進行數據預處理,對待挖掘數據進行泛化處理后的數據如圖1所示:

圖1 泛化后的數據
基于關聯規則的頻繁項集算法比較多,本文采用比較成熟的Apriori算法進行挖掘.挖掘軟件采用業界久負盛譽SPSS Clementine 12,Clementine結合業務需求可以快速建立預測性模型,進而應用到各種數據挖掘研究工作中,幫助人們改進決策過程.
考慮到近五年每年的專業招生人數的變化,有的年份部分專業招生人數占總人數相對少的情況,為了加大挖掘結果的分析力度,支持度不應設置高,故而Min Support設置為4%較為合理.
對于最小置信度的選擇,結合本文的挖掘需求,為了通過關聯規則的挖掘,更好的分生源的某種變化,配合傳統分析對招生工作進行指導,并不是一定為了找到某種強關聯規則.因此本文把Min Confindence設置為20%較為合理,這樣可以挖掘出足夠多的關聯規則用于對比分析.
根據以上分析,設置好最小支持度和最小置信度,進行數據挖掘,最終生成如圖2所示的關聯規則集.由圖2所示,挖掘后生產了多達131條的關聯規則,結合前面提出的挖掘問題,接下來從幾方面對挖掘出的關聯規則進行分類分析,找出有價值的信息.

圖2 挖掘后的關聯規則
4.2.1 提取有效規則
分析挖掘出的大量關聯規則,把煤礦主體專業對應的關聯規則單獨挑出來,如表2所示.其中支持度表示生成規則的最小支持度,置信度表示生成規則的最小置信度.

表2 煤炭相關關聯規則表
4.2.2 結果分析與應用
根據以上提取的關聯規則,橫向分析煤炭主體專業的報考熱度是本地煤礦學校>本地社會學校>外地社會學校,這就是說學校對于煤礦主體專業的宣傳重點應該放到本地來開展,尤其是本地的煤礦所在地區的學校是重中之重,更要特別重視.對于煤礦相關專業來看,外地學??忌膱罂紵岫纫黠@大于本地考生.
縱向分析煤炭主體專業的報考熱度來看,在2013年達到最高峰,從規則來看2013年以后煤炭主體專業的報考熱度急劇下滑,這應該是受到煤炭行業的不景氣的影響,使得報考考生不在愿意報考煤礦專業.所以從2015年開始,院校在進行專業計劃申報時就應該相應的減少煤礦主體專業的計劃數,以免浪費招生計劃,影響學校的招生.同時學校也要及時的調整專業建設思路,合理性的進行專業建設,促進院校的專業有序發展.
當然,挖掘出的大量關聯規則,還可以從其他角度來提取有效規則來分析,從多個角度來指導院校的招生宣傳工作,由于文本有限就不在進行一一展開了.
把基于關聯規則的挖掘技術應用于院校的大量的招生數據挖掘,從中提取出各種對招生工作有價值的規則信息,對當前嚴峻的院校招生工作的價值是不可估量的.有了正確的信息,院校在合理專業設置、有效開展宣傳、服務社會等各方面的工作才能正確決策,從而保證提高新生報到率和提高生源的質量.尤其對當前各院校都在積極建設地方技能型高水平大學更是具有指導意義.
〔1〕侍穎輝.數據挖掘技術在職校招生決策系統中的應用[J].職業,2008(26):26-27.
〔2〕李霞.數據挖掘在高校教學和管理中的應用研究[J].廣東外語外貿大學學報,2012(04):97-100.
〔3〕朱麗麗.數據挖掘在高校招生中的應用研究[J].計算機與現代化,2012(8):190-194.
〔4〕王志浩.關聯規則算法在中職招生宣傳中的應用[J].中國西部科技,2010,9(22):53—53.
〔5〕李虞軍,暫天奇.一釋改進的加梗關聯提一挖曩方法[J].計算機工程,2010,35(7)t5s-57.
〔6〕DIlnhm M H.數據挖掘教程[M].北京:清華大學出版牡,2005.
〔7〕[美]Olivia Parr Rud.數據挖掘實踐[M].北京:機械工業出版社,2003.
〔8〕成平廣.ID3算法在高校招生決策中的應用研究[J].重慶教育學院學報,2008,21(3):4446.
〔9〕趙文文.數據挖掘技術在生源分析中的研究實現[D].綿陽:西南科技大學,2006.
〔10〕姜燕生,李凡.數據挖掘中的數據準備工作[J].湖北工學院學報,2003,18(6):35-38+42.
〔11〕侍穎輝.數據挖掘技術在職校招生決策系統中的應用[J].職業,2008(26):26-27.
〔12〕徐健.數據挖掘技術在高校招生信息處理中的應用[J].農業網絡信息,2013(11):133-137.
〔13〕何小明,張自力.基于OLAP與數據挖掘的高考招生數據分析[J].計算機科學,2012(06):175-187.
G642
A
1673-260X(2017)09-0150-03
2017-06-29
2016安徽省高校自然科學研究項目(KJ2016A676)