孫潔 黃承寧
摘要:數據挖掘是指通過算法從大量數據中挖掘隱藏值和信息的過程。Aprioir算法是數據挖掘關聯規則中的經典算法。它已廣泛應用于網絡安全、商業、教育等領域。該文研究并改進了Aprioir算法,并將改進后的算法應用于招生信息的數據挖掘。通過對高校招生數據的深入和詳細的分析和挖掘,發現高校招生數據間的關聯性,這對招生工作起到指導作用。
關鍵詞:數據挖掘;Apriori算法;招生數據
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)05-0084-02
隨著高等院校招生規模的增加、高考生源數量的逐年減少以及二本和三本變為同一批次招生,這些都給獨立學院招生帶來了巨大的壓力。
因為招生決策數據量大、涉及面廣,采用基于經驗的招生方法,無法保證招生工作的高效性。因此,數據挖掘技術可以用來挖掘和分析過去積累的大量招生數據,從而發現數據間關聯關系,獲取有價值的信息,降低招生宣傳的經濟成本,提高招生質量,提高了獨立學院的新生入學率。
1 Aprioir算法及算法改進
1.1 Aprioir算法
Apriori算法是基于兩階段頻集思想的遞推算法,是最有影響的挖掘布爾關聯規則頻繁項集的算法之一。該關聯規則在分類上屬于單維、單層、布爾關聯規則[1]。
1.2 Apriori算法的改進
經過使用和分析,Apriori算法存在以下問題:
1)在每一步產生候選項目集時,迭代產生的組合過多,不應該參與組合的元素沒有被排除,而迭代過程的候選頻繁項集是在計算機內存中產生、存儲和處理的,這使得算法適應能力較差[2]。
2)每次計算項目集的支持度時,都會掃描和比較數據庫中的所有行。當數據量較大時,這種掃描會大大增加計算機系統的輸入\輸出開銷。而這種開銷是隨著數據庫的行的増加呈現出幾何級數的増加。
基于Apriori算法存在的問題,下節將對該算法的改進行闡述。
1.2.1 Apriori改進算法---數據規模劃分
改進算法的主要思想是將數據挖掘的數據分為N個規模大致相同的部分,對每個子部分分別進行數據挖掘,最后進行合并。
該算法按照以下步驟完成:
第一步:將數據庫劃分為N個部分,每個部門數據大致相同;
第二步:毎個子部分將分別產生一組潛在頻繁項目集;
第三步:將這些頻繁項目集合并成一個候選頻繁項目集;
第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。
1.2.2 Apriori改進算法---增加屬性列
將數據庫劃分為N個規模大致相同的子部分后,對每個子部分進行數據挖掘。在前一節中改進算法的第二步中,為每個事務添加一個指定事務包含的項個數的屬性列。
進一步改進的Apriori算法,其算法思想如下:
第一步:將數據庫劃分為N個部分,每個部門數據大致相同;
第二步:毎個子部分將分別產生一組潛在頻繁項目集:
1)為事務添加一個指定事務包含的項個數的屬性列。
2)如果事務包含的項個數大于或等于N,則計算頻繁N項集;否則將其刪除。
第三步:對單個項目集進行整理和合并,可以得到全部候選頻繁項集。
第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。
在生成頻繁N項集時,Apriori算法需要全部事務來驗證候選N項集,而事務長度大于或等于N的事務才屬于頻繁N項集,反之則不屬于[4]。改進的Apriori算法只保留事務長度大于或等于N的事務,并在這些事務中搜索頻繁N項集[5]。
2 數據準備
2.1 數據分析
改進算法后,基于院校的需求,對招生數據進行數據清洗和數據挖掘,下面對部分數據做簡要描述:
1)考生基本情況表:主要包括考生號、姓名、性別、出生年月、考生類別、考生戶口所在地區、考試類別等內容。
2)成績與志愿信息表:主要包括高考成績、投檔成績、填報專業、退檔原因、錄取專業等內容。
3)專業計劃庫代碼對照表:主要包括批次、科類代碼、投檔單位、專業代號、專業名稱、專業種類、計劃人數、計劃執行數等內容。
4)考生類別代碼對照表:主要類別包括:農村應屆、農村往屆、城鎮應屆和城鎮往屆。
5)考生報到情況表:主要包括考生號、姓名、報到情況代碼、報到情況等內容。
2.2 數據清洗
針對招生信息,主要從以下幾個方面對數據進行清洗:
1)有效性檢驗。檢驗數據是否在合理的有效范圍。例如性別只能為“男”或者“女”等。
2)刪除字段。例如視力、健康狀況等字段雖說很重要,但如果作為數據挖掘的數據源,卻不合適,而且還要浪費資源,對于這樣的數據應該刪除。
3)轉換字段。比如各省的高考成績組成不同,使用成績來表示高或者低是不合理的,可對其分區間,例如在不同范圍內認為是成績差,成績中,成績良和成績優。再比如考生生源地,可采用編號來代替字符描述,例如01表示云南省,02表示四川省等等。
4)統一數據。因為不同地區的考生數據有不一致的情況,需要將類似的字段進行統一。
3 招生信息數據挖掘
3.1 數據挖掘步驟
改進后的Apriori算法應用到招生信息數據挖掘中分四個步驟:
1)將原始數據進行清洗。
2)將清洗好的數據輸入數據挖掘系統,設定最小支持度。
3)使用改進的Apriori算法對清洗好的招生信息進行挖掘,保存計算得到的頻繁項集。
4)分析數據挖掘的結果。
3.2 數據挖掘結果分析
1)高考成績與報到率的聯系
分析結果顯示:2018年該學院錄取的考生中以某省為例,報到率較高分數集中在最低檔(將高考成績按照分數分為四檔,分別是最低檔、中等檔、良好檔和優秀檔)。
2)專業與報到率的聯系
分析結果顯示:2018年該學院錄取的43個專業中,計算機科學與技術、財務管理、軟件工程、機械工程、土木工程等專業報到率較高,均達到96%以上。
3)考生生源與報到率的聯系
分析結果顯示,2018年該學院共在23個省投放置招生計劃,其中省份編號為19、20、21、22、23的考生報到率較高,均在97%以上。
綜上所述,通過以上的數據挖掘結果,對獨立院校招生錄取工作提出幾點建議:
1)高考分數偏低的生源報到率反而較高,針對這一現象,學院應該采取一些鼓勵高分學生的措施,例如,高分可保證第一志愿錄取等,以降低優質生源的流失率,從而提高在校學生的整體素質。與此同時學校在錄取時,在給分數偏低的學生退檔時要慎重選擇,否則會影響學校的報到率。
2)生源地不同,報到率也不同,報到率偏低的幾個省份大多都是生源大省,每年高考高分的學生也較多,學校應該加強對這些省份的招生宣傳力度,讓更多的考生了解學校的特色和優勢,愿意報考學校,減少優質生源的流失。
3)學校錄取專業中經濟學和管理學等專業的報到率稍偏低,工學的學生報到率較高,學校應依據市場需求和考生需求對專業設置和招生人數做動態調整,從而降低學生的流失率。
4)學校要關注高考低分段但被錄取為工學專業或報到率高的生源地學生,要穩定這部分報到率較高的生源,防止其流失。
參考文獻:
[1] 姜鑫.數據挖掘技術在水電廠主設備狀態檢修中的應用研究[J].水電廠自動化,2014(4).
[2] 陳立寧. 一種用于預估MOCVD工藝結果的改進方法[J]. 電子工業專用設備,2015(8):10-14.
[3] 李橋.數據挖掘在教學質量評價中的應用研究[D]. 長沙:中南大學,2010.
【通聯編輯:光文玲】