劉峰 王玉吉 周克復 馬英杰
摘 要:隨著信息技術在高校教學管理、學生管理工作中日益廣泛而深入的應用,高校招生管理系統與教學管理、學生管理系統的信息對接顯得尤為重要,只有對招生管理系統中的信息進行深度的挖掘,才能使教學、學生管理系統獲得高質量的數據輸入。高校招生信息的充分有效利用將有效促進高校教學、學生、招生管理工作的規范化、信息化、自動化水平,本研究對數據挖掘技術在高校招生數據中的運用進行了有益探索。
關鍵詞:數據挖掘;招生信息
隨著高校間生源競爭的日趨激烈,招生宣傳工作越來越受到高校管理者的重視,而科學、深入地挖掘招生數據中潛在的、隱藏的規律,能夠大大提高招生宣傳工作的針對性,從而增強宣傳效果。通過數據挖掘技術,可以對招生系統積累的海量招生數據進行挖掘和提煉,對簡單的數據進行多維分析、合并歸類和高度集成,從而挖掘出隱藏于數據間的潛在聯系,獲取有價值的信息。基于挖掘結果,高校教學管理、學生管理、招生管理工作者可以透視數據間的各種特征和關系,大大提高決策水平和管理水平,有效增強學校競爭力。
1、數據挖掘技術
數據庫規模日益擴大產生了繁雜的海量數據,要從這些海量數據中發現潛在的、有用的信息,成為一項重要而艱巨的任務,而數據挖掘技術正是在這種需求的背景下應運而生。數據挖掘是指從海量數據中自動搜索隱藏的、潛在的、有用的信息的過程。數據挖掘的結果一般以概念、規則、規律、模式、約束、可視化圖表等形式表現,通過決策支持工具提供給決策者使用。
數據挖掘的主要任務包括關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等等,數據挖掘的主要任務可以分為預測性任務和描述性任務兩大類。數據挖掘的主要過程包括數據準備、數據挖掘和知識表示,數據準備包括對數據的集成和選擇,數據挖掘階段是最核心的環節,需要確定挖掘模式并選擇合適的算法工具,知識表示是數據挖掘的最后也是最重要階段,決定了信息最終將以何種形式呈現給用戶。數據挖掘技術中常見的算法包括聚類算法、關聯算法和歸類算法等,聚類算法將樣本點按照屬性特征進行無指定標簽歸類,確保同類樣本點的極大相似和不同類樣本點的極大差異,關聯規則算法則用于發現隱藏在大型數據集中令人感興趣的關聯,分類算法則通過一定的訓練算法來學習分類知識,然后將分類知識用于樣本集。
2、分析普通高校招生信息處理存在的問題
我國普通高等學校的主要生源來自普通高考,普通高考錄取工作通過教育部組織開發的高等院校招生錄取系統進行,該系統導出的數據規范、豐富、詳細,但其功能僅限于網上錄取工作,如何利用好系統導出數據卻成為錄取后續相關工作的軟肋。按照現有管理模式,招生系統數據僅僅是在校內經過簡單的傳送、轉發后流向相關職能部門,對于數據的利用也僅僅限于簡單的查詢、統計、備份,并沒有充分發揮出其作用,現代化、信息化的高校教學和學生管理工作也迫切需要更有價值的信息作為系統輸入,而數據挖掘技術恰恰能夠較好地滿足高校信息處理需求。將數據挖掘技術用于高校招生數據處理,是高校管理信息化、自動化、現代化的必然選擇。
3、功能的實現
可以建立招生信息管理系統來對海量招生數據進行挖掘。招生信息管理系統的目的是承接全國網上招生系統數據輸出,整合高校教學和學生管理部門數據積累,在海量數據的基礎上,形成全校數據整合、集成、處理平臺,向高校相關職能部門提供信息查詢和決策支持。招生信息管理系統包含信息維護模塊、信息查詢模塊、入校管理模塊、決策支持模塊四個基本功能模塊組成,其中決策支持模塊是實現數據挖掘算法的主要模塊,該系統基于三層構架,挖掘算法邏輯運行于JugarCTS中間組件,可以大大提高運行效率。在數據挖掘的實現上,使用微軟的SQLServer2000 AnalysisServices,該系統能夠提供數據挖掘中間服務,對決策樹、聚類算法等數據挖掘算法均能提供較好的支持。
4、普通高校招生信息處理中數據挖掘技術的應用
4.1挖掘的過程
數據準備階段的主要工作包括將來自招生、教務、學生管理系統中的數據進行集成,然后根據實際需要對集成數據進行選擇,以縮小處理數據量。實施挖掘階段先采用發現型數據挖掘,為用戶提出預先假設,然后選擇合適的算法工具,在本文中主要采用了聚類算法、決策樹歸納算法和頻繁項集關聯規則算法,進而由招生信息管理系統實現算法邏輯,最后依靠決策支持技術對挖掘結果進行整理后呈現給用戶。在整個挖掘過程中,數據準備是十分重要的基礎性工作,數據準備質量的高低,直接決定了挖掘工作能否達到預設目的。數據準備工作主要包括聚集、抽樣、維歸約、特征子集選擇、特征創建、離散化和二元化、變量變換,聚集工作是數據對象合并過程,抽樣工作將使挖掘工作集中于有意義的、感興趣的數據范圍內,維歸約可以刪除數據中不相關的特征并降低數據噪聲從而避免維災難,特征子集的選擇去除了冗余特征和不相關特征,特征創建可以選擇性地開發新的數據特征,最后,連續屬性可以通過離散化來轉換成適合數據挖掘算法的離散屬性。
4.2生源關聯分析和生源前景預測
使用關聯規則對歷年積累的生源信息進行深入挖掘,發現生源層次、專業、地域、畢業高中、科類間的潛在聯系和規律,從而為招生宣傳工作提供決策支持。使用Apriori頻繁項集算法對學生數據進行挖掘并生成關聯規則,可以發現和預測生源信息屬性間存在的關聯規律,從而支持教學管理工作中的生源特征分析和招生管理工作生源結構預測。使用決策樹作為分類器,用信息增益度作為屬性測試條件選擇的度量依據,運用決策樹算法構造決策樹,在海量招生數據中提取知識,以預測可能的生源變化,發現測試屬性對制定招生來源計劃的影響,在此基礎上,對專業設置和分省分專業招生計劃作出合理調整。
4.3學生分班管理
使用聚類算法,綜合新生高考總成績、單科成績、政治面貌、性別、地域等信息進行分析,在分班過程中注重屬于不同組類學生之間的平衡,防止具有相同綜合特征的學生過于集中于一個或某幾個班級。由于新生數據屬于低維數據,因此可以使用自下而上的聚合層次聚類算法,通過樹狀圖對作為原子聚類的新生數據對象進行逐層聚合,直至聚合終止條件被激活。聚類算法對于分班管理具有重要意義,使用傳統的分班方式容易導致“以偏概全”,即偏重于單項指標而難以達到整體指標的平衡,從而給后續教學、學生管理帶來諸多問題。
4.4人才選拔管理
可以從系統數據和電子檔案中抽取反映新生個性特征、興趣志向、認知能力的數據字段,使用聚類算法對信息進行提取、分析、歸納、總結,從而發現符合特定特征標準的群體,在入校一段時間以后,還可以對學生日常成績信息進行篩選、融合,對學生成長定位進行傾向性預測,達到增強人才培養工作針對性的目的。使用ID3決策樹歸納算法對學生成績信息、日常評價信息進行深入分析,并訓練出學生發展定位前景分類器,根據此分類器可以對學生的發展定位特征做出預測,并在此基礎上增強人才培養工作的針對性。ID3算法以決策樹作為分析工具,將信息增益度作為條件測試屬性選擇的依據(決策樹節點),該算法理論清晰,算法簡單,具有較好的總預測準確率。
綜上所述,數據挖掘作為將傳統數據分析方法與處理大量數據的復雜算法相結合的新手段,已經成為信息管理和決策支持領域的前沿研究方向之一,應用將越來越廣泛。高等院校招生數據積累量大,格式規范,因此非常適用于現有數據挖掘算法的使用,將數據挖掘技術應用到高校招生信息處理工作中,必將為高校教學管理、學生管理、招生管理提供有價值的決策依據信息,對于提高高校管理規范化、信息化水平,提高生源數量和質量具有顯著意義,值得普遍推廣應用。
參考文獻:
[1] 許碩. 數據挖掘技術在民辦高校招生中的探索[J]. 遼寧師專學報(社會科學版). 2013(04)
[2] 孫曉瑩,郭飛燕. 數據挖掘在高校招生預測中的應用研究[J]. 計算機仿真. 2012(04)