王亞娜
(南京審計大學金審學院,江蘇 南京 210000)
在高校學生培養及就業指導工作中,學生的成績數據、選課數據、就業數據可為工作的開展提供充足依據,通過針對性開展數據挖掘,即可有效提升工作質量。數據挖掘本質上屬于一種工具,為保證其能夠較好用于高校學生培養及就業指導,必須結合高校實際針對性設計數據挖掘模型,這一模型的設計正是本文研究的重點所在。
在數據挖掘技術支持下,通過收集高校各專業歷年來的就業數據,如畢業生就業地域分布比例、行業分布比例、升學率、就業率,并基于歷史數據開展縱向比較,即可實現對就業市場的準確監控。通過針對性的數據挖掘,即可明確專業在不同地區的受歡迎程度,用人單位門檻和需求也能夠由此得以明確,由此深入了解行業現狀及就業前景,即可為學生培養和就業指導指明方向。此外,還應圍繞畢業生背景信息開展的深入的數據挖掘,通過圍繞畢業生個人信息、就業基本意象、特長、專業等因素開展深入挖掘,即可通過針對性的劃分提高就業指導效率和針對性。結合行業數據開展宏觀比較,高校可最終總結出各層次同學的就業標準、待遇級別的差異、不同(專業、成績)人才的簽約單位,并通過圖表直觀向畢業生傳遞相關信息,信息閉塞對大學生就業帶來的困擾可由此得以有效消除,很多大學生存在的盲目求職問題也能夠有效規避[1]。
數據挖掘技術也能夠較好服務于高校學生的培養,這一培養主要通過結合數據挖掘成果的教學改革實現。在高校教學改革過程中,必須設法實現社會需求與專業設置的統一、崗位針對性與社會適應性的統一、社會實踐與專業學習的統一、適度靈活性與專業穩定性的統一,配合完善的專業預警機制,即可為專業教學改革提供充足動力。在具體實踐中,可采用數據挖掘技術全面分析高校各學科門類就業狀況,并關注不同地區存在的人才培養要求特殊性,貫徹“以市場為導向”原則。高校可結合各類招聘會成果狀況,匯總合作頻率較高企業的資料,以此加強彼此合作,通過校企辦學互動,即可推進大學生的綜合發展,人才對口培養模式的應用價值也需要得到重視。此外,專業就業前景分析、專業的社會需求變化同樣需要得到重視,通過大力補修前沿學科、堅持就業導向原則、明確專業社會需求“警戒線”、推進專業細分、拓展式培養社會需求度高的專業能力、強化教學實踐、探索新型校企合作模式,專業教學改革的推進、數據挖掘技術價值的發揮、高校學生培養水平的提升均可由此實現[2]。
在應用數據挖掘技術的高校學生就業指導中,可靈活采用自主式與廣播式的就業指導模式,自主式就業指導模式要求學生基于數據挖掘因子自主檢索就業信息,并輔助解決學生很容易出現的就業內容掌握不清問題,以此提高學生求職積極性。廣播式就業指導模式需得到高效就業指導數據庫的支持,該數據庫不同于大學生就業指導系統數據庫,這是由于傳統的就業指導系統數據庫往往無法真正體現就業指導的價值,相關人員也無法準確了解大學生就業需求,大學生的積極性往往會因此受到打擊。因此高校可針對性升級大學生就業指導系統數據庫,通過引入數據挖掘技術,定期展示數據挖掘成果,就業指導即可在數據支持下更為針對性,大學生也能夠由此更好找到自己心儀的工作。
為保證數據挖掘技術更好服務于高校學生培養及就業指導,首先需明確挖掘對象,結合相關研究及實踐,本文選擇學生基本情況信息、學生學籍和成績情況、學生就業信息作為挖掘對象,主要包括學號、專業、姓名、性別、班級、政治面貌、獲獎情況、實踐能力、學習成績、外語水平、本人聯系方式、簽約單位、就業狀態、經濟情況、生源地。
確立挖掘對象后,即可針對性建設挖掘數據庫,設計采用Windows系統、B/S架構、SQL Server2012,開發語言選擇C#。在數據庫的建立過程中,需將收集到的包含學生基本情況信息、學生學籍和成績情況、學生就業信息的3張表格內容導入數據庫,生成一張新的就業數據表格,由此數據采樣即可滿足挖掘數據倉庫建設需要。
數據預處理包含數據清理、數據集成、屬性規約三部分內容,以此避免數據空缺、不一致、存在噪聲等問題影響數據挖掘效果,而通過數據預處理提高數據“質量”,即可更好滿足數據挖掘需要。數據清理環節主要負責數據補缺、平滑噪聲、不一致錯誤糾正、孤立點發現,以此提高數據質量,數據挖掘的精度和性能也能夠由此得到保障。考慮到空缺值屬于學生信息等數據的主要問題,因此需針對性采用忽略元組、人工填寫空缺值、用屬性平均值填充空缺值、用相臨近值代替等空缺值處理方法;在數據集成環節,考慮到收集到的數據總量將較大,且會存在較大的重復量,因此必須進行針對性的提取與加工。
考慮到數據分析的對象中可能含有沒有關聯或關聯不明顯的屬性,或存在冗余數據,因此需開展針對性的屬性規約,決策樹的有效構建可由此獲得支持。因此,采用維度歸約、數值規約的方式,由此排除對大學生就業影響較小的因素,包括本人聯系方式、簽約單位、姓名、班級、學號,同時還需要通過“較小的”表示形式表達數據,由此研究得出了學生就業信息訓練樣本集。通過預處理,最終得到900條有效記錄,采用其中的600條構建決策樹模型,300條用于后期測試。
數據采集需得到專業算法的支持,如K平均聚類算法、決策樹,本文采用貝葉斯網絡進行數據填充,這是由于貝葉斯網絡具備可發現數據間潛在關系,且能夠表達隨機變量間存在復雜關系概率的能力。結合貝葉斯網絡有機融合概率理論與有向無環圖、較好表示隨機變量的聯合概率的特性,即采用該算法進行數據的空屬性填充。在貝葉斯理論方法的具體應用中,需首先建立數據完整記錄子集與缺失數據子集,通過掃描,可發現64條存在數據不完整情況的記錄,由此按順序提取記錄,并分別計算屬性類先驗概率,即可快速明確缺失值,配合預測數據的方法,即可順利完成缺失值補齊[3]。
采用“學習成績”作為類別的表示屬性,將政治面貌、專業、實踐能力、生源地、外語水平等作為決策依據,即可構建圖1所示的畢業生就業情況決策樹。基于圖1,計算分類屬性信息量,依據每個測試屬性的信息量、信息熵、信息增益量、信息增益率,并選擇最大信息增益率的測試屬性作為根節點,依次逐步完成分支劃分。基于“未簽約比例小于15%,即判定葉子節點‘未簽約’”與“生源地中西部比例在20%以上,即判定葉子節點為‘中西部’”規則,即可最終得到就業信息決策樹模型。為滿足分類規則的應用需要,需在設計過程中保證界面直觀、簡單、易于操作,且能夠同時選取多個規則進行提取。為更好滿足學生培養與就業指導需要,設計采用C#建立決策樹工作流程,可簡單概括為:“輸入樣本數據→確定根節點并進行劃分→判斷是否存在新劃分→不存在/存在→生成決策樹/重新選取屬性”。
主要算法步驟如下:
輸入:A=(X1,X2,…,Xi),X1,X2,…,Xi為原始屬性集,分類屬性為B={B1,B2,…,Bj},含有缺失值的訓練集樣本表示為C。
輸出:一棵決策樹
1.劃分C為兩部分,即C1與C2,分別用于記錄數據完全記錄與有缺失值記錄。
2.按順序從C2中選擇1條記錄,對C1進行基于貝葉斯模型的計算,得出Bj,以此填充缺失內容。
3.完成填充后開展針對性整理,合并C1與C2,重新得到C。
4.設置新的節點Y,開展針對性預測判斷,Y用于標記C中存在同一個屬性類別的記錄,如C為空,則需要在Y處標記“空”,并輸出決策樹。在判斷C時,如存在空的屬性值,葉節點需設置于Y處,并記錄最多的訓練集中類。
5.分別計算和預測每個候選屬性,標記存在最高增益率的屬性,并參考增益率進行訓練集劃分,設置訓練樣本和樣本條件分支的集合,如樣本集不為空,需返回上一個葉結點,否則需新設葉節點。
6.重復上述兩步驟,完成決策樹生成。
以某高校為例,通過上文涉及的設計,可確定學習成績優秀、實踐能力強、外語水平高的畢業生在就業領域表現優秀,實踐能力差、學習成績差、未獲過相關獎項的畢業生就業困難,且中西部生源地畢業生的就業率相對較低。由此即可挖掘結果,即可開展針對性的學生培養與就業指導,如加強學生的英語能力和實踐能力培養,關注學生的學習成績提升,就業指導也能夠由此獲得針對性方向。
綜上所述,基于數據挖掘的高校學生培養及就業指導具備較高實用性。在此基礎上,本文涉及的挖掘對象、挖掘數據庫、數據預處理、數據填充、挖掘模型、挖掘結果應用等內容,則提供了可行性較高的數據挖掘技術應用路徑。為更好滿足高校學生培養與就業指導需要,招聘雙方就業行為的全程監督、基于統計數據的就業指導均需要得到重視。

圖1 畢業生就業情況決策樹