章胤++趙文慧++包恒玥++李亞健++周克強
摘 要:本文基于K-means算法對網絡招聘數據進行聚類分析,并運用關聯規則對大數據和IT行業進行關聯預測。從分析結果可知,學歷和經驗直接影響薪資水平,且金融銀行職業類型的平均薪資水平在所得分類中最高,同時也得到大數據和IT行業對學歷要求較高,其占總體職業類型比例有增加趨勢。
關鍵詞:網絡招聘;數據挖掘;聚類算法;關聯度分析
中圖分類號:TP311 文獻標識碼:A
3.4 聚類分析
在完成文本信息向量化處理后,使用統計分析軟件SAS中IML模塊進行矩陣化運算[5],通過對K-means聚類算法的研究和應用[6,7],得到關于職業類型的聚類結果,我們對經過聚類分析的數據進行挖掘,便可以得到網絡招聘信息中關于職業類型、薪資、地域、學歷和工作經驗的知識模式。
4 結果分析和預測(Interpretation of result and
prediction)
4.1 對整體數據進行分析和挖掘
(1)通過北上廣職業分布和大長福職業分布詞云圖(圖1和圖2)對比可以得出:
相同點:銷售行業在兩類城市占比最高,依此可以推斷出在全國范圍內,銷售行業仍然占據主流招聘人群。
不同點:一線城市中除銷售相關職業外,“PHP”“.NET”
“JAVA”“UI設計師”“iOS”“C++”等詞出現頻數較大,直接說明了大數據和IT相關職業在一線城市的興起和熱門,而二線城市各個行業需求較銷售都比較小,借此推斷高端技術的需求量和城市類型有一定關系。
(2)對比兩類城市的學歷、經驗分別與平均薪資的分布圖(圖3和圖4)可以看出,無論是哪類城市,隨著學歷的提高,薪資水平提高明顯;隨著工作經驗的豐富,薪資水平同樣提高明顯。
所以我們有理由得出:工作經驗和學歷都與薪資水平呈正相關系,即隨著學歷的提高和經驗的豐富,薪資水平提高明顯。
(3)通過聚類結果,得到關于職業類型和對應的平均薪資待遇的表格(表1)。
通過對上述平均薪資狀況的對比得知:金融銀行業相應職位平均薪資最高,其次是要求專業技術較高的互聯網通訊行業平均薪資條件優秀,其余產業薪資水平接近,但是鑒于職位供應地區是一二線城市。所以數據顯示薪資水平與實際相比較為合理。
4.2 大數據和IT行業的預測
鑒于近年來大數據和IT行業的崛起,高精尖產業和職業的興起已經成為了當今社會的主流走向,所以對這類行業進行分析更有價值。
(1)通過對這類專業招聘信息和總體招聘信息對比,得出大數據相關職業所占百分比條形圖(圖5)。通過對圖表信息的解讀,我們可以得到三點結論:
大數據相關職業招聘比例在2016年9月開始快速增長,到2017年2月開始放緩增長速度,但是仍然以一種放緩的趨勢增長。
根據上圖所示,大數據相關職業招聘比例最大的三個月份是2016年8月、2017年3月和2017年4月,結合實際分析,可以得出每年的這兩個季度是大學生畢業求職的高峰期,也是傳統意義上的秋招和春招,側面說明了大數據行業對于學歷要求和能力要求較高。所以集中大學生畢業求職期間發布招聘信息。
對比2016年8月和2017年4月數據可以得出,大數據行業正在逐漸增長所占比重。因此可以認為短期內,大數據相關行業所占比重在未來短期內會持續上升。
(2)我們針對從整體數據中篩選出的大數據和IT行業的招聘信息數據的分析,得到關于大數據和IT行業的學歷與經驗要求柱形圖(圖6和圖7),從圖像中我們可以得到如下結論:
根據圖6得出,大數據和IT行業需求學歷更高,半數以上的最低學歷要求是本科,專科及以上學歷占據絕大部分比例。說明這個行業對人才的要求更高,所以相對應聘者來說除專業適合以外,學歷要求門檻也較高。
根據圖像可以看出,經驗要求大部分集中于經驗三年以下和不限經驗。參考社會大背景下,大數據和IT行業較傳統工商業起步晚,說明現有供給量已經無法滿足日益增長的需求量,基于此原因出現了經驗要求低的現狀。
結合以上兩點,我們大膽預測市場急需關于大數據和IT行業的人才,正處于求大于供的階段,而且學歷越高、經驗越多的人才薪資待遇越好。
(3)通過對編碼后各指標之間的關聯規則進行挖掘,結果顯示圖如圖8所示。
其中編碼對應文本信息為:
c1=北京;c2=上海;c3=廣州;c4=大連;c5=長沙;c6=福州。
s1=0-5k;s2=5-10k;s3=10-15k;s4=15-20k;s5=20-25k;s6=25-30k;s7=30k以上。
e1=高中以下;e2=大專以下;e3=大專;e4=本科;e5=碩士;e6=不限;e7=其他。
w1=一年以下;w2=1-3年;w3=4-5年;w4=5年以上;w5=其他。
通過圖8的結果表示,在所有的大數據和IT相關職位中,存在的關聯規則如下:
(1)如果一個企業在長沙,且要求學歷是大專,工作經驗一年以下,那么這家企業95.54%的概率提供平均薪資為0—5k。
(2)如果一個在北京的企業提供平均薪資為20k—25k,且要求工作經驗是4—5年的人才,則有85.7%的概率需要最低學歷為本科。
5 結論(Conclusion)
數據挖掘是一項綜合技術,熟悉運用數據挖掘技術可以得到許多有價值的信息,通過對網絡招聘信息的分析與挖掘可以得到學歷和經驗直接影響薪資水平,各類型職業的平均薪資狀況,而且有針對性的對大數據和IT行業的行業現狀分析,得出了相關行業有較大缺口,正處于求大于供的階段。通過對大數據和IT相關信息的挖掘,得出在置信度很高的關聯規則下的解讀信息。本文針對大數據和IT行業著重進行分析和挖掘,并沒有得到所有職業類型數據信息,這是本文存在的不足之處,同樣也是我們下一步的研究方向。
參考文獻(References)
[1] 趙鵬.企業網絡招聘的現狀與對策研究[J].人力資源,2016,
11:145.
[2] Benites,et al.Evaluation of Hierarchical Interestingness Measures for Mining Pairwise Generalized Association Rules[J].IEEE TRANSACTIONSON KNOWLEDGE AND DATA ENGINEERING,2014,26(12):3014-3015.
[3] Erkens,et al.Improving collaborative learning in the classroom:Text mining based grouping and representing[J].International Journal of Computer Supported Collaborative learning,2016,11(4):389-391.
[4] 田瑞.針對特定主題的短文本向量化[J].軟件,2012,33(11):
202-203.
[5] 張曉冉.統計分析及其SAS實現[M].北京:清華大學出版社,2011.
[6] Chen,et al.Discriminative Hierarchical K-Means Tree for Large-Scale Image Classification[J].IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,2015,26(9):2200-2202.
[7] Liu,X&Li,M.A Predictive Fault Diagnose Method of Wind Turbine Based on K-Means Clustering and Neural Networks[J].JOURNAL OF INTERNET TECHNOLOGY,2016,17(7):1521-1528.
作者簡介:
章 胤(1978-),男,碩士,講師.研究領域:微分方程數值解,數學建模.
趙文慧(1996-),女,本科生.研究領域:應用統計和大數據分析.
包恒玥(1995-),女,本科生.研究領域:應用統計和大數據分析.
李亞健(1995-),男,本科生.研究領域:應用統計和大數據分析.
周克強(1995-),男,本科生.研究領域:應用統計和大數據分析.