尹浩翔 華昕玥 王瑞楠 楊彩霞
摘要:從求職者角度看,若能從浩如煙海的網絡招聘信息中提取出有價值的、精準的信息,將對個人的專業知識構建、職業素養的形成等具有重大的指引作用。本文從職位需求角度出發,以信息管理與信息系統專業為例,對前程無憂網相關數據進行收集,并利用數據挖掘、文本挖掘和數據可視化等大數據挖掘和分析技術實現較為精準的信息專業12類職位畫像的構建和分析,旨在提供更詳盡清晰的職位需求信息,可以為高校人才培養提供社會需求信息,也可以為求職者提供更有針對性的學習導向,具有重要的實際應用價值。
關鍵詞:數據挖掘;文本挖掘;信息專業;職位畫像;網絡招聘
引言
大數據時代,人們可以透過海量的數據信息洞察數據背后事物的特點、行為,總結規律并能夠預測未來,從而指導人們的各項決策。畢業生在求職中最困擾的因素是,對崗位要求的專業知識和技能掌握不夠、自身定位不明確…。由于傳統招聘方法因其自身的效率低、成本高等弊端,許多企業逐漸采用網絡招聘方式[2]。一方面,我們可以從網絡招聘渠道獲取一些職位的市場需求信息[3];另一方面,多渠道、多信息的環境下也帶來面對海量的招聘信息時,求職者往往會感覺無所適從等新問題[4]。因此,如何能對現有海量的結構化和非結構化的網絡崗位招聘信息進行有效分析至關重要[5]。本文以哈爾濱理工大學信息管理與信息系統專業(以下簡稱信息專業)為例,對該專業的對口職位信息進行分析以構建全面的職位畫像。通過對相關崗位清晰、全面地展示和從多角度多維度進行分析,幫助在校學生及求職者更為直觀、全面地了解相關職位需求信息,把握行業發展動向,為學校教學和學生進行針對性地學習提供科學的指導。
1、信息專業相關職位畫像設計
1.1 職位畫像設計原則
職位畫像是圍繞海量數據進行深度挖掘、分析,形成職位信息各種特征信息的全景視圖,進而實現職位畫像的指導性作用,職位畫像的結果需盡可能的客觀有效,畫像的構建過程應遵循以下的四種原則:
(1)基于業務模型。畫像的構建不是沒有目的性的、盲目的構建,而是需要以業務需要為指導進行針對性的構建。
(2)全面原則。基于業務模型構建職位畫像,維度的選取應盡可能多方位的、全面的,不可有所偏重。但也并不代表標簽是越多越好的,而是要基于業務模型的,選用有價值的標簽去定義職位。
(3)真實原則。在數據采集過程中,數據的收集需要基于前程無憂中真實存在的職位信息,并且要對數據去空、去重,但不可過度加工。
(4)時效性原則。在數據采集過程中,要保證采集的數據是真實并且是新發布的數據信息。
1.2 職位畫像維度設計
職位畫像的字段決定了構建畫像過程中的數據表現方式,進而決定了數據挖掘模型的有效性和信息量。本文在進行數據爬取時包含字段如表1所示,本文研究除了針對基礎字段的統計分析之外,還包括對維度之間的關聯關系進行分析。
1.3 職位信息的選擇范圍
首先,根據我校信息專業人才培養和人才輸出的去向進行分類,大致分為技術類、管理類和技術與管理交叉類。其次,在三大門類的基礎上對于職位進行細分,技術類分為后端開發、移動開發、前端開發、測試、運維、DBA、大數據這7種職位方向,管理類分為IT管理、信息系統管理、物流供應鏈管理這3種職位方向,技術和管理交叉類分為電子商務、ERP這2種職位方向,基于以上的12個職位關鍵詞進行檢索,設置搜索范圍為“全國”及“全職”。
2、信息專業相關職位數據獲取
2.1 數據源的選擇
2018年4月,中國品牌評級權威機構Chnbrand發布了2018年第八屆中國品牌力指數(C-BPI),前程無憂以716.4分的絕對優勢榮獲中國品牌力指數招聘門戶網站行業品牌力第一名,綜合性招聘網站的代表性平臺——前程無憂具有信息海量且品類齊全的特點,涵蓋的企業知名度較高、職位數目可觀,企業的資料豐富度高,由此本文選擇對前程無憂(51Job)相關數據進行收集。
2.2 數據抓取過程
(1)開發環境: Windows 10 64bit、Python3.6、Scropyl.5、Visual Studio Code
(2)開發過程:首先,創建一個新的爬蟲工程;其次,在items.py文件中定義要解析具體數據的ltem結構,在pipelines.py中對數據的存儲功能進行實現,并將收集到的數據保存在.excel文件中;最后,在51Job.py中通過css選擇器獲取網頁中的所需數據。
2.3 數據抓取結果
本文以信息專業為例,對該專業的對口職位信息進行分析以構建全面的職位畫像。具體爬取的項目及條數如表2所示。
3、職位畫像實現及結果分析
3.1 維度之間相關關系設計
(1)職位一學歷要求一經驗要求一技能。通過分析不同職位信息的學歷要求和經驗要求,得到該崗位更看重學歷、經驗還是均看重,并得到不同類型崗位對技能的要求情況。
(2)職位一城市分布一平均薪資。通過分析不同職位信息的城市分布情況,得到不同職位哪些城市的需求量較大并且薪資分布情況如何。
(3)公司類型一平均薪資。通過統計不同類型公司的平均月薪,分析出公司類型和公司規模對于平均月薪的影響情況。
(4)職位類型一平均薪資。通過統計不同類型職位的平均月薪,分析出職位類型對于平均月薪的影響情況。
(5)各類職位的占比分布。統計出三大類職位的招聘數目以及三大類下屬的各小類職位的招聘數目,可從此看出哪類崗位需求量較大。
(6)行業類型分布。統計出信息專業所有對口職位的公司行業類型,分析出主要行業類型分布。
(7)公司類型分布。統計出信息專業所有對口職位的公司類型,分析出主要公司類型分布。
3.2 技術類職位畫像結果展示與分析
(1)職位類型一平均薪水。技術類職位中細分為前端開發、移動開發、后端開發、測試、運維、DBA和大數據7種崗位,將維度字段設置為職位類別,將數值字段設置為平均薪水,分析職位類型與平均薪水之間的相關關系。分析結果如圖1所示,通過雷達圖展示出職位類型與平均薪水之間的相關關系,可以看出DBA方向、大數據方向、移動開發方向的平均薪資較高。
(2)公司類型一平均薪水設置維度字段為公司類型,數據字段為平均薪水。通過餅圖展示出公司類型與平均薪水之間的相關關系,由圖2可知事業單位、國企、外資(歐美)等公司類型的平均薪水較高。
(3)學歷要求分布通過匯總統計技術類全部崗位的學歷要求,再通過柱形圖展示出技術類崗位對于學歷的要求情況,由圖3可知,技術類崗位更青睞于本科和大專的求職者,且二者分布幾乎不相上下,對于高學歷求職者并沒有表現出太多的偏好。
(4)經驗要求分布通過匯總統計技術類全部崗位的經驗要求,再通過柱形圖展示出技術類崗位對于經驗的要求情況,由圖4可知,技術類崗位對工作經驗沒有太多要求,對于具備8-9年以及2年的求職者也表現出了一定偏好。
(5)技能要求分布本部分研究采用Python中自帶的分詞工具jieba分詞進行文本挖掘,以后端開發、測試、前端開發、DBA、運維和移動開發相關職位數據作為樣本,提取出職位要求中的技能關鍵詞,并統計其權重,最后通過樹圖進行數據展示,以后端開發崗位為例,結果如圖5所示。
后端開發類崗位技能要求排行為:web>javo>jovascript>js>css。
(6)技術類職位綜合畫像通過分析技術類職位類別一平均薪水、公司類型一平均薪水、學歷要求分布、經驗要求分布、技能要求分布構建出技術類職位綜合畫像,如圖6所示。 4、結論
本文以信息管理與信息系統專業為例,通過數據挖掘技術將相關崗位的結構化數據信息進行收集、預處理和分析,得到各類職位信息中薪資水平、工作年限要求和崗位數量等數據的波動情況,并預測短時間內的發展趨勢。通過文本挖掘技術對眾多相關崗位非結構化的文本信息進行收集、整理并分析,挖掘出相關職位對應聘者知識和技能的需求,包括對基本職業能力、專業技能、學位及學科背景知識的要求等,研究結果將對個人的專業知識構建、職業素養的形成等具有重要的指引作用。
參考文獻:
[l]杜華云.電子商務專業人才培養定位行業企業調研與分析[J].電子商務,2018,(07):59-62,84.
[2]劉庸.互聯網和大數據時代國有大型文化企業招聘轉型研究[J].人力資源管理,2018,(03):272-273.
[3]蔡文杰,李悅,王偉軍,丁潔蘭.信息管理與信息系統專業本科人才市場需求分析——基于網上招聘的內容分析[J].圖書館學刊,2009,31(08):18-20.
[4]夏立新,楚林,王忠義,等.基于網絡文本挖掘的就業知識需求關系構建[J].圖書情報知識,2016,(01):94-100.
[5] MACELI M. What Technology Skills Do Developers Need?A Text Analysis of Job Listings in Library and InformationScience (LIS) from Jobs.code41ib.org[A]. InformationTechnology&Libraries,September 2015,34(3):8-21.