







摘要:在線招聘作為人才招聘的重要渠道,在線招聘廣告中蘊含了豐富的崗位技能需求信息,從在線招聘廣告中識別并分析崗位技能需求,為專業人才培養目標的編制提供依據。本文以大數據技術相關崗位的在線招聘廣告為例,分析崗位分布和開發工具詞頻,利用LAD主題模型分析技能主題,識別技能特征詞,構建技能特征-開發工具映射關系,最后利用熵權法評估技能需求。評估結果:最需要的技能是數據分析,占45%。其次是數據庫和機器學習,然后是數據報告、深度學習、網絡爬蟲、應用開發和數據處理。本文的研究有效避免了調查問卷、專家訪談等傳統方法的主觀干擾及樣本量少、信息滯后等問題。
關鍵詞:崗位技能需求;LDA;主題識別;熵權法
高職教育主要目標是培養崗位需要的高素質技術技能型人才,促進學生高水平就業。全面分析崗位技能需求并非易事,傳統的智能制造等崗位因技術進度技能需求不斷變化,Ai芯片元宇宙大數據等新行業伴生的崗位、因新冠疫情等特定事件產生的疫情管理等新崗位的技能需求更是無覓尋處;而且不同企業的相同崗位技能熟練程度多樣化,如要求具備某項技能、熟悉某項技能或是精通某項技能。企業調研、專家訪談等難于快速準確分析崗位的技能需求。
分析崗位技能需求主要有三類方法:①從高職辦學定位的宏觀角度分析崗位技能需求,以“高適應性職業化專業人才”為定位[1],建立二維四向模型分析職業教育專業發展需求[2],按照產業職業崗位對員工理論、技能的最高要求開展專業技能培養[3]。②從學校出發,以學校的專業文件、教學資源、專業管理的數據中抽取知識實體與關系,采用知識圖譜分析崗位技能[4];③從企業的生產、技術革新和產業的發展趨勢分析技能需求,如利用負荷平衡與技能鏈模型[5]、回歸模型預測[6]、多因素灰色模型[7]等方法預測分析技術技能型人才需求。
在線招聘廣告蘊含了豐富的崗位技能需求信息,本文以在線招聘廣告為研究對象,采用文本分析方法,對崗位技能需求做快速準確分析,為專業人才培養目標的編制提供依據。
1.研究方案設計
1.1研究對象選取
崗位技能需求常用專家調研、問卷調查等方式獲取,但是成本高,難于獲取大量樣本。而在線招聘廣告中的職位信息(崗位職責、任職要求)就有明確的崗位技能要求。在線招聘是人才招聘的主要渠道之一,傳統招聘網站,如:前程無憂,智聯招聘,中華英才網;垂直招聘網站,如:拉勾網;獵頭招聘網站,如:人人獵頭、獵聘網、獵上網;社交招聘網站,如:大街網、內推網、哪上班;綜合分類信息網站,如:58同城、趕集網、百姓網。招聘企業在招聘網站發布了眾多的招聘廣告(如2020年3月15日23時51jobs,https:// mkt.51job.com/tg/sem/logo_v1.html?from=baiduad檢索大數據招聘信息:24小時內11516條、近三天26241條、近一周35160條、近一月43482條);本文選擇前程無憂網站大數據相關崗位招聘廣告作為研究對象,分析崗位技能需求。
1.2研究模型選擇
本研究采用LDA概率主題模型對在線招聘廣告中的職位信息進行文本分析,利用文本的特征詞的共現特征挖掘文本的主題,快速識別文檔中的崗位技能需求信息。LDA概率主題模型最早由Blei et al.2003年提出,是一種文檔主題生成模型[8],也稱為貝葉斯概率模型,就是一篇文章的每個特征詞都是通過“以一定概率p選擇了某個主題topic,并從這個主題以一定概率p選擇某個特征詞語word”。
p(word|document)=∑_(k=0)^K?〖p(word│topic) 〗|p(topic|document)(1)
LDA模型有三層結構:從上到下分別為文檔層、主題層、特征詞層,使用Dirichlet分布求解文檔-主題概率分布和主題-特征詞概率分布,確定潛在的主題和特征詞。
pp(w_j |D_i)=∑_(k=0)^K?〖p(w_j│T_k ) 〗|p(T_k |D_i)(2)
其中p(wj|Di)表示特征詞wj出現在文檔Di中的概率,此概率值為特征詞的概率與主題特征詞概率的乘積,即wj在主題Tk中出現的概率與主題Tk在文檔Di中出現的概率的乘積,K為主題的個數。對于文檔集合D中的每一個文檔,LDA主題模型生成流程:
(1)從Dirichlet分布?中取樣生成文檔的主題分布θ,主題分布θ由超參數為?的Dirichlet分布生成。
(2)從Dirichlet分布?中取樣生成主題T對應的特征詞分布?,特征詞分布?由參數為?的Dirichlet分布生成。
(3)對于每一個文檔,根據θ分布,抽樣獲得文檔di的主題分布,從主題分布中抽取主題Ti。
(4)根據?分布,抽樣獲得主題的特征詞分布,從上述被抽到的主題Ti做對應的特征詞中抽取特征詞Wij。
(5)重復上述過程直至遍歷文檔中的每一個特征詞。
1.3研究方案
(1)數據來源及處理
本研究主要包括在線招聘廣告數據采集、技能要求和崗位要求挖掘,研究思路如圖2。采集在線招聘廣告數據,清洗非相關數據和重復數據。
(2)研究方法
數據預處理:對在線招聘廣告中的崗位職責、任職資格進行數據清洗、分詞、去停用詞、詞性標注等預處理。
主題分析和技術工具分析:利用LDA主題模型識別崗位技能特征詞、統計技術開發工具詞頻。
崗位核心技能分析:分析崗位技能特征詞與技術工具的映射關系,分析崗位技能。
2.數據處理與分析
2.1數據采集與預處理
本文以大數據技術相關崗位群為例,以前程無憂網站(www.51job.com)作為數據來源,該網站的招聘信息包括:崗位名稱、發布時間、公司名稱、公司類型、公司規模、薪資、福利政策、工作地點、經驗要求、學歷要求、招聘人數、職位信息(崗位職責、任職資格)、聯系方式、公司信息等,以文本方式存放在html網頁中,可利用python、scrapy、xpath等技術爬取企業招聘廣告。按大數據技術、機器學習、爬蟲技術三類崗位關鍵詞爬取招聘廣告,針對爬取數據中的無效數據按以下原則清洗:①清洗與大數據相關崗位無關的招聘數據。②清洗企業在不同時間重復發布的同一崗位的數據。③清洗職位信息為空的數據。④清洗職位信息描述不超過15個字的無效數據。⑤清洗崗位名稱與職位信息描述明顯不符的數據。⑥對大數據技術、機器學習、爬蟲技術三個關鍵詞均能爬取到的相同的數據,根據崗位相似程度分別歸類到相應的類別中。清洗處理后三類崗位的招聘廣告數據量及其對應的崗位如表1:
使用jieba庫對在線招聘數據的任職要求和技能要求文本數據進行分詞和標注,對照自定義詞庫分詞保留專業名詞,按照停用詞庫刪除停用詞、與技能無關的詞和無意義的特殊符號,如:“【】@[]”等,最后形成職位信息詞向量。
2.2開發工具詞頻分析
采集的數據經分詞預處理后,三類崗位的開發工具進行詞頻統計,機器學習類崗位開發工具的詞頻曲線如圖4(大數據技術、爬蟲技術的開發工具詞頻曲線與圖4相似,為節省篇幅省略)。開發工具詞頻分布呈現“長尾現象”,在線招聘的崗位技能要求是非結構化數據,是崗位自身需要而發布招聘信息,眾多的崗位需求各異,必然導致技術開發工具的需求多樣。三類崗位的技術開發工具詞頻表1。
2.3技能主題建模
(1)主題數選擇
LDA主題建模的質量有主題困惑度(Perplexity)[9]和主題一致性[10]兩種方法判斷。主題困惑度可以理解為所訓練出來的模型對某一文檔屬于哪個主題有多不確定,這個不確定則為困惑度,困惑度越低,說明主題建模效果越好。主題一致性是指生成每一個主題所對應的高概率詞語在語義上是否一致,主題一致性得分越高,主題模型效果越好。本文采用主題一致性得分來判斷主題模型的好壞,主題一致性有u_mass、c_v、c_uci 以及c_npmi四個度量值[11]。
采用gensim模塊中CoherenceModel類計算u_mass值來確定最佳主題數,三類崗位的LDA主題建模u_mass值與主題數的關系如圖4所示。
從圖5可以看出,爬蟲技術和機器學習兩個崗位的u_mass值隨主題數的增大反復波動、大數據技術崗位的u_mass值隨主題數的增大而逐漸減小,三類崗位的主題數為2時u_mass值最大,主題建模質量最好。
(2)技能主題識別與可視化
對大數據技術、機器學習和爬蟲技術三類崗位的職位信息(任職要求、技能要求)文本數據進行LDA主題建模分析,將 LDA 模型的參數設置為:K=2,迭代次數300次,超參數α=50/K,β=0.01。利用gensim庫和pyLDAvis庫進行主題建模和可視化,識別在線招聘廣告數據中的技能特征詞。機器學習類崗位的LDA可視化結果如圖6所示(大數據技術、爬蟲技術的LDA可視化結果與圖6相似,為節省篇幅省略)。
從圖5可以看出,圖中的2個圓圈代表2個主題,圓圈中的數字是主題的序號,圓圈的大小代表包含該主題的文檔數量,圓圈越大表示包含該主題的文檔數量越多。圓圈之間的距離表示主題之間相關性的大小,距離越小表示相關性越強。圖5中右側的條形圖表示該主題的主題詞分布概率前n(n=20)個的詞語,特征詞及其概率可理解為該項技能的需求程度。三類崗位的技能需求特征詞如表2。
3.研究結論與討論
3.1技能特征詞與開發工具的映射分析
各類崗位的技能特征詞、開發工具與崗位的技能需求緊密相關,結合崗位實際,對技能特征詞進行歸類,大數據技術類崗位的技能特征詞分成數據庫、數據報告、數據分析三類;機器學習類崗位的技能特征詞分為機器學習、深度學習、應用開發三類;爬蟲技術類崗位的技能特征詞分為數據庫、數據處理和爬蟲技術三類,在此基礎上生成各類崗位的核心技能。再進一步分析開發工具的技術內涵并歸類,構建技能特征詞與開發工具的映射關系,三類崗位的崗位技能特征詞—技術工具需求的映射關系如圖6。
3.2崗位核心技能需求評估
根據前述的技能特征詞和技術工具映射關系,根據表1的技術工具詞頻和表2的技術特征詞概率,計算每個核心崗位的技術工具詞頻均值和崗位核心技能特征詞概率總和,計算結果如表3。利用熵權法對崗位分布、特征詞概率和開發工具詞頻綜合評估崗位核心技能需求。熵權法[12]是多因素評價法,利用信息量的大小來確定指標權重并進行綜合評價的方法,熵值可以反映某項指標的變異程度及其信息量的大小,信息量越大,熵值越小,反之亦然。對所有給定的j,所有xij之間的差異值越大,該項指標在綜合評價中所起的作用就越大。假設有n個評價對象(i=1,2,3,...,n)和m個評價指標(j=1,2,...,m),Xij表示第i個評價對象在第j個評價指標上的取值,Wj表示第j個指標的權重。熵權法的實施步驟如下:
(1)指標的同趨勢處理和指標的歸一化處理,將崗位分布、特征詞概率和開發工具詞頻變為(0,1)之間的小數,實現無量綱化,處理更加便捷快速。
3.3結果討論
技能需求第一層次:
數據分析技術需求占比45%,主要是電商數據、企業生產數據、倉庫數據的統計分析、預測。技能特征主要是數據統計、算法、數據挖掘、框架、數據處理、分析、模型;主要開發工具:excel、BI、Python、Hadoop、Hive等。
技能需求第二層次:
數據庫技術占比12%,最主要的是利用SQL和NoSQL統計分析數據,技能特征主要是數據庫和數據倉庫,主要開發工具主要是Oracle、Mysql等傳統的結構化數據庫,Redis、Mongodb、PostgreSQL等非結構化nosql數據庫的需求也日益凸顯。
機器學習占比11%,主要對大數據按數據集準備、探索性的對數據進行分析、數據預處理、數據分割、機器學習算法建模、選擇機器學習任務、效果評價及優化流程處理,重點是特征工程處理。技能特征詞是機器學習、數據挖掘、平臺、算法、分析、理論,技術工具:Python、R、Sklearn、Xgboost、Hive、Numpy等。
技能需求第三層次:
數據報告技術占比8%,主要是選擇分析指標、撰寫分析報告。技能特征詞是報表、報告、制作、指標,主要的技術工具是Office、Excel、ERP、Spss、Tableau以及商務智能BI軟件。
深度學習占比7%,在自然語言、視頻等領域,按數據集準備、數據預處理、數據分割、定義神經網絡模型、訓練網絡流程處理,核心是引入復雜網絡模型結構,定義神經網絡模型結構、確認損失函數、確定優化器、反復調整模型參數。技能特征詞是深度學習、人工智能、自然語言處理、深度學習框架,主要的技術工具是tensorflow、pytorch、caffe、mxnet、keras、gpu等。
爬蟲技術占比7%,主要是面向商業平臺的數據采集,需要熟練的反爬蟲技術。技能特征詞是抓取、網頁、采集、設計、編程、協議、自動爬蟲、反爬、分布式、逆向、爬蟲框架、平臺,主要的技術工具是app、selenium、ajax、ios、scrapy、pyspider等。
應用開發占比6%,主要是在自然語言、視頻等領域的web應用開發。技能特征詞是數據、模型、優化、應用、編程、設計、領域、識別、研發、編程,主要的技術工具是java、django、flask、matlab、opencv等。
數據處理占比5%,主要是數據清洗、集成、規約、存儲等。技能特征詞是數據、分析、清洗、應用,主要的技術工具是java、pandas、numpy等。
4.結語
本文以在線招聘廣告數據為分析對象,利用LDA主題模型開展潛在主題分析,挖掘崗位技能特征詞、分析技術工具詞頻,能準確把握崗位技術的需求,避免了問卷或訪談等調查方法的主觀干擾,研究結果更加客觀。此外,在線數據可以實時采集分析,分析結果具有實時性。分析數據不包含線下招聘以及校招崗位的技能需求,補充線下招聘廣告數據將使分析更全面。
對比不同時間段內的在線招聘數據可以挖掘崗位技能需求的變化,預測崗位技能變化趨勢。
參考文獻:
[1]周建松,唐林偉.高職教育人才培養目標的歷史演變與科學定位——兼論培養高適應性職業化專業人才[J],中國高教研究,2013(02):28-34.
[2]陳嵩,郭文富.現代職業教育專業發展的需求模型構建—上海的思考與做法[J],職教論壇,2019(19):61-65.
[3]孫湧等.高職院校人才培養目標定位研究與實踐[J],計算機教育,2006(10):24-26.
[4]胡光水.專業知識與技能體系知識圖譜的構建研究[J],工業與信息化教育,2020(12):123-127.
[5]廖麗萍.隨機需求下的工人技能分布模型研究[J],湖南科技學院學報,2013(19):127-132.
[6]安鴻章,鄒勇.企業技能人員需求預側模型建立與應用[J],經濟與管理研究,2007(11):64-68.
[7]田楠.基于多因素灰色模型的技術技能型人才需求預測與分析—以天津市為例[J],職業技術教育,2014(19):43-48.
[8]Blei D, Ng A,Jordan M. Latent Dirichlet Allocation.Journal of Machine Learning Research,2003,3:993-1022.
[9]陸藝,曹健.面向隱式反饋的推薦系統研究現狀與趨勢[J].計算機科學,2016,43(4):7-15.
[10] Roeder M. and BothA., et al. Hinneburg, Exploring the Space of Topic Coherence Measures[J].Association for Computational Linguistics,2015,2(13),399-408.
[11]https://blog.csdn.net/weixin_31468621/article/details/112195887.
[12]陳傳軍,王智峰,劉偉,等.數據建模簡明教程-基于Python[M],科學出版社.
基金支持:2020年浙江省中華職業教育科研項目“企業崗位技能需求模型構建與專業人次啊培養目標研究”(編號ZJCVB09)。
作者簡介:陳平生(1973-),男,江西贛州人,紹興職業技術學院副教授,碩士,研究方向:大數據技術應用。