999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA 的招聘信息技能標簽生成算法

2021-05-25 05:26:58李堂軍戴昕淼
軟件導刊 2021年5期
關鍵詞:技能文本信息

李堂軍,戴昕淼

(山東科技大學經濟管理學院,山東青島 266590)

0 引言

就業是民生之本,穩就業是“六穩”之首。當前,經濟下行壓力與疫情疊加,國家圍繞穩就業原則,多項措施推進人才資源有效配置。隨著互聯網普及,越來越多的招聘廠商和應聘者選擇互聯網進行招聘及求職工作。網絡招聘指通過互聯網進行招聘活動,主要過程有發布崗位信息、收集簡歷、在線面試等[1]。據統計,2019 年使用網絡招聘的廠商數量已達486.6 萬家,網絡求職用戶規模超2 億人次。相較于傳統招聘,網絡招聘不僅覆蓋面廣、時效性強,而且具有成本低的優勢,但招聘廠商與求職者之間的匹配效率問題始終有待解決。如招聘廠商在招聘過程中對職位描述不清晰、定位不準確,雖寫有崗位職責或任職資格,卻缺乏對崗位技能的重點描述,求職者難以有針對性地應聘。

本文通過對招聘文本信息進行分析,提出一種基于LDA(Latent Dirichlet Allocation)模型的技能標簽生成算法。首先通過招聘詞庫提取關鍵詞生成候選標簽,然后將文本挖掘獲得的文本信息進行LDA 主題挖掘,對獲得的主題、關鍵詞與獲取的候選標簽進行相似度計算,最后對候選標簽進行加權計算得出各主題下的技能標簽。實驗表明該方法能夠準確挖掘出技能標簽,為招聘廠商篩選應聘者提供借鑒與參考。

1 相關研究

網絡招聘源于美國,現已成為許多國家和地區主要的人才招聘渠道。為提高網絡招聘效率,國外相關學者進行了大量研究。Evanthia 等[2]提出一種基于網絡招聘系統的個性挖掘與排名方法,實現應聘者的自動預篩選;Malik等[3]提出基于上下文信息和知識信息的崗位描述領域本體,對崗位上下文信息進行擴展。該方法旨在使用特定領域的字典從工作描述中提取實體,適當地匹配用戶的檔案/查詢和工作描述,實驗證明該方法可豐富從職位描述中提取的數據,進而幫助用戶找到更多合適的工作;Luis 等[4]提出基于“簡歷間鄰近性”(即求職者對同一份工作發出的簡歷之間的詞匯相似性)的簡歷排名方法,該方法采用基于相似系數和詞匯評分的相關反饋技術,提出在詞匯層面使用相關性反饋來提高簡歷排名的建議;Mohammed 等[5]通過整合自然語言處理工具和基于語義的方法,對給定職位使用傳統的關鍵字模型,通過額外的職業類別和基于語義的技術匹配/篩選申請人簡歷,系統解決傳統招聘程序的局限性;Fabiano 等[6]提出一種基于標簽的信息檢索方法,提高如搜索、內容推薦和分類等信息檢索服務的有效性;Ralf等[7]基于資源和用戶標簽概率模型,通過研究語言模型以及潛在的Dirichlet 分布,提出個性化標簽推薦方法。

國內網絡招聘行業與國外相比起步較晚,但我國網絡招聘行業前景廣闊、市場潛力巨大,所以發展速度較快。為提高網絡招聘效率,充分挖掘市場潛力,國內學者也開展了大量研究。張俊峰等[8]通過對獲取的網站招聘信息進行中文分詞、人工篩選、分類等,獲取數據類崗位招聘需求特征,為人才培養及求職者知識與能力構建提供參考;湯洋等[9]通過對網絡招聘信息進行中文分詞和權重轉換,建立文本數據向量空間模型,進而分析得出目前市場所需人才的職業類型和專業領域,最后采用聚類方法對結果進行檢驗;王成城等[10]通過對招聘文本信息進行分類匯總與文本分析,發現NGO 組織人力資源市場發展4 個方面的問題,通過對問題的分析與剖析,探討優化NGO 組織人力資源管理的新路徑;俞琰等[11]提出基于大數據量網絡招聘文本挖掘的課程知識模型及自動構建方法,利用自然語言文本挖掘技術實現課程知識點模型的自動構建,并通過實驗對其構建過程進行驗證與分析;朱劍[12]通過對招聘啟事的任職資歷進行文本分析,研究并發現任職資歷中重要維度的共性與個性。

目前國外對招聘信息的分析主要從招聘信息中提取數據,為用戶提供推薦以及通過對獲取信息的研究幫助預篩選、檢索和匹配等,國外基于標簽生成的研究大多通過提高標簽的檢索、內容推薦和分類效果滿足信息檢索服務和用戶推薦需求。國內對招聘信息的分析大多是通過對招聘文本的研究獲得招聘的需求特征,為人才培養與能力構建提供參考。從現有研究來看,國內外對網絡招聘文本信息分析方面技能標簽的生成研究鮮有提及,多數研究是通過對招聘信息的分析獲取技能需求,便于改進人才培養計劃和幫助應聘者找到工作,沒有考慮到挖掘深層次招聘信息的研究需求,并且缺乏一定的判斷標準。因此,本文針對挖掘網絡招聘文本信息背后隱藏價值的需求,提出基于LDA 主題挖掘的技能標簽生成算法,通過該機制生成的技能標簽反映出不同崗位的技能傾向,為招聘廠商合理高效地篩選應聘者提供參考依據。

為深入挖掘這些文本信息背后隱藏的價值,需要使用相應的技術手段獲取與處理這些信息。隨著互聯網的迅猛發展,Web 文本逐漸成為信息的主要載體和必不可少的信息來源,通過使用Web 文本挖掘技術進行相關研究的價值及意義也日漸凸顯。學者Oren[13]認為,通過數據挖掘技術從Web 文檔和服務中自動發現和提取信息的技術稱Web 挖掘,這種定義側重于挖掘的技術和目的研究;學者王繼成等[14]認為,Web 挖掘是一個從輸入到輸出的映射ζ:C→p,其中將C 作為輸入,p 是文檔集合C 中發現隱含的模式,這個定義側重于文本挖掘過程。Web 文本挖掘使人們可從浩如煙海的信息資源中獲取更深層次、更有價值的信息,這種技術逐漸演變發展成為一種能夠獲取和分析信息資源中隱藏的潛在價值的有效技術。

LDA 模型是一種將文檔表示為潛在主題的隨機混合的層次貝葉斯模型,且每個主題的特點由單詞的分布決定[15]。LDA 主題模型是分析提取某一主題所提供的文本數據中所表達的觀點、感受和情感特征的方法[16],可用來識別大規模文檔集或語料庫中潛在的主題信息,是近年來特別熱門的文本挖掘研究方法,它有助于人們深入理解海量文本背后隱藏的含義。因此,可通過LDA 模型將海量的招聘文本信息進行主題挖掘,再從中提取技能主題,為進一步的篩選和匹配提供借鑒和依據。

2 網絡招聘信息主題挖掘方法

LDA 主題模型能有效提取大規模文本隱含主題[17]。網絡招聘作為一種主流的招聘渠道,產生了大量的網絡招聘文本信息,且大量文本信息背后的隱藏價值沒有被深入挖掘,將LDA 主題模型引入網絡招聘文本分析領域,有助于挖掘隱藏主題,解決網絡招聘分類不明確、缺乏標準、針對性不強等問題,為科學合理地進行招聘工作提供借鑒與指導。通過對大量的招聘信息進行觀察可以發現,招聘信息具有多層次結構,其結構一般分為招聘公司—招聘職位—崗位職責與任職資格。招聘網站上有大量的招聘公司,這些招聘公司會存在對幾個不同崗位同時招聘的情況,而不同崗位有不同的職位要求與任職資格,這些崗位職責要求與任職資格就是對應聘者進行合理篩選的主體和主要依據。崗位信息中的工作職責與任職資格包含學歷專業、工作經驗、個人素質、能力要求、工作介紹等。

不同崗位的工作職責和任職資格會有差異,通過對大量招聘文本進行分析,可發現這些不同崗位之間的差異,即技能特征的區別,這些技能特征成為廠商篩選合適應聘者的科學依據。

2.1 主題挖掘模型設計

本文提出基于Web 文本挖掘和LDA 主題模型相結合生成招聘信息技能標簽,即基于LDA 進行主題挖掘的技能標簽生成模型。該模型主要進行文本聚類和主題挖掘,包括招聘信息抓取、預處理,進行LDA 主題挖掘并提取與技能相關的關鍵詞,對提取的候選標簽與關鍵詞進行相似度計算,最終生成與技能相關的標簽—技能標簽,如圖1 所示。

2.2 基于LDA 模型的潛在主題挖掘

2.2.1 LDA 模型基本原理

LDA 模型是一種文檔主題生成模型,它包含詞、主題、文檔三層結構,是一個層次貝葉斯模型。所謂的生成模型即以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語的過程。文檔—主題服從狄利克雷分布,主題—詞服從多項式分布[18]。LDA 模型如圖2 所示。

Fig.2 LDA model圖2 LDA 模型

圖2 中空心圓代表隱含變量,實心圓代表可觀察變量。圖中字母α是文檔的主題分布超參數,β是文檔的詞語分布超參數,θ為文檔—主題的概率分布,φ是主題—詞語的概率分布;W 是文檔的基本單元,唯一性詞匯;M 是語料集,文檔集合指包含M 個文檔的集合,記為C={D1,D2,…,DM};文檔D 由N 個詞項組成,記為D=(w1,w2,…,wN);同一類語義集合記為Z,主題數為K。

一篇文檔生成過程:首先采樣θD -Dir(α),然后對文檔D 中的每一個詞項Wi采樣一個主題Z-Multinomial(θD),從P(Wi|Zi,β) 中采樣一個詞項Wi,生成一個主題Zi條件下的多項式概率Wi-Multinomial(φZ)[19]。通過LDA模型對語料集進行建模,得到文檔—主題分布和主題—詞項分布兩種概率分布。

2.2.2 數據采集與預處理

據統計,“前程無憂51job”的月活躍用戶數量超過1 000 萬,是線上活躍用戶數量居首位的招聘平臺,其次是智聯招聘的681.5 萬和BOSS 直聘的370.5 萬。“前程無憂51job”于1999 年成立,現已成為一個大型綜合性的網絡招聘服務平臺,擁有大量的用戶和招聘文本信息數據,故選取“前程無憂51job”招聘網站作為本文分析的數據采集平臺。通過集搜客網絡爬蟲軟件對前程無憂51job 網站里的招聘信息進行爬取,爬取的篩選條件為北京地區的財務/審計/稅務崗位,符合條件的招聘網頁共270 頁,得到公司名稱、崗位名稱、薪資待遇、公司性質、崗位職責和任職資格等內容的招聘文本信息共計5 388 條。在對招聘信息進行處理過程中,存在薪資、工作職責等指標信息缺失情況,通過手工篩選空白、無效信息之后,得到有效數據5 036 條。

從前程無憂51job 招聘網站爬取的招聘信息保存在語料集中,但是這部分招聘信息可能不完全符合LDA 模型的輸入要求,例如有些招聘信息是英文,有些信息中存在符號表情等,難以直接進行分析,所以要對其進行一定的處理。預處理過程通過對原始招聘文本信息進行格式轉換、句子劃分、分詞與去除停用詞、修正等,使信息符合LDA 模型的輸入格式要求。

2.3 招聘詞庫構建

本文招聘信息爬取的是財務/審計/稅務類崗位,這些崗位招聘信息中存在大量包含崗位職責特點和技能特征的專業詞匯,這部分詞匯無法在jieba 詞庫中被識別到。因此,在候選標簽生成過程中,可進行關鍵詞提取獲取專業詞匯,以此作為候選標簽,使招聘信息在分詞時能很好地識別。對標簽進行控制時需要創建招聘詞庫[20],本文通過使用“愛站網”中的招聘詞庫對其進行手工刪除無關詞匯、去重、整理,生成本次研究所需的崗位招聘詞庫,如表1 所示。

Table 1 Recruitment Thesaurus表1 招聘詞庫

通過獲得的招聘詞庫,結合收集的崗位職責/任職資格句子,使用Python 中安裝的jieba 進行分析。由于崗位技能需求一般是名詞和動詞,因此排除掉一些無實質意義的詞語如以上、各項、各類、根據等,最終保留排名前20 的詞語。這些候選標簽詞語頻數較高,可以很好地涵蓋相應招聘崗位技能特征,候選標簽如表2 所示。

Table 2 Ranking of candidate tags表2 候選標簽排名

3 實驗結果與分析

3.1 LDA 主題挖掘結果與分析

為了解各主題下的技能特征,將從前程無憂獲取的招聘信息進行預處理,并將預處理后的信息作為本次實驗的語料集。對其去除停用詞和中文分詞,再使用JGibbsLDA作為LDA 模型,將LDA 模型的參數設置為:K=4,迭代次數1 000 次,超參數α=50/K,β=0.01。對本次主題挖掘結果進行整理,得到各主題中的主題詞列表,主題詞按照重要程度排列,得到如表3 所示的主題—詞語概率分布。

Table 3 Topic word probability distribution表3 主題—詞語概率分布

挖掘主題概率可以發現各主題下的高頻關鍵詞情況,進而大致了解該主題下的代表性信息,這些代表信息更能體現主題特征,因此可作為對技能標簽進行控制的詞表。高概率詞語具有較高的代表性,低概率詞語代表性較弱,因此最終的控制詞表由概率較高的前20 個關鍵詞決定。同時將控制詞表里的詞語概率等比放大,使其和為1,最終結果如表4 所示。

3.2 Word2vec 及相似度計算

Google 公司在2013 年開發了一款用于訓練詞向量的工具Word2vec,它提供一種使用分布式向量對文本進行表示的方法[21]。該方法也是用來產生詞向量的相關模型,其中每一維詞向量值體現相應的語義和語法的潛在特征,而不同的語義和語法特征的維度分布決定特點的不同。一般來說,詞向量是一種低維實數向量,這讓語義上相似或相關的詞表現出更為接近的距離,所以兩個詞向量的相似度可以通過它們的余弦值來衡量。

Table 4 Control words based on topic keyword表4 基于主題—關鍵詞的控制詞

余弦相似度方法用來計算向量相似度,是一種行之有效的方法,通過使用余弦相似度可以計算兩者之間的距離。兩個向量的權重由分子表示,向量模的乘積由分母表示。余弦相似度取值范圍在[0,1]之間,相似度數值越大說明兩個詞語的語義越接近,反之亦然。如Da、Db的相似度計算公式為[22]:

根據獲取的控制詞表,將候選標簽和控制詞表中的關鍵詞進行相似度計算得到兩者的相似度,結果如表5 所示。

Table 5 Similarity calculation of recruitment candidate tags and control words表5 招聘候選標簽與控制詞語相似度計算

4 技能標簽生成

對各主題下候選標簽相似度進行加權求和,將候選標簽與主題—關鍵詞控制詞表中的每一個控制詞語相似度乘以該控制詞語在其主題中的權重并進行累加,經過控制詞表所控之后最終得到標簽權重,結果如表6 所示。

Table 6 Skill weight表6 技能權重

通過對獲得的技能標簽進行分析,選取權重較高的前8 個作為本次招聘文本主題下的技能標簽。每個主題的推薦標簽如表7 所示。

Table 7 Skill labels表7 技能標簽

5 結論與建議

本文通過對網絡招聘信息的爬取與分析,進行LDA 模型主題挖掘,對候選標簽與主題詞、詞頻分析,結合候選標簽與不同主題下的控制詞語相似度計算結果,得到不同主題下的技能權重表,最后選出不同主題下的技能標簽。通過對招聘信息研究發現,不同主題下的技能權重有所不同,即不同崗位的技能側重點有所不同,通過對招聘信息研究得出不同崗位技能的側重點及招聘廠商在進行人才招聘時的重點篩選條件。然而隨著科技及社會的發展,對人力資源技能的需求也會動態變化。本文研究結論如下:

(1)Topic1 財務職位高管和人才儲備需求量較大,因此有經驗的人才可以選擇應聘高管職位,一些經驗不太充足的大學生或初涉領域的新人,可選擇一些儲備崗位,不僅可以積累經驗,還可為之后的職業晉升打下良好基礎。該職位不僅需要具有較高的抗壓能力和豐富的經驗,而且需要熟練掌握軟件操作,進行一些核算和審核工作,專業性強,需要一定的專業基礎。

(2)Topic2 會計職位側重熟練性,該職位實踐性強。相比于財務管理,會計職位更需要熟練的操作技能及一定的經驗。應聘該職位要有一定的專業基礎,不僅需要一定的工作經驗或實習經歷,而且要有自主分析數據的能力。

(3)Topic3 審計職位相比于其它3 個職位,對經驗需求最高,排在技能標簽首位,而且一般對人才的需求也更傾向于高管。該職位需要審核一些財務計劃工作,具有獨立核算或核對能力,應聘者在選擇時應特別關注工作經驗要求。

(4)Topic4 稅務職位專業需求排名更加靠前,說明該職位的專業需求意向更加明顯,需要熟悉涉稅的法律法規等,對有能力有經驗的高管需求量較大。該職位不僅需要熟悉涉稅的法律知識,還需要熟悉管理方面知識,有能力審核和處理涉稅工作。

6 結語

根據大數據時代網絡招聘特點可以發現,不同崗位之間招聘信息技能要求的側重點會有差異。通過對招聘信息的研究,設計了技能標簽生成算法,該算法可得出不同崗位技能的側重點,將此作為廠商進行人才招聘時的重點篩選條件。通過該算法可以較好地解決招聘廠商對應聘者檢索、分類和管理問題,提高招聘效率和匹配度。

猜你喜歡
技能文本信息
高級技能
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
秣馬厲兵強技能
中國公路(2017年19期)2018-01-23 03:06:33
拼技能,享豐收
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
畫唇技能輕松
Coco薇(2015年11期)2015-11-09 13:03:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产成人亚洲毛片| 日韩精品一区二区三区大桥未久 | 真实国产乱子伦视频| 亚洲人成人伊人成综合网无码| 国产91视频免费观看| 香蕉国产精品视频| 亚洲中文字幕无码爆乳| 日韩高清无码免费| 91视频日本| 欧美第二区| 国产福利拍拍拍| 亚洲男人的天堂视频| 久久伊伊香蕉综合精品| 亚洲床戏一区| 色网站在线免费观看| 呦女精品网站| 97影院午夜在线观看视频| 福利在线不卡一区| 国产本道久久一区二区三区| 福利在线不卡一区| 亚洲第一视频网| 韩日午夜在线资源一区二区| 日本人又色又爽的视频| 国产成人高清精品免费5388| 中文毛片无遮挡播放免费| 久久福利网| 中文字幕在线永久在线视频2020| 四虎国产永久在线观看| 国产精品xxx| 91视频首页| 国产凹凸视频在线观看| 久久精品aⅴ无码中文字幕| 呦女亚洲一区精品| 午夜老司机永久免费看片| 午夜福利在线观看成人| 国产区人妖精品人妖精品视频| 啊嗯不日本网站| 毛片久久网站小视频| 午夜啪啪福利| 尤物精品国产福利网站| 日本爱爱精品一区二区| 日韩第一页在线| 日韩精品一区二区三区免费| 国产成人AV综合久久| 国产乱子伦一区二区=| 亚洲人成人无码www| 精品三级网站| 日本午夜三级| 午夜视频日本| 人妻熟妇日韩AV在线播放| 国产日本一线在线观看免费| 91精品aⅴ无码中文字字幕蜜桃| 国产二级毛片| 国产jizz| 国产精品99一区不卡| 欧美午夜小视频| 日韩精品一区二区三区视频免费看| 亚洲中文字幕久久精品无码一区| 亚洲娇小与黑人巨大交| 日本人妻丰满熟妇区| 国产精品护士| 性喷潮久久久久久久久| 免费A∨中文乱码专区| 狼友视频一区二区三区| 国内99精品激情视频精品| 久久五月视频| 999国产精品永久免费视频精品久久| 欧美高清国产| 91小视频版在线观看www| 国产成人乱无码视频| 亚洲九九视频| 亚洲欧美人成电影在线观看| 国产成人综合在线视频| 国产h视频在线观看视频| 国产免费a级片| 19国产精品麻豆免费观看| 无码久看视频| AV在线麻免费观看网站| 久久公开视频| 国产十八禁在线观看免费| 九九热在线视频| 91麻豆精品视频|