999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的人崗匹配算法研究

2025-07-20 00:00:00何雪梅徐鍵浩趙月明張瀟云彭召意
電腦知識與技術 2025年14期

摘要:人崗匹配是指簡歷信息與崗位信息之間的對應關系。在信息和網絡高度發達的時代,依靠人力從海量的簡歷和職位信息中篩選匹配的內容不僅費時費力,且成本高昂。此外,這種方式往往導致人崗匹配度低。因此,文章提出了一種基于LightGBM算法的人崗匹配方法,通過直方圖算法尋找最佳特征分裂點,再通過單邊梯度抽樣來優化樣本。該方法能夠自動、高效且準確地實現人崗匹配,顯著提高了求職和招聘的效率并降低了相關成本。

關鍵詞:人崗匹配;LightGBM模型;語義匹配;直方圖;單邊梯度抽樣

中圖分類號:TP391文獻標識碼:A

文章編號:1009-3044(2025)14-0001-03

0引言

就業問題始終是廣泛關注的民生問題。面對海量的招聘信息和求職簡歷,求職者和招聘者均面臨人工篩選信息的困難。此外,基于關鍵詞的篩選方法往往缺乏準確性。利用基于語義的人崗信息匹配技術提升人崗匹配效率,緩解“招工難”“就業難”問題,具有重要現實意義。因此,本文提出了一種基于Light?GBM模型的算法以提高求職和招聘的匹配效率。近年來,研究者們對人崗匹配展開了一些研究,提出了不同的匹配方法和模型。朱瑜等人[1]提出了一種基于深度學習的端到端人崗匹配模型BATPJF。行萬里等人[2]提出了一種基于孿生網絡的BERT就業推薦模型。蔣鎮鴻等人[3]提出了一種基于訓練BERT模型及注意力機制搭建的人崗匹配模型。

為實現人崗匹配,本文提出了一種基于LightGBM模型的人崗匹配模型。該模型綜合了招聘單位對簡歷的評價、求職者對職位偏好和詞移距離的文本語義空間三方面的信息,通過這種多維度數據的融合,有效整合了簡歷信息、招聘信息的文本特征以及求職和招聘雙方的意愿,提高了招聘需求與簡歷信息匹配的精確度。

1基于LightGBM的人崗匹配算法

本文提出了一種基于LightGBM(LightGradientBoostingMachine,輕量的梯度提升機)的人崗匹配算法[4]。LightGBM為是微軟亞洲研究院于2016年開發的高效并行訓練框架,旨在實現GBDT(梯度提升決策樹)算法。LightGBM模型采用了直方圖算法、單邊梯度抽樣、互斥特征捆綁及決策樹算法等方法解決了GBDT在處理海量數據時計算效率低下的問題[5]。基于LightGBM的人崗匹配整體框架圖如圖1所示。

1.1數據來源

數據集來自在線招聘平臺“智聯招聘”,已發布在阿里云天池競賽平臺上。為了保護求職者的隱私,所有簡歷均已匿名處理。簡歷數據包括簡歷ID、期望崗位行業、學歷、期望工資、年齡、工作年限及經歷等信息,崗位數據包含崗位ID、崗位名稱、行業、城市、最低學歷及崗位描述等信息。每份簡歷中的工作經歷被分割成關鍵詞列表,而與城市相關的特征則被映射成數字列表。數據集包含了4500份簡歷和269534個職位,共有700938對招聘記錄。在數據預處理中移除了職位描述和職位類型為空的職位和沒有任何工作經驗的簡歷,然后將每個特征字段中的空值替換為特定值。經過篩選確保每份簡歷至少匹配6個職位,同時擁有3個以上未匹配的職位。最終得到211034對查看簡歷記錄,其中包括15086個正樣本和195948個負樣本。在本文中將招聘者給候選人提供面試機會的記錄視為正樣本。數據集中只有大約7.2%的正樣本。這表明招聘平臺的雙邊用戶通過人工篩選尋找合適候選人或工作的效率相對較低。預處理后的數據的統計信息如表1所示。

1.2數據預處理

數據集中簡歷數據約4500條,崗位數據約270000條。對于簡歷數據,須提取并處理期望工作城市ID、期望薪資、原始薪資等數據,將非結構化的數據轉換為更易分析處理的格式。對于崗位數據,將工作年限映射為具體的數值型特征,處理日期字段的缺失值并轉換為日期格式,并刪除不再需要的列,最后進行文本清洗與分詞,繼而進行TF-IDF特征提取和SVD降維。在TF-IDF特征提取過程中,以崗位描述和簡歷經驗作為輸入數據,按行業關鍵詞庫過濾停用詞,保留前500維特征,并通過TruncatedSVD降維至10維主題特征,將得到的10個SVD特征合并到源數據。對行為表(表示的是當為簡歷投放相應崗位后的行為,包括HR認可、已經投遞、預覽三種)統計了不同用戶的行為特征,刪除了完全重復的行和未出現在崗位數據表中的職位,并保留每個簡歷和崗位組合的最后行為記錄。最后將訓練數據與測試數據的行為表分別與相應的簡歷數據和崗位數據進行左連接,再合并訓練數據和測試數據,并進行特征工程提取與用戶工作經驗、期望薪資、學歷、城市等相關的統計特征,計算了招聘職位的信息、薪資統計數據等,最終結果用于模型的訓練和測試。

1.3數據統計分析

對數據集中的簡歷經驗字段和職位要求字段的詞數統計結果如圖2、圖3所示,其中簡歷經驗的詞數集中在0~100詞,職位描述的詞數集中在50~400詞。

訓練數據集采用5折交叉驗證的方法劃分,每次訓練時80%為訓練集,20%為驗證集,測試數據集為單獨數據集。訓練階段,首先對簡歷數據和崗位數據進行數據處理,然后對數據文本進行特征處理和TF IDF特征提取,最后使用5折交叉驗證法進行模型訓練。特征提取重要性可視化如圖4所示。

其中job_description和experience經過TF-IDF特征提取和SVD降維后轉化為10個主題特征,以name_svd_num(如experience_svd_0)方式命名,并保存在數據集中用于訓練。同時保存每次交叉驗證計算的特征重要性,經過降維的特征重要性應由該特征所有特征重要性相加所得。

圖4中自上而下按重要性排序,前5項依次為職位描述、簡歷經驗、城市、職位標題和有效經驗詞數比。可見,在人崗匹配預測方面,職位描述和簡歷經驗的重要性遙遙領先,其次是城市和職位,其他因素的特征重要性在數量級上相差不大。

特征重要性的計算主要基于分裂增益和分裂次數。每當一個特征在樹中被用于分裂時,系統會對模型的增益進行計算。基于分裂增益的特征重要性是該特征在所有樹中用于分裂時所獲得的增益之和;基于分裂次數的特征重要性是一個特征在所有樹中被用作分裂的次數,頻繁用于分裂的特征被認為更為重要。

預測目標時分別按照delivered和satisfied兩個指標進行預測。基于平臺歷史數據統計,招聘方滿意(satisfied)的匹配對后續面試成功率提升70%,而投遞行為(delivered)僅反映初步意向,因此,將按照deliv?ered×0.3+satisfied×0.7的權重計算后得到最終預測結果。

1.4直方圖算法、單邊梯度抽樣、互斥特征捆綁

LightGBM采用了直方圖算法尋找最佳特征分裂點。直方圖算法在處理薪資、工作年限等數值型具有連續性的特征和TF-IDF特征提取與降維時,將連續特征離散化為256個區間,通過累積統計量快速定位最優分裂點,降低了內存的消耗,并且可以通過直方圖作差的方法提高訓練速度[6]。直方圖算法離散化過程如圖5所示。

單邊梯度抽樣(Gradient-basedOne-SideSam?pling,GOSS)算法通過減少樣本來優化LightGBM,是LightGBM的核心原理之一。GOSS算法排除了大部分小梯度的樣本,僅用剩下的樣本計算信息增益,它是一種在減少數據量和保證精度上平衡的算法,GOSS首先將要進行分裂的特征的所有取值按照絕對值大小降序排序,選取絕對值最大的a×100%個數據,然后在剩下的較小梯度數據中隨機選擇b×100%個數據,接著將這b×100%個數據乘以一個常數(1-a)/b,這樣(a+b)×100%樣本算法就會更關注訓練不足的樣本,而不會過多改變原數據集的分布,最后使用這些數據來計算信息增益[7]。單邊梯度抽樣算法的算法描述如表2所示。

互斥特征捆綁(ExclusiveFeatureBundling,EFB)算法通過將兩個互斥的特征捆綁為一個特征,在不丟失特征信息的前提下,減少特征數量(降維),從而加速模型訓練[8]。模型訓練時LightGBM自動檢測互斥特征并進行捆綁,比如對TF-IDF特征和行為統計特征等進行捆綁優化,減少特征維度,提高訓練速度。在LightGBM算法訓練過程中,經過數據預處理的數據,再經過標簽編碼和特征處理之后,通過五折交叉驗證分批次訓練數據,直方圖算法將部分連續特征離散化為256個區間,快速定位最優分裂點,控制每輪迭代時按用戶ID分層隨機以80%的比例抽樣特征和數據用于分裂節點,自動識別互斥特征并捆綁,減少特征維度,并通過早停保留最佳迭代次數和最佳模型結果。

2實驗結果與分析

根據數據集訓練模型優化結果,模型的最終參數迭代次數為10000次,迭代次數小于5000次時效果沒有顯著提升,學習率為0.01,最大樹深度為8,葉子數量63,boosting_type提升樹類型設置為“gbdt”,顯式啟用了直方圖算法,objective學習任務設置為“bi?nary”,表示模型將使用適合二分類問題的損失函數(如二元交叉熵損失)。

由于人崗匹配數據集具有類別分布極度不均衡的特點,傳統分類準確率(Accuracy)難以準確反映模型性能。因此,采用了全類平均精度(MAP)和ROC曲線下面積(AUC)作為補充評價指標來評估模型性能。全類平均精度(MAP)應用:

通過計算所有n組排序后的職位序列里,求職者投遞(delivered)職位的MAP(MeanAveragePrecision)值以及用人單位中意(satisfied)職位的MAP值,由最終的加權評價值MAPfinal=MAPsatisfied×0.7+MAPdelivered×0.3作為模型的評價指標,分數越高表示預測效果越好[9]。

MAP計算公式表示為:

模型會分別根據用人單位是否中意職位的投遞者來訓練模型,根據最終的評價指標優化模型,根據數據集訓練得到的AUC為0.71,同時使用邏輯回歸和決策樹做了對比實驗,得到的AUC曲線對比如圖6所示。

本文采用ACC、AUC和MAP三個評價指標來比較不同模型算法與LightGBM模型在人崗匹配上的性能,LightGBM模型在三個評價指標上都表現最佳,在適合人崗匹配特點的MAP評價指標上是其他模型算法準確率的0.4倍,可以達到更高的人崗匹配度,對比實驗結果如表3所示。

3結束語

本文提出一種基于LightGBM模型的人崗匹配算法,通過分詞、數據處理、文本相似度匹配和特征提取等方法顯著提高了人崗匹配的準確度。考慮到人崗匹配的特殊性,在匹配時需要求職者數據和崗位數據的笛卡爾積,數據會爆炸式增長,對于這種龐大的數據,LightGBM模型在速度和準確率上有良好的表現。

參考文獻:

[1]朱瑜,魏嘉銀,盧友軍,等.基于深度學習的端到端人崗匹配模型[J].智能計算機與應用,2023,13(4):47-51,59.

[2]行萬里.基于文本匹配的就業推薦系統研究[D].太原:太原師范學院,2023:19-30.

[3]蔣鎮鴻.基于知識圖譜與Bert的人崗匹配模型研究[D].廣州:廣州大學,2021:52-56.

[4]劉博,王笑天,徐晨.基于LightGBM算法的機場聚合離場延誤預測[J].西安航空學院學報,2024,42(1):26-30.

[5]KEG,MENGQ,FINLEYT,etal.LightGBM:AHighlyEfficientGradientBoostingDecisionTreetionProcessingSystems30[C].RedHook:AdvancesinNeuralInforma,NY:CurranAssociates?Inc,2017.

[6]苗月,吳陳.基于RF-FL-LightGBM算法的信用風險評估模型研究[J].計算機與數字工程,2024,52(3):808-813.

[7]許小松.基于集成學習算法的金融機構個人客戶違約預測[D].南京:東南大學,2020:16-17.

[8]唐一峰.基于XGBoost算法和LightGBM算法的貸款違約預測模型研究[J].現代計算機,2021,27(32):33-37.

[9]徐怡婕.基于用戶畫像的招聘特征推薦系統研究[D].大連:大連交通大學,2021:38-39.

【通聯編輯:謝媛媛】

主站蜘蛛池模板: 国产精品第一区| 久久这里只有精品66| 国产情侣一区| 成人欧美在线观看| 精品久久蜜桃| 亚洲资源站av无码网址| 波多野结衣无码AV在线| 在线免费观看AV| 91成人在线观看| 无码专区国产精品一区| 国产网友愉拍精品视频| 国产精品免费久久久久影院无码| 久久久久久国产精品mv| 中文无码精品a∨在线观看| 蝌蚪国产精品视频第一页| 自拍偷拍欧美| 日本三级黄在线观看| 欧美一级大片在线观看| av色爱 天堂网| 亚洲丝袜中文字幕| 国产成人久久综合一区| 久久久久亚洲av成人网人人软件 | 日本人妻一区二区三区不卡影院| 91日本在线观看亚洲精品| 亚洲色偷偷偷鲁综合| 日本在线亚洲| 久久人人97超碰人人澡爱香蕉 | 国产成人高清精品免费5388| 激情六月丁香婷婷四房播| 欧美α片免费观看| 无码免费视频| AV色爱天堂网| 久久福利网| 色悠久久久久久久综合网伊人| av在线手机播放| 无码区日韩专区免费系列 | 久久国产精品麻豆系列| 久草视频福利在线观看| 青青操国产| 精品福利视频导航| 日本一区二区三区精品视频| 中文成人在线| 看国产毛片| www.亚洲色图.com| 狠狠ⅴ日韩v欧美v天堂| 麻豆AV网站免费进入| aa级毛片毛片免费观看久| 亚洲日韩AV无码一区二区三区人| 亚洲AⅤ无码国产精品| 亚洲精品免费网站| a级毛片免费在线观看| 午夜人性色福利无码视频在线观看| 久久国产精品国产自线拍| 国产呦精品一区二区三区下载| 国产va在线| 亚洲欧美综合另类图片小说区| 国产精品偷伦在线观看| 亚洲精品亚洲人成在线| 亚洲无线一二三四区男男| 亚洲成人福利网站| 精品五夜婷香蕉国产线看观看| 在线观看热码亚洲av每日更新| 久久国产精品波多野结衣| 国产一二视频| 草草影院国产第一页| 亚洲伊人天堂| 久久这里只有精品免费| 久久中文无码精品| 日韩乱码免费一区二区三区| 97一区二区在线播放| 国产丝袜一区二区三区视频免下载| 亚洲欧美不卡视频| 手机成人午夜在线视频| 亚洲欧美日韩成人高清在线一区| 午夜综合网| 免费看黄片一区二区三区| 欧美色伊人| 毛片手机在线看| 国产精品3p视频| 99国产精品国产高清一区二区| 波多野结衣在线se| 欧美激情一区二区三区成人|