999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的不平衡員工晉升預測

2023-03-09 07:05:12鄭慧慧
軟件工程 2023年3期
關鍵詞:特征模型

黃 靜,鄭慧慧

(1.浙江理工大學信息科學與工程學院,浙江 杭州 310018;2.浙江理工大學計算機科學與技術學院,浙江 杭州 310018)

syhj_sy@163.com;472596438@qq.com

1 引言(Introduction)

隨著市場競爭越來越激烈,人才已經成為非常重要的競爭資源,也是企業發展的核心要素。晉升能夠對員工進行有效的激勵,促使員工發揮更大的潛力和價值,也能為企業留住更多有才華的員工,為其創造更多的收益[1]。互聯網信息時代,人力資源數據類型和數量逐漸增多和增大,其數據化價值持續放大。員工信息表現出越來越多樣和繁雜的特征,人力資源部門需要采用信息化、數據化的方式提升對員工晉升的分析、決策效率,以期改善傳統人力資源管理的信息更新緩慢的缺陷和決策的單調性,促使人才晉升透明化,以此有效激勵員工積極工作[2]。

目前,機器學習在人力資源管理領域的應用和研究有很多[3],研究的內容大多涉及人才招聘、人才離職流失、預防人才流失等方面。高超[4]分析了數據挖掘在人才招聘、人才管理和離職流失分析等人力資源管理中的具體應用。賴華強等[5]和張金艷[6]對數據挖掘在離職管理方面的應用進行了分析和實現。PUNNOOSE等[7]為了解決人員流失的問題,應用了極限梯度增強技術預測員工流動率。KUMAR等[8]實現了一個人力資源排名模型,可用于預測簡歷的排名和分類,有效地簡化了人力資源招聘工作。KHERA等[9]建立了一個基于支持向量機的員工離職模型,主要用來預測企業的員工流失率。隨著機器學習在人力資源領域的影響不斷擴大,張敏等[10]對機器學習正在重塑人力資源管理者的管理理念和方式的探討,為本文將XGBoost預測模型應用于人力資源的晉升場景帶來了更深入的思考。

為幫助企業決策者調整人才晉升管理策略、提升員工晉升公正性,本文通過分析預處理Kaggle提供的員工分析數據集,并利用XGBoost算法構建員工晉升預測模型,與其他機器學習模型進行相應模型評價指標比較,驗證XGBoost模型的效果和有效性,從而進一步分析影響員工晉升的因素。

2 XGBoost模型介紹(Introduction to XGBoost model)

在門店銷售、客戶行為、廣告點擊率等營銷方面和災害風險等方面,可利用XGBoost[11]進行相關預測;在高能物理事件、Web文本、惡意軟件、產品等領域,可利用XGBoost進行相應的分類判斷。在各領域的廣泛問題上,XGBoost都給出了相對較好的效果。

XGBoost[12]是一種基于boosting思想的并行回歸樹模型,其中boosting思想是指在已有的若干弱分類器進行加權求和得到最終的分類器。XGBoost模型是由CHEN等[11]在梯度下降決策樹(Gradient Boosted Decision Tree,GBDT)的基礎上改進而來。與GBDT[13]模型比較,XGBoost極大地提升了模型訓練計算的速度和預測及分類的精度,是GBDT算法的升級版。XGBoost[14]是由多棵決策樹(即CART回歸樹)[15]組建構成的,每一棵決策樹學習的是目標值與預測值的殘差,其中預測值是之前所有決策樹的預測值之和。所有決策樹訓練完成后進行共同決策,樣本在每一棵樹上得到相應的預測值之后進行累加作為其最終預測結果,在訓練階段,每一棵新的樹都是在已訓練完成建成的樹的基礎上進行訓練的。其中,每一棵決策樹都是弱學習器。通過boosting技術將所有弱學習器提升成為一個強學習器。為了避免模型過擬合,同時增強泛化能力,XGBoost在GBDT模型的損失函數上增加正則化項。傳統GBDT計算損失函數采用一階泰勒展開,利用負梯度值代替殘差進行擬合,XGBoost則對損失函數增加二階泰勒展開,使用二階導數收集梯度方向信息,以此提高模型的精確性。此外,XGBoost對每一個特征實行分塊并排序,因此在尋找最佳分裂點時可以實現并行化計算,從而提高了計算速度。

對于給定包含n個樣本和m個特征的數據集,該數據集表示為D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),樹集成模型使用K個可加函數預測輸出。

式(3)中,γ和λ分別表示為葉子節點數T和葉子權值ω的L2平方模系數,正則化項有助于平滑最終權重,避免過擬合。將式(2)進行二階泰勒展開,將二階形式作為近似目標函數。

式(5)中,q為輸入映射至葉子的索引,即q:Rm→T,定義每個葉子的樣本集合為Ij= {i|q(xi)=j},將式(5)進行如下改寫:

式(7)和式(8)中,構成目標函數的Gj和Hj在取值上是由第j個樹葉上數據樣本所決定的,而第j個樹葉具有的數據樣本是由樹結構函數q決定的,則推導可知決策樹結構q,易求得目標函數值,L*代表當指定一個樹的結構時,目標函數上最多減少多少,故把L*作為評價一棵樹模型的評分函數,評分越小,表明該樹的結構模型越優。訓練的目的在于尋求最佳決策樹結構q*,使得目標函數取得最優解。

3 基于XGBoost 的預測方法(Prediction method based on XGBoost)

3.1 數據集描述

本文采用Kaggle平臺HR Analytics: Employee Promotion Data(人力資源分析:員工晉升數據)提供的公開員工數據集作為數據源。Kaggle作為目前最大的機器學習數據及數據分析競賽平臺,能確保其數據的真實性和適用性。根據企業的實際情況,只有少數員工能獲得晉升機會,該數據集存在不平衡問題,數據集中的訓練集共有54,808 個樣本,測試集有23,490 個樣本。訓練集樣本中有未晉升員工50,140 個,晉升員工4,668 個。數據集包括12 個特征變量列,1 個標簽列。其中,標簽列“晉升狀況”,0=未晉升,1=已晉升。特征變量列有5 個數值型變量和7 個類別型變量。數值型變量包括“上一年完成其他軟技能、技術技能等培訓次數”“年齡”“上一年員工的評級”“工齡”“當前培訓評估的平均分”,類別型屬性變量如表1所示。

表1 類別型特征變量含義描述Tab.1 Meaning description of category characteristic variables

3.2 XGBoost模型預測流程

基于XGBoost的員工晉升預測流程如圖1所示,主要包括以下步驟:針對員工數據集進行預處理;采用訓練集構建XGBoost模型并確認最終模型參數;預測測試集的員工晉升結果,查看模型的預測效果。

圖1 基于XGBoost的員工晉升預測基本流程Fig.1 Basic process of employee promotion prediction based on XGBoost

(1)數據預處理。員工數據中部分特征存在缺失值,重要特征值的缺失將會影響模型訓練效果。本文將對缺失特征值的樣本進行適當剔除或填充處理[16]。特征分為類別型特征和數值型特征,需要對類別型特征進行編碼處理。在類別型特征中,對性別、教育程度等特征進行序號編碼(OrdinalEncoder)[17],對員工所在部門、就業地區、招聘渠道等特征進行獨熱編碼(One-HotEncoder)[18]。因為實際情況是只有少數人員才能獲得晉升機會,所以在數據分布上會存在數據不平衡問題[19]。本文采用SMOTE方法對數據集進行重采樣,處理數據集不平衡問題。

(2)學習和確定模型。采用交叉驗證的思想,將數據預處理之后得到的數據集以7:3的比例隨機分為訓練數據集和測試數據集。訓練數據集將輸入XGBoost模型進行學習訓練,不斷調整模型參數提升預測精度,最終確定模型參數。

(3)預測晉升結果。預測測試數據集的員工晉升結果,計算預測評估指標,分析XGBoost模型的準確性,并與其他預測模型相比較,查看模型的預測效果。

4 實驗分析(Experimental analysis)

4.1 數據預處理

本文主要針對Kaggle平臺發布的源數據集中的部分重要特征存在的缺失值問題、類別型特征編碼問題及數據不平衡問題進行數據預處理,防止影響模型訓練結果。首先針對重要特征存在的缺失值問題,采用過濾刪除樣本或填充特征值方法處理數據;其次采用序號編碼、獨熱編碼和二進制編碼對類別型特征進行編碼處理,使其數值化;最后采用SMOTE過采樣技術解決數據不平衡問題。

檢查數據是否存在缺失值、重復值和無關變量,發現在教育程度(education)和上一年員工評級(previous_year_rating)存在缺失值,如圖2所示。

圖2 數據集缺失值分布情況圖Fig.2 Distribution of missing values in dataset

由于“教育程度”是一個類別型特征,表示一個人是否達到了特定教育水平,它是一個較為重要的特征,不可隨意指定,這是因為該員工可能還未達到指定水平,這將導致分析不準確,訓練效果不好。在數據集的54,808 個樣本中,存在2,409 個樣本的“教育程度”為空值,占全部樣本的4.39%,由于占比較小,因此過濾剔除這部分樣本不會給模型訓練帶來重大變化。“上一年的員工評級”是一個數字型特征,表示員工在上一年的評級,該特征值為空,表示該員工加入公司的時間少于1 年,尚未存在上一年的評級記錄,因此可用“0”填充該特征值。

針對數據集中的類別型特征,本文將通過序號編碼和獨熱編碼對這些類別型特征進行編碼處理。序號編碼一般用來處理類別值間具有大小、上下關系的數據。其中,“教育程度”的類別值Master’s &above,Bachelor’s,Below Secondary之間具有大小關系,故采用序號編碼映射編碼成[0,2]的整數。“所在部門”“就業地區”“招聘渠道”這幾個特征的類別值之間不具有大小關聯,因此使用獨熱編碼進行編碼處理。剩余類別型特征的類別值僅有兩種,因此使用二進制編碼方式用0和1進行編碼。

按照實際晉升情況,晉升員工樣本在全部樣本中占比很小,不利于模型訓練學習,模型會傾向于學習比例較高的數據特征,對于比例低的數據只學習很少的特征。為克服在現實情況下因為數據不平衡問題導致訓練效果不佳的問題,本文將采用SMOTE-Synthetic Minority Oversampling Technique(合成少數過采樣技術)[20]通過復制少數實例隨機增加少數類實例平衡類分布,解決數據不平衡的問題,提高模型的訓練效果。利用SMOTE重采樣之后,數據樣本數量達到95,704 個,其中正負樣本各47,852 個。

4.2 模型驗證與評估

本文選用準確率(Accuracy)、F1 值和AUC值這三項分類算法評價指標衡量判斷模型的效果。計算AUC值需求得描述分類器的混淆矩陣。把是否晉升的分類觀測值放入矩陣中,得到混淆矩陣如表2所示。

表2 晉升分類結果混淆矩陣Tab.2 Confusion matrix of promotion classification result

準確率是指對于給定的測試數據集,分類器進行正確分類的樣本數與總樣本數之比;F1 值是精確率和召回率的綜合衡量指標,F1 值越接近1,則說明模型預測更準確。準確率和F1 值是由混淆矩陣計算得到。可利用混淆矩陣繪制出受試者工作特征(ROC)曲線,AUC值是由該曲線求得。AUC值越大,模型精度越高。準確率和F1 值的計算公式如式(9)和式(10)所示:

本文數據集經過預處理之后,樣本總量達95,704 個,編碼后特征列為55 列,是否晉升作為預測的結果標簽。將特征變量與目標變量輸入XGBoost模型,按照7:3的比例劃分訓練集數據與測試集數據,構建模型進行訓練預測。

通過不斷調整參數,得到的XGBoost模型最優超參數組合為n_estimators=100、learning_rate=0.3、max_depth=6、colsample_bynode=0.7、colsample_bytree=0.7、min_child_weight=2、subsample=0.8,其余參數則設為默認值。將建立之后不斷調優得到的XGBoost模型與LR、SVM、ANN、MLP模型進行相應評價指標的交叉驗證實驗對比,對比結果如表3所示。

表3 模型對比結果Tab.3 Comparison results of models

ROC曲線下的面積稱為AUC值。ROC曲線采用真陽性率(True Positive Rate,TPR)為縱軸,假陽性率(False Positive Rate,FPR)為橫軸,其中真陽性率是指預測結果為晉升且實際結果也為晉升的實例,是混淆矩陣中的TP,又稱靈敏度;假陽性率是指預測結果為晉升但是實際結果為未晉升的實例,是混淆矩陣中的FP。ROC曲線能直觀地反映模型的性能。上述模型算法的ROC曲線如圖3所示。

圖3 模型ROC曲線對比圖Fig.3 Model ROC curve comparison diagram

分析模型對比的實驗結果發現,本文建立的XGBoost模型在預測員工晉升時的準確率達到96.71%,F1 值為96.61%,AUC值為96.56%,相較于LR、SVM、ANN、MLP四種模型,其三項指標都具有最佳表現,其中AUC值通過ROC曲線直觀地表明XGBoost算法模型的預測效果最好。員工是否晉升與其相對的教育程度、工齡、年齡、上一年評級等特征之間存在較為復雜的影響關系。XGBoost模型基于集成方法,在模型的復雜度和精確性之間得到一個較好的平衡效果,并基于貪心算法思想,在建立決策樹的過程中尋找最佳分裂點,較之上述其他算法具有一定的優越性。

5 結論(Conclusion)

當下環境,人力資源在決策策略方法、管理手段上數據化程度不斷深化,基于大量數據和算法的員工晉升預測為企業的人才選拔和儲備發展提供了新的視角和信息。本文對Kaggle平臺提供的員工數據集采用XGBoost模型建立晉升預測模型,與LR、SVM、ANN、MLP模型進行相應的評價指標的實驗對比,分析影響員工晉升的影響因素,XGBoost模型在晉升預測上優于其他模型,其AUC值達96.56%。下一步將考慮企業員工實際情況,增加新特征,進一步提高預測模型對于員工晉升問題的應用意義。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲国产综合精品中文第一| 一本一本大道香蕉久在线播放| 国产精品播放| 国产小视频免费| 成人国产免费| 91福利国产成人精品导航| 天天综合天天综合| 乱人伦中文视频在线观看免费| 日韩小视频在线观看| 亚洲日本精品一区二区| 久久成人免费| 欧美在线三级| 亚洲成aⅴ人在线观看| 精品国产福利在线| 国产欧美精品一区二区| 久久精品免费看一| 亚洲一区二区三区麻豆| 国产精品区视频中文字幕 | 国产免费人成视频网| 欧美日韩一区二区三区在线视频| 2021无码专区人妻系列日韩| 色婷婷啪啪| 国产精品无码AⅤ在线观看播放| 自拍中文字幕| 国产后式a一视频| 国产成人三级| 亚洲男女天堂| 大香伊人久久| 亚洲愉拍一区二区精品| 国产真实乱人视频| 91亚洲精品第一| 麻豆国产在线不卡一区二区| 色婷婷在线影院| 人妻无码中文字幕一区二区三区| 国产乱肥老妇精品视频| 99re经典视频在线| 九九热精品免费视频| 丰满人妻被猛烈进入无码| 中文字幕无码电影| 日韩人妻少妇一区二区| 999国内精品视频免费| 免费福利视频网站| 一级香蕉人体视频| 夜精品a一区二区三区| 99r在线精品视频在线播放| 天天躁日日躁狠狠躁中文字幕| 高清国产在线| 久久综合结合久久狠狠狠97色| 狠狠ⅴ日韩v欧美v天堂| 日韩无码黄色网站| 午夜视频免费一区二区在线看| 91色国产在线| 波多野结衣中文字幕久久| 白丝美女办公室高潮喷水视频| 日本在线国产| 欧美亚洲欧美区| 国产无码高清视频不卡| 成人免费黄色小视频| 中文字幕在线视频免费| 久久综合激情网| 日韩在线欧美在线| 亚洲天堂首页| 最新无码专区超级碰碰碰| 思思热精品在线8| 久久一本精品久久久ー99| 精品国产一区二区三区在线观看| 日本一区二区不卡视频| 美女高潮全身流白浆福利区| 国产成人精品男人的天堂下载| 精品无码国产自产野外拍在线| 日本免费高清一区| 国产一级妓女av网站| 真实国产乱子伦视频| 久久中文字幕不卡一二区| 亚洲首页在线观看| 中文字幕在线不卡视频| 欧美国产视频| 国产精品香蕉在线| 亚洲成在人线av品善网好看| 国内精品免费| 精品久久高清| 国产午夜精品一区二区三区软件|