999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Cox-RSF模型的員工流失風險分析

2025-02-26 00:00:00耿宇
現代信息科技 2025年1期

摘" 要:為了提高對企業員工流失的預測精度,運用生存分析中的Cox比例風險模型和隨機生存森林(RSF)模型構建并分析了一個新的組合模型。首先,對原始數據進行預處理并通過Lasso方法篩選出關鍵性變量;其次,通過比例風險系數轉換對篩選后的變量計算各自的權系數;最后,考慮到RSF模型在處理非線性數據方面的優勢,將轉換后的數據輸入RSF模型中進行分析。研究結果表明,相比于單一的Cox比例風險模型和RSF模型,Cox-RSF模型具有更高的預測精度。此外,與傳統的Logistic模型的對比也進一步證實了新的組合模型在處理時間-事件型數據上的優勢。

關鍵詞:員工流失;Cox比例風險回歸;隨機生存森林模型

中圖分類號:TP391" " 文獻標識碼:A" " 文章編號:2096-4706(2025)01-0161-06

Risk Analysis of Employee Turnover Based on the Cox-RSF Model

Abstract: In order to improve the prediction accuracy of employee turnover, this paper uses the Cox proportional hazard model and the Random Survival Forest (RSF) model in survival analysis to construct and analyze a new combined model. Firstly, the original data is preprocessed, and the key variables are screened out by the Lasso method. Secondly, the weight coefficients of the selected variables are calculated by the proportional risk coefficient transformation. Finally, considering the advantages of the RSF model in the aspect of dealing with nonlinear data, the converted data is input into the RSF model for analysis. The research results show that the Cox-RSF model has higher prediction accuracy than the single Cox proportional hazard model and RSF model. In addition, the comparison with the traditional Logistic model further confirms the advantages of the new combined model in processing time-to-event type of data.

Keywords: employee turnover; Cox proportional hazard regression; RSF model

0" 引" 言

當今世界的競爭主要是人才的競爭,它在企業的生存與發展中扮演著重要角色。然而在現代社會中,企業之間的人員流動是常態,一旦員工流失比例超出企業的承受范圍,會直接影響企業的運營。因此合理地管理人力資源,減少不必要的員工流失顯得十分重要。

在大數據技術日益成熟的背景下,國內外學者致力于研究如何從員工流失的相關數據中挖掘出更多有用的信息,從而讓企業更好地了解員工需求、制定更好的員工流失管理策略。王冠鵬等[1]運用MV方法和Lasso方法篩選出與員工流失有關的變量,選擇XGBoost、支持向量機(SVM)、Logistic和隨機森林模型來預測員工是否流失,發現經過MV變量選擇后構建的隨機森林模型的預測效果最好。萬毅斌等[2]提出了改進的代價敏感加權SVM算法,結果表明相對于傳統的SVM和SMOTE-SVM算法,改進后的算法顯著提高了對員工離職傾向的預測精度。李強等[3]將Stacking集成學習算法、Adaboost和隨機森林組合起來構建了一個新的模型,即LRA預測模型,結果顯示該模型預測的準確率高達89.09%,預測效果良好。Saradhi等[4]運用隨機森林、決策樹、SVM、Logistic回歸等算法來預測員工是否流失,研究表明SVM模型的預測效果較好。鄒銀[5]采用Lasso方法篩選變量,分別構建了XGBoost、SVM、決策樹和隨機森林模型,通過研究發現SVM模型對員工流失的預測效果最好。

上述針對員工流失的預測方法主要分為回歸分析方法和機器學習方法,這些方法雖然被廣泛地應用于多種預測問題,但它們通常不考慮時間因素,因此在處理員工流失這類時間-事件型數據時,可能會導致預測結果的不精確。而生存分析能夠有效地納入時間變量的影響,因此更適合用來研究員工流失風險問題。由于單一的生存分析模型,如Cox比例風險模型,雖然考慮了時間因素,但在處理復雜數據或非線性關系時仍存在一些局限,為了提升預測的準確性,本文提出了一種新的組合模型——Cox-RSF模型,該模型結合了Cox比例風險模型對時間的敏感性和隨機生存森林處理非線性關系的強大能力,不僅克服了Cox模型的非線性缺陷,還顯著地增強了RSF模型的可解釋性。研究結果表明,Cox-RSF組合模型的預測性能優于單一模型。

1" 模型描述

1.1" Cox比例風險模型

Cox比例風險回歸模型是由英國統計學家COX[6]于1972年提出的一種應用于生存分析的模型,其原理是將個體的生存時間與協變量聯系起來,但不直接表現生存時間和協變量之間的關系,而是將風險函數作為因變量,具體的函數公式如下:

其中,hi(t,xi)表示個體i在時間t的風險函數,h0(t)表示基準風險函數,xi=(xi1,xi2,…,xip)T表示個體i的協變量,β=(β1,β2,…,βp)T表示回歸系數。可以看出,βi>0表示協變量xi為危險因素,即xi值越大,員工流失的風險就越大;βi<0表示協變量xi為保護因素,即xi值越大,員工流失的風險就越小。

Cox模型的樣本構成為:

的和,做到在有效選擇模型參數的同時又保證了參數估計的連續穩定。即估計量βLasso滿足:

1.2" 隨機生存森林模型

隨機生存森林(Randon Survival Forest, RSF)是由Ishwaran等[9]提出的一種適用于生存分析的方法。與隨機森林相似,隨機生存森林是通過Bootstrap重抽樣在訓練集中有放回地抽取多個樣本,通常每個Bootstrap樣本平均排除37%的數據,這些數據被稱為袋外數據(Out-of-Bag, OOB)。隨機生存森林算法步驟如下:

1)從訓練集中抽取Bootstrap樣本,并在每個樣本上都建立二元遞歸生存樹模型。

2)在每棵樹的生長過程中,當每個節點需要分裂時,隨機選擇m個候選變量(設原有變量為M個,M>m)。根據生存分裂規則,選擇能最大化子節點之間的生存差異的候選變量對節點進行分裂,分裂標準使用Log-rank檢驗[10]。

3)讓生存樹盡可能地生長,期間不進行任何剪枝,直到每個終節點樣本數不小于最小默認值。

4)運用Nelson-Aalen估計法[11]計算每棵樹的累積風險函數,得到集成累積風險函數的均值。具體如下:

對任意終節點h,定義為個體的生存時間和刪失信息,其中,Ti,h表示第i個個體在節點h的生存時間,δI,h表示第i個個體的刪失狀態(1為事件,0為刪失)。設為終節點h上個體的N(h)個不同的生存時間,di,h和Yi,h分別表示在ti,h時的事件數和總個體數,單個終節點h的累積風險函數為:

假設每個樣本i有d維協變量Xi,則終節點在Xi的條件下的累積風險函數為:

為了得到隨機生存森林模型的總累積風險函數,需要對生存樹進行平均化處理。其中每一棵生存樹都是使用獨立的Bootstrap樣本建立的,共有B個樣本。則總累積風險的袋外數據估計為:

其中,當個體i屬于袋外數據時,Ii,b=1,否則Ii,b=0;為第b個Bootstrap樣本建立的生存樹的累積風險函數。

1.3" Cox-RSF組合預測模型

員工流失數據集通常包含多個變量,而這些變量對員工流失的影響各不相同,若未正確考慮各變量的重要性,可能會高估或低估某些變量的影響,從而降低預測結果的準確性,因此我們一般采用為各變量計算不同權系數的方法來提高預測精度。傳統的加權方法如熵值法、主成分分析法等均不適宜處理數據的時間屬性,本文通過Cox比例風險模型對數據進行加權轉換,從而對流失概率較大的變量賦予較大的權系數。此外,鑒于隨機生存森林在處理非線性數據方面的優勢,本文將Cox比例風險模型和隨機生存森林組合起來,構建了新的組合模型——Cox-RSF模型。組合模型的構造思路如下:

1)首先對原始數據進行預處理,如缺失值處理、變量標準化等,然后用Lasso方法篩選出對模型最具影響力的變量,得到數據集(x1,x2,…,xp)T。

2)將篩選后的數據代入Cox比例風險模型進行回歸,得到系數β1,β2,…,βp。由于各變量對員工是否流失具有不同的影響,Cox模型的回歸系數β1,β2,…,βp的取值也會有所不同。

第四步,將轉化后的數據集按8∶2的比例劃分為訓練集和測試集,使用隨機生存森林對訓練集的數據進行學習,并在測試集上驗證模型的預測效果。

1.4" 評價指標

1.4.1" 混淆矩陣

本文主要研究關于員工流失的二分類問題,對于這類問題,一般使用混淆矩陣作為評價準則,其基本形式如表1所示。

表1中,TP表示正確識別的流失員工數,FN表示錯誤識別的流失員工數,FP表示錯誤識別的正常員工數,TN表示正確識別的正常員工數。本文主要采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-score作為評價指標,其計算式如下:

其中,精確率(P)和召回率(R)呈反向變動關系,因此如何找到這兩個值的均衡使得模型表現出最好的效果顯得尤為重要,為了解決這個問題,引入指標F1-score(F),該指標綜合考慮了精確率和召回率,彌補了兩個指標反向變動的不足,其范圍在0到1之間,數值越接近1,表明模型分類效果越好。

1.4.2" ROC曲線與AUC值

ROC曲線又稱敏感度曲線,該曲線通過將假陽性率(False Positive Rate, FPR)和真陽性率(True Positive Rate, TPR)作為橫縱坐標來描繪分類器在不同閾值下的性能,它們的計算方式如下:

AUC值是ROC曲線下覆蓋的面積大小,一般模型的AUC值介于0.5到1之間,AUC值越接近1,模型的預測效果越好。

2" 員工流失風險的分析

2.1" 數據描述與處理

本文選取了IBM平臺的員工流失數據集進行實證分析,該數據集無缺失值,包含了1 470名員工的詳細記錄,其中,1 233條記錄顯示員工仍在職,占總樣本的83%,因此樣本的刪失比例為83%。在此基礎上,本研究將在職員工在公司的工作時間視為右刪失數據,并將員工的離職狀態定義為事件終點。為提高員工流失風險的預測精度,需剔除如員工工號等與研究無關的7個變量。將數值型變量標準化處理,從而消除量綱對模型的影響,同時對無序類別型變量通過引入目標編碼加以處理。

2.2" Lasso回歸篩選變量

數據預處理后剩余28個有效變量,使用Lasso方法篩選變量。Lasso回歸通過構造懲罰參數來達到精簡模型的效果,它會將對因變量貢獻不大或呈多重共線性的變量的系數壓縮到0,以此減少Cox回歸中協變量的個數。圖1展示了通過交叉驗證來確定λ最優取值的過程,縱軸表示每個λ對應的Cox模型的偏似然偏差,橫軸表示λ的對數,左側虛線表示在模型誤差最小時取到的調整參數λ的對數值log(λ),右側虛線表示模型誤差最小值的一倍標準誤對應的log(λ)。本著用較少變量得到較高準確率的原則,選取右側虛線對應的log(λ)值,此時λ = 0.017 8,篩選出的變量個數為17個。

通過Lasso方法篩選出17個變量,對應的回歸系數如表2所示。

2.3" Cox比例風險回歸模型

將Lasso回歸篩選出的17個變量納入Cox比例風險模型,擬合結果如表3所示。

由Cox回歸結果可以看出,除去年齡(x1)、婚姻狀況(x4)和人際關系滿意度(x22)之外的所有變量均通過了1%的顯著性檢驗,此時模型的自由度為17,似然比LR=620.5,模型整體也通過了顯著性檢驗。分析結果表明,年齡、工作生活平衡水平等11個變量是保護因素,如年齡每增加一個單位,員工流失的風險率會降低為原來的0.778倍;而是否加班等6個變量是危險因素,其中加班員工的流失風險是不加班員工的4.130倍。

將表3中的回歸系數βi代入式(1),得到員工流失的Cox比例風險模型為:

2.4" Cox-RSF組合模型

Cox-RSF模型是將Cox模型和RSF模型的建模思路相結合的雙模型處理機制。首先利用Cox模型中各變量的系數(見表3)對數據進行轉化,其轉化方式如表4所示。

接著,將轉化后的數據按8∶2的比例劃分為訓練集和測試集,再輸入隨機生存森林中進行訓練和預測。通過網格搜索比較不同參數選擇下的預測誤差,當每個節點上隨機采樣的特征數量mtry為5,葉結點上允許的最小樣本數nodesize為41時袋外錯誤率(Error rate)達到最低值9.10%,如圖2所示。此外,當ntree為300時,袋外錯誤率趨向于穩定,考慮到ntree的取值繼續增大會增加過擬合風險,因此后續將在300棵樹的基礎上建模。我們以此參數構建了隨機生存森林模型。

前面已對訓練集數據建立了最優Cox-RSF模型,接著對測試集數據進行預測,預測準確率為83.67%,部分預測結果如表5所示。

2.5" 模型間的對比分析

為了全面評估不同統計模型在預測員工流失問題上的效果,除了已建立的Cox模型、RSF模型以及結合了兩者優點的Cox-RSF模型外,本研究還與經典的Logistic模型[11]進行了比較。分別在訓練集和測試集上計算各模型的F1-score(F)、準確率(A)以及AUC值,綜合對比各模型的預測效果,其結果如表6所示。

從表6可以看出,Cox-RSF模型在所有指標上均表現最佳,其在測試集上的F1-score(F)為0.910 9,準確率(A)達到83.67%,AUC值為0.826 5。相比之下,單一的Cox模型、Logistic模型及RSF模型的表現雖然穩健,但在預測精度上均不及Cox-RSF模型,尤其是Logistic模型,盡管在二分類問題中表現出色,但由于它在處理包含時間變量的數據時,信息提取不如生存分析方法全面,其在測試集上的準確率僅為70.49%。此外,RSF模型與Cox-RSF模型的對比進一步凸顯了后者的優勢,Cox-RSF模型通過比例風險系數轉化,根據風險率大小賦予各變量不同的權系數,更有效地提取了數據中的信息,使其在測試集上的表現優于RSF模型,準確率高出近6%。

圖3展示了4個模型的ROC曲線,通過這些曲線我們可以直觀地評估每個模型對員工流失的預測性能,可以看出,Cox-RSF模型的曲線顯示出較大的曲線下面積(AUC),表明Cox-RSF模型在區分流失與非流失員工方面具有更高的準確性。

3" 結" 論

本文使用IBM公司的員工流失數據,建立了一個新的預測模型——Cox-RSF模型,對員工流失風險展開研究。新模型結合了Cox比例風險模型和隨機生存森林模型的優勢,利用比例風險系數計算原始變量各自的權系數,從而克服了傳統的Cox比例風險模型在處理非線性問題時精度不足的困難,同時彌補了單純的RSF模型解釋性不強的缺陷。研究表明,相比于單一模型,Cox-RSF模型對員工流失的預測精度更高;同時與傳統的Logistic模型相比,進一步凸顯了組合模型在處理時間-事件型數據方面的優越性。

參考文獻:

[1] 王冠鵬,秦雙燕,崔恒建.員工流失的影響因素分析與預測 [J].系統科學與數學,2022,42(6):1616-1632.

[2] 萬毅斌,王紹宇,秦彥霞.基于代價敏感加權支持向量機的員工離職分類預測 [J].智能計算機與應用,2021,11(12):43-46+53.

[3] 李強,翟亮.基于Stacking算法的員工離職預測分析與研究 [J].重慶工商大學學報:自然科學版,2019,36(1):117-123.

[4] SARADHI V V,PALSHIKAR G K. Employee Churn Prediction [J].Expert Systems with Applications,2011,38(3):1999-2006.

[5] 鄒銀.基于機器學習的員工流失預測 [D].重慶:西南大學,2022.

[6] COX D R. Regression Models and Life-Tables [J].Journal of the Royal Statistical Society: Series B (Methodological),1972,34(2):187-202.

[7] TIBSHIRANI R. Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society: Series B (Methodological),1966,58(1):267-288.

[8] 劉丹,鄭少智.Cox模型中的自適應Lasso變量選擇 [J].統計與決策,2016(10):7-10.

[9] ISHWARAN H,KOGALUR U B,BLACKSTONE E H,et al. Random Survival Forests [J].The Annals of Applied Statistics,2008,2(3):841-860.

[10] PETO R,PIKE M C,ARMITAGE P,et al. Design and Analysis of Randomized Clinical Trials Requiring Prolonged Observation of Each Patient.II.Analysis and Examples [J].British Journal of Cancer,1977,35(1):1-39.

[11] 王濟川,郭志剛.Logistic回歸模型——方法與應用 [M].北京:高等教育出版社,2001.

主站蜘蛛池模板: 亚洲精品片911| 色亚洲激情综合精品无码视频 | V一区无码内射国产| 亚洲视频在线观看免费视频| 久久久国产精品无码专区| 在线精品亚洲国产| 无码专区国产精品一区| 九九免费观看全部免费视频| 日韩欧美中文在线| 亚洲中字无码AV电影在线观看| 亚洲第一区欧美国产综合| 亚洲女同欧美在线| 中文字幕在线看| 国产高清在线观看91精品| 亚洲欧美日韩视频一区| 亚洲综合天堂网| 亚洲热线99精品视频| 人妻无码中文字幕第一区| 久热精品免费| 狠狠色婷婷丁香综合久久韩国| 国产精品欧美亚洲韩国日本不卡| 中文字幕欧美日韩高清| 久久综合AV免费观看| 免费av一区二区三区在线| 亚洲Aⅴ无码专区在线观看q| 欧美人人干| 亚洲国产成人久久77| 国产成人高清精品免费5388| 午夜毛片免费观看视频 | 亚洲国产欧美国产综合久久 | 999国产精品永久免费视频精品久久| 日本三区视频| 中文字幕日韩视频欧美一区| 99视频全部免费| 中文字幕永久视频| 中国成人在线视频| av天堂最新版在线| 五月天久久婷婷| 国产精品毛片一区视频播| 老熟妇喷水一区二区三区| 99无码中文字幕视频| 激情综合图区| 18禁影院亚洲专区| 欧美一级夜夜爽www| 国产成人AV综合久久| 日本在线免费网站| 亚洲无码视频一区二区三区| 97视频免费在线观看| 天天躁日日躁狠狠躁中文字幕| 干中文字幕| 日韩黄色在线| 无码日韩视频| 久久久亚洲色| 精品小视频在线观看| av手机版在线播放| 无码内射中文字幕岛国片| 色偷偷一区二区三区| 午夜激情福利视频| 国产成人综合日韩精品无码首页| 久久久久人妻一区精品色奶水| 国产一级特黄aa级特黄裸毛片| 欧美日韩亚洲综合在线观看 | 国产一级毛片在线| 国产福利在线观看精品| 久久国产高潮流白浆免费观看| 91蝌蚪视频在线观看| 亚洲精品国产自在现线最新| 毛片在线播放网址| 久热re国产手机在线观看| 国产91精品久久| 一本无码在线观看| 久久精品国产999大香线焦| 日韩AV手机在线观看蜜芽| 在线观看亚洲精品福利片| 亚洲国产成人在线| 欧美综合区自拍亚洲综合天堂| 亚州AV秘 一区二区三区| 欧美一级爱操视频| 在线看AV天堂| 91视频日本| 国产在线观看一区精品| 高清无码一本到东京热|