999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Cox-RSF模型的員工流失風險分析

2025-02-26 00:00:00耿宇
現代信息科技 2025年1期

摘" 要:為了提高對企業員工流失的預測精度,運用生存分析中的Cox比例風險模型和隨機生存森林(RSF)模型構建并分析了一個新的組合模型。首先,對原始數據進行預處理并通過Lasso方法篩選出關鍵性變量;其次,通過比例風險系數轉換對篩選后的變量計算各自的權系數;最后,考慮到RSF模型在處理非線性數據方面的優勢,將轉換后的數據輸入RSF模型中進行分析。研究結果表明,相比于單一的Cox比例風險模型和RSF模型,Cox-RSF模型具有更高的預測精度。此外,與傳統的Logistic模型的對比也進一步證實了新的組合模型在處理時間-事件型數據上的優勢。

關鍵詞:員工流失;Cox比例風險回歸;隨機生存森林模型

中圖分類號:TP391" " 文獻標識碼:A" " 文章編號:2096-4706(2025)01-0161-06

Risk Analysis of Employee Turnover Based on the Cox-RSF Model

Abstract: In order to improve the prediction accuracy of employee turnover, this paper uses the Cox proportional hazard model and the Random Survival Forest (RSF) model in survival analysis to construct and analyze a new combined model. Firstly, the original data is preprocessed, and the key variables are screened out by the Lasso method. Secondly, the weight coefficients of the selected variables are calculated by the proportional risk coefficient transformation. Finally, considering the advantages of the RSF model in the aspect of dealing with nonlinear data, the converted data is input into the RSF model for analysis. The research results show that the Cox-RSF model has higher prediction accuracy than the single Cox proportional hazard model and RSF model. In addition, the comparison with the traditional Logistic model further confirms the advantages of the new combined model in processing time-to-event type of data.

Keywords: employee turnover; Cox proportional hazard regression; RSF model

0" 引" 言

當今世界的競爭主要是人才的競爭,它在企業的生存與發展中扮演著重要角色。然而在現代社會中,企業之間的人員流動是常態,一旦員工流失比例超出企業的承受范圍,會直接影響企業的運營。因此合理地管理人力資源,減少不必要的員工流失顯得十分重要。

在大數據技術日益成熟的背景下,國內外學者致力于研究如何從員工流失的相關數據中挖掘出更多有用的信息,從而讓企業更好地了解員工需求、制定更好的員工流失管理策略。王冠鵬等[1]運用MV方法和Lasso方法篩選出與員工流失有關的變量,選擇XGBoost、支持向量機(SVM)、Logistic和隨機森林模型來預測員工是否流失,發現經過MV變量選擇后構建的隨機森林模型的預測效果最好。萬毅斌等[2]提出了改進的代價敏感加權SVM算法,結果表明相對于傳統的SVM和SMOTE-SVM算法,改進后的算法顯著提高了對員工離職傾向的預測精度。李強等[3]將Stacking集成學習算法、Adaboost和隨機森林組合起來構建了一個新的模型,即LRA預測模型,結果顯示該模型預測的準確率高達89.09%,預測效果良好。Saradhi等[4]運用隨機森林、決策樹、SVM、Logistic回歸等算法來預測員工是否流失,研究表明SVM模型的預測效果較好。鄒銀[5]采用Lasso方法篩選變量,分別構建了XGBoost、SVM、決策樹和隨機森林模型,通過研究發現SVM模型對員工流失的預測效果最好。

上述針對員工流失的預測方法主要分為回歸分析方法和機器學習方法,這些方法雖然被廣泛地應用于多種預測問題,但它們通常不考慮時間因素,因此在處理員工流失這類時間-事件型數據時,可能會導致預測結果的不精確。而生存分析能夠有效地納入時間變量的影響,因此更適合用來研究員工流失風險問題。由于單一的生存分析模型,如Cox比例風險模型,雖然考慮了時間因素,但在處理復雜數據或非線性關系時仍存在一些局限,為了提升預測的準確性,本文提出了一種新的組合模型——Cox-RSF模型,該模型結合了Cox比例風險模型對時間的敏感性和隨機生存森林處理非線性關系的強大能力,不僅克服了Cox模型的非線性缺陷,還顯著地增強了RSF模型的可解釋性。研究結果表明,Cox-RSF組合模型的預測性能優于單一模型。

1" 模型描述

1.1" Cox比例風險模型

Cox比例風險回歸模型是由英國統計學家COX[6]于1972年提出的一種應用于生存分析的模型,其原理是將個體的生存時間與協變量聯系起來,但不直接表現生存時間和協變量之間的關系,而是將風險函數作為因變量,具體的函數公式如下:

其中,hi(t,xi)表示個體i在時間t的風險函數,h0(t)表示基準風險函數,xi=(xi1,xi2,…,xip)T表示個體i的協變量,β=(β1,β2,…,βp)T表示回歸系數。可以看出,βi>0表示協變量xi為危險因素,即xi值越大,員工流失的風險就越大;βi<0表示協變量xi為保護因素,即xi值越大,員工流失的風險就越小。

Cox模型的樣本構成為:

的和,做到在有效選擇模型參數的同時又保證了參數估計的連續穩定。即估計量βLasso滿足:

1.2" 隨機生存森林模型

隨機生存森林(Randon Survival Forest, RSF)是由Ishwaran等[9]提出的一種適用于生存分析的方法。與隨機森林相似,隨機生存森林是通過Bootstrap重抽樣在訓練集中有放回地抽取多個樣本,通常每個Bootstrap樣本平均排除37%的數據,這些數據被稱為袋外數據(Out-of-Bag, OOB)。隨機生存森林算法步驟如下:

1)從訓練集中抽取Bootstrap樣本,并在每個樣本上都建立二元遞歸生存樹模型。

2)在每棵樹的生長過程中,當每個節點需要分裂時,隨機選擇m個候選變量(設原有變量為M個,M>m)。根據生存分裂規則,選擇能最大化子節點之間的生存差異的候選變量對節點進行分裂,分裂標準使用Log-rank檢驗[10]。

3)讓生存樹盡可能地生長,期間不進行任何剪枝,直到每個終節點樣本數不小于最小默認值。

4)運用Nelson-Aalen估計法[11]計算每棵樹的累積風險函數,得到集成累積風險函數的均值。具體如下:

對任意終節點h,定義為個體的生存時間和刪失信息,其中,Ti,h表示第i個個體在節點h的生存時間,δI,h表示第i個個體的刪失狀態(1為事件,0為刪失)。設為終節點h上個體的N(h)個不同的生存時間,di,h和Yi,h分別表示在ti,h時的事件數和總個體數,單個終節點h的累積風險函數為:

假設每個樣本i有d維協變量Xi,則終節點在Xi的條件下的累積風險函數為:

為了得到隨機生存森林模型的總累積風險函數,需要對生存樹進行平均化處理。其中每一棵生存樹都是使用獨立的Bootstrap樣本建立的,共有B個樣本。則總累積風險的袋外數據估計為:

其中,當個體i屬于袋外數據時,Ii,b=1,否則Ii,b=0;為第b個Bootstrap樣本建立的生存樹的累積風險函數。

1.3" Cox-RSF組合預測模型

員工流失數據集通常包含多個變量,而這些變量對員工流失的影響各不相同,若未正確考慮各變量的重要性,可能會高估或低估某些變量的影響,從而降低預測結果的準確性,因此我們一般采用為各變量計算不同權系數的方法來提高預測精度。傳統的加權方法如熵值法、主成分分析法等均不適宜處理數據的時間屬性,本文通過Cox比例風險模型對數據進行加權轉換,從而對流失概率較大的變量賦予較大的權系數。此外,鑒于隨機生存森林在處理非線性數據方面的優勢,本文將Cox比例風險模型和隨機生存森林組合起來,構建了新的組合模型——Cox-RSF模型。組合模型的構造思路如下:

1)首先對原始數據進行預處理,如缺失值處理、變量標準化等,然后用Lasso方法篩選出對模型最具影響力的變量,得到數據集(x1,x2,…,xp)T。

2)將篩選后的數據代入Cox比例風險模型進行回歸,得到系數β1,β2,…,βp。由于各變量對員工是否流失具有不同的影響,Cox模型的回歸系數β1,β2,…,βp的取值也會有所不同。

第四步,將轉化后的數據集按8∶2的比例劃分為訓練集和測試集,使用隨機生存森林對訓練集的數據進行學習,并在測試集上驗證模型的預測效果。

1.4" 評價指標

1.4.1" 混淆矩陣

本文主要研究關于員工流失的二分類問題,對于這類問題,一般使用混淆矩陣作為評價準則,其基本形式如表1所示。

表1中,TP表示正確識別的流失員工數,FN表示錯誤識別的流失員工數,FP表示錯誤識別的正常員工數,TN表示正確識別的正常員工數。本文主要采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-score作為評價指標,其計算式如下:

其中,精確率(P)和召回率(R)呈反向變動關系,因此如何找到這兩個值的均衡使得模型表現出最好的效果顯得尤為重要,為了解決這個問題,引入指標F1-score(F),該指標綜合考慮了精確率和召回率,彌補了兩個指標反向變動的不足,其范圍在0到1之間,數值越接近1,表明模型分類效果越好。

1.4.2" ROC曲線與AUC值

ROC曲線又稱敏感度曲線,該曲線通過將假陽性率(False Positive Rate, FPR)和真陽性率(True Positive Rate, TPR)作為橫縱坐標來描繪分類器在不同閾值下的性能,它們的計算方式如下:

AUC值是ROC曲線下覆蓋的面積大小,一般模型的AUC值介于0.5到1之間,AUC值越接近1,模型的預測效果越好。

2" 員工流失風險的分析

2.1" 數據描述與處理

本文選取了IBM平臺的員工流失數據集進行實證分析,該數據集無缺失值,包含了1 470名員工的詳細記錄,其中,1 233條記錄顯示員工仍在職,占總樣本的83%,因此樣本的刪失比例為83%。在此基礎上,本研究將在職員工在公司的工作時間視為右刪失數據,并將員工的離職狀態定義為事件終點。為提高員工流失風險的預測精度,需剔除如員工工號等與研究無關的7個變量。將數值型變量標準化處理,從而消除量綱對模型的影響,同時對無序類別型變量通過引入目標編碼加以處理。

2.2" Lasso回歸篩選變量

數據預處理后剩余28個有效變量,使用Lasso方法篩選變量。Lasso回歸通過構造懲罰參數來達到精簡模型的效果,它會將對因變量貢獻不大或呈多重共線性的變量的系數壓縮到0,以此減少Cox回歸中協變量的個數。圖1展示了通過交叉驗證來確定λ最優取值的過程,縱軸表示每個λ對應的Cox模型的偏似然偏差,橫軸表示λ的對數,左側虛線表示在模型誤差最小時取到的調整參數λ的對數值log(λ),右側虛線表示模型誤差最小值的一倍標準誤對應的log(λ)。本著用較少變量得到較高準確率的原則,選取右側虛線對應的log(λ)值,此時λ = 0.017 8,篩選出的變量個數為17個。

通過Lasso方法篩選出17個變量,對應的回歸系數如表2所示。

2.3" Cox比例風險回歸模型

將Lasso回歸篩選出的17個變量納入Cox比例風險模型,擬合結果如表3所示。

由Cox回歸結果可以看出,除去年齡(x1)、婚姻狀況(x4)和人際關系滿意度(x22)之外的所有變量均通過了1%的顯著性檢驗,此時模型的自由度為17,似然比LR=620.5,模型整體也通過了顯著性檢驗。分析結果表明,年齡、工作生活平衡水平等11個變量是保護因素,如年齡每增加一個單位,員工流失的風險率會降低為原來的0.778倍;而是否加班等6個變量是危險因素,其中加班員工的流失風險是不加班員工的4.130倍。

將表3中的回歸系數βi代入式(1),得到員工流失的Cox比例風險模型為:

2.4" Cox-RSF組合模型

Cox-RSF模型是將Cox模型和RSF模型的建模思路相結合的雙模型處理機制。首先利用Cox模型中各變量的系數(見表3)對數據進行轉化,其轉化方式如表4所示。

接著,將轉化后的數據按8∶2的比例劃分為訓練集和測試集,再輸入隨機生存森林中進行訓練和預測。通過網格搜索比較不同參數選擇下的預測誤差,當每個節點上隨機采樣的特征數量mtry為5,葉結點上允許的最小樣本數nodesize為41時袋外錯誤率(Error rate)達到最低值9.10%,如圖2所示。此外,當ntree為300時,袋外錯誤率趨向于穩定,考慮到ntree的取值繼續增大會增加過擬合風險,因此后續將在300棵樹的基礎上建模。我們以此參數構建了隨機生存森林模型。

前面已對訓練集數據建立了最優Cox-RSF模型,接著對測試集數據進行預測,預測準確率為83.67%,部分預測結果如表5所示。

2.5" 模型間的對比分析

為了全面評估不同統計模型在預測員工流失問題上的效果,除了已建立的Cox模型、RSF模型以及結合了兩者優點的Cox-RSF模型外,本研究還與經典的Logistic模型[11]進行了比較。分別在訓練集和測試集上計算各模型的F1-score(F)、準確率(A)以及AUC值,綜合對比各模型的預測效果,其結果如表6所示。

從表6可以看出,Cox-RSF模型在所有指標上均表現最佳,其在測試集上的F1-score(F)為0.910 9,準確率(A)達到83.67%,AUC值為0.826 5。相比之下,單一的Cox模型、Logistic模型及RSF模型的表現雖然穩健,但在預測精度上均不及Cox-RSF模型,尤其是Logistic模型,盡管在二分類問題中表現出色,但由于它在處理包含時間變量的數據時,信息提取不如生存分析方法全面,其在測試集上的準確率僅為70.49%。此外,RSF模型與Cox-RSF模型的對比進一步凸顯了后者的優勢,Cox-RSF模型通過比例風險系數轉化,根據風險率大小賦予各變量不同的權系數,更有效地提取了數據中的信息,使其在測試集上的表現優于RSF模型,準確率高出近6%。

圖3展示了4個模型的ROC曲線,通過這些曲線我們可以直觀地評估每個模型對員工流失的預測性能,可以看出,Cox-RSF模型的曲線顯示出較大的曲線下面積(AUC),表明Cox-RSF模型在區分流失與非流失員工方面具有更高的準確性。

3" 結" 論

本文使用IBM公司的員工流失數據,建立了一個新的預測模型——Cox-RSF模型,對員工流失風險展開研究。新模型結合了Cox比例風險模型和隨機生存森林模型的優勢,利用比例風險系數計算原始變量各自的權系數,從而克服了傳統的Cox比例風險模型在處理非線性問題時精度不足的困難,同時彌補了單純的RSF模型解釋性不強的缺陷。研究表明,相比于單一模型,Cox-RSF模型對員工流失的預測精度更高;同時與傳統的Logistic模型相比,進一步凸顯了組合模型在處理時間-事件型數據方面的優越性。

參考文獻:

[1] 王冠鵬,秦雙燕,崔恒建.員工流失的影響因素分析與預測 [J].系統科學與數學,2022,42(6):1616-1632.

[2] 萬毅斌,王紹宇,秦彥霞.基于代價敏感加權支持向量機的員工離職分類預測 [J].智能計算機與應用,2021,11(12):43-46+53.

[3] 李強,翟亮.基于Stacking算法的員工離職預測分析與研究 [J].重慶工商大學學報:自然科學版,2019,36(1):117-123.

[4] SARADHI V V,PALSHIKAR G K. Employee Churn Prediction [J].Expert Systems with Applications,2011,38(3):1999-2006.

[5] 鄒銀.基于機器學習的員工流失預測 [D].重慶:西南大學,2022.

[6] COX D R. Regression Models and Life-Tables [J].Journal of the Royal Statistical Society: Series B (Methodological),1972,34(2):187-202.

[7] TIBSHIRANI R. Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society: Series B (Methodological),1966,58(1):267-288.

[8] 劉丹,鄭少智.Cox模型中的自適應Lasso變量選擇 [J].統計與決策,2016(10):7-10.

[9] ISHWARAN H,KOGALUR U B,BLACKSTONE E H,et al. Random Survival Forests [J].The Annals of Applied Statistics,2008,2(3):841-860.

[10] PETO R,PIKE M C,ARMITAGE P,et al. Design and Analysis of Randomized Clinical Trials Requiring Prolonged Observation of Each Patient.II.Analysis and Examples [J].British Journal of Cancer,1977,35(1):1-39.

[11] 王濟川,郭志剛.Logistic回歸模型——方法與應用 [M].北京:高等教育出版社,2001.

主站蜘蛛池模板: 欧美精品成人一区二区视频一| 中文字幕在线不卡视频| 成年av福利永久免费观看| 欧美日韩国产在线人成app| 中文字幕无码电影| 欧美午夜在线播放| 久久99国产综合精品女同| 亚洲欧美自拍视频| 亚洲欧美在线精品一区二区| 国产日韩丝袜一二三区| 在线另类稀缺国产呦| 澳门av无码| 日a本亚洲中文在线观看| 新SSS无码手机在线观看| 嫩草在线视频| 欧美日韩一区二区在线播放 | 中文字幕2区| 日韩资源站| 亚洲免费福利视频| 伦伦影院精品一区| 77777亚洲午夜久久多人| 亚洲一区色| 亚洲swag精品自拍一区| 免费人成又黄又爽的视频网站| 久久精品视频亚洲| 成年看免费观看视频拍拍| 人妻无码AⅤ中文字| 亚洲av无码人妻| 亚洲色无码专线精品观看| a级免费视频| 欧洲亚洲欧美国产日本高清| 国产日本欧美亚洲精品视| 久久九九热视频| 欧美笫一页| 九九热精品免费视频| 青草娱乐极品免费视频| 午夜天堂视频| 亚洲综合婷婷激情| 国产剧情一区二区| 2021国产在线视频| 精品久久高清| 国产网站免费看| 亚洲91精品视频| 国产精品jizz在线观看软件| 亚洲区第一页| 中国一级特黄视频| 久久亚洲高清国产| 国产一线在线| 好久久免费视频高清| 亚洲精品天堂在线观看| 国产精品自在线天天看片| 爆操波多野结衣| 澳门av无码| 在线欧美国产| 91久久偷偷做嫩草影院| 在线观看无码a∨| 国产高清免费午夜在线视频| 国产亚洲美日韩AV中文字幕无码成人| 欧洲精品视频在线观看| 国产综合在线观看视频| 亚洲一区波多野结衣二区三区| 亚洲一区二区精品无码久久久| 国产精品美乳| 国产主播福利在线观看| 不卡无码网| 亚洲A∨无码精品午夜在线观看| 亚洲福利视频一区二区| 色综合久久88色综合天天提莫 | 欧美日本在线播放| 亚洲欧美一区二区三区麻豆| 国产熟睡乱子伦视频网站| 欧美国产另类| 国产精品视频第一专区| 尤物国产在线| 尤物特级无码毛片免费| 青青草国产免费国产| V一区无码内射国产| 亚洲视频在线观看免费视频| 国产高清精品在线91| 一级香蕉视频在线观看| 亚洲区第一页| 国产精品欧美日本韩免费一区二区三区不卡 |