張家普 李思奧 于欣怡 王亞飛
(北京外國語大學國際商學院 北京 100089)
員工作為企業成果的傳承與價值的創造者,對企業的生存和發展起著舉足輕重的作用,是企業寶貴的財富。然而,隨著現代科技的不斷發展,企業所處的環境競爭愈發激烈,“新的剛來,老的就走”的員工流失現象在企業中越來越普遍。以互聯網企業為例,2022年美團員工的流失率達到23%,騰訊達到21%,快手的員工流失率更是高達31.8%。員工流失可以簡單理解為企業成員主動提出脫離企業的一種行為,當然該行為對于企業而言是被動的。員工流失對于企業而言并不是簡單的人員離職,其會對企業的人事、財務、業務等多方面造成影響。基層員工的離職會導致企業缺乏一線工作的具體執行者,短期內策略難以順暢落地,從而增加企業成本;而管理層員工的離職,則會導致企業部分業務停滯、癱瘓,影響企業長期發展。在此背景下,企業人力資源部門有效掌握員工離職動向、了解員工流失原因對企業提高人力資源合理配置、降低企業經營成本具有重要意義。
針對該問題,部分學者從因果關系的角度出發進行各類因素與員工流失之間的實證研究。從因果關系分析往往基于以往理論假定因果關系成立,再通過數據結果驗證變量之間的非線性和交互關系,相對而言,預測性分析并未假設變量之間的因果關系,也并未假定變量之間特定的函數形式,能夠有效還原數據本身的特性,發掘數據中包含的復雜規律,有助于提出創新性的理論來解釋員工流失的原因。同時,預測性分析還提供了評估解釋性模型的新角度,衡量每個變量對預測表現的貢獻率,從而探究不同因素對于影響員工流失的重要程度。因此,本文以“IBM公司人力資源數據集”為例,采用預測性建模的方法,運用“決策樹”“邏輯回歸”單一的機器學習算法和“隨機森林”“XGBoost”集成的機器學習算法,分別構建員工流失預測模型并進行比較,分析影響員工流失的重要因素,從而為企業制定人才挽留措施、提高人力資源配置與管理提供有益的建議。
綜合國內外的研究成果,影響員工離職意向的因素可分為以下三類:員工自身客觀因素、員工自身主觀因素、外部環境因素。
員工自身客觀因素主要包括員工的年齡、性別、受教育水平、婚姻狀況等。張勉和蘇樹茁(2001)研究發現,在人口變量中,已婚者相對于未婚者,學歷為本科的雇員相對于學歷為高中及以下的雇員產生離職意向的概率顯著減小。員工自身主觀因素包括員工的工作滿意度、工作成就感、職業發展規劃、組織承諾等。員工可能會因為工作滿意度不夠高而離職;趙西萍等人(2003)認為工作滿意度與員工的離職意向呈負相關;徐芳和夏瑛(2012)以酒店從業人員為例,研究得出隨著職級的提升,個人實現價值越來越大,其對工作的滿意度也就越高;組織承諾是員工對于公司的歸屬感與認同感(崔勛,2003),對于公司歸屬感與認同感較高的員工,往往離職意向更低。
外部環境因素包括薪酬、工作環境、員工福利激勵等物質工作條件,工作部門等自身工作情況及管理層管理措施、通勤時間等。薪酬與員工的離職關聯性較大,王趙夢(2016)認為,根據社會比較理論,工作積極性不僅關系到個人的實際工資,而且關系到工資分配是否公平;公司的硬件條件也會影響員工的離職意愿,高國生和張亞偉(2021)調查發現,我國東部某城市保險企業銷售人員流失的主要因素是對工作硬件環境存在不滿情緒;而員工福利例如股權激勵是很多公司留住人才的重要手段,部分學者認為股權激勵具有吸引、篩選和留住人才的功能,可以有效阻止人員流失,對于風險規避程度較低的員工尤為適用(Oyer,2004);葉仁蓀等(2005)則通過實證研究證明管理層的管理措施可通過影響員工的工作滿意度與組織承諾來影響員工的離職意向。
隨著機器學習方法、數據挖掘技術在企業管理中的廣泛應用(陸瑤等,2020),通過機器學習研究員工流失問題逐漸成為熱點。
國外學者從不同模型出發,使用機器學習方法預測員工的離職行為。Ribes(2017)等分析了員工離職因素,并以此為基礎構建了員工離職預測模型,發現員工的離職預測問題與企業目標客戶流失預測問題相似,因此可以使用機器學習方法例如決策樹算法、支持向量機算法等對此類問題一起進行分析預測;Hebbar等(2018)采用了邏輯回歸、支持向量機(SVM)和隨機森林等不同模型探究員工流失問題。
國內學者利用機器學習對員工流失問題進行了預測性分析。李蕓等(2020)使用支持向量機(SVM)算法對員工流失問題進行了預測分析,并以電網企業人力資源數據為基礎,建立了預警模型。葉仁蓀等(2005)通過對國有企業員工進行問卷調查,并利用Lisrel和SPSS進行分析,建立了員工離職模型;李佳浩等(2021)采用基于Stacking集成算法Adaboost和隨機森林算法一起構建而形成一種LRA員工離職傾向模型研究員工流失問題;杜彩蘭(2016)根據快消行業人員流失特點和現在國內外數據挖掘技術的研究,運用生存分析方法,建立人員流失數據分析模型,尋找與人員流失相關的人員統計變量,并結合某可樂公司的人員數據進行模型估計和預測。
本文以阿里云天池實驗室公開的“IBM公司人力資源數據集”進行員工流失預測及影響因素研究。該數據集包含35個變量,1470個樣本,其中26個為數值型變量,9個為非數值型變量。被解釋變量為Attrition(是否離職),其余34個變量描述的是可能影響員工流失的因素,包含員工個人特征、工作特征、主觀滿意度等各項信息。
初步觀察發現,O v e r 1 8(年齡是否超過1 8 歲)、StandardHour(標準工時)和EmployeeCount(雇員數量)顯示其為常量特征,對于預測員工是否離職沒有意義,EmployeeNumber(員工號碼)與員工是否離職不存在內在聯系,因此對以上變量先行剔除;變量DailyRate(日息)、HourlyRate(時息)、MonthlyRate(月息)與MonthlyIncome(月收入)含義重復,因此對前三個變量予以剔除。數據質量檢查顯示不存在缺失值和重復值。
綜上,通過初步觀察分析,筆者團隊刪除了7個無價值變量后,數據集還剩下28個變量,其中非數值型變量8個,數值型變量20個。
對于數據集中的8個非數值型變量,為便于之后的分析,需要對這些變量進行特征編碼處理。其中,Attrition(是否離職)、Gender(性別)、OverTime(是否加班)為二分類變量,對其進行0-1編碼處理,BusinessTravel(商務差旅頻率)有Non-Travel(不出差)、Travel_Rarely(不經常出差)和Travel_Frequently(經常出差)三類,其理論意義存在遞進關系,故在數據處理時為這三類分別賦值,保留其遞進關系。具體見表1。

表1 變量特征編碼處理
對于其他字符型變量,包括Department(所在部門)、EducationField(所學習的專業領域)、JobRole(工作角色)、MaritalStatus(婚姻狀況),這些離散特征取值之間沒有大小的意義,因此對上述變量分別采用get_dummies的方法進行獨熱編碼處理,不僅解決了分類器不好處理屬性數據的問題,也在一定程度上起到了擴充特征的作用。特征編碼處理后,數據集由之前的28個變量擴充到45個,其中44個變量作為預測變量。
當樣本中各個類別分布不平衡,某一類別的樣本數遠少于其他類別時,大多數機器學習方法對不平衡的數據集不能進行很好地預測,無法取得理想的效果,所以需要根據樣本數據分布是否均勻進行平衡性處理。
本文的數據集中,離職樣本數量為237個,在職樣本數量為1233個,在整個數據集中在職/離職員工數據樣本比例為83.88:16.12,這符合真實的客觀情況,但對于機器學習而言則屬于非平衡數據,因此在建立模型之前,本文采用SMOTE方法對數據進行平衡性處理。處理后離職員工和在職員工樣本數量各占50%,各為1233個。
通過相關系數矩陣對變量進行相關性分析后得出,變量OverTime、MaritalStatus/Single(是否單身)、Tot a lWork i ngYea rs(總工齡)、JobL evel(職業級別)、YearsInCurrentRole(目前工作職責的工作年數)與被解釋變量Attrition相關性較高,而變量Gender(性別)、JobRole/Sales Executive(是否是銷售主管)、EducationField/Other(專業領域是否為其他)、Department/Human Resources(是否在人力資源部)、PercentSalaryHike(工資提高百分比)、PerformanceRating(績效評估)、JobRole/Research Scientist(是否是科學研究員)對被解釋變量的相關性排名靠后,相關系數低于0.03,因此對該貢獻度較低的6個變量予以剔除。
數據預處理后,本文依次使用決策樹、邏輯回歸、隨機森林和XGBoost四種機器學習算法,對員工離職進行預測,并通過計算準確率(Accuracy)、精確率(Precision)、召回率(Recall)、AUC等指標對模型性能進行比較,選出最優的預測模型(見表2),其中,決策樹、邏輯回歸和隨機森林是基于監督學習的分類算法,而XGBoost是一種梯度提升樹算法。

表2 模型評價
具體步驟如下:(1)收集數據集:收集并準備數據集,包括特征和目標變量;(2)將數據集拆分為訓練集和測試集:按照一定比例將數據集分為訓練集和測試集,本文隨機抽取測試集預測目標變量,30%作為測試集,而其余70%作為訓練集;(3)訓練模型:使用訓練集訓練各模型,并調整超參數如決策樹數量、子樹大小等,以提高模型性能。
利用數據進行模型訓練,得到混淆矩陣,并分別計算各模型準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值、AUC等指標并畫出各模型ROC曲線。通過表2對比模型性能評價指標結果可以看出,決策樹與邏輯回歸的性能在預測的準確率、精確率、召回率、F1值上,其表現均不如隨機森林、提升法這樣的集成學習方法。進一步對比隨機森林和XGBoost可以看出,這兩個模型的預測效果都非常出色,其中隨機森林的準確率為91.49%,召回率為86.29%,XGBoost的準確率為92.43%,召回率為88.58%;盡管兩個模型預測準確率均超過了90%,但是XGBoost在準確率、精確率、召回率和F1值上的數值比隨機森林略大。經過綜合比較分析得出,XGBoost作為員工離職的分類預測模型效果更佳,通過得出的變量重要性排序,分析員工流失的關鍵影響因素并給出后續建議。
由于XGBoost對于本數據集的預測能力優于決策樹、邏輯回歸與隨機森林,且XGBoost具有防止過擬合、可解釋能力更強等優點,因此接下來根據XGBoost模型對變量重要性度量的結果繪制變量相對重要性排序圖,對影響員工流失的因素進行排序。從圖1可以看出,影響較高的因素有:MaritalStatus(婚姻狀況)、EducationField(學習的專業領域)、Department(所在部門)、StockOptionLevel(股票期權水平)、OverTime(是否加班)、JobLevel(職業級別)等。基于此,本文結合變量交叉統計圖對影響因素作進一步分析。

圖1 XGBoost模型變量重要性排序圖
首先,特征重要性排序圖顯示,員工婚姻狀況是對員工是否離職影響最高的因素,通過圖2(a)發現,單身人員離職率的比例明顯更高,為已婚人員的兩倍多,可見單身群體不受家庭關系的影響,自由度更高,離職可能性更大;相比之下,已婚人士受家庭責任的影響,追求工作時間、工作地點、工作類型的穩定,所以離職率相對更低。

圖2 員工離職因素交叉統計圖
其次,員工所在部門以及所學習的專業領域也是影響員工離職的重要因素。不同部門、不同專業的員工所獲得的薪酬有所差距,晉升空間和行業發展等各不相同,而這會影響到員工對自己所處職位和工作的看法,以及是否想繼續留下的態度。通過圖2(b)發現,銷售部和人力資源部的離職率顯著高于研發部門,圖2(c)同樣反映出人力資源和市場營銷相關的員工離職率較高,而生命科學和醫療相關專業的員工離職率較低。據調查,目前銷售部門的離職率在各種職位的人員離職率中是最高的,原因在于銷售門檻低,部分求職者盲目入行,銷售壓力大、薪酬兩極分化嚴重,各種不穩定性造就了銷售崗離職率較高。
股票期權水平在影響員工離職的因素中排名也非常靠前。圖2(e)顯示,股票期權水平大于0的員工,其離職率明顯低于股票期權水平為0的員工,可見制定股票期權計劃對企業留住員工是一種非常有益的制度安排。豐富的股票期權計劃,既是對長期為公司服務并做出相應成績的員工的獎勵,又巧妙地將員工的利益和企業的利益結合在一起,充分發揮了激勵組合效用,因此股票期權水平更高的員工對企業的認同感會更強,也更樂意為企業付出,不愿意離職。
此外,對員工離職影響較高的因素還包括是否加班和員工職級。圖2(d)顯示,經常加班員工的離職率是不經常加班員工的3倍,可見經常加班的員工更容易出于對現在工作的不滿意而離職。圖2(f)顯示,職業級別較低的員工離職率更高,而隨著職位級別的提升,離職的員工數量和比例不斷降低,這主要是由于職業級別較低、工作時間較短的員工往往處于職業生涯初期探索階段,更容易離職,而隨著職級的提升,員工個人實現價值越來越大,其對工作的滿意度也越來越高。
本文對阿里云天池實驗室公開的“IBM公司人力資源數據集”提供的員工離職情況相關數據展開研究,依次對數據進行了質量檢查、編碼處理、平衡性處理、相關性分析后,以變量篩選和擴充后的44個變量為預測變量,以是否離職為響應變量,基于數據挖掘的方法依次構建決策樹、邏輯回歸、隨機森林和XGBoost四個員工離職預測的分類模型,分析影響員工流失的關鍵因素。結果顯示,XGBoost模型無論在預測的準確率、召回率還是AUC的表現上均優于其他三個模型,XGBoost的準確率達到92%,召回率達到88%。因此,本文認為XGBoost模型作為員工離職預測的分類模型最合適。以該模型計算各變量的重要性并進行排序,結合交叉統計圖分析后得出,員工婚姻狀況、所學習的專業、所在部門、股票期權、是否加班、職業級別等因素對員工是否離職的影響較高。
基于此,本文對企業提出以下管理建議。
第一,應重視員工的婚姻狀況,可以為員工提供系列支持家庭穩定的政策和福利,如彈性工作時間、帶薪假期及家庭健康保險,倡導和規范職場平等和公正,避免因員工的婚姻狀況而導致不公平的待遇等。
第二,在員工專業領域需充分了解員工的技能和職業規劃,并為他們提供相應的培訓和發展機會,以配合公司的業務和目標,同時應與員工進行持續的溝通,建立個人發展計劃,并根據員工的意愿和能力為他們提供相應的職業發展空間。
第三,如果員工所處的部門管理良好、氛圍和諧、同事之間互相支持,他們可能會更愿意留下來,因此企業應加強溝通與協調,建立和諧的工作氛圍,以提高員工的工作滿意度和忠誠度,同時也可以引入多元化的文化和理念,促進員工之間的相互學習和交流,并建立共同的愿景和目標。
第四,較高的股票期權水平會激勵員工繼續留在公司,為公司創造更大的利潤,據此,公司可根據員工的表現和崗位等級,為員工提供適當的股票期權,以鼓勵員工為公司創造更大的價值,同時要積極管理股票期權計劃,制定合理的期權授予政策和機制,并定期評估期權計劃的效果。