















摘要:本文基于Kaggle平臺的員工離職數據集,運用Python進行數據分析,旨在探討影響員工離職的關鍵因素。通過統計描述、相關性分析等方法,識別出對員工離職有顯著影響的特征變量。研究發現,薪酬、員工滿意度、近期考核、工作時長、職業發展機會等因素與員工離職率密切相關,并提出管理建議。本文為企業管理和人力資源策略提供了數據支持,有助于企業制定更有效的留人措施,減少員工流失,提升整體競爭力。
關鍵詞:人力資源;員工流失;數據分析
中圖分類號:F24"""""""文獻標識碼:A""""""doi:10.19311/j.cnki.16723198.2025.05.045
0"引言
在當今競爭激烈的商業環境中,員工流失成為企業管理和學術研究的關鍵話題[12]。高流失率不僅增加企業招聘及培訓成本,還可能導致知識流失、團隊穩定性下降及業務發展減緩,影響企業長期戰略[34]。因此,深入理解員工流失根源并制定有效管理策略至關重要[56]。隨著大數據和人工智能技術發展,數據分析成為揭示復雜問題規律的重要手段。通過收集和分析員工離職前數據,如基本信息、工作考核、薪酬福利、工作環境和職業發展機會等,可精準識別影響離職的關鍵因素,為制定個性化留人策略提供科學依據[78]。Kaggle作為全球性數據科學平臺,提供大量員工離職真實數據集,為研究者提供寶貴資源[9]。本文利用Kaggle員工離職數據集分析影響離職的關鍵因素,并提出應對措施,旨在幫助企業減少員工流失,提高組織績效,具有極高現實意義和研究價值。
1"數據準備
1.1"樣本選擇與數據說明
本研究選取了Kaggle平臺的HR_comma_sep數據集進行研究。該數據集提供了詳實的員工信息和他們的工作特征,是開源社區中評價較高、使用頻率較高的人員數據集之一。
HR_comma_sep數據集包含了數千名員工的信息,每位員工在數據集中被分配了多個描述他們工作狀態的變量。這些變量涵蓋了不同層面的特征,以量化員工的工作滿意度、最近的績效評估、項目參與度、月平均工作小時數、在公司工作年數、是否出現工作事故、5年內是否晉升、以及部門與薪資水平等信息。這個豐富的特征集合可以為我們提供更為全面細致的分析視角,幫助分析員工流失的潛在原因。數據集狀態變量如表1"所示。
1.2"數據清洗
該數據集有14999條數據,10個特征。對其進行數據清洗,包括處理缺失值、去除重復記錄、標準化字段名稱后的數據集數據如表2所示。
1.3"數據編碼
將薪資分類數據進行編碼,映射關系為:{'low':"1,'medium':"2,'high':"3},1表示低薪資,2表示中等薪資,3表示高薪資。編碼后的數據集如表3所示。
2"數據分析
2.1"描述性統計分析
根據上表,可得如下結論:
(1)員工滿意度分布:均值為0.61,中位數0.64,范圍在0.09~1之間,50%的員工滿意度在0.44~0.82之間。整體滿意度中等。
(2)最新評估考核分布:均值為0.72,中位數0.72,范圍在0.36~1之間,50%的員工績效考核在0.56~0.87間。整體員工考核中等偏上。
(3)員工參與項目數分布:均值為3.8,中位數4,范圍在2~7之間,50%的員工參與3~5個項目,適中。
(4)每月工作時長分布:均值為201小時,中位數200,范圍在96~310之間,50%的員工每月工作時長在156~245之間,25%的人在245~310之間;按國家規定的標準一個月工時176個小時計,該企業加班現象嚴重。
(5)工作年限分布:均值為3.5,中位數3,范圍在2~10之間,50%的員工工作年限在3~4年之間,公司團隊年輕。
(6)工作事故分布:總體上有14%的員工出現過工作事故,該企業工作事故率高。
(7)員工離職率分布:總體員工離職率為24%,一般公司離職率在10%,可見離職率非常高。
(8)員工近5年內升職分布:總體員工升職幾率僅為2%,遠低于一般水平,升職率非常低。
(9)薪資分布:薪資取值在1~3之間,1表示低薪資,2表示中等薪資,3表示高薪資,均值1.59,中位數為2,有50%的人在1~2之間,可見總體薪資水平低,達不到中等薪資水平。
2.2"員工離職因素分析
2.2.1"員工滿意度
數據集中是否離職員工對公司的滿意度箱線圖如圖1所示。假定滿意度以0.6為閾值,是否離職和滿意度分析表如表5所示。
圖1可反應員工滿意度和是否離職數據分布的特征。在職員工的滿意度相對集中,中位數為0.7左右,50%的人集中在0.55~0.85之間,整體對公司滿意度偏上;離職人員的員工滿意度中位數較低為0.4左右,且離職員工滿意度波動非常大,50%的人在0.1~0.75之間,且離職人員中滿意度沒有為1的;從表5可知,離職員工中有高達72.70%對公司滿意度低于0.6,未離職員工中滿意度達到0.6及以上的比例為65.52%;離職員工和在職員工對公司滿意度的平均值存在較大的差異,說明員工滿意度對離職有較大影響。
2.2.2"員工近期考核
將最近考核結果從0.4到1之間分割成6個區間,分別計算在每個區間中離職人數和離職率,結果如表6所示。一般以0.6為考核合格線,從表6可知,考核不合格的員工離職率高,因為績效不好而離職。同時可以發現隨著績效考核得分越高,離職人數和離職率明顯上升,特別是考核分在0.8以上的員工,說明大部分離職員工并非考核不好,而是比較優秀而選擇跳槽,企業要反思優秀員工留不住的問題。
2.2.3"平均每月工作時長
月工作時長和是否離職箱線圖如圖2所示,從圖中可知,離職員工的工作時長中位數、3/4位數、最小值、最大值均比未離職員工高,說明工作時長對離職有一定的影響;以國家標準月工作時長176小時為閾值,超過為存在加班情況,以平均每天加班一小時為一個區間,超工作時長與離職率對比如表7所示,顯然隨著加班時長的增加,離職率迅速上升。說明加班對離職有很大影響。
2.2.4"項目數
各項目數人員占比如圖3所示。各參與項目數是否離職統計如圖4所示。
從圖3可知,整體員工參與項目數在3~5間占比為74.5%;從圖4可知,員工參與的項目數從3~7逐漸增加,離職率也隨之增加,特別是參與項目數為6和7的,離職率很高,參與項目數為7的離職率100%,這說明離職人員的參與項目數越多,可能帶來工作時間過長嚴重加班而離職;其中參與項目數最少的為2,離職率也很高,可能是因為能力欠缺,不足以支撐項目能力需求,被迫離職;說明公司對技術骨干的流失問題比較嚴重。
2.2.5"工作年限
不同工作年限統計圖如圖5所示。不同工作年限是否離職的分布如圖6所示。
由圖5可知,工作年限在2~4年占比81.6%,占比最高的是3年43%,是一支非常年輕的隊伍,同時也反映公司人流動性非常大;離職員工的工作年限在2~6年間,超過6年各方面趨于穩定,年齡較大,不易更換工作,離職率較高的集中在4~6年,此工作年限的員工擁有豐富的工作經驗,并且年輕精力充沛,更易選擇更優公司。
2.2.6"是否發生工作事故
由上表可知,發生事故的員工離職率為7.79%,遠小于未發生工作事故的離職率26.52%。離職員工中僅有4.73%發生過工作事故,而在職員工中有17.50%發生過工作事故,說明發生事故對離職無明顯影響。
2.2.7"5年內是否晉升
從上表可知,總體晉升率為2.1%,非常低,5年未晉升的離職率高達24.2%,遠大于晉升的離職率5.96%。說明晉升對員工保持穩定有明顯的促進作用,而過低的晉升率會對員工流失有明顯影響。
2.2.8"部門
從上表可知,銷售部門人數占比最高為27.6%,"其次是技術和支持部門為18.13%和14.86%,最少為管理層,占4.2%,各部門人員分布較為合理。離職人員中銷售部離職率最高,站總員工數的6.76%,占離職人數的28.4%,其次是技術部、后勤部分別占總員工數的4.65%和3.7%,占離職人數的19.52%和15.54%。從部門視角來看,每個部門內部離職人員占部門總人數的比例,最高的是的是人力資源29.09%,其次是財務部26.6%,技術部25.62%,人力資源和財務部一般來講比較穩定的部門,在該公司流動性非常大,確實比較異常,反映出公司內部的管理存在一定的問題。
2.2.9"薪資
從上表可知,該公司近一半員工是低收入,占比較高。低收入員工的離職率最高,占離職總人數的比例高達60.82%;中等收入員工占離職總人數的36.88%;高收入員工占離職人數的2.3%。說明薪資水平對離職率有較為明顯的影響。
3"結論和管理建議
本文以HR_comma_sep公開數據集為研究樣本,對每個可能的員工流失影響因素進行數據分析,得出以下研究結論:員工滿意度低、近期績效考核極端(過高或過低)、月均工作時長長、承擔項目多、工作年限3~4年、銷售與IT部門、薪資低等因素均導致離職率高;而5年內升職的員工離職率較低;事故與離職率無特定規律。
根據以上結論,減少該公司的員工離職率給出以下對策:建議總體提升低收入員工的薪資水平;減少工作強度,"進而減少工作時間;員工的參與項目數不宜超過5;進一步了解員工的晉升通道設置是否合理;對員工開展個人職業規劃咨詢;盡量通過加薪、升職等綜合措施穩住3~4年的有工作經驗的員工;優化內部管理,提升員工對公司的滿意度。員工滿意度的提高不僅對員工個體有益,對企業形象也有積極影響[10],從而減少公司離職率,有助于公司穩步發展。
參考文獻
[1]劉奕彤.A醫藥公司員工流失影響因素及對策研究[D].南京:南京郵電大學,2024:2330.2024(03):6672.
[2]劉紅娜,劉曉靜.企業員工績效考核評價的合理性與人員流失的關系研究[J].科技創業月刊,2024,37(03):6672.
[3]張學銳.基于結構方程模型的重慶中小企業新生代員工流失因素研究[J].現代商業,2024,(04):149152.
[4]劉敏佳.互聯網公司員工離職現象分析[J].合作經濟與科技,2023,(10):99101.
[5]何彩萍.淺析中小型企業基層人才流失的成因及規避技巧[J].科技創新與應用,2018,(11):610.
[6]孫小麗.關于企業員工流動問題的探討[M].天津:南開大學出版社,2020.
[7]周思思.大數據技術背景下的人力資源管理發展策略研究[J].現代商業研究,2023,(06):125127.
[8]鄭國濤.基于大數據的企業人力資源績效管理創新研究[J].商場現代化,2024,(14):8689.
[9]孫文軒.基于隨機森林算法的公司人才流失問題與對策研究——以Kaggle平臺人力資源分析數據集為例[D].吉林:吉林大學,2022:11.
[10]呂翠.人力資源管理策略在提升企業經濟競爭力中的作用研究[J].商場現代化,2024,(10):7476.