999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據庫知識發現的員工流失預測

2019-08-12 12:50:56吳丹
科技與創新 2019年14期
關鍵詞:數據庫模型研究

吳丹

基于數據庫知識發現的員工流失預測

吳丹

(同濟大學經濟與管理學院,上海 201804)

在當前就業形勢嚴峻的背景下,不少企業面臨著嚴重的員工流失問題。由于員工流失會給企業帶來重大的經濟損失,因而如何降低員工流失率已成為企業亟待解決的問題。對以往相關研究進行了梳理總結,并基于文獻總結提出了一種著重于數據處理技巧的數據庫知識發現技術,預測員工流失情況,以提高預測準確度。最后采用實際數據集進行實證研究,驗證了所提出方法的有效性,并通過實驗識別出影響員工流失的重要因素。

員工流失;數據庫知識發現;數據處理,機器學習

1 引言

在當前經濟發展滯緩、社會全員就業難、失業率高等大經濟環境下,仍然有不少企業面臨著嚴重的員工流失問題,如代加工企業富士康,其在一年365天中就有將近200天都在招工[1],可見企業員工流失率有多高。員工流失可以簡單理解為企業成員主動提出脫離企業的一種行為,當然該種行為對于企業而言是被動型的。員工流失對于企業而言并不是簡單人員流失,而會對企業的人事、財務、業務等多方面造成諸多影響,比如流失員工已投入費用的損失(招聘費用、培訓費用等),流失員工所負責相關工作的臨時性中斷,更有甚者,流失員工可能會帶走企業一些重要客戶或關鍵技術,從而使企業被迫承受巨大損失。總而言之,高員工流失率已經成為企業經營活動的重要成本之一[2]。在此背景下,企業人力資源部門如何采取有效措施減少員工流失從而降低企業經營成本將成為部門重要工作之一。當然,目前有些企業已相繼采用提高薪酬、改善工作環境等措施以提高員工工作滿意度從而減弱其離職意愿。但這些措施具有普遍性,并沒有針對到個人,因而實際有效性還有待考察。相對應的,事先甄別出有離職傾向的員工以做進一步溝通,剖析其產生離職傾向的深層原因然后對癥下藥似乎更為有效。

數據庫知識發現(KDD)是在計算機智能化發展和信息爆炸式增長背景下興起的一門新興技術,其定義為:能夠識別數據中有效的、新穎的、潛在有用的信息并最終表示為可解釋的模式,在此定義中,數據涉及數據集合的概念,模式指某種語言的表達式,表示為數據子集的簡約描述或適用于該子集的模型[3]。數據庫知識發現主要涉及原始數據選擇、數據預處理、數據挖掘、數據評估、模式確定[4]5個步驟。其中,數據挖掘是最為重要的一個部分,常涉及運用機器學習模型進行聚類、分類以及回歸分析。現如今,數據庫知識發現技術已被廣泛應用于多個領域,如圖像識別、自然語言處理、量化投資等,因而本文也將基于員工基本信息采用該一技術預測員工流失情況,預先甄別出有離職傾向的員工,從而豐富相關企業人力資源部門降低員工流失率的方法。

2 文獻綜述

由于引發員工流失問題的因素錯綜復雜并且因為員工流失問題帶來的社會問題較突出,因而學術界對該一問題的研究已不在少數,主流的研究大致可分為關于員工流失影響因素的探討、關于如何避免員工流失的研究、關于員工流失的預測研究三類。

關于員工流失的影響因素研究:NIE等(2018年)就企業人力資源的社會責任對女性員工離職的影響進行了研究,研究結果表明注重社會責任、注重員工家庭的工作平衡等在降低女性員工離職方面發揮了重要作用,研究結果還表明女性領導所帶來的積極作用更明顯[5]。PERREIRA等(2018年)采用結構方程模型探討了醫療行業中組織公平、組織承諾與員工流失之間的關系,結果表明醫療行業的內部公平與組織承諾息息相關并反作用于員工離職[6]。與前者類似,RAVANGARD等(2019年)采用結構方程模型對伊朗某醫院行政和財務部門員工的離職傾向進行了調查,得出社會支持直接影響員工離職傾向,并可通過增加組織承諾、自我授權、自我評估減少工作壓力和倦怠,以減弱離職意愿[7]。SRIRAM等(2019年)以印度制造業為研究對象,研究確定了組織文化與組織的內部文化氛圍為影響員工流失的重要因素[8]。

關于員工流失的規避方法研究:HE等(2014年)采用六西格瑪方法,通過增加工資、提供轉換機會、制定職業規劃、提供培訓、輪崗等為員工提供人道關懷,使得員工流失率降低了1.1%,為企業提高員工保留率提供了新的視角[9]。基于社會交換理論,JANG等(2018年)解釋了員工對領導的看法是如何影響員工的離職傾向的,并通過組織承諾調節員工與領導的關系從而降低員工流失率[10]。ALIYU等(2018年)考察了客戶關系管理維度對員工工作滿意的影響,并利用馬來西亞呼叫中心行業數據確定了避免員工流失的關鍵CRM維度[11]。

關于員工流失的預測研究:RAMAN等(2019年)通過R語言對某商學院教職工電子郵件執行相關分析、字頻分析和情感分析,得出決定離職的教職員工較多地參與外部溝通而少于內部溝通并提出可用電子郵件分析方法預測員工流失[12]。SRIVASTAVA等(2018年)提出了一種員工流失風險預測分析框架,首先從人力資源系統內提取數據,然后對數據進行轉化處理,繼而運用預測模型,最后進行結果的可視化展示。其也在研究中運用神經網絡進行了實證研究,但診斷準確率并不理想[13]。GABRANI等(2018年)利用機器學習方法中的邏輯回歸對員工流失情況進行了預測,得出該種模型能最大限度地提高員工保留率,但該模型擬合的方程在分類準確率上僅有80%,次于實驗中的隨機森林算法[14]。針對樣本不平衡以及高維度特征等問題,GAO等(2019年)提出一種加權二次隨機森林算法用于構建員工流失的預測模型,并通過實際數據集驗證了該算法的優越性[15]。

通過以上文獻總結可以看出,關于員工流失影響因素的研究多基于假設——驗證方法,常用模型有結構方程模型。關于降低員工流失率的研究也多是從影響因素入手,而后提出改進措施。與本文相關性較大的員工流失預測研究也多基于機器學習方法,但主要側重于局部模型的選擇與模型結果的比較等。然而機器學習的數據預處理部分對模型的學習能力以及預測性能也會造成嚴重影響,數據處理技巧在數據庫知識發現領域是極為重要的一部分,因而本文采用完整的數據庫知識發現流程,重點突出數據處理技巧對員工流失預測性能的影響,以彌補現有研究中對數據處理部分的忽視,并對比眾多常用的機器學習模型,從更廣范圍內尋找適合該一應用的模型。

3 實證研究

3.1 數據獲取與處理

本文數據取自于Kaggle競賽網站的公開數據集[16],原始數據集包括含“Age”“Attrition”等35個字段的1 470條樣本,其中無缺失值。由于原始數據集中某些字段,如“DailyRate”“EmployeeNumber”并無實際意義,再如“Over18”“StandardHours”等字段所有樣本均取相同值,因而對分類結果不會造成差異性影響,首先刪除該些無效字段。保留下來的用于模型訓練的28字段描述如表1所示,其中“Attrition”為二分類預測變量,正負例比為237∶1 233,其余為輸入特征變量。

表1 數據集字段描述

字段名數據類型取值范圍說明 Age整型18~60年齡 Attrition字符串型yes/no是否流失 BusinessTravel字符串型Non_Travel/Travel_Frequently/Travel_Rarely出差情況 Department字符串型Human Resources/Research & Development/Sales所屬部門 DistanceFromHome整型1~29工作地點距家的距離 Education整型1/2/3/4/5文化水平 EducationField字符串型Human Resources/Life Sciences/Marketing/Medical/TechnicalDegree/Other專業領域 EnvironmentSatisfaction整型1/2/3/4工作環境滿意度 Gender字符串型Female/Male性別 JobInvolvement整型1/2/3/4工作參與度 JobLevel整型1/2/3/4/5工作等級 JobRole字符串型Healthcare Representative/ Human Resources/Laboratory Technician/Manager/Manufacturing Director/Research Director/ Research Scientist/Sales Executive/ Sales Representative工作角色 JobSatisfaction整型1/2/3/4工作滿意度 MaritalStatus字符串型Divorced/Married/Single婚姻狀態 MonthlyIncome整型1 009~19 999月薪 NumCompaniesWorked整型0~9工作過的公司數目 OverTime字符串型No/Yes是否加過班 PercentSalaryHike整型11~25薪酬增長百分比 PerformanceRating整型3/4工作表現評級 RelationshipSatisfaction整型1/2/3/4員工關系滿意度 StockOptionLevel整型0/1/2/3股權水平 TotalWorkingYears整型0~40工齡 TrainingTimesLastYear整型0~6上一年度培訓次數 WorkLifeBalance整型1/2/3/4生活與工作的平衡程度

表1(續)

字段名數據類型取值范圍說明 YearsAtCompany整型0~40在當前公司年份 YearsInCurrentRole整型0~18在當前職位年份 YearsSinceLastPromotion整型0~15自上次晉升距今年份 YearsWithCurrManager整型0~17與當前領導共處年份

由于計算機僅能識別數字,因此對上述字符型字段進一步做了編碼處理,如“Age”字段,首先對其進行了分段,然后對各個年齡段分別給予特定數值進行編碼。

3.2 實驗設計與描述

由于輸入變量數值的大小會直接影響輸出結果,機器學習模型會自動為不同數值賦予不同權重,因而對于離散型數值直接采用編碼數值并不科學。基于此,本文對經上述處理后的數據集采用get_dummy方法對離散型數值(如“Education”“WorkLifeBalance”等數值編碼變量)進行獨熱編碼變化,從而避免數值大小對模型的影響,并通過對比經獨熱編碼技術處理前后的分類性能驗證該一數據處理技術的是否具有優越性。本文首先將數據集按7∶3劃分為訓練集和測試集,其中訓練集用于模型的學習,測試集用于模型性能的檢測。由于預測變量存在比例不平衡(237∶1 233)的問題,容易引發錯分從而影響分類性能,因而對于訓練集又進行了SMOTE采樣以平衡樣本。平衡之后的樣本分別代入機器學習單模型和集成模型用以進行模型訓練,其中用到的單模型有邏輯回歸(LR)、K近鄰(KNN)、決策樹(DT)、樸素貝葉斯(NB),集成模型有隨機森林(RF)、Bagging、Adaboost、梯度提升樹(GBDT)。最后用訓練好的模型在測試集進行測試,得出Precision、Recall、F1、Accuracy、AUC等機器學習常用分類預測性能指標值。

3.3 實驗結果與分析

實驗結果如表2所示。

表2 實驗結果展示

是否獨熱編碼模型類別模型名稱PrecisionRecallF1AccuracyAUCTime 否 單模型LR0.7590.7730.7540.7730.6630.133 KNN0.5580.5940.5470.5940.5240.171 DT0.6460.6830.6570.6830.5450.156 NB0.6560.6730.6370.6730.5900.026 集成模型RF0.8510.8140.8300.8140.6560.276 Bagging0.8190.7870.8010.7870.5980.361 Adaboost0.7650.7800.7710.7800.6410.521 GBDT0.8190.8120.8150.8120.6681.128 是 單模型LR0.9200.8820.8950.8820.8360.313 KNN0.5450.5830.5340.5830.5160.129 DT0.6970.7230.7070.7230.5760.161 NB0.7430.7600.7500.7600.6100.032 RF0.8990.8190.8520.8190.6490.184 集成模型Bagging0.8840.8210.8470.8210.6640.381 Adaboost0.8730.8500.8600.8500.7420.614 GBDT0.9130.8550.8770.8550.7731.784

通過表2可以看出,除了K近鄰(KNN),經過獨熱編碼處理過的數據在預測性能上總體均比未經獨熱編碼處理更好,尤其是在邏輯回歸中,其各個性能指標均提升了0.1以上,驗證了前文所述的將獨熱編碼技術應用在數據處理中有助于提高機器學習模型的分類性能。

此外,整體而言,雖然集成模型以花費更多時間為代價,但其預測性能較單模型而言更優。就集成模型比較來看,隨機森林的總體預測效果更好,其對數據預處理的變化依賴性較小,因而更穩定;而其他模型的數據敏感性較高,對特征處理的要求比較高。在單模型中,邏輯回歸的預測效果最佳,而其他幾個模型預測效果均不理想。

3.4 特征重要度分析

上述實驗結果表明,通過獨熱編碼處理的數據有助于提高預測性能,在員工流失預測上能夠達到88%的準確率,但哪些變量對員工流失影響較大也是需要考慮的問題,以便甄別出內部關鍵因素,從而進行針對性改進,將有助于降低員工流失率。本文采用隨機森林算法進行特征重要度的提取,得到特征重要度排序,如圖1所示。

如圖1所示,對員工流失影響較大的是薪酬福利等因素,如所擁有的股權和薪資分別排在前兩位,然后是工作環境的滿意度、工作參與度和在當前所在職位的年份,而員工所在部門、工作表現評級等對員工流失傾向影響較小。因此企業可以根據特征重要度進行改進措施的優先級排序,對于非重要特征可暫緩處理。

4 結語

員工流失對于企業的財務和業務穩定皆有著重要影響,如何提高員工保留率、降低員工流失率已成為企業人力部門的工作之重。本文通過文獻綜述總結了員工流失問題的研究現狀,并通過時下熱門的數據庫知識發現技術,著重于數據預處理技巧對員工流失情況進行預測,驗證了數據處理技術在數據庫知識發現過程中的重要性。此外,本文還識別出影響員工流失的重要因素,其中包含公司股權擁有情況、月薪、工作環境滿意度、工作參與度等,因此企業可以通過提高員工的薪資待遇、改善工作環境、給予員工工作主導權等,以此來降低員工離職傾向。

圖1 特征重要度排序

本文還存在諸多不足的地方,如各個模型均使用默認參數,未進行調參設置,因而在分類性能上并未達到最優;再如,文中采用的模型仍是經典的模型,均為針對數據集進行算法改進工作,這些問題皆可成為日后研究改進之處。

[1]招工困難,員工流失,到底是咋回事?[EB/OL].[2019-06-05].http://www.360kuai.com/pc/91dbe9c8d53c68d02?cota=4&sign=360_57c3bbd1&refer_scene=so_1.

[2]DIPIETRO R B,MOREO A,CAIN L.Well-being,affective commitment and job satisfaction:influences on turnover intentions in casual dining employees[J].Journal of Hospitality Marketing & Management,2019(4):28.

[3]FAYYAD U,STOLORZ P.Data mining and KDD:promise and challenges[J].Future Generation Computer Systems, 1997,13(2):99-115.

[4]SAMUEL S C,FERNANDO L.A Short review on data mining techniques for electricity customers characteri-zation[C]//2019 IEEE PES GTD Grand International Conference and Exposition Asia,Thailand:Bangkok,2019.

[5]NIE D,LAMSA A M,PUCETAITE R.Effects of responsible human resource management practices on female employees' turnover intentions[J].Business Ethics-a European Review,2018,27(1):29-41.

[6]PERREIRA T A,BERTA W,HERBERT M.The employee retention triad in health care:Exploring relationships amongst organisational justice,affective commitment and turnover intention[J]. Journal of Clinical Nursing,2018,27(7):E1451-E1461.

[7]RAVANGARD R,DIANAT S,SHOKRPOUR N.The factors affecting hospital employees' turnover intentions a case of Iran[J].Health Care Manager,2019,38(2):166-178.

[8]SRIRAM K V,JOSEPH J,MATHEW A O,et al.Factors affecting high employee attrition in manufacturing firms -a case study[J].Quality-Access to Success,2019,20(169):23-28.

[9]HE Z,ZHANG X T,ZHANG M.Reducing the voluntary turnover rate of dispatched employees by the DMAIC process[J].Total Quality Management&Business Excellence,2014,25(7):842-855.

[10]JANG J,KANDAMPULLY J.Reducing employee turnover intention through servant leadership in the restaurant context:a mediation study of affective organizational commitment[J].International Journal of Hospitality and Tourism Administration,2018,19(2):125-141.

[11]ALIYU O A,NYADZAYO M W.Reducing employee turnover intention:a customer relationship management perspective[J].Journal of Strategic Marketing,2018,26(3):241-257.

[12]RAMAN R,BHATTACHARYA S,PRANOD D.Predict employee attrition by using predictive analytics[J].Benchmarking-an International Journal,2019,26(1):2-18.

[13]SRIVASTAVA D K,NAIR P.Employee attrition analysis using predictive techniques[J].Information and Communication Technology for Intelligent Systems,2018,83(1):293-300.

[14]GABRANI G,KWATRA A.Machine learning based predictive model for risk assessment of employee Attrition[J].Computational Science and Its Applications,2018(10963):189-201.

[15]GAO X,WEN J H,ZHANG C.An improved random forest algorithm for predicting employee turnover[J]. Mathematical Problems in Engineering,2019(4):12.

[16]IBM HR Analytics Employee Attrition & Performance[EB/OL].[2019-06-05]. https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset.

F272

A

10.15913/j.cnki.kjycx.2019.14.006

2095-6835(2019)14-0016-04

吳丹(1994—),女,同濟大學經濟與管理學院在讀碩士,研究方向為數據挖掘。

〔編輯:嚴麗琴〕

猜你喜歡
數據庫模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
數據庫
財經(2017年2期)2017-03-10 14:35:35
3D打印中的模型分割與打包
數據庫
財經(2016年15期)2016-06-03 07:38:02
主站蜘蛛池模板: 香蕉伊思人视频| 日本久久免费| 2022国产91精品久久久久久| 视频在线观看一区二区| 五月天丁香婷婷综合久久| 找国产毛片看| 国内精品久久久久鸭| 国产成人高清亚洲一区久久| 在线观看国产精品第一区免费| 精品伊人久久久香线蕉| 国产理论最新国产精品视频| 国产青榴视频| 欧洲熟妇精品视频| 国产呦视频免费视频在线观看| 人妻中文字幕无码久久一区| Jizz国产色系免费| 一级毛片免费观看久| 另类重口100页在线播放| 色婷婷在线影院| 黄色一级视频欧美| 午夜性刺激在线观看免费| 国产亚洲精品自在久久不卡| 亚洲欧美日韩另类在线一| 99国产精品国产| 午夜限制老子影院888| 国产一区在线视频观看| 精品少妇人妻一区二区| 亚洲欧美一区二区三区图片 | 手机成人午夜在线视频| 综合亚洲网| 国产精品性| 久青草免费视频| 91探花在线观看国产最新| 国产高潮视频在线观看| 美女亚洲一区| 中文字幕2区| 日韩黄色在线| 国产精品第5页| 免费无码又爽又黄又刺激网站 | 91久久夜色精品国产网站| 永久成人无码激情视频免费| 手机在线国产精品| 69免费在线视频| 国产香蕉在线视频| 日本高清成本人视频一区| 久久精品66| 国产欧美高清| 亚洲IV视频免费在线光看| 国产欧美日韩专区发布| 青青草国产一区二区三区| 91视频区| 一本大道香蕉中文日本不卡高清二区 | 国产女人综合久久精品视| 国产精品自在线天天看片| 四虎亚洲精品| 99久久国产自偷自偷免费一区| 日韩精品毛片人妻AV不卡| 91色国产在线| 97精品伊人久久大香线蕉| 久久精品国产免费观看频道| 77777亚洲午夜久久多人| 亚洲精品无码成人片在线观看| 国产综合精品一区二区| 久久午夜夜伦鲁鲁片不卡| 一级福利视频| 岛国精品一区免费视频在线观看 | 国产又粗又爽视频| 亚洲第一区在线| 视频二区欧美| 久久久久国色AV免费观看性色| 色窝窝免费一区二区三区| 久操中文在线| 2024av在线无码中文最新| 亚洲精品国产精品乱码不卞| 蜜臀AVWWW国产天堂| 秋霞一区二区三区| 色综合狠狠操| 欧美福利在线播放| 99热国产在线精品99| 97影院午夜在线观看视频| lhav亚洲精品| 国产人人射|