數(shù)據(jù)挖掘技術(shù)在員工流失問題上的應(yīng)用——以H 集團零售連鎖門店員工數(shù)據(jù)為例*

2014-12-13 09:59:52瞿曉理

技術(shù)與創(chuàng)新管理 2014年5期

瞿曉理

(蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院工商系，江蘇蘇州 215009)

1 研究背景

所謂員工流失，是指企業(yè)不愿意而員工個人卻愿意的自愿流出［1］。這種流出方式對企業(yè)來講是被動員工流失，特別是我國產(chǎn)業(yè)升級轉(zhuǎn)型期，新生代勞動力的素質(zhì)不斷提升，員工流失成為企業(yè)人力資源管理中最為棘手的問題之一，它將給企業(yè)帶來特殊的損失，增加企業(yè)的經(jīng)營成本。據(jù)相關(guān)統(tǒng)計，一個員工流失給企業(yè)帶來的直接經(jīng)濟損失大致是這個員工在這家企業(yè)一年的薪酬所得［2］;此外，他們的流失還會間接性地影響企業(yè)其他員工的士氣，造成不可估量的無形損失。

所以，員工流失問題一直是近年來管理界研究的重點之一。在我國，自2000 年以來，有大量關(guān)于員工流失的研究文獻與報道［3］，歸結(jié)其研究視點基本集中在以下幾個方面:員工忠誠度、工作滿意度、心理契約、組織承諾、工作倦怠及薪酬激勵制度等;基于這些研究基礎(chǔ)，很多企業(yè)也相應(yīng)調(diào)整各類管理制度和優(yōu)化企業(yè)文化，以期望能降低企業(yè)員工的流失狀況。

但是，綜合過往企業(yè)員工流失原因及對策的研究，也從中發(fā)現(xiàn)一些研究疑點。例如，過往研究基本集中于“企業(yè)核心員工”群體，但是在當今新經(jīng)濟“用工荒”形勢下，企業(yè)的主要人力成本已從原先的“核心員工”擴展到“一線員工”［4］;而過往對企業(yè)員工離職傾向的評價指標——員工忠誠度、工作滿意度、心理契約、組織承諾及工作倦怠等，由于“一線員工”的數(shù)量龐大和文化素質(zhì)偏低等原因，在其范圍內(nèi)實施均存在實際操作的困難。因此，尋求企業(yè)“一線員工”流失傾向的預(yù)測指標，建立一套與其相對應(yīng)的“一線員工”流失管控機制，將大大降低企業(yè)的人力成本，有利于提高其市場競爭力。

2 研究對象

針對上述員工流失問題中的疑點，研究將以H集團零售連鎖門店員工的信息數(shù)據(jù)為例，探討企業(yè)一線員工流失的預(yù)測和控制問題。H 集團是一家老牌央企，旗下業(yè)務(wù)呈多元化經(jīng)營態(tài)勢，其中為公眾較為熟知的為零售連鎖超市業(yè)，它是中國最具規(guī)模的零售連鎖企業(yè)集團之一，旗下員工共計約35 萬名。H 集團擁有較為成熟的企業(yè)文化，對員工管理也形成一套較為完善的機制，其員工的平均薪酬水平比市場同行同工種一般要高出15%-20%。但是盡管如此，H 集團零售門店的一線員工流失多年來均要達到15%-20%左右，而在近年來在“用工荒”的經(jīng)濟大背景下，經(jīng)濟較為發(fā)達的華北、華東及華南區(qū)域門店員工流失情況更為凸顯，以2012 年該集團華東區(qū)人力資源部統(tǒng)計數(shù)據(jù)顯示，旗下各區(qū)連鎖門店員工流失率均超20%［5］。

3 研究方法

3.1 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘(Data mining)，又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases，簡稱:KDD)中的一個步驟［6］。

3.2 數(shù)據(jù)挖掘算法的選擇

算法是數(shù)據(jù)挖掘工具的核心部份，主要算法有:聚類分析、分類分析、統(tǒng)計分析、關(guān)聯(lián)分析、相關(guān)分析、時間序列和值預(yù)測等。對于數(shù)據(jù)挖掘來說，一般最常用的算法就是值預(yù)測(比如預(yù)測個人收入、客戶貢獻度、股票價格等)、分類算法(比如用于風(fēng)險評級、產(chǎn)品購買概率預(yù)測、客戶流失預(yù)測等)以及聚類分析(比如用于客戶分割、內(nèi)幕交易監(jiān)測等)［7］。因此，依據(jù)分類算法的應(yīng)用特性，對H 集團門店員工的流失率實施挖掘研究。

4 研究過程

4.1 數(shù)據(jù)的準備

研究采用的數(shù)據(jù)來源于H 集團人力資源部提供的蘇南某市在2013 年1 月-2013 年12 月間所有門店員工信息，共計5 277 名，包括其個人基本信息(姓名、性別、年齡、民族、文化水平、婚姻狀況、政治面貌、家庭住址、國籍、籍貫、所在門店位置等)、員工績效信息(夜班次數(shù)、崗位出錯額)、員工薪酬信息(每月的基本工資、津貼補助、工資扣款額及總收入)及其他信息(入職時間、離職時間)。

4.2 數(shù)據(jù)的預(yù)處理

4.2.1 數(shù)據(jù)的集成

依據(jù)上述信息，將這5 277 位離職員工錄入統(tǒng)計軟件SAS9.3，集成原始數(shù)據(jù)庫。

4.2.2 數(shù)據(jù)的歸約

在所有門店員工17 個信息項中，首先通過特征歸約，刪除“姓名”、“國籍”、“民族”、“婚姻狀況”、“政治面貌”這五項無關(guān)維度。其次，由于每位員工的在職時間不同，導(dǎo)致他們“績效”和“薪酬”上的信息因時間長短而參差不齊，因此，研究將他們的“績效”和“薪酬”實施平均化，即依據(jù)每位員工的每個月的薪酬績效信息和他們的在職時間，計算出“月均績效”、“月均夜班次數(shù)”、“月均崗位出錯額”、“月均基本工資”及“月均津貼補助”。再者，由于“入職時間”和“離職時間”均為時點變量，無法參與模型計算，因此研究設(shè)置新特征變量“在職時間”，以月為單位。此外，研究發(fā)現(xiàn)，“夜班次數(shù)”與“津貼補助”呈顯性相關(guān)，相關(guān)系數(shù)r=0.356＊＊＊;“崗位出錯額”與“工資扣款額”呈顯性相關(guān)，相關(guān)系數(shù)r=0.417＊＊＊。“每月工資總額”=“月基本工資+津貼補助-工資扣款額”，其中所有門店“月基本工資”區(qū)間范圍為(1 370，1 430)，浮動率＜5%;“工資扣款額”空缺項＞30%，且區(qū)間范圍為(0，2 500)，其中僅一人某月扣款額為2 476 元，扣除此異常點，區(qū)間為(0，50)，max(0，50)＜工資總額的3%。因此，將“夜班次數(shù)”、“津貼補助”、“崗位出錯額”、“工資扣款額”、“基本工資”定位冗余維度，以與刪除。最后，利用百度地圖APP 功能，依據(jù)“家庭住址”與“門店位置”，計算出每位員工的“上班距離”，以公里為單位。

4.2.3 數(shù)據(jù)的清理

由于5 277 位門店人員信息相對繁多，個別信息為空缺，在整個數(shù)據(jù)庫削減過程中，我們將信息空缺項超總信息項20%的人員刪除，其余空缺項，則跟據(jù)集合的出現(xiàn)規(guī)律來補齊。得到有效數(shù)據(jù)庫成員信息共有5 066 位，其中選取4 000 位員工為挖掘樣本，1 066 位員工為模型驗證樣本。

4.2.4 數(shù)據(jù)的轉(zhuǎn)換

為了便于數(shù)據(jù)模型的計算，研究將員工的信息特征變量實施屬性值轉(zhuǎn)換。依據(jù)數(shù)據(jù)分布狀況，對一些連續(xù)變量特征的數(shù)據(jù)實施離散化處理，①年齡(歲):分為“18-30”、“31-40”、“40-50”“50 以上”;②月均工資總額(元):“1 500 以下”、“1 500-2 500”、“2 500 以上”;③在職時間(月):“1 以下”、“2-3”、“4-6”、“6-12”、“12 以上”;④上班距離(公里):“3 以下”、“3-10”、“10 以上”。

綜合上述數(shù)據(jù)預(yù)處理工作，研究工作采集了H集團4 000 名門店員工的“性別、年齡、籍貫、上班距離、月均工資總額及在職時間”等6 項特征為挖掘字段，形成數(shù)據(jù)樣本集。

4.3 數(shù)據(jù)的挖掘

研究的數(shù)據(jù)挖掘采用決策樹C4.5 算法，其核心算法是ID3 算法。ID3 算法中在決策樹各級結(jié)點上選擇屬性時，用信息增益(information gain)作為屬性的選擇標準，以使得在每一個非葉結(jié)點進行測試時，能獲得關(guān)于被測試記錄最大的類別信息。C4.5 算法繼承了ID3 算法的優(yōu)點，且采用了多重分支技術(shù)和剪枝技術(shù)對ID3 算法進行了改進，是當前最流行的一種決策樹算法［8］。

依據(jù)C4.5 算法，在整個數(shù)據(jù)挖掘中，我們將X設(shè)為H 集團4 000 位門店員工各特征樣本xi的集合;設(shè)門店員工每一個特征屬性具有k 個不同的值，又設(shè)k 個不同類別的特征項Aj，則Aj(j=1，…，k)，其中xij是Aj中的樣本數(shù)［9］。因此，研究可以對一個給定的樣本分類所需的期望信息為pi=xij/xi，即不同類別門店員工的流失人數(shù)與總?cè)藬?shù)之比。依據(jù)ID3 算法，信息量大小的度量計算為［6，9］:

在這個假設(shè)之下，如果由A 劃分成子集的熵值越小，則子集的純度越高，也就意味著該類型員工的流動的可能性越低。在已知的4 000 位門店員工信息中，在2012 年整年間，總流失員工與未流失員工之比為843/3 166，流失員工占樣本總數(shù)的21.08%;經(jīng)計算處理后得到門店員工是否流失的決策樹模型，如圖1 所示。

依據(jù)以上決策樹模型，我們得到H 集團門店員工流失概率較高的6 條規(guī)律，總結(jié)見表1。

4.4 數(shù)據(jù)的驗證

研究在數(shù)據(jù)庫準備之初，就設(shè)立了一個與挖掘數(shù)據(jù)庫不重復(fù)的1 066 位H 集團門店員工信息，作為驗證數(shù)據(jù)庫，對該決策樹模型實施誤差估計。在1 066 位門店員工中，有216 位流失，占20.26%。依照挖掘模型得出的規(guī)律，我們分別計算出驗證數(shù)據(jù)庫6 類特征員工的流失概率，與挖掘數(shù)據(jù)庫作對比，實施百分數(shù)差異檢驗，詳見表2。

這6 條規(guī)律流失的員工為679 人，占總員工流失人數(shù)的80.54%。

表1 門店員工流失特征規(guī)律集合表

表2 “挖掘-驗證”數(shù)據(jù)庫的員工流失概率比較

圖1 門店員工是否流失的決策樹模型

從兩個數(shù)據(jù)庫的百分數(shù)差異檢驗值u 來看，6條規(guī)律及總解釋數(shù)均未達到顯著差異水平，擬合水平高于一般數(shù)據(jù)模型檢驗擬合標準［10］，因此，研究的決策模型具備較理想的準確率。

5 研究結(jié)果與討論

從對H 集團零售連鎖門店員工的數(shù)據(jù)挖掘結(jié)果來看，首先，大部分流失規(guī)律還是合乎常理，但是也有個別規(guī)律在意料之外，如G6，女性員工工作距離在3-10 公里范圍，月均收入2 500 以上的，在職時間3-6 個月階段的流失率較高。探究其中原因，不難發(fā)現(xiàn)，員工的收入差異主要來自與津貼補助，而一線員工每月的津貼補助主要來自于當月值守夜班的次數(shù);如果說，這個員工收入越高，則說明她值守夜班的次數(shù)較多;而對于女性來說，工作距離并不是離家很近，值守夜班的次數(shù)較多的話，很容易在工作3 個月后出現(xiàn)倦怠感［11］，因此離職流失人數(shù)比例也會較高。

其次，通過決策樹C4.5 算法挖掘出來的6 條一線員工流失規(guī)律，其解釋的流失人數(shù)占總流失人數(shù)的80%以上，說明通過研究挖掘的員工日常信息，已經(jīng)較好地能說明大部分流失員工的特征，無需再通過調(diào)查“工作滿意度”、“職業(yè)倦怠感”等隱形信息來預(yù)測員工流失狀況。這可以大大減輕人力資源部工作人員在一線員工流失問題上的工作量，今后，他們只需構(gòu)建員工特征集G1、G2、G3、G4、G5 和G6，一旦有員工歸屬這些集合，則可標記為“流失率高風(fēng)險員工”，對他們?nèi)粘Ｒ痪€員工的招聘、配置及工作量安排等問題都有一定的指導(dǎo)意義。

最后，通過H 集團蘇南某市門店一線員工的樣本數(shù)據(jù)挖掘案例，對于一些一線員工流失率較高的企業(yè)，如生產(chǎn)、服務(wù)及零售性行業(yè)，提供借鑒經(jīng)驗，利用當前有效數(shù)據(jù)的分析結(jié)果管控員工的流失狀況，降低企業(yè)人力成本。

總而言之，本次研究的過程、方法和結(jié)論給人力資源相關(guān)工作者帶來較新的工作思路，作為掌握員工大量基本數(shù)據(jù)信息的人力資源部門，可以進一步利用數(shù)據(jù)挖掘的其他技術(shù)——聚類分析、關(guān)聯(lián)分析、相關(guān)分析、時間序列和神經(jīng)網(wǎng)絡(luò)分析等［12-13］，探索和解決企業(yè)人力資源管理中的規(guī)劃、招聘、績效、薪酬、培訓(xùn)等相關(guān)問題，提高管理質(zhì)量和效率。

［1］沈新民.新人力資源管理［M］.北京:中央編譯出版社，2002.

［2］無優(yōu)商務(wù)網(wǎng).企業(yè)員工流失率分析報告［DB/OL］.2011，http://www.5ucom.com/

［3］高福霞，李婷，李志.我國企業(yè)員工忠誠度研究述評［J］.經(jīng)濟師，2006(1):192-193.

［4］李寶元，王澤強.中國經(jīng)濟發(fā)展方式轉(zhuǎn)變的歷史契機——關(guān)于近年來“民工(技工)荒”現(xiàn)象的勞動經(jīng)濟學(xué)分析［J］.天津行政學(xué)院學(xué)報，2009(3):64-67.

［5］H 集團門店人員(華東區(qū))2013 年度統(tǒng)計報告［R］.企業(yè)內(nèi)部資料，2014.

［6］Jiawei Han，Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)［M］.范明，孟小峰，譯.北京:機械工業(yè)出版社，2001.

［7］劉君強.數(shù)據(jù)挖掘技術(shù)在企業(yè)經(jīng)營中的應(yīng)用研究［J］.商業(yè)經(jīng)濟與管理，2003(6):27-29.

［8］Rastogi R，Shim K.A decision tree classifier that integrates building and pruning［C］//In Proc.1998 Int.Conf.Very Large Data Bases(VLDB'98)，New York:1998.

［9］David Hand Heikki Manila Padhraic Smyth.數(shù)據(jù)挖掘原理［M］.張銀奎，譯.北京:機械工業(yè)出版社，2003.

［10］Frank R，Giordano Maurice D，Weir William P Fox.A first course in mathematical modeling(Third Edition)［M］.New York:Brooks/Cole，2004.

［11］王虹，程劍輝，吳菁.員工流失分析與研究［J］.商業(yè)經(jīng)濟與管理，2001(5):36-40.

［12］王慶，鄭漢超.數(shù)據(jù)挖掘在人力資源管理中的應(yīng)用及展望［J］.企業(yè)活力，2010(4):68-71.

［13］朱近賢.數(shù)據(jù)挖掘技術(shù)在人力資源管理中的應(yīng)用研究［J］.計算機與信息技術(shù)，2008(10):7-9.