吳 豐,胡 蕙,胡 芳
(1.湖北航天計量測試技術研究所,湖北 孝感 432000;2.航天重型工程裝備有限公司,湖北 孝感 432000)
基于CART的人力資源管理研究
吳 豐1,胡 蕙1,胡 芳2
(1.湖北航天計量測試技術研究所,湖北 孝感 432000;
2.航天重型工程裝備有限公司,湖北 孝感 432000)
未來是信息化的時代,對高技術人才的需求越來越緊迫,企業管理者所制定的企業發展戰略的有效執行需要高素質人才的支撐,企業人力資源管理逐步從過去的開放式管理模式逐步向定量評價管理發展,本文根據Gini指數建立了人力資源分類樹CART模型,為企業建立了一套信息評價、過濾和供給體系,通過量化評價的方式合理安排人員工作,提升了人力資源管理效率,促進企業戰略的順利實施。通過測試表明,該模型能以較簡單的量化評價模式為人力資源管理者提供參考意見。
人力資源;數據挖掘;CART模型;發展戰略
人力資源審核即是衡量企業對人力資源的掌握程度的重要標志,也是評估管理質量、水平和效率的重要依據。對于一個有近千人的企業來講,人力資源數據量是龐大的,從表面上看這些數據只是些毫不相關的數字,但從這些海量的數據中,卻可以提煉出存在的關系和規則,可根據現有的數據預測未來的發展趨勢。
對于人力資源管理而言,一個企業人力資源管理是和一個企業的經營戰略、組織結構體系與文化價值觀緊密聯系的,具有獨特個性。一個成功企業的人力資源管理往往是最難復制和模仿的,如何通過人力資源管理來取得競爭優勢成為了企業競爭的重要部分。
本文是以某企業人力資源數據為依據,建立人力資源數據倉庫,利用決策樹中的CART算法對所建立的數據倉庫進行深入分析,得出有用結論。CART決策樹算法是目前應用最廣泛的預測技術,它主要由決策節點、分支和葉子3部分組成。對數據集合中具有最大信息字段創建決策樹節點,并根據其節點字段的差值建立決策樹分支。在每個分支中重復上述過程,逐步建立樹的下層節點和分支,最終可以生成反映一定規則的決策樹。
隨著數據庫技術的日益成熟,以及在相關領域的應用,人們收集了海量的數據。面對大數據的挑戰,傳統的數據分析方法難以應對海量數據的挑戰。為了有效的對數據隱含的信息進行分析,需要有新的數據分析手段。與此同時,人工智能技術取得了跨越式的發展。經歷了博弈時期、自然語言理解、知識工程等階段的探索與發展,人工智能在機器學習領域取得了重大成就。因此,利用機器學習的方法來對數據庫的數據進行高效分析,發現大量數據背后隱含的知識,稱為知識發現(Knowledge Discovery in Databases,KDD)。數據發現涉及機器學習、模式識別、高性能計算、統計學等多個領域。將海量數據中提取有效的、具有潛在價值的知識應用于信息管理,科研等領域,為企業的發展提供決策。
知識發現(KDD)這個術語最早出現在美國召開的第十一屆國際人工智能聯合會議。隨著人工智能領域的飛速發展,會議的連續召開,原本的專題討論會已經發展成為國際性的學術會議。通過多學科之間的互相融合,從原本的多策略多技術轉變為策略與技術之間的集成,發現方法轉向了系統應用。
分類回歸樹(Classification And Regression Tree,CART)算法,它采用自上而下的遞歸方法對數據進行歸納,從無次序、無規則的數據中獲得相應的分類規則,尤其對非數值性數據有著較好的處理能力。本文將CART算法應用于人力資源分析中,起到輔助決策者分析的作用。CART算法是一種二分遞歸分割技術,將新樣本劃分為兩個子樣本,并使得生成的每個非葉子結點都有兩個分支,因此CART決策樹是結構簡潔的二叉樹。由于CART算法構成的二叉樹在每一步的決策時只有2個分支,即使一個分段取有多個值,也只能把數據分為兩部分。而構建CART決策樹主要分為兩個步驟。
3.1用驗證數據進行剪枝
3.1.1CART模型建立
CART算法核心是對每個節點上要測試的屬性進行選取,其劃分點是一對連續變量屬性值的中點。假設M個樣本的集合一個屬性有m個連續的值,那么則會有m-1個分裂點,每個分裂點為相鄰兩個連續值的均值。每個屬性根據能減少的雜質的量來進行排序劃分,而減少量為劃分前減去劃分后的每個節點的雜質質量所占比率之和。而雜質度量方法常用Gini(Gini Coefficient)指標,假設一個樣本共有C類,則一個節點A的Gini不純度可定義為:

其中Pi表示屬于i類的概率,當GiniA=0時,所以樣本屬于同類,所有類在節點中以等概率出現時,Gini(A)最大化,此時:

如果當前節點的所有樣本都不屬于同一類或者只剩下一個樣本,那么此節點為非葉子節點,所以會嘗試樣本的每個屬性以及每個屬性對應的分裂點,嘗試找到雜質變量最大的一個劃分,該屬性劃分的子樹即為最優分支。
3.1.2CART樹剪枝
通過CART剛生成的決策樹記為T0,然后從T0的底端開始剪枝,直到根節點。在剪枝的過程中,計算損失函數:
Ca(T)=C(T)+a|T|
a≥0,C(T)為訓練數據的預測誤差,|T|為模型的復雜度。對于一個固定的a,在T0中一定存在一顆樹Ta使得損失函數Ca(T)最小。將a在其取值空間內劃分為一系列區域,在每個區域都取一個a然后得到相應的最優樹,最終選擇損失函數最小的最優樹。其中CART剪枝算法步驟如下。
(1)設K=0,T=T0,a=+∞
(2)自下向上地對各內部節點進行遍歷,計算C(Tt),|Tt|及g(t),得到:

(3)自上向下訪問各內部節點t,若g(t)=a,則進行剪枝,并對t以多數表決的方式決定其類,得到樹T。
(4)若T不是由根節點單獨構成的樹,則重復步驟(3)得到一系列的子樹。
(5)最后使用交叉驗證的方式從子樹序列中選取最優子樹。
3.2人力資源數據測試研究
3.2.1數據選擇
數據選擇是指從數據本身和發現目標出發,尋找依賴于發現目標特征數據的過程。通過數據選擇有利于減少數據量,縮小目標數據范圍,從而在保證數據原貌的前提下對數據進行篩選。通過數據抽取使得數據具有更加明顯的規律和特征。通過對人才綜合能力定性分析,構成了由知識水平、思想個性、基本素質、個人能力和業績成果5個基本要素組成的人才評價指標。經過選取有用的數據,去掉原數據其中噪聲數據和一些無關的數據,建立相對應的數據表(見表1)。

表1 人才標準評價指標表
3.2.2數據規范
針對異構數據源中數據的不規范性、重復性和不完整性等問題進行清理,達到將數據去除噪聲和糾正錯誤的目的,提高數據質量,符合分析要求。因此,數據規范需要對數據做出以下操作。
員工信息由唯一編號代替。分別對5個基本要素進行評價,其中知識水平對應A-D(A學歷層次,B任職資歷,C知識結構,D特殊技能),思想個性對應E-G(E職業道德,F合作意識,G工作作風),基本素質對應H-J(H語言表達,I文字水平,J健康狀況),個人能力對應K-L(K組織能力,L實踐能力),業績成果對應M-N (M工作效益,N工作獎項)。
每項要素每當達成一個評價指標便累計加一,最后合計當前要素點的總分。
分為三種類型的人才,分別為類型ω1、類型ω2和類型ω3。
通過對企業提供的數據進行抽樣,選取其中20名員工進行測試,按照數據規范及評價指標表的要求進行,得到測試數據表如表2所示。
利用Matlab軟件,構建人力資源分類樹CART模型,利用訓練樣本所得到的決策樹見圖1。
本文以某企業為例,提出了利用數據挖掘技術來克服在當前的人力資源管理中遇到的問題,提高管理質量。在具體應用中,主要利用的是數據挖掘中的CART算法,詳細介紹了CART算法在人力資源分析挖掘中的全過程。在CART樹模型的建立過程中,應用算法對不同類型的人力資源進行分析,找出影響的潛在因素,為企業管理者有針對性提高管理質量提供有利的數據支持,使員工能夠較好地保持良好的工作狀態,從而為企業管理者提供了決策支持信息,促使更好地開展管理工作,提高管理質量。

表2 測試數據表

圖1 生成的CART樹
主要參考文獻
[1]王董雨.如何構建企業人力資源發展戰略模型[J].上海汽車,2005(3).
[2]陶宇.人力資源管理團隊績效評價與對策——基于人力資源審核模型[J].企業經濟,2013(3).
[3]韓起云.一種基于CART算法的移動通信客戶流失預測模型[J].科技通報,2012(2).
[4]駱盈盈,王柯玲,陳川,等.結合遞增式學習的CART算法改進[J].計算機工程與設計,2007(7).
[5]邢周凌.高績效人力資源管理系統的演變與形成——基于中國創業板上市公司的案例研究[J].企業經濟,2012(8).
10.3969/j.issn.1673 - 0194.2015.24.101
F272.92
A
1673-0194(2015)24-0123-02
2015-11-19