
摘要:對企業的人力資源需求預測方法進行梳理和分析,提出人力資源需求預測作為數據挖掘問題的研究思路。通過對典型數據挖掘工具支持向量機的理論分析,設計了一種針對人力資源需求預測的改進的支持向量回歸算法,并通過實例證明了本文提出的方法對企業人力資源需求預測具有良好的實際參考價值。
一、問題的提出
人力資源是企業可持續發展的第一資源。現代人力資本理論認為,人力資本是企業的最核心資產,也是為企業贏得持久競爭優勢的最后一項資產。同時人力資源成本的快速提高,使企業不得不進行更加精細化的人力資源管理規劃,以有效控制人工成本,實現企業發展戰略。
人力資源需求預測是人力資源規劃的重要工作內容。其一般根據企業內部運行情況及外部環境分析,預測企業未來人力資源運行趨勢,以便提前制定相關策略,最終支撐、服務企業發展戰略。大型企業是國民經濟的根本,是改革創新的主力,在民生、國防等領域發揮著中流砥柱的作用。大型企業不僅規模大、部門齊全,同時組織架構復雜、崗位性質迥異,其人力資源需求預測需要考慮多方面因素。本文在梳理企業人力資源需求預測方法的基礎上,引入數據挖掘的相關概念,提出了一種基于數據挖掘的多因素人力資源需求預測方法,以期為相關企業的人力資源需求規劃提供參考。
二、人力資源需求預測一般方法
目前,國內外人力資源需求預測方法一般可分為定性的宏觀預測和定量的微觀預測兩大類。常用的宏觀預測方法包德爾菲法、經驗預測法、經理判斷法等。該類方法一般基于專家(人)的經驗判斷,非常靈活,能夠適應多變的內、外部環境,但同時受人的主觀因素影響較大,因此常用于對趨勢的判斷。常用的微觀預測方法主要包括趨勢分析法、比例分析法等,該類方法使用數據分析的理念,建立在企業的客觀指標下,能夠給出明確的預測結果,易于解讀、理解,在實際應用中更具有操作性。但目前實際應用微觀預測法時,預測模型的選定只能依據預測者的經驗,并往往需要對影響因素和歷史情況進行簡化以保證可接受的計算復雜度,非常容易將關鍵因素錯誤的排除,導致預測失敗。
三、基于數據挖掘的多因素人力資源需求預測方法
1.數據挖掘原理
數據挖掘是通過各種方法(一般為數學算法)從數據中探索隱藏的規律性信息的過程。從本質上講,企業人力資源需求預測,可以看作是通過分析企業內部情況及外部環境等因素,發現企業人力資源需求與影響因素間的內在規律的過程,可作為典型的數據挖掘問題處理。
機器學習是在20世界80年代興起的用于數據挖掘的學科。它一般利用統計學方法來探索輸入數據中存在的規律性,并可根據訓練模型對新的輸入進行結果預測。支持向量機(SVM)作為一種優秀的非線性機器學習工具,由Cortes&Vapnik;在1995年首先提出。它根據Vanik和Chervonenkis提出的統計學習理論,通過最小化結構風險,獲得對歷史數據實現最優分類的超平面,具有理論完備、使用方便的特點,是機器學習研究的一項重大成果和研究熱點,目前仍在是機器學習領域的核心算法之一。
雖然支持向量機最初是為解決分類問題提出的,但其核心的核函數與支持向量概念,使其很容易推廣到回歸分析,即支持向量回歸機(Support Vector Regression,SVR)。SVR通過核函數,將輸入向量映射的一個高維特征空間中,尋求使所有樣本點離超平面的總偏差最小的超平面,從而取得在原空間非線性回歸的效果。同時,SVR仍保持著小樣本數據挖掘的出眾性能,非常適合用于企業人力資源需求預測。
一般的,定義回歸函數為:
(1)
SVR將輸入量通過核函數映射到高維特征空間,并引入松弛變量 和懲罰系數C,將優化目標函數記作:
(2)
通過構建拉格朗日函數計算極值點,最終獲得最優的回歸超平面。
2.變權重支持向量回歸機
人力資源需求預測問題輸入的歷史數據從本質上是時間序列數據。時間序列的重要特點是歷史數據的重要性隨著時間的回溯而下降,即在回歸過程中近期數據和早期數據的回歸誤差要求是不同的。而傳統SVR模型回歸過程中松弛變量 的權重是相同的,將導致回歸超平面會偏向大方差樣本,而非近期樣本,容易造成回歸失真。
為了解決這一問題,引入權重系數向量 來實現對每個樣本采用不同的懲罰力度,以區別樣本序列中近期數據和早期數據的重要程度,調整各樣本在回歸中的作用,即變權重支持向量回歸機。調整后的模型形式為:
(3)
權重系數可采用指數化的權重系數,即
(4)
其中,N為歷史數據合計年份數。
四、某大型企業人力資源需求預測實例
以某汽車行業企業為實例,對其人力資源需求進行分析,以驗證本方法對企業人力資源需求預測的效果。通過相關性分析,我們對影響該組織人力資源需求的因素進行篩選。選擇銷量、在研型號、產值、利潤、采購經理指數五大因素作為影響其人力資源需求的關鍵因素,具體數據如表1所示,其中2010年至2015年為企業真實歷史數據,2016年為預期目標數據。
1.數據的預處理
從表1可以看到,關鍵因素之間的數值量級差距很大,導致各因素的序列方差差距很大,直接應用將導致回歸結果只取決于方差大的影響因素,因此需要對數據進行預處理。這里采用z-score方法對每組關鍵因素進行處理,公式如下:
(5)
經過預處理后,所有關鍵因素具有了近似的數值量級,處理結果見表2。
2.變權重SVR人力資源需求預測
選用LibSVM作為變權重SVR模型的實現環境,在原LibSVM函數SVMModel中加入指數化權重矩陣。采用高斯函數作為核函數:
(6)
根據實驗和經驗,設定核寬度 =20以實現對數據的高維非線性映射。懲罰因子C設置為100,可以避免懲罰因子過小對訓練數據造成欠學習或過大造成對訓練數據的過學習而導致的泛化性能惡化。模型中松弛變量基數取0.01,數據點的逼近精度較高,同時訓練模型中支持向量的數目較少保證模型具有良好的外推性。
為驗證本方法的預測精度,首先選取2010-2014年5年的歷史數據作為訓練集,獲得回歸模型。將2015年各關鍵因素帶入獲得的SVR模型后,輸出2015年該組織的人力資源需求為5653人,人力資源缺口181人。與2015年實際5647人,補充175人相比,人員總數預測偏差為0.1%,人員缺口預測偏差為3.43%。而實際上,2015年該公司的人力資源情況較好的滿足了公司戰略實現的需要,證明預測結果具有良好的參考價值。
為預測2016人公司人力資源需求,重新選取2010-2015年6年的歷史數據作為訓練集訓練新的SVR模型,帶入2016年各關鍵因素,預測2016年該組織的人力資源需求為5962人,即該組織2016年的人員缺口為315人。
五、結論
本文從數據挖掘的角度研究企業人力資源需求預測問題,在傳統SVR的基礎上,通過引入樣本權重向量實現對歷史數據時間序列重要度的區分,更好的適應了企業歷史數據的特點。實例證明了本方法對企業人力資源需求預測具有良好的參考價值。
由于影響大型企業人力資源需求預測的關鍵因素較多,如何更好地選擇、提取和綜合各因素,使其與數據挖掘方法更科學的結合,仍是需要進一步研究的問題。
參考文獻
[1]孫海法.現代企業人力資源管理[M].廣州:中山大學出版社,2002
[2]韓亞明.淺析人力資源需求預測常用方法[J].人力資源管理,2011(4):51-52
[3]C Cortes,V Vapnik.Support-Vector Networks[J].Machine Learning, 1995,20(3):273-297
[4]Chih-Chung Chang and Chih-Jen Lin. LIBSVM: A library for support vector machines[J]. Acm Transactions on Intelligent Systems & technology, 2011,2(3):389-396
作者簡介:
李鵬,男,1984年生,博士研究生,工程師,研究方向為數據分析與挖掘