蘇韌偉 王昭 劉斐 袁可 劉軍株洲時(shí)代新材料科技股份有限公司
隨著經(jīng)濟(jì)社會(huì)的發(fā)展和國際形勢(shì)的變化,諸多國際化制造業(yè)企業(yè)在人力資源的競(jìng)爭已經(jīng)進(jìn)入了白熱化,傳統(tǒng)制造業(yè)的人才結(jié)構(gòu)變化也隨之加速。同其他資源一樣,能否將人力資源合理分配給若干需求端,使需求端的相關(guān)業(yè)務(wù)所需崗位勝任能力與人才素質(zhì)合理匹配,提升人均勞效,進(jìn)一步合理管理控制成本提升資源利用率,并獲得企業(yè)績效最大化是制造業(yè)的一大挑戰(zhàn)。
數(shù)字化與信息化發(fā)展在制造業(yè)中已經(jīng)逐步延伸到人力資源管理方向,人力資源管理人員積累了大量的數(shù)據(jù)。如何從如山如海的數(shù)據(jù)中提取有用的信息,并將其高效運(yùn)用到人力資源日常管理的六大模塊,成了其亟待解決的問題。企業(yè)人力資源戰(zhàn)略規(guī)劃及相關(guān)決策通常以人力資源分析為基礎(chǔ),數(shù)據(jù)挖掘可以為人力資源分析提供堅(jiān)實(shí)的支持;基于分類識(shí)別有用的模式和規(guī)則,可進(jìn)而分析并解決在人力資源六大模塊實(shí)操中遇到的問題。聚類分析,作為數(shù)據(jù)挖掘的重要分支,可以通過分析數(shù)據(jù)的相似性把大型數(shù)據(jù)集合分類,使得在同一類里面的數(shù)據(jù)盡量相似,而不同類中的數(shù)據(jù)又盡量相異,從而得到較好的分類族群(陳倬,2016)。本文將根據(jù)T公司人才資本管理系統(tǒng)中的數(shù)據(jù)特性,考慮人力資源管理的對(duì)象以及發(fā)展趨勢(shì),以KMeans++和DBSCAN兩種聚類算法為例,對(duì)應(yīng)用場(chǎng)景進(jìn)行討論。
本文探討的聚類對(duì)象,即制造業(yè)人力資源管理的優(yōu)化需考慮的人力資源管對(duì)象,也就是制造業(yè)企業(yè)發(fā)展所需要的勞動(dòng)力。對(duì)聚類特征的選取需要考慮制造業(yè)人力資源的發(fā)展方向,以便盡可能鎖定關(guān)鍵族群及其特征,這些特征也是人力資源管理優(yōu)化過程中需要考慮的重要因素。
本文我們主要考慮以下四個(gè)發(fā)展方向:(1)首先,制造業(yè)對(duì)高素質(zhì)高文化層次人才需求顯著增加,這迫使人力資源管理的主觀能動(dòng)性逐步增強(qiáng);(2)其次,日益復(fù)雜的外部環(huán)境和激烈的人才競(jìng)爭必然導(dǎo)致人員流動(dòng)性增強(qiáng),從而增加企業(yè)人力資源管理的時(shí)間成本以及貨幣成本;(3)然后,勞動(dòng)價(jià)值的清晰和模糊性同時(shí)在制造業(yè)得以體現(xiàn),清晰是來自于明確的工作時(shí)間和產(chǎn)品價(jià)值,模糊則是由于設(shè)計(jì)、工藝、質(zhì)量和部分高水平管理人員的勞動(dòng)價(jià)值轉(zhuǎn)化成經(jīng)濟(jì)價(jià)值和發(fā)展價(jià)值并不直接且周期較長。(4)最后,關(guān)鍵崗位、核心崗位以及特殊技能的優(yōu)質(zhì)人才的稀缺問題在傳統(tǒng)制造業(yè)較長時(shí)間內(nèi)仍然會(huì)趨于嚴(yán)重,人才向快銷、電商以及金融等行業(yè)的流動(dòng)意向給制造業(yè)招募和保留優(yōu)質(zhì)人才造成諸多困難,這一形勢(shì)很難在短時(shí)間內(nèi)扭轉(zhuǎn)。制造業(yè)作為勞動(dòng)力密集型產(chǎn)業(yè),藍(lán)領(lǐng)人員占比較大;另一方面,家庭乃至社會(huì)經(jīng)濟(jì)條件的變化,也使得勞動(dòng)力市場(chǎng)和企業(yè)內(nèi)部的勞動(dòng)力供需關(guān)系更復(fù)雜多變。合理的分類才能使得接下來的比較行為較為合理的結(jié)論,勞動(dòng)力的分類和比較是人力資源管理制度適宜性有效性評(píng)估的基礎(chǔ)。通過對(duì)勞動(dòng)力大數(shù)據(jù)進(jìn)行分析,促進(jìn)勞動(dòng)價(jià)值提升是必然的趨勢(shì)。我們認(rèn)為,聚類特征的選取應(yīng)帶著發(fā)展的眼光,落點(diǎn)制造業(yè)人力資源管理的持續(xù)優(yōu)化。
通過對(duì)T公司已經(jīng)在運(yùn)用的人力資源管理系統(tǒng)平臺(tái)的現(xiàn)有數(shù)據(jù)研究,我們認(rèn)為數(shù)據(jù)大致分為三類:第一類是以薪資、工作年限、福利、工時(shí)為代表的數(shù)值類等;第二類是屬性類,如性別、學(xué)歷學(xué)位、資質(zhì)證書、工種、年度績效類等;第三類是文本類,比如研究方向、籍貫、業(yè)績?cè)u(píng)價(jià)、畢業(yè)專業(yè)和院校等。通常在數(shù)據(jù)分析過程中要將文本類數(shù)據(jù)標(biāo)成屬性產(chǎn)生概念分層,也就是轉(zhuǎn)化成第二類數(shù)據(jù)。第一類數(shù)據(jù)、 編碼后第二類數(shù)據(jù)、轉(zhuǎn)化編碼后第三類數(shù)據(jù)均可以執(zhí)行聚類。
之所以選擇聚類算法在人力資源管理做應(yīng)用場(chǎng)景探討,在于其在電信、金融以及電子商務(wù)等行業(yè)客戶畫像有著廣泛的應(yīng)用基礎(chǔ),諸多場(chǎng)景可以參考比對(duì)(劉光榕等,2016;郭松,2018)。老話說:“物以類聚,人以群分”,聚類可以將相似的人群用不同維度的特征數(shù)據(jù)進(jìn)行劃分,不僅可以根據(jù)劃分結(jié)果幫助決策者形成一個(gè)人力資源情況的系統(tǒng)性圖譜,也可以進(jìn)一步觀察簇內(nèi)人群的特征。科學(xué)的分類人群能夠幫助決策者有針對(duì)性的制定人力政策。聚類算法不需要過多的、穩(wěn)定的先驗(yàn)經(jīng)驗(yàn),其具備描述性和普適性,對(duì)管理結(jié)構(gòu)改進(jìn)的提示作用也較為明顯。
KMeans是一種典型的劃分聚類算法,它用一個(gè)聚類的中心來代表一個(gè)簇,該算法只能處理數(shù)值型數(shù)據(jù)。KMeans++是基于KMeans對(duì)初始點(diǎn)的選擇有改進(jìn)的最優(yōu)聚類競(jìng)爭的算法(Arthur D.,etc.,2007)。用Python執(zhí)行該算法需要給出聚類個(gè)數(shù),最大迭代次數(shù)和算法運(yùn)行次數(shù)等參數(shù)等。用KMeans++對(duì)人力資源管理領(lǐng)域做數(shù)據(jù)挖掘較為友好的原因在于:1)結(jié)果可解釋性強(qiáng),特別是對(duì)于上述第一類數(shù)據(jù),數(shù)值型數(shù)據(jù)。2)重要參數(shù)為K值,即聚類個(gè)數(shù)。執(zhí)行的時(shí)候考慮殘差平方和SSE和輪廓系數(shù)Average Silhouette Score的同時(shí),還考慮管理模式的適配、管理資源的可達(dá)性等問題(圖1)。例如我們可以以部門數(shù)量作為聚類個(gè)數(shù),分析部門內(nèi)人員的相似程度以及部門間人員的差異程度。3)算法效率高,聚類效果尚可,故而對(duì)商業(yè)智能的動(dòng)態(tài)展示較好,進(jìn)而幫助管理者做一些即時(shí)的決策。4)對(duì)初始點(diǎn)的改進(jìn)使得獲得全局最優(yōu)解的可能性大大增加,減少分類不恰當(dāng)導(dǎo)致決策失誤的可能。5)采用數(shù)據(jù)標(biāo)準(zhǔn)化可以化解一部分類別數(shù)據(jù)不均衡、方差大的問題,適用于多維度數(shù)據(jù)分析。6)對(duì)錯(cuò)誤值敏感,且有類似的改進(jìn)方法,如K-Medians或K-Mediods,可以辨別出某類和某維度的代表人員乃至簇內(nèi)差異。

圖1:殘差平方和和輪廓系數(shù)圖
DBSCAN算法是一種典型的基于密度的聚類算法,采用空間索引技術(shù)來搜索對(duì)象的鄰域,引入了“核心對(duì)象”和“密度可達(dá)”等概念。該算法從核心對(duì)象出發(fā),把所有密度可達(dá)的對(duì)象組成一個(gè)簇(Ester M .,etc.,1996)。在Sklearn庫執(zhí)行DBSCAN需要輸入的主要參數(shù)包括:鄰域半徑eps,鄰域樣本數(shù)閾min_samples,以及最近鄰域度量參數(shù)metric。最近鄰域度量參數(shù)metric的選擇一般是考慮屬性特征和之間的關(guān)聯(lián),一般選取歐式距離。我們也可以根據(jù)情況選擇馬氏距離,通過把方差歸一化使得特征之間的關(guān)系更加符合實(shí)際情況,比如年齡與薪資之間的關(guān)系。不同于Kmeans++算法,當(dāng)不知道要分幾類或者對(duì)聚類簇的形態(tài)沒有偏倚的時(shí)候可以使用DBSCAN,且算法效率同樣較高。
對(duì)于EPS和min_samples參數(shù)的選擇方法,建議首先計(jì)算數(shù)據(jù)對(duì)象間的距離得到距離矩陣Dist(n×m)(公式1),對(duì)距離矩陣將行向量進(jìn)行升序排序,得出每行是相應(yīng)數(shù)據(jù)點(diǎn)到其他所有點(diǎn)距離的一個(gè)排序。繪制距離值的概率密度分布曲線和距離每個(gè)數(shù)據(jù)點(diǎn)最近的第i個(gè)距離值的升序曲線。進(jìn)而,根據(jù)拐點(diǎn)建議eps。在拐點(diǎn)對(duì)應(yīng)的eps之后,其聚類和噪聲檢測(cè)結(jié)果趨于穩(wěn)定。最后,我們根據(jù)已確定的eps值,再計(jì)算每個(gè)數(shù)據(jù)點(diǎn)i的局部密度值,再得出每個(gè)數(shù)據(jù)點(diǎn)i距離更高密度點(diǎn)的距離δi,用每個(gè)點(diǎn)δi和ρi的函數(shù)的關(guān)系幫助選擇min_points(公式2)(宋金玉等,2019)。

上述方法雖然可以根據(jù)數(shù)據(jù)集的統(tǒng)計(jì)學(xué)特征和圖表可視化協(xié)助參數(shù)選擇,但仍然需要人力資源管理人員根據(jù)經(jīng)驗(yàn)判斷聚類結(jié)果是否合適。值得注意的是,DBSCAN可以在聚類的同時(shí)發(fā)現(xiàn)異常點(diǎn)。而異常點(diǎn)恰恰是人力資源管理需要特別關(guān)注的,我們希望留住的稀缺能力人員在聚類圖譜中恰恰很可能在異常點(diǎn)里。同時(shí),對(duì)于較大的分類簇,我們可以進(jìn)一步細(xì)化其特征描述,然后匹配業(yè)務(wù)需求制定培訓(xùn)、績效管理甚至外包等策略。
數(shù)據(jù)作為一種越來越重要的生產(chǎn)因素,已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域。人力資源管理作為制造業(yè)的一個(gè)必不可少的職能,亟需擺脫“數(shù)據(jù)豐富,信息貧乏”的狀態(tài)。本文闡述的兩種聚類算法雖然不是從技術(shù)方向考慮分類人群最優(yōu)的算法,但不失為當(dāng)下較為適宜的選擇。兩種算法在面對(duì)不同的數(shù)據(jù)集,業(yè)務(wù)場(chǎng)景以及分析目標(biāo)具備一定的互補(bǔ)作用,且都對(duì)分析指標(biāo)的權(quán)重比較敏感。分類方式的優(yōu)化對(duì)于將人力資源管理放在戰(zhàn)略地位的制造業(yè)企業(yè)至關(guān)重要,可以幫助其人力資源管理體系的持續(xù)改進(jìn),為企業(yè)提供更多的人才解決方案。