張樹瑜, 王 秀
(1.上海航天控制技術研究所, 上海 201109; 2.上海市微型電腦應用學會, 上海 200030)
?
基于云關聯的企業隱性社會責任對離職傾向影響的研究
張樹瑜1, 王 秀2
(1.上海航天控制技術研究所, 上海 201109; 2.上海市微型電腦應用學會, 上海 200030)
從企業隱性社會責任提取對離職傾向影響因素的權重和順序是人力資源管理大數據研究的一項重要工作。在云模型的基礎上給出一種改進的云關聯規則提取方法,并對推導過程進行了論證。給出實現該關聯規則提取的具體算法(CAR-RSL),使非空間屬性可以在多個層次上得到很好的概括,從而發現強壯的關聯規則。應用于實際離職人員數據庫的數據挖掘后表明,可以有效提取可視化和語義關聯規則,能有效判別離職傾向影響因素的權重,對企業人力資源管理具有較強的實際指導意義。
企業隱性社會責任; 云關聯規則; 離職傾向; 大數據
一個企業的發展離不開各項資源的支撐與運作,其中最核心的是企業發展所需的各種各樣的“人才”。由于每個企業涉及多種影響原因,員工會發生離職的情況。一方面,離職對企業是一種“優勝劣汰”,是補充新鮮血液的必要機制;另一方面,過多優秀骨干人才的離開也會大大影響企業的正常乃至可持續發展。
隱性社會責任是指相對于企業在依法依規(如勞動法、勞動合同法等)進行勞動關系等顯性管理行為之外,在法律法規中未做規定的企業自行組織同時依法依規為員工提供有助于職業發展機會的隱性行為(如企業福利,包括對員工的關心、學歷再深造、增值醫療服務等)。在眾多的離職原由中分析出影響優秀骨干人才離職較大的關鍵因素,以此為基礎切實改進實際工作機制和方法,進一步實現以經營結果為主導的人才戰略,成為各企業重點關注的焦點。
因此,如何在“紛繁復雜”的人力資源積累的多年、多維度離職統計數據中通過大數據分析數據挖掘方法發現影響較大的因素,成為企業離職研究的重點。
目前,國內通過智能數據挖掘方法對企業隱性社會責任離職傾向影響因素的研究還屬于空白,往往集中于純算法研究或簡單的離職原因歸納總結。在云關聯規則提取方面,Brin S[1]等人首先提出了挖掘關聯規則的思想,并討論了含有布爾型屬性的關聯規則的挖掘問題。但實際的很多數據庫,通過語義屬性加以數字描述難度較大,于是精確地求出各屬性不同取值點或取值范圍之間的關聯是困難的,這就需要根據語義屬性對上述方法進行改進以提取有效的規則。人力資源管理中,通常關心的是抽象程度更高的一些內在關聯程度,比如人力資源范疇中的職業發展、薪酬待遇等與離職傾向的關系。在離職傾向影響因素研究方面,文獻中[2]提到的一種是總結法,即根據公開發行的數據或材料進行定性歸納總結,以供企業人力資源參考;另一種是分析法[3],雖然對離職的影響因素進行了定量判斷,但是借助于SPSS、AMOS等相關軟件,而這類軟件本身的缺陷在于內部算法或程度進行了數據封裝,統計輸入的模式也不盡相同,從而對于分析或計算結果的準確性不能給予保證。本文直接從云模型的根本原理出發進行關聯規則的算法改進及設計,從而得出企業隱性社會責任影響員工離職傾向因素的權重和順序。同時,由于作者本人在實際企業從事人力資源管理工作,數據的來源和離職影響因素本身的選取也可以保證客觀、準確。
隱性社會責任對離職傾向的影響因素不確定性主要分成模糊性和隨機性兩種情況。作為處理模糊性問題的主要工具,模糊集理論用隸屬度來刻畫模糊事物的亦此亦彼性。針對這一問題,李德毅教授[4]在傳統模糊集理論和概率統計的基礎上提出了定性定量不確定性轉換模型--云模型。云模型用期望值Ex、熵En和超熵He表征定性概念,將定性定量轉換中的模糊性和隨機性集成到一起,克服了模糊集理論中隸屬函數的固有缺陷。
云是用語言值表示的某個不確定概念與其定量表示之間的不確定轉換模型,根據不同的條件來生成。在給定論域中特定的數值X的條件下的云發生器稱為X條件云發生器,給定特定的隸屬度值μ的條件下的云發生器稱為Y條件云發生器。云的生成算法可以用軟件的方式實現,也可以固化成硬件實現,稱為云發生器(Cloud Generator)。由云的數字特征產生云滴,即實現從定性到定量的轉換, 稱為正向云發生器如圖1所示。

圖1 正向云發生器
上面的云生成算法即為正向云發生器算法。
正向云發生器是根據已有正態云的數字特征Ex,En和He,產生滿足上述正態云分布規律的二維云Drop(x,μ)稱為云滴;逆向云發生器是已知云中相當數量的云滴分布Drop(x,μ),確定正態云的3個數字特征值Ex,En和He。正向云發生器可以根據不同的條件來生成,X條件云發生器生成的云滴位于同一條豎直線上,橫坐標數值均為x,縱坐標隸屬度值呈概率分布。
給定符合某一正態云分布規律的一組云滴作為樣本(xi,μi),產生云所描述的定性概念的3個數字特征值(Ex,En,He),即從定量到定性的轉換,其軟件或硬件實現成為逆向云發生器,如圖3所示。

圖2 逆向云發生器
正向云發生器和逆向云發生器相結合,實現定性與定量的隨時轉換。
逆向云發生器算法如式(1)—(3)。
Ex=Mean(xi)
(1)
En=stdev(xi)
(2)

(3)
其中,Mean(·),stdev(·)分別為求均值和標準差的函數。
2.1 定義
定義 將離職影響因素屬性定義域利用云模型進行劃分,并在此基礎上產生的關聯規則稱為離職影響因素云關聯規則。
設X={x1,x2,…,xp},Y={y1,y2,…,yq}是I的子集,且X∩Y=φ,A={fx1,fx2,…,fxp},B={fy1,fy2,…,fyq},這里X={學歷分布,職稱分布,工作年限,業績與薪酬,部門分布,崗位可否替代,員工去向},為員工的基本屬性;Y={職業發展、薪酬福利、企業文化、工作氛圍、生活平衡、學歷提升、培訓需求},為企業隱性社會責任。

若fxi(i=1,2,…,p)和fyj(j=1,2,…,q)分別是屬性xi和yj論域上的概念,記Z=X∪Y,C=A∪B。所要討論的云關聯規則的語義形式為“如果X且如果Y則影響B”,但是這里沒有給出影響因素的權重。
2.2 云關聯規則提取推導
若干項的集合組成項集,對于項集X={ip,iq,…,ik},事務t屬于X的程度μX(t)定義為式(4):
μX(t)=min(μip(t),μiq(t),…,μik(t))
(4)
數據庫D中所有事務屬于X的平均程度稱為項集X的支持度,定義為式(5):
(5)
N為數據庫D所含事務數。
規則的支持度與置信度分別定義式(6)、式(7)。
Support(X?Y)=Support(X∪Y)
(6)
Confidence(X?Y)=Support(X∪Y)/Support(X)
(7)
云關聯規則的提取問題就是:產生置信度與支持度分別大于用戶定義最小值的所有相聯規則。該問題又可以分兩步來解:
(1) 產生所有支持度大于最小支持度min(Sup)的項集,這些項集稱為強項集。
(2) 對于每個強項集,產生所有大于最小置信度min(Conf)的規則。
已知事務數據庫D,若R={r1,r2,…,rk}為強項集,根據強項集的定義有式(8):

(8)
設S={rp,rq,…,rω}(1≤p,q,…,ω≤k)是R的子集且S≠φ,根據支持度的定義有式(9)。
(9)
則對于任一事務t有式(10)。
μR(t)=min(μr1(t),μr2(t),…,μrk(t)),
μS(t)=min(μrp(t),μrq(t),…,μrω(t))
(10)
由于S∈R,有式(11)。
{μr1(t),μr2(t),…,μrk(t)}?{μrp(t),μrq(t),…,μrω(t)}
(11)
從而可以得到式(12)。
Support(S)≥Support(R)≥min(Sup)
(12)
其中,項集的長度:項集中所包含的項的個數;
k項集:長度為k的項集,即k個模糊概念的集合;
k強k項集:支持度大于等于min(sup)的k項集;
k候選k項集:支持度可能大于等于min(sup)的k項集;
Lk:所有強k項集的集合;
Ck:所有候選k項集的集合。
通過上述論證可以得出:任何強項集的非空子集必是強項集。
一條云關聯的語義規則可以寫作如下的形式[5](13):

(13)
使用機器學習的方法,從一個已知分類的對象訓練集中可以推理得出一個分類規則的集合。
至此,云關聯規則的提取方法正確性論證完畢。基于上述論證,下面給出基于離職影響因素的云相聯規則提取算法(Cloud association rules based on recessive social liability,簡稱CAR-RSL)。
基于企業隱性社會責任的云關聯規則提取算法CAR-RSL需多次掃描數據庫,依次生成L1,L2,…,Lp(p為強項集的最大可能長度)。首先計算各屬性的平均值,得各個單項的支持度,刪除其中小于min(Sup)的項,進而得到L1;在計算Lk時,并非計算所有k項集的支持度,而是根據任何強項集的子集必是強項集的原則,由強項集Lk-1生成候選項集Ck,然后計算Ck中各項集的支持度,刪除支持度小于min(Sup)的項集,進而得到強項集Lk;算法循環執行直到沒有新的強項集產生為止;最后,由強項集產生關聯規則。
下面給出算法流程:
Input:largel infor //輸入項集長度
Itemsets infor //輸入項集長度
L1={large1-itemsets} //相似項集合
1.3 統計學方法 采用SPSS 19.0統計學軟件對數據進行分析。計量資料用均數±標準差表示,組間比較采用t檢驗。在分析過程中,多組間的數據比較處理采用One-way ANOVA方法進行分析。以P<0.05為差異有統計學意義。
Output:Genrules (Answer) //關聯規則
Begin
For all candidatesc∈Ck
or(k=2;Lk-1≠φ;k++) ∥計算候選項集的相關系數
For all transactionst∈Ddo
Ck= apriori_gen(Lk-1) ∥產生新的候選項集
c_count=c_count+ min(μc1(t),μc2(t),…,μck(t))
c_count=c_count/N∥取平均值
Lk={c∈Ck|c_count≥min(Sup)}
If (large1-itemsets =add(large1-itemsets))
Answer =∪kLk
Genrules (Answer) ∥根據強項集產生相聯規則
End
其中函數apriori_gen()的功能是由強項集Lk-1生成候選項集Ck,分如下兩個步驟:
A. 首先將Lk-1中各項項集進行組合
在項集Lk-1,p,Lk-1,q中存在:p.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1 B. 從Ck中刪除{c∈Ck|c有不屬于Lk-1的k-1項子集} 另外,算法最后調用函數Genrules(),其功能是由強項集產生規則。它對于每個強項集L,輸出形如(L-A)?A的規則,其中A是L的非空子集且滿足Support(L)/Support(L-A)≥ min(Conf)。 4.1 云關聯可視化和語義規則提取 我們感興趣的是“離職傾向因素”與各種隱性社會責任的關系,這里采用上述描述的CAR-RSL算法來挖掘關聯規則。本文仿真輸入數據是利用本企業近3年內約150位員工離職因素統計數據庫,仿真中使用最小支持度50%和最小置信度80%來進行數據挖掘。使用CAR-RSL算法進行數據挖掘生成的支持度分析表,如表1所示。 以“離職傾向因素”作為后續結果,其它屬性的聯合作為先行條件,可視化云關聯規則中以橢圓形表示,如圖3所示。 圖3 關于“隱性社會責任對離職傾向因素”的可視化云關聯規則圖 在橢圓形上標識的數字就是隱性社會責任對離職傾向影響的提取因素數量,分散分布的面積為權重大小,從而更加直觀的得到離職影響因素的先后順序。 從圖3中可以看出,在企業隱性社會責任(包括職業發展、待遇提升、企業文化、工作氛圍、生活平衡、學歷提升、培訓需求)中,確定影響超過50%最小支持度的因素有四個:職業發展、待遇提升、工作氛圍和生活平衡,并且可以得出企業需要重點關注的隱性社會責任置信度順序首先為職業發展,其次為待遇提升,第三為生活平衡,第四為工作氛圍。 表1 云關聯規則CAR-RSL算法支持度分析表 相應的,也可以按照云模型的語義關聯規則描述如下: 規則1. 如果職業發展是“好”,待遇提升是“好”,生活平衡是“好”,那么離職傾向是“低”。 規則2. 如果職業發展是“好”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“中等”。 規則3. 如果職業發展是“好”,待遇提升是“好”,生活平衡是“中等”,那么離職傾向是“低”。 規則4. 如果職業發展是“中等”,待遇提升是“差”,生活平衡是“中等”,那么離職傾向是“高”。規則5. 如果職業發展是“差”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“差”。 規則6. 如果職業發展是“中等”,待遇提升是“中等”,生活平衡是“好”,那么離職傾向是“中等”。 規則7. ………… 規則8. ………… 顯而易見,企業需要的離職傾向影響因素在我們提取的可視化和語義關聯規則中清楚地顯示出來,表明CAR-RSL算法對非空間屬性的知識表示和概括能力得到了充分的體現。 4.2CAR-RSL算法有效性及穩定性分析 運用CAR-RSL算法進行的仿真結果,如圖4所示。 圖4 CM-T算法的有效性和穩定性仿真圖 出于便利考慮,圖中的Z軸與傳統的Y或Yd軸不同,這里定義為冗余(Error)。從仿真結果中可以看出,該算法具 有良好的有效性及穩定性。 本文在云模型基礎上對關聯規則的提取過程進行了改進,并通過數學理論推導及設計,提出一種改進的云關聯規則算法。將該新方法應用于本企業隱性社會責任對離職傾向影響因素的權重分析,不僅得到了影響離職的四個主要傾向因素,而且還得到了離職傾向影響因素的權重順序。該算法可以通過自學習技術不斷細化決策,使輸出結果更精確,相關性更高。雖然這些數據分析或關聯規則看上去直觀明顯,但隨著企業戰略發展的不同需求,企業隱性社會責任的范疇也會發生變化,即存在影響離職傾向的隱式影響,就需要定期對影響離職的企業隱性社會責任因素進行梳理和選取,做到適當補充或刪減,才能更好的為企業的戰略發展做好支撐與決策,從而獲得對企業最有價值的決策信息。 [1]BrinS.Theanatomyoflarge-scalehypertertextualWebsearchengine[C]//Proc.ofthe7thInt’1worldWideWebConf.Brishane,Austrilian,1998:121-126. [2]Ying,H.TheTakagi-SugenoFuzzyControllersUsingtheSimplifiedLinearControlRulersareNonlinearVariableGainControllers[J].Automatica, 1998, 34(2):157-167. [3]YiDu,De-yiLi.AMethodofDataSourceGenerationforTestingDataMiningAlgorithm[J].JournalofComputerResearch&Development, 2000, 37(7):776-782. [4]De-yiLi,Kai-changDi,De-renLi,etal.MiningAssociationRuleswithLinguisticCloudModels[J].JournalofSoftware, 2000, 11(2):143-158. [5]Ying,H.SufficientConditionsonUniformApproximationofMultivariateFunctionsbyGeneralTakagi-SugenoFuzzySystemswithLinearRuleConsequent[J].IEEETrans.SMC.,2001,36(3):235-238. Research on Enterprise Recessive Social Liability for the Effect of Demission Incline Based on Cloud Correlation Zhang Shuyu, Wang Xiu (1. Shanghai Aerospace Control Technology Institute, Shanghai 201109, China;2. Shanghai Microcomputer Applications Association, Shanghai 200030, China) It is an important wok to extract the weight and sequence of demission incline actors from enterprise recessive social liability for human resource manage. Firstly, the paper provides an improved cloud correlation extracting method based on cloud model. Secondly, the real algorithm (CAR-RSL) is provided to realize the correlation rules, which effectively generalize the non-spatial attribute in many layers, and detect stronger correlation rules. The algorithm demonstrates the validity of extracting visualization and semantic correlation rules, and differentiates the weight of demission incline actor by applying real data mining of demission database. There are reasonably direction meanings for enterprise human resources management. Enterprise recessive social liability; Cloud correlation rules; Demission incline; Big data 張樹瑜(1978-),男,山西,博士,高級工程師,研究方向:自動化與數據挖掘。 王 秀(1980-),女,吉林,本科,研究方向:期刊信息化。 1007-757X(2017)07-0048-04 TP311 A 2017.03.01)4 仿真結果分析



5 總結