孫煦
(北京市大興區(qū)人民醫(yī)院,北京 102600)
隨著改革開(kāi)放的不斷深入,各企事業(yè)單位人事制度發(fā)生了相應(yīng)的變化,更加傾向于從網(wǎng)上進(jìn)行人才招聘,同時(shí)求職人員數(shù)量的不斷增加,同一個(gè)崗位有許多人才競(jìng)爭(zhēng)[1-3]。目前求職人員很難在短時(shí)間找到合適的崗位,同樣,各企事業(yè)單位相應(yīng)的崗位也難以找到最適合的人才,因此,用于招聘的相關(guān)技術(shù),日益凸顯其重要性,應(yīng)尋求人力資源推薦算法,使求職信息與崗位需求信息智能化匹配,發(fā)揮人力資源部門(mén)的潛能[4-6]。人力資源推薦方法可以幫助求職人員快速、準(zhǔn)確地找到最合理的崗位,同時(shí)亦可以幫助管理員設(shè)置合理的崗位,以提高管理效率,因此設(shè)置最優(yōu)的人力資源推薦方法成為當(dāng)前人力資源管理領(lǐng)域一個(gè)重要的研究方向[7]。
針對(duì)人力資源推薦方法的設(shè)計(jì)問(wèn)題,許多專(zhuān)家和學(xué)者投入了大量的時(shí)間和精力進(jìn)行了相應(yīng)的研究,提出許多有效的人力資源推薦方法[8]。最初為基于專(zhuān)家系統(tǒng)的人力資源推薦方法,該方法首先建立人力資源推薦的知識(shí)庫(kù),知識(shí)庫(kù)包括大量的推薦規(guī)則,根據(jù)推薦規(guī)則進(jìn)行相應(yīng)的人力資源推薦,但是該方法的工作效率低,并且人力資源推薦結(jié)果與推薦規(guī)則多少相關(guān),因此人力資源推薦可信度低[9]。隨后出現(xiàn)了基于K均值聚類(lèi)的人力資源推薦算法,通過(guò)K均值聚類(lèi)算法對(duì)原始數(shù)據(jù)進(jìn)行分類(lèi)[10],根據(jù)分析推薦相應(yīng)的崗位,但是該方法的局限性也十分明顯,經(jīng)常得到錯(cuò)誤的人力資源推薦結(jié)果,無(wú)法得到高質(zhì)量的人力資源推薦結(jié)果[11]。
為了提高人力資源推薦質(zhì)量,減少人力資源推薦錯(cuò)誤,為人力資源管理部門(mén)提供有價(jià)值的參考意見(jiàn),提出了基于決策樹(shù)算法的人力資源推薦方法,并在相同條件與其它人力資源推薦方法進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了決策樹(shù)算法的人力資源推薦性能和優(yōu)越性。
在人力資源推薦的建模過(guò)程中,數(shù)據(jù)來(lái)源十分關(guān)鍵,數(shù)據(jù)質(zhì)量好壞對(duì)人力資源推薦效果具有重要的影響,本文采用分布式處理系統(tǒng)采集人力資源數(shù)據(jù),這樣不僅人力資源數(shù)據(jù)來(lái)源廣,而且數(shù)據(jù)采集速度快,可以對(duì)大規(guī)模人力資源推薦問(wèn)題進(jìn)行分析,具體流程如圖1所示。

圖1 人力資源數(shù)據(jù)采集流程
由于原始人力資源數(shù)據(jù)集包含了大量的信息,這個(gè)信息各異,如求職人員的相關(guān)信息,崗位信息,以及不同行業(yè)數(shù)據(jù)等,將它們直接輸入到人才資源推薦算法進(jìn)行建模,無(wú)法獲得理想的人力資源推薦結(jié)果,同時(shí),由于有的數(shù)據(jù)為連續(xù)數(shù)據(jù),有的數(shù)據(jù)為離散數(shù)據(jù),有些數(shù)據(jù)甚至?xí)?duì)人力資源推薦結(jié)果產(chǎn)生負(fù)面影響,所以需要對(duì)原始人力資源數(shù)據(jù)集進(jìn)行預(yù)處理,以獲取高質(zhì)量的建模人力資源數(shù)據(jù)集,主要包括:關(guān)鍵特征的提取、無(wú)用數(shù)據(jù)的消除、數(shù)據(jù)格式的統(tǒng)一轉(zhuǎn)換、數(shù)據(jù)存儲(chǔ)等,具體如圖2所示。

圖2 原始人力資源數(shù)據(jù)的預(yù)處理流程
決策樹(shù)算法是一種重要的數(shù)據(jù)挖掘方法,具有工作過(guò)程簡(jiǎn)單、分類(lèi)速度快,并且容易生成分類(lèi)規(guī)則,挖掘出的分類(lèi)規(guī)則準(zhǔn)確性高。決策樹(shù)算法將樣本屬性當(dāng)作一個(gè)節(jié)點(diǎn),根據(jù)樣本屬性的值構(gòu)建一種樹(shù)結(jié)構(gòu),從樣本數(shù)據(jù)集合中找到問(wèn)題的變化規(guī)律,挖掘出對(duì)決策有價(jià)值的信息。當(dāng)前決策樹(shù)算法很多,最為經(jīng)典的為ID3算法,其采用自頂向下遞歸、分而治之的學(xué)習(xí)原理,不斷遞歸建立一棵理想的決策樹(shù)[12-13]。
數(shù)據(jù)樣本的集合為U,包含u個(gè)樣本,類(lèi)別屬性值為n,那么信息熵定義如式(1)。
(1)
式中,p(ui)表示樣本ui屬于類(lèi)別Ci的概率。
U包含v個(gè)子集{U1,U2,…,Uv},屬性A取值為vj時(shí),那么vj出現(xiàn)前提下ui出現(xiàn)的條件概率計(jì)算為式(2)。
(2)
條件熵表示屬性A劃分的子集的熵,具體定義如式(3)。
(3)
信息增可以表示為式(4)。
Gain(A)=I(U)-I(U|V)
(4)
I(U/V)的值越小,Gain(A)的值就越大,意味著屬性A對(duì)于分類(lèi)提供的信息量越大。
Step1:采集人才資源推薦數(shù)據(jù)集,并進(jìn)行預(yù)處理。
Step2:將人才資源推薦數(shù)據(jù)集劃分為訓(xùn)練樣本集合和測(cè)試樣本集合。
Step3:建立樹(shù)的根節(jié)點(diǎn)N,如果類(lèi)型為1時(shí),那么根節(jié)點(diǎn)為葉節(jié)點(diǎn),當(dāng)屬性列表中沒(méi)有屬性,根節(jié)點(diǎn)即為葉節(jié)點(diǎn)。
Step4:對(duì)屬性列表中的每個(gè)屬性,計(jì)算它們的信息增益,保存最高信息增益的屬性。
Step5:將根節(jié)點(diǎn)的屬性設(shè)置為最高信息增益的屬性。
Step6:給每個(gè)節(jié)點(diǎn)一個(gè)全新的葉子節(jié)點(diǎn)。
Step7:將決策樹(shù)的分支轉(zhuǎn)為一個(gè)推薦規(guī)則。
Step8:對(duì)錯(cuò)誤節(jié)點(diǎn)進(jìn)行剪枝處理,這樣得到一棵推薦規(guī)則決策樹(shù)。
Step9:根據(jù)建立的推薦規(guī)則決策樹(shù)得到人力資源推薦結(jié)果。
為了測(cè)試基于決策樹(shù)算法的人力資源推薦效果,采用具體的實(shí)例作為研究對(duì)象,進(jìn)行10次仿真實(shí)驗(yàn),每一次仿真實(shí)驗(yàn)采用不同的數(shù)據(jù)集,包括不同數(shù)量的工作崗位、求職人員,具體如表1所示。

表1 人力資源推薦實(shí)驗(yàn)的數(shù)據(jù)集
為了使決策樹(shù)算法的人力資源推薦結(jié)果說(shuō)服力更強(qiáng),選擇基于專(zhuān)家系統(tǒng)的人力資源推薦方法和均值聚類(lèi)算法的人力資源推薦方法進(jìn)行對(duì)比實(shí)驗(yàn),它們采用相同的實(shí)驗(yàn)平臺(tái),具體如表2所示。
當(dāng)前人力資源推薦結(jié)果的優(yōu)劣評(píng)價(jià)標(biāo)準(zhǔn),采用最多的標(biāo)準(zhǔn)為人力資源推薦結(jié)果的查全率(Recall)、推薦精度(Precision),計(jì)算公式分別如式(5)、式(6)。

(6)
(5)
在決策樹(shù)算法工作過(guò)程中,葉子節(jié)點(diǎn)數(shù)的數(shù)量與人力資源推薦結(jié)果好壞直接相關(guān),葉子節(jié)點(diǎn)數(shù)的數(shù)量太大,那么與人力資源推薦的過(guò)程過(guò)于復(fù)雜,影響人力資源推薦效率,葉子節(jié)點(diǎn)數(shù)的數(shù)量太少,那么決策樹(shù)算法學(xué)習(xí)不充分,人力資源推薦錯(cuò)誤率高。對(duì)于數(shù)據(jù)集1,不同數(shù)量下的人力資源推薦精度變化曲線如圖3所示。

圖3 數(shù)據(jù)集1葉子節(jié)點(diǎn)數(shù)與推薦精度間變化關(guān)系
從圖3可以看出,隨著葉子節(jié)點(diǎn)數(shù)的數(shù)量增加,人力資源推薦精度不斷上升,當(dāng)節(jié)點(diǎn)數(shù)量為20時(shí),人力資源推薦精度又開(kāi)始下降,這樣葉子節(jié)點(diǎn)數(shù)的數(shù)量最優(yōu)值為20。
同樣的原理,可以得到表1中所有數(shù)據(jù)集的最優(yōu)葉子節(jié)點(diǎn)數(shù)量,具體如表3所示。

表3 不同數(shù)據(jù)集的最優(yōu)葉子節(jié)點(diǎn)數(shù)
將表1所有數(shù)據(jù)集劃分兩個(gè)部分,選擇1/3作為測(cè)試樣本,統(tǒng)計(jì)它們的人力資源的查全率和推薦精度,結(jié)果如圖4所示。
從圖4可以知道:
(1)專(zhuān)家系統(tǒng)的人力資源推薦查全率和推薦精度的平均值分別為78.52%和79.23%,不僅人力資源推薦錯(cuò)誤率比較高,而且人力資源推薦結(jié)果極不穩(wěn)定,缺陷十分明顯,無(wú)法應(yīng)用于實(shí)際人力資源管理中。

(a)查全率
(2)均值聚類(lèi)算法的人力資源推薦查全率和推薦精度的平均值分別為84.28%和87.68%,相對(duì)于專(zhuān)家系統(tǒng),均值聚類(lèi)算法的人力資源推薦效果得到了明顯改善,降低了人力資源推薦錯(cuò)誤率,但是有幾個(gè)數(shù)據(jù)集,其人力資源推薦準(zhǔn)確欠佳,人力資源推薦結(jié)果可靠性差。
(3)決策樹(shù)算法的人力資源推薦查全率和推薦精度的平均值分別為91.19%和92.2%,相對(duì)于專(zhuān)家系統(tǒng)和均值聚類(lèi)算法,大幅度提升了人力資源推薦準(zhǔn)確性,獲得了十分理想的人力資源推薦結(jié)果,解決了當(dāng)前人力資源推薦方法存在的弊端,具有十分明顯的優(yōu)越性。
統(tǒng)計(jì)不同方法的人力資源推薦時(shí)間,統(tǒng)計(jì)每一次實(shí)驗(yàn)的平均值,它們變化曲線如圖5所示。

圖5 不同方法的人力資源推薦時(shí)間對(duì)比
對(duì)圖5的人力資源推薦時(shí)間進(jìn)行對(duì)比和分析,可以知道,相對(duì)于專(zhuān)家系統(tǒng)和均值聚類(lèi)算法,決策樹(shù)算法的人力資源推薦時(shí)間明顯縮短,獲得了更高的人力資源推薦效率。
人力資源推薦研究具有十分重要的意義,可以節(jié)約企事業(yè)單位人力資源管理成本,并改善單位運(yùn)行效率,為了提高人力資源推薦精度,本文設(shè)計(jì)了基于決策樹(shù)算法的人力資源推薦方法,具體仿真對(duì)比實(shí)驗(yàn)結(jié)果表明,決策樹(shù)算法解決了當(dāng)前人力資源推薦建模過(guò)程中存在的難題,獲得了十分理想的人力資源推薦結(jié)果,可以為企事業(yè)人力資源部門(mén)提供有用的信息,便于制定相應(yīng)的人力管理方案,具有十分廣泛的應(yīng)用前景。