數據挖掘在員工網絡招聘中的應用研究

2010-12-31 00:00:00胡東波肖丹萍曹婷

商場現代化 2010年14期

[摘要] 本文首先對簡歷原始數據進行預處理，然后采用數據挖掘技術中的決策樹算法和神經網絡算法，在Clementine軟件中對處理后的數據進行挖掘，以提取被企業接收面試的簡歷的共同特征，為日后的網絡簡歷處理提供一定的依據。此外，本文對數據挖掘算法的優劣性與挖掘準確性進行了比較。

[ 關鍵詞 ] 招聘人力資源管理數據挖掘決策樹神經網絡

一、引言

隨著計算機和網絡的迅速發展和普及，網絡招聘正日益成為用人單位招聘人才的一種重要方式，招聘者們越來越

希望通過計算機技術協助人力資源管理來處理電子簡歷的評價及篩選，提升整個人力資源管理的效率。數據挖掘技術，是解決這一問題的較好方法。

本文將數據挖掘技術運用于網絡電子簡歷的篩選，并比較了決策樹與神經網絡兩種算法的優劣。

二、網絡簡歷樣本的獲取與預處理

1.簡歷樣本的獲取

本文從某人才招聘網站數據庫獲得簡歷數據，選取十個熱門的崗位(會計、銷售工程師、衛生醫療、紡織服裝設計、司機、建筑/結構工程師管理人員、美術/圖形設計、市場經理、行政/人事人員)，每個崗位中抽取50個招聘職位，每個職位抽取20份簡歷信息，每一份簡歷及其相應的招聘職位要求構成一個樣本。其中10份為企業通過招聘網站發出面試通知的簡歷(簡稱A類樣本)，另外10份為沒有被企業通知面試的簡歷(簡稱B類樣本)。

2.簡歷樣本的預處理

考慮到本研究的挖掘目的，本文選取了以下幾個應聘者的屬性與招聘公司的需求進行匹配，在對數據進行處理后，再應用到數據挖掘工作中。所選擇的屬性都需要將招聘企業的要求和應聘者的信息相匹配，再進行數據的處理。選擇的輸入屬性是:性別、年齡、籍貫、學歷、婚姻狀況、工作年限、政治面貌、畢業院校、計算機水平、專業、工作經驗，輸出屬性是:是否被接受面試。

由于原始數據庫中的數據存在著各種各樣現實中不可避免的缺陷，下面將根據所選擇的屬性分別詳述對簡歷數據所進行的預處理。

(1)性別(R_Sex):不需要復雜的處理。

(2)年齡(R_Age):本文將應聘者劃分為三個年齡段:a.小于或等于三十歲;b.三十到五十歲;c.五十歲以上，修改后的數據變為“<=30”、 “30-50”和“>=50”。

(3)婚姻狀況(R_Married):婚姻狀況僅僅分為已婚和單身，因此將數據修改前的FALSE改為單身，TRUE改為已婚。

(4)籍貫(R_Place):本文在預處理中，將籍貫與招聘單位所在省份一致的應聘者籍貫取1，其余的為0。

(5)工作年限(R_WorkYear):本文將應聘者按照工作年限的長短來劃分，修改后數據分別變為“<=5”、“5-10”和“>=10”。

(6)學歷(R_Education):大致分為博士后、博士、碩士、本科、大專、高中/中專六類，通過觀察發現這一屬性中存在一些空缺值，因此對這一屬性的處理僅僅是把空缺值清除。

(7)政治面貌(R_Political):本文將是黨員的不做修改，將其他表述一概改為其他。

(8)畢業院校(R_School):本文將應聘者的學校分為五類，并收集了大學的排名和院校名稱，211重點大學取為1，一般重點大學為2，一般本科院校為3，其他專科和民辦院校為4，海外大學為0。

(9)專業(R_Specialty):本文將企業對專業的要求提取出來與應聘者簡歷中的信息做對比，若兩者專業相符合則改為符合，否則改為不符合。

(10)計算機水平(R_ComputerGrade):本研究將初級程序員用等級1代替，中級用2，高級用3，其余的為0。

(11)工作經驗(R_Experience):本文提取了招聘者要求中的一些關鍵字眼與應聘者簡歷中的描述來做對比，將應聘者的經驗劃分為三類:有相關經驗、有實習經驗、無相關經驗。

(12)接受(Accept):接受與否屬性是數據挖掘中唯一的輸出屬性，A類樣本取作為接受，B類樣本取為拒絕。

三、簡歷篩選的分類算法

本文主要選取了C5.0決策樹算法和神經網絡算法在數據挖掘軟件Clementine中對預處理后的簡歷樣本數據進行分類挖掘。

1. C5.0決策樹算法

構造決策樹的目的是找出屬性和類別間的關系，用它來預測將來未知記錄的類別。本文分別抽取了幾個崗位中的部分預處理后的數據作為數據挖掘的數據測試集，為決策樹算法在招聘簡歷中的數據挖掘應用做進一步的驗證和解釋。

首先在Clementine中建立Excel來源節點，導入數據，對其進行讀取和處理，使其符合Clementine中的挖掘要求，將數值類型改為讀取，在方向列確定輸入輸出屬性。

C5.0算法能產生決策樹或規則集，并且在決策樹的產生過程中它能自動根據最大信息增益進行樣本拆分，一直到樣本子集不能再拆分為止。因此本文選擇C5.0算法來產生規則集，C5.0能支持基于準確性的規則和基于普遍性的規則，基于普遍性的規則會考慮盡可能大的樣本量，而基于準確性的規則則更傾向于規則的準確率。如對財務管理職位進行挖掘，可得到如下分類規則:

(1) 基于準確性的十二個拒絕規則:

規則一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade<=1;且Experience=無相關經驗;則拒絕。樣本數:19，準確性:95.2%。

規則二:若Sex=男;且WorkYear<=5;且Political=黨員;并且School>2;且Experience=無相關經驗;則拒絕。樣本數:16，準確性:88.9%。

規則三:如果Education=高中/中專;并且CompurerGrade<=1;則拒絕。樣本數:45，準確性:87.2%。

規則四:如果Sex=男;且WorkYear<=5;且Education=本科;并且School>2;并且ComputerGrade<=2;并且Experience=無相關經驗;則拒絕。樣本數:13，準確性:86.7%。

規則五:如果Education=高中/中專;并且Specialty=不符合;則拒絕。樣本數:27，準確性:86.2%。

規則六:如果School<=2;并且Specialty=不符合;并且Experience=無相關經驗;則拒絕。樣本數:16，準確性:83.3%。

規則七:如果Education=大專;并且Specialty=不符合;并且ComputerGrade>1;則拒絕。樣本數:45，準確性:83%。

規則八:如果Education=高中/中專;并且Experience=無相關經驗;則拒絕。樣本數:63，準確性:80%。

規則九:若Sex=女;并且Age<=30;并且Place=不符合;并且School=3;并且ComputerGrade<=2;并且Experience=無相關經驗;則拒絕。樣本數:35，準確性:75.7%。

規則十:如果Education=初中;則拒絕。樣本數:12，準確性:75%。

規則十一:如果Education=大專;并且School>2;并且Experience=無相關經驗;則拒絕。樣本數:35，準確性:75.7%。樣本數:212，準確性:70.6%。

規則十二:如果Place=符合;并且Education=大專;并且School>3;并且ComputerGrader>1;則拒絕。樣本數:68，準確性:68.6%。

(2) 基于準確性的四個接受規則

規則一:如果Married=單身;并且WorkYear=5-10;并且Education=本科;則接受。樣本數:8，準確性:90%。

規則二:如果School<=3;并且Experience=有相關經驗;則接受。樣本數:112，準確性:76.3%。

規則三:如果Education=大專;并且School>3;并且Computergrade=1;并且Experience=有相關經驗;則接受。樣本數:56，準確性:72.4%。

規則四:如果Specialty=符合;則接受。樣本數:566，準確性:50.2%。

(3) 基于普遍性的兩個接受規則

規則一:如果R_School<=2;并且R_Speciality=符合;則接受。樣本數:69，準確性:80.3%。

規則二:如果Experience=有相關經驗;則接受。樣本數:270，準確性:62.5%。

(4) 基于普遍性的四個拒絕規則

規則一:如果R_School<=2;并且R_Speciality=不符合;并且Experience=無相關經驗;則拒絕。樣本數:16，準確性:83.3%。

規則二:如果Education=高中/中專;則拒絕。樣本數:103，準確性:74.3%。

規則三:如果R_School>2;并且Experience=無相關經驗;則拒絕。樣本數:372，準確性:69.5%。

規則四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;則拒絕。樣本數:201，準確性:64.7%。

2. 神經網絡算法

相對于決策樹來說，神經網絡算法需要更多的時間，而且對結果的解釋也相對較困難，而且神經網絡模型只包含一組權值，了解其中的關系和為什么有效也比較困難。

將數據導入Clementine中并與神經網絡模型相連接，其方法與決策樹算法中一樣。考慮到時間和準確性的關系，本文選擇了修剪方法。另外，為了預防訓練過度，本文選擇了樣本的50%至60%進行訓練。

本文希望數據訓練的準確性盡量高一些，因此，在模型選擇中選擇使用最佳網絡。節點訓練結束后將會產生一個神經網絡模型。神經網絡算法挖掘的準確性在84%左右。

3. 兩種分類算法的比較

分類算法的分類質量一般可以用查全率和查準率來評價。

決策樹算法和神經網絡算法分別對A、B類樣本中部分數據集1、2的挖掘情況比較如下所示:

(1)決策樹和神經網絡算法對數據集1的挖掘結果比較:

決策樹算法

測試樣本數:356，訓練樣本數:713，查準率:79.8%，查全率:75.1%，F1測試值:0.77，用時:1秒。

神經網絡算法

測試樣本數:428，訓練樣本數:713，查準率:83.95%，查全率:80.59%，F1測試值:0.82，用時:5分9秒。

(2)決策樹和神經網絡算法對數據集2的挖掘結果比較:

決策樹算法

測試樣本數:500，訓練樣本數:1000，查準率:81.02%，查全率:79.2%，F1測試值:0.80，用時:1秒。

神經網絡算法

測試樣本數:600，訓練樣本數:1000，查準率:84.56%，查全率:82.34%，F1測試值:0.83，用時:1分33秒。

從上文中我們可以知道，決策樹算法的原理相對容易為人力資源管理者所理解，也能夠得到比神經網絡算法更加直觀易懂的分類規則。決策樹算法計算速度較快，用時較少，神經網絡算法花費時間較長。但神經網絡算法比決策樹算法有更高的整體查準率和查全率，同時F1測試值反映出來的分類質量的二者比較中可見，神經網絡算法比決策樹算法分類質量要高一些。

四、結束語

本文主要研究了數據挖掘技術在電子簡歷數據篩選中的應用，得到了一些有用的結論，但還存在一些不足。

(1)在挖掘過程中，由于時間精力有限，所以本文只選擇了決策樹和神經網絡兩種算法進行挖掘比對，沒有考慮其他算法。

(2)本文在對原始數據進行預處理時，其中涉及到對文本數據的預處理，如工作經驗以及專業，本文只是簡單的進行替換處理。

參考文獻:

[1]趙蘇星:數據挖掘技術在人力資源管理中的應用[J].管理科學，2007，91.

[2]陳小穎:人力資源管理系統中數據挖掘技術的應用[D].武漢:武漢理工大學，2006.

[3]楊麗華，戴齊，楊占華:文本分類技術研究[J].軟件時空，2006，209-211.

[4] 謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社，2008.

商場現代化2010年14期

商場現代化的其它文章: 新型高性能聚羧酸系減水劑的研究; 淺析高校教育管理在輔導員工作中的實際應用; 交通與交通擁擠; 我國高速鐵路發展狀況初探; 淺析高校與學生之間的法律糾紛; 高校輔導員工作科學化的內涵及構建路徑