陳君
(渭南師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 渭南 714000)
目前網(wǎng)上招聘已進(jìn)入高速發(fā)展階段,網(wǎng)上招聘系統(tǒng)也日趨完善,網(wǎng)上招聘系統(tǒng)為用人單位提供優(yōu)質(zhì)人才,為應(yīng)聘者提供合適職位,已成為當(dāng)今社會(huì)招聘的主要形式之一。因此對(duì)網(wǎng)上招聘系統(tǒng)的研究與分析就顯得尤為重要。
以往,對(duì)網(wǎng)上招聘系統(tǒng)的研究與分析,更多地借助于傳統(tǒng)的分析方法,文中通過(guò)引入數(shù)據(jù)挖掘中的Apriori算法來(lái)挖掘其中的關(guān)聯(lián)規(guī)則。網(wǎng)上招聘系統(tǒng)的數(shù)據(jù)分析是通過(guò)對(duì)計(jì)算機(jī)中所存儲(chǔ)的應(yīng)聘者發(fā)布的個(gè)人簡(jiǎn)歷中的信息,利用關(guān)聯(lián)規(guī)則算法,進(jìn)行分析、對(duì)比,從中發(fā)現(xiàn)求職者的被錄用規(guī)律。例如:國(guó)有企業(yè)更多的選擇了學(xué)習(xí)那些專(zhuān)業(yè)的求職者,而獨(dú)資企業(yè)與三資企業(yè)又選擇了學(xué)習(xí)那些專(zhuān)業(yè)的求職者;那些公司或者職位會(huì)優(yōu)先考慮有那些固定特長(zhǎng)的求職者;有工作經(jīng)驗(yàn)的求職者更容易被優(yōu)先錄取;學(xué)習(xí)那些專(zhuān)業(yè)的求職者更容易找工作等。
數(shù)據(jù)挖掘[1-2](Data Mining)是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、卻又潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘涉到的領(lǐng)域廣、學(xué)科多。引起不同領(lǐng)域的關(guān)注,例如數(shù)據(jù)庫(kù)技術(shù)、可視化技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、并行計(jì)算等方面。數(shù)據(jù)挖掘流程圖如圖1所示。

圖1 數(shù)據(jù)挖掘流程圖Fig.1 Flow chart of data mining
數(shù)據(jù)挖掘是將數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域有效結(jié)合起來(lái),發(fā)覺(jué)數(shù)據(jù)中的內(nèi)在模式。數(shù)據(jù)挖掘的方法主要有以下幾種:統(tǒng)計(jì)分析方法(Analytic Method)、關(guān)聯(lián)規(guī)則 (Association rules)[3]、 聯(lián)機(jī)分析處理 (OLAP-On Line Analysis人工神經(jīng)網(wǎng)絡(luò) (Neural Network)、 決策樹(shù)(Decision Tree)遺傳算法(Genetic Algorithms)[4]、近鄰算法(K-nearest)、Processing)、數(shù)據(jù)可視化(Data Visualization)[5]、粗糙集(RSTRough Set Theory)[6]。
Aprior算法[7]是Agrawal等人于1994年提出的一種挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則的方法,核心是基于兩階段頻繁項(xiàng)目集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類(lèi)上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。所有支持度大于最小支持度的項(xiàng)集稱(chēng)為頻繁項(xiàng)目集,簡(jiǎn)稱(chēng)頻集。
Apriori算法主要分2步:1)找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;2)由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿(mǎn)足最小支持度和最小可信度。
為了生成所有頻集,使用遞推方法如下所示:1)L1={large 1-itemsets};
2)for(k=2;Lk-1¹;F;k++)do begin
3)Ck=apriori-gen(Lk-1);//新的候選集
4)for all transactions tÎ;D do begin
5)Ct=subset(Ck,t);//事務(wù) t中包含的候選集
6)for all candidates cÎ;Ct do
7)c.count++;
8)end
9)Lk={cÎ;Ck|c.count³;minsup}
10)end
11)Answer=Ck∪Lk;
首先產(chǎn)生頻繁1-項(xiàng)集L1,接著產(chǎn)生頻繁2-項(xiàng)集L2,直到產(chǎn)生一個(gè)頻繁r-項(xiàng)集Lr使得Lr為空,算法停止。在第k次循環(huán)中,先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck中的每一個(gè)項(xiàng)集是對(duì)2個(gè)只有一個(gè)項(xiàng)不同且屬于Lk-1的頻集做(k-2)-連接所產(chǎn)生的。Ck中的項(xiàng)集用來(lái)產(chǎn)生頻集的候選集,最后一個(gè)頻集Lk必須是Ck的子集。Ck中的每一個(gè)元素都必須在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證從而決定其是否加入Lk[8-9]。
3.1.1 企業(yè)信息模塊
主要包括企業(yè)名稱(chēng)、企業(yè)性質(zhì)、企業(yè)人數(shù)、企業(yè)類(lèi)型、企業(yè)地址等。
3.1.2 招聘信息模塊
主要包括招聘企業(yè)對(duì)求職者學(xué)歷、性別、職位類(lèi)型、工作經(jīng)驗(yàn)、外語(yǔ)等級(jí)及語(yǔ)種等要求。
3.1.3 求職者信息模塊
主要包括姓名、學(xué)歷、專(zhuān)業(yè)、年齡、工作經(jīng)驗(yàn)、薪金要求等。
3.1.4 應(yīng)聘信息模塊
記錄求職者對(duì)招聘企業(yè)發(fā)布的求職信息或招聘企業(yè)對(duì)求職者發(fā)出的招聘信息。
3.1.5 數(shù)據(jù)挖掘模塊
對(duì)招聘企業(yè)的招聘過(guò)程進(jìn)行挖掘,得出相關(guān)挖掘結(jié)論。
文中的系統(tǒng)采用三層架構(gòu)B/S模式,第一層為表示層,招聘企業(yè)進(jìn)行注冊(cè)同時(shí)發(fā)布招聘信息和瀏覽求職者信息,求職者進(jìn)行注冊(cè)可瀏覽招聘企業(yè)發(fā)布的信息,同時(shí)發(fā)布求職信息。第二層為業(yè)務(wù)邏輯層,實(shí)現(xiàn)的業(yè)務(wù)處理包括企業(yè)信息模塊,招聘信息模塊,求職者信息模塊,應(yīng)聘信息模塊,數(shù)據(jù)挖掘模塊。第三層為數(shù)據(jù)層包括數(shù)倉(cāng)庫(kù)和存儲(chǔ)過(guò)程,數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)業(yè)務(wù)邏輯層處理的各種數(shù)據(jù)并對(duì)業(yè)務(wù)邏輯層進(jìn)行通訊、傳遞信息和數(shù)據(jù)。
3.3.1 數(shù)據(jù)凈化
對(duì)企業(yè)的招聘信息數(shù)據(jù)進(jìn)行處理,企業(yè)的招聘信息主要包括企業(yè)性質(zhì)、企業(yè)人數(shù)、企業(yè)類(lèi)型、性別要求、工作經(jīng)驗(yàn)、學(xué)歷、外語(yǔ)語(yǔ)種,外語(yǔ)等級(jí)、專(zhuān)兼職、職位類(lèi)型、職位種類(lèi)等。表1給出了其中一條用戶(hù)的記錄。

表1 字段名含義Tab.1 Meaning of fields name
3.3.2 數(shù)據(jù)清理
數(shù)據(jù)清理主要包括對(duì)臟的、不完整的、不一致的和無(wú)用的記錄進(jìn)行剔除,并將處理后的數(shù)據(jù)保存在數(shù)據(jù)表中。
用戶(hù)識(shí)別和數(shù)據(jù)集成
表2為關(guān)系數(shù)據(jù)庫(kù)屬性值與事務(wù)數(shù)據(jù)集中的項(xiàng)目對(duì)應(yīng)關(guān)系,表3為將其進(jìn)行數(shù)據(jù)轉(zhuǎn)換后的事務(wù)數(shù)據(jù)。

表2 關(guān)系數(shù)據(jù)庫(kù)屬性值與事務(wù)數(shù)據(jù)集中的項(xiàng)目對(duì)應(yīng)關(guān)系Tab.2 The relationship betweent the relational database attribute value and transaction data centralized project

表3 轉(zhuǎn)換后的事務(wù)數(shù)據(jù)Tab.3 The converted transaction data
3.3.3 利用Apriori算法進(jìn)行數(shù)據(jù)挖掘
利用Apriori算法對(duì)網(wǎng)上招聘系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘,數(shù)據(jù)的輸入為“事務(wù)數(shù)據(jù)”數(shù)據(jù)表及最小支持度;輸出為頻繁項(xiàng)集,即“頻繁項(xiàng)集”數(shù)據(jù)表。
3.3.4 模式分析
利用Apriori挖掘算法找出招聘公司和求職者感興趣的模式和規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)為給定一個(gè)事物數(shù)據(jù)庫(kù)D求出所有滿(mǎn)足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。設(shè)定最小支持度為δ=5%,最小置信度為γ=20%。挖掘結(jié)果如表4所示。

表4 數(shù)據(jù)挖掘結(jié)果Tab.4 Results of data m ining
從表4的規(guī)則A中可得出:國(guó)有企業(yè)所錄用的求職者中,具有大學(xué)本科學(xué)歷的較多;從規(guī)則B與C中可得出:獨(dú)資企業(yè)和三資企業(yè)所錄用的求職者中,大專(zhuān)學(xué)歷的應(yīng)聘者被錄用的人數(shù)較多;從規(guī)則D可得出:有2~5年工作經(jīng)驗(yàn)的求職者被錄取的幾率更大;從規(guī)則E可得出:具有英語(yǔ)特長(zhǎng)的求職者更加受到招聘企業(yè)的青睞;從規(guī)則F可得出:招聘市場(chǎng)銷(xiāo)售人員的企業(yè)較多;從規(guī)則G與F可得出:應(yīng)聘者中本科學(xué)歷的求職者比專(zhuān)科學(xué)歷的求職者更容易被錄用。
數(shù)據(jù)挖掘技術(shù)是一門(mén)具有廣闊前景的數(shù)據(jù)處理與分析技術(shù),它可以應(yīng)用于各種行業(yè)之中,也將會(huì)在網(wǎng)上招聘系統(tǒng)中發(fā)揮不可估量的作用。文中利用Apriori算法對(duì)網(wǎng)上招聘系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘分析,從中發(fā)現(xiàn)用人單位的錄用規(guī)律為求職者及有關(guān)部門(mén)提供有價(jià)值的信息。
[1]HAN Jia-wei,Kamber M.數(shù)據(jù)挖掘概念與技術(shù) [M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001.
[2]范波.數(shù)據(jù)挖掘技術(shù)在電力數(shù)據(jù)集成應(yīng)用的研究[J].陜西電力,2010(9):47-49.FAN Bo.Application of data mining technology in data integration of power system[J].Shaanxi Electric Power,2010(9):47-49.
[3]趙衛(wèi)績(jī),趙文正,劉井蓮.基于SQL的Apriori改進(jìn)算法[J].科學(xué)技術(shù)與工程,2006,96(17):2759-2761.ZHAO Wei-ji,ZHAO Wen-zheng,LIU Jing-lian.An improved apriori algorithm based on SQL[J].Science Technology and Engineering,2006,96(17):2759-2761.
[4]吉根林,楊明,宋余慶,等.最大頻繁項(xiàng)目集的快速更新[J].計(jì)算機(jī)學(xué)報(bào),2005,1(1):128-135.JI Gen-lin,YANG Ming,SONG Yu-qing,et al.Fast updating maximum frequent itemsets[J].Chinese Journal of Computers,2005,1(1):128-135.
[5]劉大有,劉亞波,尹治東.關(guān)聯(lián)規(guī)則最大頻繁項(xiàng)目集的快速發(fā)現(xiàn)算法[J].吉林大學(xué)學(xué)報(bào),2004(4):212-215.LIU Da-you,LIU Ya-bo,YIN Zhi-dong.Fast algorithm for discovering maximum frequent itemsets of association rules[J].Acta Scientiarium Naturalium Universitatis Jilinensis,2004(4):212-215.
[6]林杰斌,劉明德,陳湘.數(shù)據(jù)挖掘與OLAP理論與實(shí)務(wù)[M].北京:清華大學(xué)出版社,2003.
[7]桂海霞,孟祥瑞.一種基于Apriori的高效關(guān)聯(lián)規(guī)則挖掘算法的研究 [J].安徽理工大學(xué)學(xué)報(bào):自然科學(xué)版,2009(4):55-58.GUI Hai-xia,MENG Xiang-rui.Research on efficient algorithm of association rules mining based on apriori algorithm [J].Journal of Anhui University of Science and Technology:Natural Science Edition,2009(4):55-58.
[8]庹文利,姚勇.基于FP_tree的最大頻繁項(xiàng)目集增量式更新算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(19):117-119.TUO Wen-li,YAO Yong.Incremental updating algorithm of maximum frequent itemsets based on FP_tree[J].Computer Engineering and Applications,2009,45(19):117-119.
[9]何志勇,趙瑞國(guó),袁軍社.傳感器數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)[J].火箭推進(jìn),2010(6):62-67.HE Zhi-yong,ZHAO Rui-guo,YUAN Jun-she.Design of database management system for transducer[J].Journal of Rocket Propulsion,2010(6):62-67.