基于Web文本挖掘的數(shù)據(jù)分析崗位需求研究

2018-05-28 12:45:38劉暢

中國管理信息化 2018年10期

劉暢

（蘭州財經(jīng)大學統(tǒng)計學院，蘭州 730020）

0 引言

大數(shù)據(jù)時代是以數(shù)據(jù)為中心的時代，網(wǎng)絡信息資源組成了一個龐大的信息庫。如何在眾多的信息資源中快速找到有效信息成為大數(shù)據(jù)時代備受關(guān)注的問題。在此背景下，數(shù)據(jù)分析人才需求量急速上升。人才培訓市場的大數(shù)據(jù)入職培訓機構(gòu)深受畢業(yè)生追捧，不少培訓班費用昂貴，卻成為入職大數(shù)據(jù)、IT行業(yè)的通行證。這一方面反映了人才市場的用人需求，另一方面反映出高校人才培養(yǎng)與市場人才需求之間銜接的斷層。同時在人才招聘中經(jīng)常出現(xiàn)求職者難以找到理想工作，用人單位難以找到理想員工的狀況。在線招聘平臺的出現(xiàn)提供了大量的崗位招聘信息，直觀反映了招聘市場的用人需求，使求職就業(yè)更加快捷、高效。本文通過對“前程無憂”（http：//www.51job.com）招聘信息的文本分析，挖掘數(shù)據(jù)分析崗位特點，為畢業(yè)生求職就業(yè)提供參考。

1 數(shù)據(jù)來源與研究方法

1.1 數(shù)據(jù)來源及其預處理

本文利用八爪魚采集器于2017年12月1日對前程無憂網(wǎng)近一個月全國范圍內(nèi)數(shù)據(jù)分析師職位招聘信息進行采集，得到包括薪資待遇、工作地點、工作經(jīng)驗、學歷要求、職位信息等內(nèi)容的招聘信息共9270條。在獲取的招聘信息中，存在重復信息、薪資、職位信息等指標的信息缺失情況，利用R語言對數(shù)據(jù)進行去空、去重處理，得到有效數(shù)據(jù)6325條。

招聘信息中包含大量文本信息，通過R語言對中文文本進行數(shù)據(jù)預處理，結(jié)合Jieba分詞與Rwordseg分詞模塊進行中文分詞。對文中無意義的介詞、連詞以及無助于分類的專用名詞，使用哈工大停用詞表進行停用詞過濾。對于冒號、空格等特殊字符，則運用正則表達式進行處理。為確保分詞結(jié)果的準確性，將“數(shù)據(jù)分析”“數(shù)據(jù)庫”等專業(yè)詞匯加入技能詞典。

1.2 關(guān)聯(lián)規(guī)則基本概念

關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)集中數(shù)據(jù)之間的相關(guān)關(guān)系,根據(jù)數(shù)據(jù)庫中某個事務的屬性值去推斷或者預測出其他事務屬性值。若I={I1,I2,I3,…,Ik}是所有項目的集合，存X∪I，Y∪I則稱X，Y為項目集，其中k為項目計數(shù)。關(guān)聯(lián)規(guī)則是形如X→Y的表達式，其中X為關(guān)聯(lián)規(guī)則前項，Y為關(guān)聯(lián)規(guī)則后項，且X和Y是不相交的項集，即：X∩Y=φ。關(guān)聯(lián)規(guī)則的強度用支持度（Support）、置信度（Confidence）和提升度（Lift）來度量，其公式如下。

支持度表示一個項集或者規(guī)則在所有事物中出現(xiàn)的頻率，確定規(guī)則可以給定數(shù)據(jù)集的頻繁程度。置信度表示關(guān)聯(lián)規(guī)則的可靠性,即在關(guān)聯(lián)規(guī)則X→Y中，Y在包含X的事物中出現(xiàn)的可能性。當X、Y的支持度和置信度分別不小于預先設定的最小支持度和最小置信度時，稱X→Y為強關(guān)聯(lián)規(guī)則。提升度度量項集{X}和項集{Y}的獨立性,若Lift(X→Y)=1，則{X}、{Y}相互獨立，若Lift(X→Y)＜1，則{X}、{Y}相斥。提升度越高，挖掘出的關(guān)聯(lián)規(guī)則越有價值。

Apriori算法是關(guān)聯(lián)規(guī)則中的經(jīng)典算法，能有效地識別和挖掘隱藏在海量招聘信息數(shù)據(jù)中的頻繁項集，并快速準確地找出關(guān)聯(lián)規(guī)則。它主要利用逐層搜索以及迭代的方法挖掘頻繁項目集，再根據(jù)挖掘得到的頻繁項集來找到目標事務庫中各個項集之間的關(guān)聯(lián)關(guān)系，最后通過獲得的頻繁項目集進行關(guān)聯(lián)規(guī)則挖掘，從而實現(xiàn)挖掘目標數(shù)據(jù)間關(guān)聯(lián)關(guān)系的最終目標。Apriori算法步驟如下。

步驟1：遍歷目標數(shù)據(jù)庫，找到頻繁項集L1。

步驟2：將Lk-1(k≥2)采用自身連接生成k階候選項目集Ck。

步驟3：根據(jù)頻繁項目集的任一子集全部都為頻繁項目集，可以對k階候選項目集Ck進行剪枝。假設Ck-1是Ck的任意一個（k-1）階子集，Ck-1?Lk-1，則Ck?Lk，則該候選項目集肯定不是頻繁的，可以直接將該候選項目集刪除。

步驟4：循環(huán)步驟2、步驟3，直至不能得到更高階的頻繁項目集為止，在得出的所有頻繁項目集中計算出滿足要求的關(guān)聯(lián)規(guī)則，挖掘過程結(jié)束。

2 數(shù)據(jù)分析崗位分布初探

2.1 工作地點分布情況

數(shù)據(jù)科學作為分析研究海量數(shù)據(jù)的前沿科學，其發(fā)展程度和所在地區(qū)經(jīng)濟發(fā)展、科學技術(shù)、科研進展有著緊密聯(lián)系，工作地點直接影響著求職者未來的職業(yè)發(fā)展和薪資水平。我國數(shù)據(jù)分析師工作地點分布如圖1所示。

數(shù)據(jù)分析崗位主要分布在北京市、上海市、廣東省。此外，我國華東地區(qū)的江蘇省、浙江省、安徽省、山東省提供了大量的就業(yè)機會，中部地區(qū)的四川省、湖北省、陜西省、重慶市也有較多的工作機會。在城市分布中，一線城市、新一線城市的數(shù)據(jù)分析師崗位需求最大，總占比為86.8%。為便于統(tǒng)計分析，本文將工作地點中的93個城市按城市規(guī)模進行分類，分為一線城市、新一線城市、二線城市、三線城市和四線城市。

2.2 薪資水平影響因素

薪資待遇是員工價值的直接體現(xiàn)，也是求職者選擇入職單位的重要因素。當前社會競爭日益激烈，為吸引高素質(zhì)的人才，企業(yè)不僅要給予員工足夠的發(fā)展空間，更重要的是能給予人才優(yōu)厚的薪資待遇。目前，數(shù)據(jù)分析師工作月薪均值為9400元/月，將招聘信息按工作地點的城市規(guī)模進行分類統(tǒng)計平均薪資，可以看出不同地區(qū)數(shù)據(jù)分析師的薪資水平有顯著差異。一線城市的平均薪資為10700元/月，明顯高于新一線城市的平均薪資7100元/月，其他城市平均月薪則分布在5000~7000元/月。可見在數(shù)據(jù)科學不斷進步的時代，信息交流平臺寬廣的一線城市不僅為數(shù)據(jù)分析專業(yè)人才提供了大量的就業(yè)機會，也擁有高水平的薪資待遇。

學歷和經(jīng)驗通常代表應聘者的專業(yè)能力，因此在招聘市場中，用人單位往往根據(jù)求職者的學歷、經(jīng)驗給出與其能力相匹配的薪資福利。針對一線城市求職者，進一步分析數(shù)據(jù)分析師的薪資水平影響因素，對不同學歷要求的招聘信息按經(jīng)驗要求進行分類，考察在同一地區(qū)、相同學歷的求職者在不同工作經(jīng)驗年限的薪資水平，如表1所示。

薪資水平不僅隨著學歷的提升而增加，也同樣和求職者的工作經(jīng)驗有著密切的聯(lián)系。在整體平均薪資中，無工作經(jīng)驗要求的信息水平略高于有一年工作經(jīng)驗的求職者，由此可以看出部分用人單位更傾向于招聘應屆畢業(yè)生。對于有工作經(jīng)驗的求職者，經(jīng)驗越多意味著能力越強，企業(yè)傾向于給出更高的薪資。因此，求職者應同時根據(jù)自身學歷、工作經(jīng)驗等諸多因素對未來工作的薪資水平進行合理預期。

表1 一線城市薪資水平分布單位：元/月

3 職位信息的知識發(fā)現(xiàn)

3.1 崗位描述信息提取

招聘信息中的職位信息主要由崗位描述和崗位職責兩部分組成，包含了數(shù)據(jù)分析師的主要崗位特點。本文對職位信息進行文本挖掘，得到數(shù)據(jù)分析師崗位關(guān)鍵詞，如圖2所示。

可見招聘信息主要包含數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)庫相關(guān)工作，注重工作能力、數(shù)據(jù)分析經(jīng)驗，及認真負責和團隊精神等職業(yè)素養(yǎng)。職位信息同時提到對專業(yè)、軟件等任職要求。通過R語言構(gòu)建技能詞典提取專業(yè)、軟件相關(guān)文本信息，發(fā)現(xiàn)專業(yè)需求主要為統(tǒng)計類、計算機類、數(shù)學類相關(guān)專業(yè)，充分體現(xiàn)了大數(shù)據(jù)時代對專業(yè)人才的需求。大量招聘信息中明確提出了對數(shù)據(jù)分析軟件的要求，包含數(shù)據(jù)分析軟件如SQL、Python、R、SAS及基礎統(tǒng)計軟件，如SPSS、Excel等。可見在數(shù)據(jù)科學、計算機處理水平高速發(fā)展的時代，海量數(shù)據(jù)的統(tǒng)計工作對于數(shù)據(jù)分析軟件的要求逐漸提高。

圖2 職位信息詞云圖

3.2 關(guān)聯(lián)挖掘知識發(fā)現(xiàn)

招聘信息中的不同指標間存在著千絲萬縷的聯(lián)系，關(guān)聯(lián)規(guī)則用于表達招聘信息文本數(shù)據(jù)之間的相關(guān)性，發(fā)現(xiàn)招聘信息中的內(nèi)在影響因素。對應各指標編碼，得城市A1-A5，對應一線城市-四線城市；學歷B1-B5，對應中專及以下-博士；工作月薪C1-C7，對應3000元以下-18000元以上；經(jīng)驗D1-D7，對應工作經(jīng)驗為0~10年以上；主要使用軟件軟件E1-E3，對應SQL與Python、Excel與SPSS、無軟件要求。通過R語言Apriori算法得到1015條關(guān)聯(lián)規(guī)則。為在大量的關(guān)聯(lián)規(guī)則中快速挖掘有意義的規(guī)則，引入聚類算法將規(guī)則進行分組。使用K-means聚類方法，將LHS、RHS統(tǒng)計上相似的歸為一類，使用Jaccard distance距離定義兩個項集Xi、Yi之間的距離來聚類頻繁項集，對1015條關(guān)聯(lián)規(guī)則進行聚類，得到基于分組矩陣的關(guān)聯(lián)規(guī)則圖，如圖3所示。

圖3 關(guān)聯(lián)規(guī)則聚類圖

在聚類后的關(guān)聯(lián)規(guī)則中，發(fā)現(xiàn)提升度最高的類為{Experience=D5，Software=E1，+3items}→ {Salary=C7}，即具備5~7年工作經(jīng)驗且熟悉編程類數(shù)據(jù)分析軟件的求職者，最有可能獲得18000元以上的月薪。可見高薪職位最看重求職者的工作經(jīng)驗及應用R、Python等軟件的技術(shù)水平。同時，聚類結(jié)果中包含規(guī)則數(shù)最多的為{Education=B4，Salary=C3，+18item}→{Software=E3}，即學歷要求為碩士，入職薪資為6000~9000元的招聘信息往往同時對應無統(tǒng)計分析軟件要求。說明沒有軟件技能的高學歷求職者獲得的薪資將低于平均水平。從上述關(guān)聯(lián)分析中可以看出，用人單位看重求職者的工作經(jīng)驗、專業(yè)技術(shù)水平。熟練使用R、Python等專業(yè)數(shù)據(jù)分析軟件作為可量化的指標，備受用人單位重視。

進一步分析高薪職位的決定因素，篩選出提升度最高的5個關(guān)聯(lián)規(guī)則，做出基于圖形的可視化處理，如圖4所示。其中，支持度取值范圍為（0.003~0.01），置信度取值范圍為（0.5~0.7），提升度取值范圍為（7.8~9.6）。圖4中清晰、明確地展示了后項為{Salayr=S7}的關(guān)聯(lián)規(guī)則的組成項目及共享規(guī)則項目，可以看出，對于入職薪資在18000元以上的高薪職位，擁有強關(guān)聯(lián)規(guī)則的項目地點位于一線城市，熟悉編程類數(shù)據(jù)分析軟件，學歷為本科及以上，經(jīng)驗為5~7年。

圖4 關(guān)聯(lián)規(guī)則網(wǎng)絡圖

4 結(jié) 語

綜合統(tǒng)計分析及文本挖掘結(jié)果，數(shù)據(jù)分析師作為新興崗位分布在我國多個省市，其中一線城市擁有大量崗位需求及較高薪資水平。在數(shù)據(jù)科學背景下，數(shù)據(jù)分析工作種類繁多，對求職者的學歷、經(jīng)驗要求隨工作內(nèi)容而改變。隨著數(shù)據(jù)科學的不斷發(fā)展，數(shù)據(jù)分析崗位對于技術(shù)的要求逐漸加強，對求職者的學歷水平、專業(yè)技能提出了相應的要求。大專學歷求職者傾向于基礎數(shù)據(jù)分析工作，數(shù)據(jù)分析技能要求較低，薪資水平較低。本科及以上學歷對求職者的數(shù)據(jù)分析水平要求較高，薪資水平較高。對于同一學歷的求職者，薪資水平隨經(jīng)驗增加而升高。通過文本挖掘得到招聘信息中的內(nèi)在聯(lián)系，對于高薪職位，其工作地點主要分布在一線城市，學歷要求為本科及以上，經(jīng)驗要求為5~7年，有R、Python等面向?qū)ο蟮慕忉屝陀嬎銠C程序設計語言要求。

高校學生求職就業(yè)，選擇一線城市意味著更廣闊的發(fā)展前景。對于志在數(shù)據(jù)科學領域的在校大學生，學好統(tǒng)計學、數(shù)學、計算機科學理論知識的同時，應注重實踐操作，掌握R語言、Python語言等專業(yè)數(shù)據(jù)分析技能，豐富提升自身數(shù)據(jù)分析功底。對于高校來說，在發(fā)展大數(shù)據(jù)分析等新興專業(yè)的同時，也應重視統(tǒng)計學等傳統(tǒng)學科的發(fā)展，及時調(diào)整、更新相關(guān)專業(yè)培養(yǎng)計劃，避免高校人才培養(yǎng)與市場人才需求之間銜接的斷層。目前，我國中小型城市及西部欠發(fā)達地區(qū)就業(yè)選擇面窄。對于政府相關(guān)部門，支持欠發(fā)達地區(qū)數(shù)據(jù)科學發(fā)展進程，促進東部沿海地區(qū)與西部地區(qū)的信息、技術(shù)、產(chǎn)業(yè)及人才交流，將有助于為西部地區(qū)及我國中小城市提供更多的就業(yè)機會，帶動欠發(fā)達地區(qū)市場經(jīng)濟發(fā)展，加快建成全面小康社會步伐。

主要參考文獻

［1］劉睿倫,葉文豪,高瑞卿,等.基于大數(shù)據(jù)崗位需求的文本聚類研究［J］.數(shù)據(jù)分析與知識發(fā)現(xiàn),2017(2).

［2］張學新,賈園園,饒希,等.海量非結(jié)構(gòu)化網(wǎng)絡招聘數(shù)據(jù)的挖掘分析［J］.長春師范大學學報,2017(10).

［3］湯洋,湯敏倩.網(wǎng)絡招聘信息中職業(yè)類型與專業(yè)領域的情報分析［J］.情報雜志,2017(6).

［4］王文娟,馬建霞.基于就業(yè)市場需求的我國情報人才培養(yǎng)探討［J］.情報理論與實踐,2017(6).

［5］詹川.基于文本挖掘的專業(yè)人才技能需求分析——以電子商務專業(yè)為例［J］.圖書館論壇,2017(5).

［6］王萍.基于Web文本挖掘的電子商務專業(yè)人才市場需求研究［D］.重慶：重慶工商大學,2016.

［7］曾雷.關(guān)聯(lián)規(guī)則挖掘中Apriori算法的研究［D］.重慶：重慶交通大學,2016.

［8］夏立新,楚林,王忠義,等.基于網(wǎng)絡文本挖掘的就業(yè)知識需求關(guān)系構(gòu)建［J］.圖書情報知識,2016(1).

［9］艾偉,孫四明,張峰.基于本體的Web文本挖掘與信息檢索［J］.計算機工程,2010(22).

［10］胡靜,蔣外文,朱華.Web文本挖掘中數(shù)據(jù)預處理技術(shù)研究［J］.現(xiàn)代計算機,2009(3).

［11］王智瑋.自動目標識別中全源數(shù)據(jù)挖掘技術(shù)應用［J］.指揮信息系統(tǒng)與技術(shù),2012(4).

［12］鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究［D］.合肥：合肥工業(yè)大學,2010.