呂太之,畢家欽
(江蘇海事職業技術學院 信息工程學院,南京 211170)
基于Hadoop平臺的崗位分析和推薦系統的構建
呂太之,畢家欽
(江蘇海事職業技術學院 信息工程學院,南京 211170)
針對當前學生擇業難而學校教學無法滿足當前社會實際需求的問題,開發基于Hadoop分布式文件平臺的崗位分析和推薦系統,借助大數據相關技術,使教師和學生能及時跟蹤就業崗位需要的技能。系統基于大規模數據運算的Hadoop分布式計算平臺,使用Spring MVC構建系統架構,綜合運用 Webmagic、Map/Reduce、K-means與Canopy算法、相似度推薦算法等技術實現就業崗位的抓取和分析。
大數據;崗位推薦;Hadoop;K-means;Map/Reduce
TP312
A
大數據技術在云計算之后又掀起了一場新的科技革命,現如今已經在醫療、金融、交通、教育等行業中廣泛應用[1-2]。
近年來,數字化校園的建設在各大高校已經全面落地,許多高校也在此平臺上開發了專屬其特點的應用[3]。但是國家和社會高度關注的畢業生就業難的問題依舊普遍存在于各大高校中。就江蘇海事職業技術學院而言,建校至今,每年學校推薦來校招聘的企業很多并不符合學生的實際情況,當然也存在學生所學課程和技能無法滿足企業需求的問題,學校對此沒有建立一套完整的數字化體系。針對學校教學內容和企業招聘無法滿足學生就職需求的問題,本文開發了崗位分析與推薦系統,實現了崗位采集、崗位處理、崗位分析與推薦以及崗位展示等功能,為方便教學管理和畢業生擇業提供了一種解決方案。
本系統操作員分為管理員和普通用戶兩類用戶。管理員可以對企業中的崗位進行分析來獲取崗位發布的數量和對應的技能點,也可以通過學生在校成績給學生推薦工作。普通用戶可以查看發布崗位數量的變化和對應技能點,也可以查看推薦結果。用戶用例如圖1所示。

圖1 用戶用例圖
本系統分為數據層、邏輯層、表示層,業務流程如下:數據采集、數據處理、分析推薦、數據展示。業務流程如圖2所示。
大數據崗位分析與推薦系統的主要功能包括數據采集、數據處理、崗位分析與推薦和數據展 示等。系統的功能模塊如圖3所示。

圖2 業務流程圖

圖3 普通用戶能模塊圖
首先Map/Reduce模型分為Map任務和Reduce任務,這兩個任務都需要交給用戶來實現[4-5]。本系統中通過用戶定制的Map類來實現崗位的規范化,Map函數對接收到的數據依次進行處理,借助Canopy算法處理產生一組中間鍵值對,MapReduce框架會將Map函數產生的中間鍵值對里鍵相同的值傳遞給一個Reduce函數。Reduce函數在本系統中不需要用戶編寫且規模很小,一般為1個或者0個。
K-means算法的實現是通過給定若干個簇心,按照就近原則將待分類的樣本點分到各個簇,確定好簇心之后就開始計算點到簇心的距離,將此點聚類到離該點距離最近的簇心[6-7]。最后計算每個聚類中心所有點的坐標平均值,將平均值作為新的聚類中心。
推薦系統通過分析兩個成績,對比向量之間的距離比較相似度,距離越小,相似度越大。首先需要讀取文本文件并保存到數組中,然后將數組轉化成HDFS中可識別和可執行的序列文件,通過將序列文件轉化成可變長度的向量文件之后運行mahout中的相似度推薦算法,計算出距離,分析出結果即可給學生推薦適合的崗位[8]。
系統開發分為數據采集、數據處理、崗位分析與推薦、數據展示等模塊。
(1)數據采集模塊通過使用Webmagic爬蟲框架實現,自定義PageProcesser和Pipeline組件,抓取需要的信息保存到HDFS文件分布式系統中。
(2)數據處理模塊通過使用Map/Reduce編程模型對崗位相關信息進行規范化處理,并持久化到數據庫,頁面效果如圖4所示。
(3)崗位分析與推薦模塊通過分析在校生成績文件和畢業生就業文件并轉化成向量文件,使用相似度推薦算法比較向量之間的距離,為畢業生推薦合適的就業崗位,推薦結果如圖5所示。
(4)數據展示模塊基于d3.js可視化技術分別展示了崗位招聘數量變化、崗位對應技能點和推薦結果。崗位數量變化如圖6所示。

圖4 崗位處理效果圖

圖5 崗位推薦圖
大數據作為一門新的技術,已經在各行各業中得到廣泛應用。本系統通過結合運用于大規模數據運算的Hadoop分布式計算平臺和大數據技術實現了一個以大學生就業為專題的崗位分析與推薦系統,為解決社會高度關注的大學生擇業難問題提供了思路。
基于各種大數據技術,本系統完成了數據采集、數據處理、崗位分析與推薦、數據展示等功能,但是在使用過程中還是有一定的局限性。其中最主要的缺點就是崗位采集過程中只能先把需要采集信息的網站全部下載到本地,有規律地展示到崗位列表之后才能進行采集。課題在后續的研究中會逐步完善和優化系統功能。

圖6 崗位數量變化折線圖
[1]何清.大數據與云計算[J].科技促進發展,2014,10(1):35-40.
[2]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015(1):1-44.
[3]范國渠.高校數字化校園整體構建策略與實施[D].濟南:山東師范大學,2009.
[4]方少卿,周劍,張明新.基于Map/Reduce的改進選擇算法在云計算的Web數據挖掘中的研究[J].計算機應用研究,2013(2):377-379.
[5]毛典輝.基于Map Reduce的Canopy-Kmeans改進算法[J].計算機工程與應用,2012,48(27):22-26.
[6]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協同過濾推薦算法[J].通信學報,2014(2):16-24.
[7]王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012(7):21-24.
[8]賈玉生.基于Hadoop的分布式文本分類研究[D].北京:北京工業大學,2013.
The Construction of Job Analysis and Recommendation System Based on Hadoop Platform
LV Tai-zhi,BI Jia-qin
(School of Information Technology,Jiangsu Maritime Institute,Nanjing 211170,China)
In view of the fact that the current students'job search is difficult,and the school teaching system cannot meet the needs of the current society,an employment analysis and recommendation system based on HDFS distributed file system is developed to realize the informatization management of graduate employment.By big data technology,it is possible for universities to track the latest skills required for posts.The system development is based on HDFS distributed file system,uses the Spring MVC framework,and combines the Webmagic,Map/Reduce programming model,K-means and canopy algorithm,similarity recommendation algorithm in the big data effectively and effectively to realizes the job capture and analysis.
BigData;EmploymentRecommendation;Hadoop;K-means;Map/Reduce
1673-2022(2017)04-0001-04
2017-07-10
第二屆江蘇省高校中青年骨干教師和校長境外研修項目(蘇教師〔2012〕6號);江蘇海事職業技術學院千帆團隊建設項目(201507);江蘇省青藍工程優秀青年骨干教師(蘇教師〔2017〕5號)
呂太之(1979-),男,江蘇南京人,高級工程師,研究方向為計算機應用、職業教育;畢家欽(1996-),男,安徽安慶人,研究方向為計算機應用。