邢 琦
(西安郵電大學(xué) 西安 710061)
各大學(xué)近年來在不斷的擴(kuò)招生源,導(dǎo)致大學(xué)畢業(yè)生的就業(yè)困難程度顯著提升,在就業(yè)市場中,大學(xué)畢業(yè)生就業(yè)的結(jié)構(gòu)性矛盾體現(xiàn)于畢業(yè)生找崗位,崗位找畢業(yè)生的并存現(xiàn)象[1~3]。這種現(xiàn)象說明不同專業(yè)的大學(xué)畢業(yè)生存在的就業(yè)情況具有很大區(qū)別。針對這些問題各大學(xué)均自主研發(fā)或購買系統(tǒng)軟件實(shí)現(xiàn)大學(xué)就業(yè)信息管理,但大部分系統(tǒng)具有信息傳遞實(shí)時(shí)性差,畢業(yè)生、企業(yè)、學(xué)校三方面的溝通緩慢[4],不能依據(jù)畢業(yè)生個(gè)人情況精準(zhǔn)推薦職位。這就需要設(shè)計(jì)具有實(shí)時(shí)性,加強(qiáng)畢業(yè)生、企業(yè)、學(xué)校三方面的聯(lián)系,以及針對畢業(yè)生個(gè)人情況精準(zhǔn)推薦職位的大學(xué)就業(yè)信息管理系統(tǒng)。有關(guān)信息管理系統(tǒng)的研究有劉麗設(shè)計(jì)基于信息完整性的船舶信息管理系統(tǒng)[5],通過S/C 并行結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)庫存儲(chǔ)管理信息,重組信息文件域名,設(shè)計(jì)適應(yīng)的檢索方法,構(gòu)建信息管理系統(tǒng),提升信息檢索的完整性。任海文等設(shè)計(jì)基于BIM 技術(shù)的堤防工程運(yùn)維信息管理系統(tǒng)[6],通過結(jié)合UWB 技術(shù)、BIM 集成管理與UWB電子圍欄技術(shù)實(shí)現(xiàn)堤防工程巡查養(yǎng)護(hù)的規(guī)范化管理。分布式計(jì)算包含大數(shù)據(jù)采集、存儲(chǔ)與分析等功能,具備海量的數(shù)據(jù)量、繁多的數(shù)據(jù)類型與較快的數(shù)據(jù)創(chuàng)建、處理與分析速度三個(gè)特征[7]。為此,以分布式計(jì)算為基礎(chǔ),設(shè)計(jì)基于分布式計(jì)算的大學(xué)就業(yè)信息管理系統(tǒng),更好地服務(wù)于大學(xué)畢業(yè)生的就業(yè)工作,提升大學(xué)畢業(yè)生就業(yè)率。
基于分布式計(jì)算的大學(xué)就業(yè)信息管理系統(tǒng)屬于一個(gè)整合每個(gè)部門數(shù)據(jù)實(shí)施大數(shù)據(jù)全樣本分析的新型系統(tǒng),以Hadoop2.0 架構(gòu)—HDFS+HBase+MapReduceV2(Yam)為基礎(chǔ)的基于分布式計(jì)算的大學(xué)就業(yè)信息管理系統(tǒng)主要分為四個(gè)部分,分別是大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)處理與大數(shù)據(jù)分析,其結(jié)構(gòu)如圖1所示。

圖1 系統(tǒng)結(jié)構(gòu)圖
大數(shù)據(jù)采集模塊利用網(wǎng)絡(luò)爬蟲技術(shù)采集學(xué)生、企業(yè)與教育管理部門三個(gè)方面的大學(xué)就業(yè)信息,其中包括學(xué)生個(gè)人信息、學(xué)生求職意向、學(xué)生在校表現(xiàn)情況、學(xué)生社會(huì)經(jīng)歷、企業(yè)基本信息、企業(yè)崗位招聘信息與教育管理部門發(fā)布的就業(yè)有關(guān)政策等[8],這些信息屬于結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)存儲(chǔ)模塊利用Hadoop 文件系統(tǒng)HDFS存儲(chǔ)采集到的大學(xué)就業(yè)信息相關(guān)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù);通過傳統(tǒng)關(guān)系數(shù)據(jù)庫RDBMS 存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),以Bigtable為基礎(chǔ)的行開源列存數(shù)據(jù)庫HBase 存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)處理模塊利用Hadoop2.0 框架內(nèi)的MapReduceV2(Yam)分布式計(jì)算框架處理存儲(chǔ)的數(shù)據(jù),提升系統(tǒng)的實(shí)時(shí)性。
大數(shù)據(jù)分析與管理模塊采用數(shù)據(jù)挖掘方法獲取處理后數(shù)據(jù)內(nèi)隱藏的有價(jià)值的信息,通過基于企業(yè)生命周期理論的就業(yè)推薦算法為學(xué)生推薦合適的工作,為企業(yè)推薦合適的人才,將這些信息推動(dòng)給學(xué)生、教師、學(xué)校與企業(yè),其中大數(shù)據(jù)分析與管理模塊利用Hive 與Pig 做離線分析,利用Mahout自帶的機(jī)器學(xué)校與數(shù)據(jù)挖掘算法挖掘大學(xué)就業(yè)信息內(nèi)隱藏的有價(jià)值信息[9],為基于企業(yè)生命周期理論的高校畢業(yè)生推薦算法提供有利的數(shù)據(jù),提升推薦的準(zhǔn)確性。
大數(shù)據(jù)采集模塊利用網(wǎng)絡(luò)爬蟲技術(shù)采集學(xué)生、企業(yè)與教育管理部門三個(gè)方面有關(guān)的大學(xué)就業(yè)信息,大數(shù)據(jù)采集模塊的功能結(jié)構(gòu)圖如圖2所示。

圖2 大數(shù)據(jù)采集模塊的功能結(jié)構(gòu)圖
具體步驟如下:
步驟1:網(wǎng)頁抓取,制定URL(Uniform Resource Locator,統(tǒng)一資源定位符)列表,解析URL 列表地址,利用HTTP協(xié)議訪問網(wǎng)頁[10~11],抓取服務(wù)器傳輸來的網(wǎng)頁信息。
步驟2:搜索策略,通過融合深度優(yōu)先搜索與寬度優(yōu)先搜索策略管理爬蟲的搜索方式與順序,提升搜索效率。搜索策略的流程如圖3所示。

圖3 搜索策略流程圖
首先初始化原始URL 列表;再通過深度優(yōu)先搜索策略獲取列表頁;然后采用廣度優(yōu)先搜索策略在列表頁中得到全部與大學(xué)就業(yè)相關(guān)信息的URL;最后按照得到的各URL,爬去到相應(yīng)的大學(xué)就業(yè)信息,形成數(shù)據(jù)庫。
步驟3:文本處理即頁面解析,提取網(wǎng)頁內(nèi)的子鏈接,將其加入等待爬取URL 列表中,解析網(wǎng)頁內(nèi)容,得到所需內(nèi)容。
步驟4:去重優(yōu)化,通過設(shè)置過濾條件與規(guī)則,提升數(shù)據(jù)采集的精準(zhǔn)性與效率。
步驟5:將采集的數(shù)據(jù)傳輸至大數(shù)據(jù)存儲(chǔ)模塊。
基于企業(yè)生命周期理論的就業(yè)推薦算法按照企業(yè)生命周期理論劃分企業(yè),使其劃分成不同階段,構(gòu)建企業(yè)和該企業(yè)招聘學(xué)生信息的企業(yè)-屬性二分圖模型;利用改進(jìn)的基于資源分配SNBI 算法獲取該企業(yè)在各種發(fā)展階段的招聘偏好[12];依據(jù)學(xué)生的求職意向信息實(shí)施Top-N推薦,其具體如下。
步驟1:構(gòu)建基于企業(yè)生命周期的企業(yè)-屬性二分圖模型;
步驟2:計(jì)算企業(yè)的招聘偏好;
步驟3:計(jì)算職位匹配;
步驟4:Top-N推薦。
2.2.1 基于企業(yè)生命周期理論的二分圖模型
企業(yè)生命周期屬于企業(yè)發(fā)展時(shí)的一種抽象動(dòng)態(tài)軌跡,企業(yè)生命周期可分割成發(fā)展期、成長期、成熟期與衰退期。按照企業(yè)生命周期理論構(gòu)建基于企業(yè)生命周期理論的二分圖模型,如圖4所示。

圖4 基于企業(yè)生命周期理論的二分圖模型


2.2.2 計(jì)算企業(yè)招聘偏好
利用基于資源分配SNBI算法計(jì)算招聘企業(yè)在各個(gè)節(jié)點(diǎn)的招聘偏好。在資源分配時(shí),將企業(yè)屬性資源分配至4 個(gè)階段的企業(yè)頂點(diǎn),企業(yè)屬性在各階段被選取的數(shù)量即這個(gè)階段的該類型企業(yè)對這個(gè)屬性的偏好程度,屬性節(jié)點(diǎn)被選擇的次數(shù)與企業(yè)對該屬性的注重程度成正比[13~14]。因此,各階段的i類型企業(yè)節(jié)點(diǎn)分配獲取的資源越多,各階段同類型企業(yè)選取這個(gè)屬性的次數(shù)越多,各階段選擇這個(gè)屬性的次數(shù)越少,節(jié)點(diǎn)資源值的更新公式如下:

在反向資源分配過程中[15],需要更新屬性節(jié)點(diǎn)的資源值,一個(gè)屬性節(jié)點(diǎn)被企業(yè)節(jié)點(diǎn)選取次數(shù)越多,說明該屬性節(jié)點(diǎn)的應(yīng)用價(jià)值越高,即屬性頂點(diǎn)值越大,該屬性被選取的次數(shù)越多,其余屬性別選擇的次數(shù)越少;反之,該屬性被選取的次數(shù)越少,其余屬性被選擇的次數(shù)越多。反向資源分配時(shí)屬性節(jié)點(diǎn)資源值更新公式如下:

2.2.3 Top-N推薦
Top-N 推薦是結(jié)合企業(yè)招聘偏好程度與學(xué)生職位匹配程度,為畢業(yè)生推薦N 個(gè)職位。利用Dice系數(shù)衡量畢業(yè)生和企業(yè)招聘崗位間的關(guān)聯(lián),假設(shè)學(xué)生求職意向特征集合是x,企業(yè)招聘崗位特征集合是y,畢業(yè)生就業(yè)意向和企業(yè)招聘崗位特征的關(guān)聯(lián)如下:

以某大學(xué)為實(shí)驗(yàn)對象,利用本文系統(tǒng)對該大學(xué)的就業(yè)信息實(shí)施管理。選擇系統(tǒng)1與系統(tǒng)2作為對比系統(tǒng),其中基于信息完整性的船舶信息管理系統(tǒng)(文獻(xiàn)[5]),記為系統(tǒng)1;基于BIM 技術(shù)的堤防工程運(yùn)維信息管理系統(tǒng)(文獻(xiàn)[6]);三個(gè)系統(tǒng)的數(shù)據(jù)庫性能對比結(jié)果如表1 所示。分析表1 可知,本文系統(tǒng)的數(shù)據(jù)庫性能支持空間查詢與并行空間查詢性能,同時(shí)數(shù)據(jù)庫具備可擴(kuò)展性能;系統(tǒng)1與系統(tǒng)2僅支持空間查詢性能且數(shù)據(jù)庫不具備可擴(kuò)展性能。

表1 三個(gè)系統(tǒng)的數(shù)據(jù)庫性能對比結(jié)果
通過測試不同數(shù)量的用戶在三個(gè)系統(tǒng)內(nèi)讀取文件所需的時(shí)間,獲取三個(gè)系統(tǒng)讀取文件速度隨著用戶數(shù)量的變化,測試結(jié)果如圖5 所示。分析圖5可知,隨著用戶數(shù)量的不斷增加,本文系統(tǒng)的文件讀取速率呈線性增長趨勢,符合系統(tǒng)帶寬隨用戶數(shù)量的提升呈線性增長的需求;系統(tǒng)1 與系統(tǒng)2 的文件讀取速率隨用戶數(shù)量的提升其增長幅度較為緩慢,當(dāng)用戶數(shù)量達(dá)到40 個(gè)時(shí),兩個(gè)系統(tǒng)的文件讀取速率停止增長,不符合系統(tǒng)帶寬隨用戶數(shù)量的提升呈線性增長的需求。實(shí)驗(yàn)證明:本文系統(tǒng)在多用戶并發(fā)操作過程中,仍然可以提供穩(wěn)定快速的服務(wù)。

圖5 讀取速率測試結(jié)果
隨機(jī)選取10 個(gè)大小不同的文本數(shù)據(jù)文件,這10 個(gè)文本數(shù)據(jù)文件的大小呈遞增趨勢,利用三個(gè)系統(tǒng)檢索這10 個(gè)文本數(shù)據(jù)文件,測試三個(gè)系統(tǒng)的檢索完整性,測試結(jié)果如圖6示。分析圖6可知,在對文本數(shù)據(jù)檢索完整性的對比中,隨著文件內(nèi)數(shù)據(jù)量的逐漸提升,三個(gè)系統(tǒng)的信息檢索完整度均有所下降,本文系統(tǒng)的信息檢索完整度明顯高于其余兩個(gè)系統(tǒng),本文系統(tǒng)的信息檢索完整度下降幅度較小,當(dāng)文件數(shù)據(jù)量達(dá)到一定程度時(shí),本文系統(tǒng)的信息檢索完整度穩(wěn)定于96%左右;隨著文件內(nèi)數(shù)據(jù)量的逐漸提升,其余兩個(gè)系統(tǒng)的信息檢索完整度波動(dòng)起伏較大,穩(wěn)定性較差。實(shí)驗(yàn)證明:本文系統(tǒng)具有較高的信息檢索完整度,具備較好的優(yōu)越性。

圖6 檢索完整性測試結(jié)果
在不同節(jié)點(diǎn)資源值p 的數(shù)值時(shí),測試本文系統(tǒng)就業(yè)推薦的計(jì)算時(shí)間與準(zhǔn)確率,測試結(jié)果如圖7、8所示。分析圖7、8 可知,隨著節(jié)點(diǎn)資源值p 的不斷增加,本文系統(tǒng)內(nèi)推薦算法的計(jì)算時(shí)間逐漸縮短,推薦準(zhǔn)確率逐漸提升,當(dāng)p 值達(dá)到12 時(shí),計(jì)算時(shí)間縮至最短,推薦準(zhǔn)確率達(dá)到最高;當(dāng)p值超過12時(shí),計(jì)算時(shí)間逐漸延長,推薦準(zhǔn)確率逐漸降低。實(shí)驗(yàn)證明:當(dāng)p值為12時(shí),本文系統(tǒng)的推薦性能最好。

圖7 計(jì)算時(shí)間測試結(jié)果

圖8 準(zhǔn)確率測試結(jié)果
畢業(yè)生就業(yè)問題屬于大學(xué)的重要工作,這就凸顯精準(zhǔn)管理大學(xué)就業(yè)信息的重要性,為此設(shè)計(jì)基于分布式計(jì)算的大學(xué)就業(yè)信息管理系統(tǒng),以整合學(xué)生、企業(yè)與教育管理部門三方面的信息為前提,分析數(shù)據(jù)獲取隱藏在數(shù)據(jù)背后的價(jià)值,讓數(shù)據(jù)發(fā)聲提高大學(xué)就業(yè)信息的管理水平,提升畢業(yè)生的就業(yè)率,利于企業(yè)選取適合崗位的人才,為大學(xué)發(fā)展與優(yōu)化人才培養(yǎng)方案等提供技術(shù)支持。