宿遷學院 馬紅麗 咸聰慧 蔣子豪 丁錢建 朱芷嫻
大學生就業問題一直飽受社會各界的關注,近幾年隨著畢業生數量的增加,企業招聘要求的提高,畢業生的處境越來越窘迫,企業招聘也越來越困難。為了改善畢業生就業難和企業招聘難的問題,該平臺結合大數據技術和智能推薦算法,旨在為學生和企業提供集精準職位推薦、精準人才推薦、創業指導、就業指導于一體的服務模式。實踐表明,平臺在校企合作的模式下,提供就業信息,既有利于畢業生快速精確就業,也能夠提高企業招聘的人才對口率,同時還能將畢業生的市場需求反作用于學校的招生工作中。
在當今時代的大背景下,由于高等教育大眾化、普及化進程的加快,我國大學生的就業問題也呈現出愈演愈烈的趨勢,已經成為目前亟待解決的民生問題。一方面,由于畢業生數量的不斷增長致使人才市場供應大于需求。另一方面,由于社會經濟的高速發展,企業對人才質量和類別的需求也在不斷提高和變化,這就在企業和高校畢業生之間產生了需求的鴻溝。因此大數據視域下大學生就業創業平臺的構建十分必要,以學校為平臺基礎,直接為企業和畢業生搭建供求鏈來實現大學生精準就業具有重要的現實意義。
本文實現目標是構建一個大數據技術和智能推薦算法相結合的人職雙向推薦平臺,采用“校企合作”的核心內推體系,憑借學校與企業之間的合作關系,給予就業者適當的就業指導及推薦,提高了就業率以及人才對口率。
在平臺的設計過程中考慮到畢業生用戶、學校和用人單位三類用戶的不同角色之間的需要的功能,利用信息共享,使各類用戶在系統中的作用發揮到最大化。
通過對校友信息進行選擇提取和智能分析,結合學校具體專業特點,聯合企業,即時公開招聘信息,雙向智能地幫助學生找到心儀的工作,同時助推高校、畢業生、企業的深度合作。有以下兩個主要功能:
建立畢業生用戶畫像,在規范數據標準,同步各業務系統中的標準數據到中心數據庫之后,我們可以通過中心數據庫抽取數據進行挖掘分析。基于畢業生的簡歷信息、專業、興趣愛好以及行為數據進行分析,構建出符合學生需求的行為模式方法,從而有效的推薦職位給畢業生,促進就業。
建立個性化智能推薦服務平臺,系統基于協同過濾推薦算法實現人才和職位之間的雙向推薦。人才推薦就是依據企業單位具體的招聘需求,給用人單位推薦可能符合要求的專業人才,促使企業能夠快速獲取人才資源。職位推薦則是依據畢業生個人求職要求,結合與之相似用戶的就業信息,給畢業生推薦可能符合學生就業需求的的職位。
本平臺通過大數據技術,以校企互助為機制,以推薦就業為核心,以解決畢業生的就業問題為根本,為用人單位提供一站式招聘服務,為應聘者提供一站式就業服務。拓寬學生的就業渠道,提升企業招聘的效率,同時幫助學校了解當前就業趨勢。
平臺運用分層的思想,在持續、動態的數據基礎上,并結合前端開發的需求,設計整體的框架,其主要的內容和每層之間的邏輯關系如圖1所示。

圖1 平臺整體架構圖
該平臺是以開源分布式框架為基礎的二次開發,具備實時處理大數據和并行式數據處理的能力,具有高并發性和強壯性。平臺整體架構分別包含了數據的采集層、挖掘層、分析層和應用層。
數據采集層是整個系統的基礎,它不僅是大數據分析的首要前提也是必要的條件之一。只有平臺擁有了海量的就業數據信息,才能進行下一步的挖掘,并分析出數據之間某種隱藏的規律。其中采集的數據主要包括往屆畢業生就業數據和現階段用戶行為數據如:操作事件、瀏覽行為、收藏行為、停留時間等操作數據。
數據挖掘層,對采集的就業數靈活地使用K-Means聚類算法、層次聚類、關聯規則挖掘等算法,從而發現數據之間隱藏的相關性。
數據分析層,將挖掘到的信息處理后進行知識化信息描述。
數據應用層,主要負責管理和運維數據,系統通過數據倉庫中的數據,分別描繪用戶畫像和職位畫像,并通過相似度計算進行人職匹配。只有匹配率達到80%,系統才可以為畢業生用戶可能符合其要求的職位,為企業提推薦合適的人才。
在線協同和離線過濾是協同過濾推薦算法的兩個部分,其中在線協同是根據在線的數據尋找用戶
協同過濾推薦算法包括在線的協同和離線的過濾兩部分。在線協同,就是通過在線數據找到符合用戶偏好的物品,而離線過濾,則是分離出一些沒有價值的數據。預測和推薦是它的主要功能點,算法通過挖掘用戶行為的數據來發現用戶的喜好,再根據用戶喜好對用戶進行分組并向用戶推薦與其偏好相似的物品。
系統基于前期搜集的畢業生就業信息的數據,建立各類用戶的畫像模型。系統采用基于用戶的協同過濾和基于物品的協同過濾對用戶和職位進行雙向智能的推薦,基于用戶的協同過濾主要分為以下兩個步驟:
利用用戶求職意向信息,采用歐幾里德距離評價公式計算當前用戶與其他用戶之間的相似度;
通過用戶之間的相似度數值,選擇與當前用戶相似度最高的用戶,按照他們的偏好向當前用戶推薦其可能會感興趣的職位。
Druid架構是一個構建在大數據集之上做實時統計分析的開源數據存儲系統,每個Druid流程類型都可以獨立配置和擴展,為群集提供最大的靈活性。
Druid集群包含多種節點類型,包括以下5個節點:
(1)實時節點:主要用來實時的攝入數據,并將實時數據生成Segment文件存儲到DeepStorage中。
(2)歷史節點:負責加載Druid中非實時窗口內且滿足加載規則的所有歷史數據的Segment。
(3)查詢節點:用于分發查詢任務和匯集查詢結果,并將獲得的結果返回給用戶。
(4)協調節點:負責管理數據和歷史節點的負載均衡,其中包括新數據的加載和過去數據的刪除。
(5)索引服務:包含兩個組件,Overload組件負責管理和分發索引任務,而MiddleManager則負責執行索引任務。
用戶畫像技術的根本其實是對現實生活中的用戶進行數據建模,它從不同的角度,描述并刻畫一個人的形象特點。
平臺運用畫像技術構建畢業生畫像和職位畫像,以下是畢業生畫像的構建步驟:
數據收集階段,這一階段主要對基礎數據進行清洗、降噪、標準化處理并存儲入庫。
行為建模階段,對數據進行特征提取、確定特征標簽權重、選取特征標簽,然后建立興趣標簽模型。
畫像細化階段,從標簽中提取畢業生的屬性,作為畢業生的簡單描述,形成一個標簽化的人物模型。
以面向畢業生的求職信息推薦為例,文中將畢業生的求職信息比作用戶,將企業單位的崗位比作物品,詳細步驟如下:
(1)按照系統設定的特征集(例如:就業意向城市、工資要求、專業方向、停留時間等維度)比對職位畫像與畢業生用戶畫像,計算得到用戶評估得分表(本文模擬了5個用戶對2個職位的評分),如表1所示。

表1 用戶評估得分表
(2)根據表格的數據作出散列點圖,在圖中,Y軸表示對職位1的評分,X軸表示對職位2的評分,通過用戶的分布情況可以發現,A、C、D三個用戶距離接近,而用戶E和用戶B則形成了另一個群體,具體如圖2所示。

圖2 用戶評估散列圖
(3)歐式距離n維空間的一般性公式為:

歐幾里得計算兩個用戶間相似度的公式為:

s的取值范圍為(0,1],其值越小,用戶相似度越小;其值越大,用戶相似度也越大。
根據歐幾里德公式計算各用戶在職位信息評價上的歐式距離和相似度,計算結果如表2所示。

表2 用戶之間的歐式距離
協同過濾算法與畫像技術的結合,系統實現了畢業生和企業之間的雙向推薦功能最大程度滿足了企業與畢業生的需求,取得了較好的效果,如圖3所示。

圖3 就業智能推薦結果示意圖
基于歐式距離推薦Python編寫的部分代碼如下:


本文介紹了基于大數據技術和智能推薦算法的大學生就業創業平臺具體設計,旨在解決學生就業能力和企業招聘要求不匹配、就業信息不對稱、專業與職位匹配度低等問題。平臺利用往屆畢業生的海量就業數據和校企合作的企業招聘數據,在大數據平臺下對其進行清洗、挖掘、分析和存儲。構建用戶、職位的畫像,使用協同過濾推薦算法實現個性化的雙向精準推薦就業,進一步提高了畢業生的就業率和企業的雇傭效率。平臺的構建有不僅有利于企業和畢業生個人,它同時也為學校的學科建設、課程安排等方面提供了積極的參考意義。