文/黃蓉 扶麗娟
本文主要分析職業檔案與職業軌跡的應用現狀,根據職業軌跡的網絡拓撲結構特征對職業檔案大數據進行職業軌跡分析與表示設計,在完成職業檔案數據采集設計、職業軌跡大數據集建模分析后構建職業軌跡畫像,并在此基礎之上運用大數據技術設計求職者的職業潛力測量模型。
保居民就業是國家“六穩”“六保”工作中的關鍵內容。因此,圍繞如何保就業、實現高質量就業的相關研究工作便應運而生。當前,典型的研究代表有:大學專任教師圍繞如何提高學生的專業水平、職業素養和就業競爭力進行分析與研究;職業規劃師圍繞如何科學進行職業規劃、職業指導和就業幫扶展開研究。這些研究都為保就業提供了許多有益的指導和幫助。然而,由于每個求職者的學習經歷、工作經歷、個人素養和能力傾向等存在差別,不同求職者很難借助統一的模式、套路來解決就業,尤其是實現高質量就業。這個問題如何破解?大數據時代的職業檔案給出了解決問題的方向和思路。
當前,許多用人單位通過互聯網公開發布崗位招聘信息。與此同時,許多求職者通過互聯網上傳其個人求職簡歷,也有許多成功就業者通過互聯網構建其個人職業檔案作為其個人的展示、宣傳主頁。相關典型互聯網平臺有領英、前程無憂、BOSS 直聘等。對這些公開的、海量的求職簡歷信息(職業檔案)進行大數據采集,并進一步建立職業檔案之間的關系,就形成了一種職業社交網絡。通過挖掘分析職業社交網絡中的信息,進行邏輯分析,形成可視化的表示,就可以形成職業軌跡。在職業軌跡的基礎上,通過對職業檔案大數據進行清洗與分析,即可形成職業軌跡畫像。職業軌跡及其畫像能夠清楚地展示個人、公司甚至行業、區域的發展狀況,同時還能夠幫助企業更好更快地分析崗位所需,遴選真正適合崗位的人才,實現人才的精準推薦。
為了對求職過程進行管理,職業生涯管理系統(Career Management System)應運而生。職業生涯管理系統在全面考慮職業內外部環境要素的基礎上,分析和評價求職者的能力、興趣、價值觀等個體特征,確定求職者的職業生涯目標,監測與評估個人職業畫像和職業前景,并制定措施幫助求職者實現該目標。也就是說,職業生涯管理系統基于職業檔案大數據的職業軌跡分析及潛力測量系統,以職業檔案大數據分析、職業潛力測量為出發點,綜合運用職業規劃、大數據、人工智能、數學建模等多學科理論與技術,從數據采集、建模分析、職業軌跡畫像、職業潛力測量四方面進行職業檔案大數據的信息模型研究。
職業軌跡分析主要是分析領英、前程無憂、BOSS 直聘等網站公開的職業檔案信息。根據職業軌跡的職業崗位分類、行業分類、區域分類的要求和流動性要求,在進行分析時,相關人員一般應提取職業檔案擁有者(用加密后的代碼表示)的所學專業、畢業時間、就業單位、就業崗位、就業開始時間、就業結束時間、單位所在區域、單位所屬行業等公共屬性。有這些公共屬性就可以充分表達職業軌跡的拓撲屬性和可視化要求。
為了方便對職業軌跡進行分析,可引入圖形來表示。圖能夠精確表示職業軌跡,并提高相應的分析效率。圖是頂點+邊構成的圖(其中,頂點是樣本點);聚類為頂點的劃分;邊則是樣本點的相似度。圖聚類則是通過對圖中頂點的劃分來完成聚類。圖的劃分通常采用兩種方法:譜聚類和最小割。其中,譜聚類是一種基于圖論的聚類方法,其通過對樣本數據的拉普拉斯矩陣的特征向量進行分析來完成聚類,通過分析特征向量與特征值,獲得聚類結果。最小割則屬于離散優化方法,其主要是將最小割轉化為最大網絡求解。近年來也有關于深度嵌入聚類(Deep Embedding Clustering,DEC)的相關研究成果,深度學習開始被引入特征聚類領域。
本文基于職業軌跡對職業檔案大數據進行清洗分析,得到了職業軌跡畫像,然后采用JavaEE、SpringMVC、Spring、MyBatis、MySQL、Spark 等開源軟件技術和大數據技術,建立了基于職業軌跡分析的職業潛力測量模型原型,旨在為各高校學生的專業選擇、職業成長和發展規劃提供幫助與指導。

在建立職業潛力模型的過程中,本文采用了職業潛力分析基礎理論、信息技術、數學建模與分析技術等理論和技術,從信息采集、建模分析、職業軌跡畫像、潛力測量模型四個方面進行了深入研究。首先,筆者基于SSM(Spring、SpringMVC、Mybatis)框架與Scrapy 爬蟲框架進行數據信息的采集。其次,筆者用Pandas(一種強大的分析結構化數據的工具集)對爬取到的信息進行數據清洗、數據統計分析,并將分析結果用ECharts 以可視化的圖表形式展示給普通用戶。最后,筆者使用Java 框架技術進行前臺展示與后臺管理。具體的流程如圖1 所示。
職業檔案數據采集研究是后續的建模分析、職業軌跡畫像、潛力測量模型的研究基礎,是研究職業軌跡信息模型的關鍵所在,其具體步驟如下。
①研究職業檔案的大數據源。筆者根據職業軌跡與職業檔案關系理論,從數據的結構完整性、公開性、有效性和數據量等方面,遴選了一種具有代表性的職業檔案大數據源。
②研究職業檔案數據采集的步驟與規范。筆者根據職業軌跡的組成要素之間的關系、職業軌跡與職業檔案的關系等,確定職業檔案數據采集的格式、手段、方式、頻率等。
通過以上研究,筆者運用網絡爬蟲技術,完成了職業檔案大數據集的采集,以便更好地挖掘深層信息,輔助決策。
職業軌跡大數據集的建模分析需要應用到職業教育論、數學建模分析理論、計算機數據統計與分析技術、職業能力發展理論、職業潛力測量理論等多學科理論和技術。目前,國內關于這方面的研究與實踐不多,國外相關參考資料翻譯也困難,故此部分內容將成為本文研究的重點。職業軌跡大數據集的具體建模分析流程如圖2 所示。

(1)數據清洗研究。筆者運用刪除缺失值、均值填補法、熱卡填充法等方法對缺失的職業檔案數據進行處理,運用統計分析、聚類、模型檢測等方法對離群數據進行處理,運用回歸法對數據噪聲進行處理,最終完成了職業檔案數據的清洗與整理工作。
(2)針對清洗后的數據,筆者用ElasticSearch 搭建搜索引擎。在完成搜索引擎搭建后,用戶需要將數據導入搜索引擎中。導入數據可以使用數據源連接器、API 等方式,用戶可根據實際情況選擇合適的導入方式,但在導入數據時,要注意數據格式、字段映射等問題。在完成數據導入后,用戶可以使用搜索引擎進行查詢和搜索,搜索引擎可以定義一個Mapping 索引。在使用搜索引擎時,用戶通常需要定義查詢語句、搜索條件、排序規則等,以便快速找到所需的信息。搜索引擎將搜索結果以某種形式呈現給用戶,如表格、地圖等形式。
(3)針對搜索引擎搜索到的結果數據,筆者利用ElasticSearch搭建了分析引擎。ElasticSearch主要是通過聚合來進行統計分析的。聚合主要有兩種形式:指標聚合和桶聚合。筆者主要采用桶聚合的形式對搜索到的數據進行分析。筆者先把搜索到的數據按照不同類型分成不同的索引,然后再進行聚合運算,在指定類型的索引中聚合出相關結果并進行反饋。
(4)建模研究。筆者運用自然語言處理技術并結合崗位勝任力分析模型,對處理過的數據進行理解、標注。
職業軌跡畫像設計步驟如下。
(1)職業軌跡畫像組成要素設計。筆者根據已有的職業檔案大數據和分析模型,研究設計職業軌跡畫像的組成要素以及要素與要素之間的關系,重點提取職業檔案擁有者(用加密后的代碼表示)的所學專業、畢業時間、就業單位、就業崗位、就業開始時間、就業結束時間、單位所在區域、單位所屬行業等要素。
(2)形成職業軌跡畫像。筆者依據職業軌跡畫像組成要素,采用可視化技術如ECharts,運用樹狀圖、網狀圖、雷達圖等圖例,構建了某一行業的職業軌跡畫像、某一類職業崗位發展畫像、行業間人才流動畫像、區域間人才流動畫像等。
職業潛力測量模型設計步驟如下。
(1)根據收集的簡歷集合,對相關數據進行處理,并整理成職業檔案大數據集,實施建模分析等操作,得到職業軌跡畫像。
(2)為得到更精確的模型,引入知識潛力和協調潛力等因素,設計職業潛力測量模型。
(3)將第一步得到的職業軌跡畫像作為輸入內容,確定職業潛力測量的測量數據、測量方法、測量結果的展示等,進一步優化職業潛力測量模型設計。
經過上述步驟設計完成后的職業潛力測量模型,既可以幫助用戶進行職業軌跡分析,又可以為職業軌跡畫像轉化提供方法和手段。
本文以職業檔案大數據分析、職業潛力測量為出發點,綜合運用職業規劃、信息化技術、數學建模等多學科理論與技術,采用開源軟件技術和大數據技術建立基于職業軌跡分析的職業潛力測量模型原型。筆者及所在的項目團隊擬在部分高職院校對該模型進行實證研究,根據研究結果對模型進行優化,再將模型推廣至其他院校,以期為各高職院校學生的專業選擇、職業成長、發展規劃提供幫助和指導。