(浙江樹人大學 信息科技學院,浙江 杭州 310015)
2021年我國應屆畢業生人數達到909萬,在疫情及國內外產業調整雙重影響下,應屆畢業生的就業問題尤為嚴峻。此外,由于信息不對等、人才培養規格以及產業脫節等原因造成的人才供給“雙盲”困局[1]日漸嚴重。因此,國內外諸多學者將目光投向了個性化推薦技術[2],以期通過建立求職者與崗位之間的內在關聯解決就業失衡的問題。García-Pealvo等[3]提出通過機器學習算法和聚類算法來構建簡單的就業預測模型;陸佳雯等[4]和Ilich等[5]嘗試通過人口統計學構建推薦算法,由于就業推薦的復雜性,算法的效果不佳且不能有效解決“冷啟動”問題;劉雙雙等[6]和王龍等[7]采用協同過濾算法對歷史就業信息進行分析,進而實現就業推薦,然而隨著數據量的增加,算法效率下降明顯。針對當前就業研究中存在的重“模型構建”輕“算法實用化”以及眾多現有就業推薦方法存在的高復雜度及“冷啟動”缺陷等問題,筆者借助用戶畫像簡化就業關聯規則,降低算法復雜度,并結合基于本體的相容匹配算法[8-9]解決“冷啟動”問題。
基于人口統計學的推薦算法可以根據歷史就業數據為新的就業對象推薦合適的就業崗位。即根據某待就業畢業生StuA在學習能力、實踐能力和創新能力等表現上與歷史就業信息庫中的某些已就業學生StuB[]具有極高的相似度,則推定:與StuB[]簽約崗位相似的新崗位也同樣適合StuA。將以上潛在就業規律稱作就業先驗知識(Employment prior knowledge,EPK)。
推理1設S,J分別為已就業學生及簽約崗位集合;S′i,J′i分別為待就業新生及新崗位,且有Employ(S,J),如滿足Mach(S′i,S)≥β,Mach(J′i,J)≥γ,則可得出S′i?J′i。其中,Employ為雇傭關系;Mach為匹配算法;β,γ分別為學生與崗位的最小相似度閥值;“?”為強就業關聯關系。
就業先驗知識示意圖以及基于畫像的就業先驗知識示意圖分別如圖1,2所示。

圖1 就業先驗知識示意圖Fig.1 Schematic diagram of employment prior knowledge recommendation

圖2 基于畫像的就業先驗知識示意圖Fig.2 Schematic diagram of employment prior knowledge recommendation based on profiling
在調用Mach函數進行就業對象和崗位相似度運算時,需要將S′i與S集合中所有畢業生依次進行匹配計算,其計算復雜度較高。為解決該問題,將海量的學生及崗位數據進行規約,將畢業生群體及崗位集合分別抽象為畢業生畫像(簡稱StuProfiling)和崗位畫像(簡稱JobProfiling),從而將個體相似度Mach(S′i,S)運算簡化為畫像相似度Mach(S′i,StuProfiling)運算。具體定義如下:
定義1設S為已就業畢業生集合,SA為S的子集,即SA∈S;β為相似度閥值。如SA內部各成員滿足
則稱StuProfiling為SA對應的一個畫像,記為StuProfiling〈SA〉,同理可得JobProfiling〈JA〉。
構建畢業生畫像及崗位畫像將極大降低相似度計算的復雜度,進而可以將就業先驗知識EPK提升為基于畫像的就業先驗知識。

根據就業畫像StuProfiling及JobProfiling定義,結合就業先驗知識,構建基于就業畫像的關聯知識庫(簡稱KBProfiling-AR,Knowledge base based on profiling association rule),具體定義如下:
定義2設StuProfiling〈S〉為已就業畢業生S集合的一個畫像;JobProfiling〈J〉為S對應簽約崗位J集合的一個畫像,則有
KBProfiling-AR={KB1,KB2,KB3,…,KBi,…,KBN}
式中:KBi=StuProfiling〈S〉?JobProfiling〈J〉。
本體匹配是兩個同源本體實例的映射過程,可以由四元組表示,即
〈c1,c2,r,k〉c∈[simple-data,c],r∈[=,?,∩,⊥],k∈[0,1]
(1)
式中:c1,c2為兩個同源的本體概念實例,由基本數據類型(包含string,integer,float,date,bool,enum等)和本體概念實例嵌套而成;r為c1和c2映射關系,包含相等、包含、重疊和不相關4種情形;k為r的關聯程度。String的匹配可以通過字符串相等、海明距離、字符串包含、文本分析及自然語言處理等方式計算相似度;integer,float,date,bool等類型則直接通過數值運算方式計算匹配關系;enum則通過上下位關系、同反義關系、成員及部分整體關系等方式進行匹配計算。
一般的本體匹配比較呆板,只返回0,1結果,為了使匹配過程更具“語義”特性,引入“相容匹配”[10]的概念,具體定義如下:
定義3C1,C2分別指隸屬同一分類體系的兩個概念實例模式,若C1經過結構層次展開后各葉子節點值的約束比C2更寬松,則C1語義包容C2,記為C1 引入“相容匹配”后,需要對原有的概念描述結構進行拓展,增加“方向”側面,該側面的值包含向上、向下兩類,意指向上還是向下兼容,例如求職者期望薪資屬性的側面方向設為“向上”,如果值為6 000元,當用人單位的崗位薪資為7 000~10 000元時,則視為滿足。將本體概念實例C1和C2的匹配過程稱為本體相容匹配算法(簡稱OCMA,Ontology conceptintance matching algorithm)。 根據基于畫像的就業先驗知識推薦的PK_RecProfiling理論,為了獲取適合就業對象A的推薦崗位,需要通過OCMA算法對待就業對象與就業畫像關聯知識庫KBProfiling-AR中所有規則的左部學生畫像StuProfiling以及待推薦崗位與KBProfiling-AR所有右部崗位畫像JobProfiling分別進行相容匹配運算。其匹配過程是:雙方逐級分層展開,自下而上對每個概念實例對應的Slot槽值進行相容匹配運算,進而通過迭代獲取最終匹配結果WMach,即 (2) 式中:ResultSlot為槽的匹配結果,ResultSlot∈{0,1}。 OCMA算法使用相容匹配替代常規的值進行運算,使匹配結果更具語義特性。使用“基于簡單將0和1的迭代匹配結果”來反映整體概念實例整體匹配度有違就業對象及崗位各屬性在就業實踐中的比重差異性,為此引入權重參數模型Modelw對OCMA算法進行改進,得到w-OCMA算法,改進后的匹配度WMach計算方法為 (3) 式中:ResultSlot為槽的匹配結果,ResultSlot∈{0,1};wi∈Modelw。 改進后的w-OCMA算法雖然有效地解決了就業匹配過程中槽的差異性問題,但這種差異性是通過反映“就業領域普式認知結果”的權重Modelw來體現的。在就業實踐中,個體對于崗位各屬性的偏好存在重大差異,為此引入興趣度參數模型Modeli更有助于解決推薦的個性化問題。將改進后的w-OCMA算法稱作wi-OCMA算法,其對應的匹配度WMach計算式為 (4) 式中:wi∈Modelw;Ii∈Modeli;ResultSlot∈{0,1}。 根據PK_RecProfiling理論可知:通過基于就業畫像關聯知識庫KBProfiling-AR的wi-OCMA運算及推理可以實現就業的智能推薦,具體智能就業推薦模型框架如圖3所示。 圖3 基于就業畫像關聯知識庫的智能就業推薦模型示意圖Fig.3 Schematic diagram of intelligent employment recommendation model based on KBProfiling-AR 基于就業畫像關聯知識庫KBProfiling-AR的就業智能推薦的基本過程是:1) 通過某待就業學生StuNoJob與就業先驗知識庫KBProfiling-AR中的StuProfiling集合進行相容匹配運算;2) 獲取對應的學生畫像集StuProfilingGetJob;3) 根據關聯知識庫KBProfiling-AR推理獲取相應的已招聘崗位畫像集JobProfilingFinish;4) 結合權重Modelw和興趣度Modeli將JobProfilingFinish與新崗位集合JobSetNew進行相容匹配運算,并對匹配度進行排序,返回匹配度較高的結果,即得到推薦給StuNoJob的崗集。 為實現就業雙向智能推薦,需要采集“就業相關數據”以便為就業畫像、就業關聯知識庫KBProfiling-AR以及權重參數Modelw提供基礎數據支持。同時,需要采集“崗位搜索/訪問/應聘記錄”提取興趣度參數Modeli。具體的就業數據獲取及處理方式如圖4所示。 圖4 就業數據獲取及處理示意圖Fig.4 Schematic diagram of employment data acquisition and processing 就業數據獲取及處理步驟如下: 1) 數據獲取。通過“浙江省生源及就業方案管理系統”“教務管理系統”“素質拓展管理平臺”“畢業生就業調查系統”“學工綜合系統”等系統可獲取生源、課程成績、素質拓展分以及在校過程等數據;通過“第三方就業平臺”、各院校“校園招聘平臺”等可獲取崗位搜索關鍵字記錄、訪問及收藏歷史、應聘記錄等數據。 2) 數據加工。首先通過數據清理、過濾和集成等步驟對數據進行預處理;然后為降低數據分析復雜度,剔除與就業相關度不大的數據,如學號、姓名和身份證號等,并保留學位、生源地、政治面貌、英語水平、計算機水平、課程成績、素質拓展分(含技能與證書、品德修養、科教活動、文體與團學任職等)以及獎懲等信息,構建以專業能力、學習能力、實踐能力、協作能力、創新能力和品德修養等為特征的畢業生能力模型支撐數據[11],同時剔除單位名稱、崗位名稱和入職時間等無用信息,保留用人單位性質、隸屬行業、用人單位所在地、職位類別、是否對口、學歷要求和薪資待遇等為主要特征的崗位特征模型。 3) 語義轉化。為達到通過wi-OCMA算法實現智能匹配的目的,必須將關系數據轉化為含有語義特性的本體概念實例。因此,需要根據中華人民共和國人社部下發的《公共就業服務指標體系》關于“用人單位基本信息表、招聘崗位信息表”的標準,使用OIL本體建模語言,建立畢業生及崗位描述本體。RO-Mapping機制將存儲于關系數據庫中的畢業生及崗位數據轉換成相應的本體概念實例,并以XML文檔格式加以存儲。 為獲得抽象化的就業畫像,需要對具化的畢業生能力模型及崗位特征模型相關的屬性進行離散化,對分類、量化和布爾等屬性通過泛化、離散化以及0-1投影等方式進行預處理,例如:對畢業生的各項能力值按0~5等級進行歸一量化處理,調用Python提供的sklearn模塊中的K-means聚類[12]模塊,通過拐點法獲取最佳K值,依據K值對數據進行歸約重組,從而獲得畢業生StuProfiling畫像集。同樣,使用該方法可生成崗位JobProfiling畫像集。 就業畫像關聯規則可以使用Apriori[13]關聯規則挖掘算法獲取。該算法通過使用頻繁項集的先驗特性逐層搜索迭代,收集滿足最小支持度和最小置信度的就業關聯規則。首先通過Python對所有歷史就業數據進行分析,結合最小支持度和集合元組數即可獲得已畢業學生及崗位的頻繁項集;然后基于頻繁項集挖掘強關聯規則,通過最小支持度和最小置信度的閾值進行篩選,獲得可信的就業畫像關聯規則。 因為目前浙江省的就業數據缺乏就業畫像及關聯規則所需的充足而有效的特征數據,所以筆者通過省內2所高校近3年24 832名畢業生的生源、課程成績和素質拓展分等就業相關數據,運用“基于就業畫像關聯及本體相容匹配的就業推薦方法”對2 000名2022屆畢業生進行小規模檢測,關鍵實驗步驟如下。 構建以所在專業PRO、專業能力ZY、學習能力XX、實踐能力SJ、協作能力XZ、創新能力CX和品德修養PD為主體的畢業生模型學生畫像。將學生成績(專業必修課、實訓環節、公共課及選修課)及素質拓展分(技能與證書、品德修養、科教活動、文體與團學任職)按級差歸約為1~5(分別代表合格、差、中、良、優)5個等級,專業PRO根據教育部學科分類表中二級學科按1~38進行量化,得到21 321條有效學生畫像支撐數據,并按表1進行相應的映射。 表1 畫像數據支撐表Table 1 List of StuProfiling 因為專業PRO的枚舉項較多,且對基于畢業生能力模型的畫像影響較小,所以調用Python的sklearn模塊中的K-means函數對21 321條6元組[ZY,XX,SJ,XZ,CX,PD]數據進行分析。當X軸的簇個數設置為100時,所繪制的不同K值和對應總的簇內離差平方和的折線圖效果最佳,如圖5所示,當簇為37個時拐點最為明顯,故將求職者畫像劃分成37個簇最為合適。進而通過K-means(n_clusters=37)進一步分析得到37條StuProfiling學生畫像,每條畫像形如:{‘ZY5’,‘XX4’,‘SJ2’,‘XZ3’,‘CX4’,‘PD4’},其成員分別代表專業能力5分(優)、學習能力4分(良)、實踐能力4分(良)、協作能力3分(中)、創新能力4分(良)、品德修養4分(良)。按同樣方法可得到33條崗位畫像,每條畫像形如:{‘XZ3’,‘DQ2’,‘DY4’,‘XL2’,‘GW21’},分別代表公司性質3(外企)、所在地區2(長三角)、待遇2(良)、崗位類型21(IT業)。 圖5 學生畫像支撐數據簇內離差平方折線圖Fig.5 Student portrait support data cluster dispersion square line graph 調用Python的Apriori算法構建頻繁集生成函數generate_L(data_set,K,min_support),其中data_set對應21 321條經過歸約量化的形如[PRO,ZY,XX,SJ,XZ,CX,PD,XZ,DQ,DY,XL,GW]的就業數據,將K設為元組個數12,不斷調整最小支持度min_support的值,并將37個學生畫像[SP1,SP2,…,SP37]與返回的頻繁項集作比對,發現當min_support=0.1,最小置信度min_conf=0.54時,返回的頻繁項集的左部(學生數據)包含的SP個數最多,從而得到如表2所示的R1~R121共計121條就業畫像關聯規則。將元組數為7,右部為1的頻繁項集的最小支持度作為右部對應崗位屬性的權重參數,得到以下參數:待遇0.12,學歷0.41,崗位0.17,區域0.14,單位性質0.16,因為專業對崗位推薦有很大影響,所以人為設置成2.5。興趣度參數需要畢業生對崗位的評價,目前缺乏有效的評價數據,本實驗暫時不予考慮。 表2 就業畫像關聯規則列表Table 2 List of association rule 首先,從2 000名測試的2022屆畢業生中選取某位學生Stui,對該生的畫像支撐數據進行歸約,并與R1~R121的左部進行比對,返回匹配度最高的關聯規則Rj〈SPk,JPn〉,其右部JPn即為Stui的擬推薦崗位畫像,將JPn實例化;然后,通過調用wi-OCMA算法與654 309條供測試的崗位概念實例進行匹配,根據匹配度取前100條記錄作為Stui的推薦崗位。2 000名測試對象對應的前200條推薦結果的平均權重為3.11(最高為4.27,即所有元組成員權重的累計),平均每條記錄耗時0.017 1 s。 筆者提出的畢業生能力模型是對就業畫像實用化的有力探索,實驗結果證明:借助畫像關聯及本體相容匹配技術進行就業智能推薦具有一定的可行性。在缺少有效交互的情況下,筆者方法依然能獲得較好的推薦結果,在解決畢業生就業的“冷啟動”問題方面具有良好的效果。由于在調用wi-OCMA算法進行就業匹配前已經完成了就業畫像以及畫像關聯規則的挖掘工作,從而將目前國內學者研究較廣的“求職者—歷史就業案例—推薦崗位”轉化為“求職者—就業畫像—推薦崗位”的匹配模式,降低了運算量,極大地提高了推薦算法的運行效率。然而,受目前我國教育信息化程度以及就業數據規范性等現實約束,數據完整性以及畫像復雜度對就業畫像及就業關聯規則的挖掘質量具有重大決定性作用。今后需要加強畢業生就業能力以及崗位勝任能力模型的理論研究及方法探索,以期獲得更為智能高效的就業畫像及就業推薦方法。2.3 基于權重Modelw的w-OCMA算法
2.4 基于興趣度Modeli的wi-CMA個性化推薦算法
3 基于就業畫像關聯及本體相容匹配的就業推薦模型

4 基于就業畫像關聯及本體相容匹配的就業推薦方法的實現過程
4.1 就業數據的獲取與處理

4.2 就業畫像生成
4.3 就業畫像關聯規則獲取
5 就業推薦方法的實驗步驟
5.1 建立畫像描述模型

5.2 就業畫像的生成

5.3 畫像關聯規則獲取

5.4 就業相容匹配
6 結 論