劉紅紅
(西安航空職業技術學院,陜西西安 710089)
就業質量評估對于學校和個體均是一項重要的任務,通常經過計算就業質量指數來評估相關專業的綜合就業情況。常見的就業質量指數通常將薪資、專業匹配度、職業期待度、工作發展前途、職業發展、就業率、離職率等多個指標通過簡單線性擬合來表達[1]。
由于這種就業質量指數本質上就是對清洗后的統計數據,根據給定的權重進行簡單的線性擬合從而得到評估結果。因此,其作為最終就業質量的評估標準具有如下兩個問題[2]:
1)過于簡單。由于就業質量指數依賴于多個影響因素,將其簡單地計算為影響因素的線性和過于粗糙。多種因素對于最終指標的計算,其內部不是簡單的線性關系,存在更為復雜的依賴關系,因此不宜粗淺地進行線性擬合[3];
2)權值的確定過于依賴經驗。在常見的就業質量指標計算中,其中每個影響因素的權值均是人為經驗性確定的[4]。因此就業質量指數實際的計算結果在較大程度上會受到評估人的影響,從而得不到盡可能客觀的評價結果。
為了解決上述問題,該文引入人工神經網絡[5],將多種考察指標綜合,通過訓練得到一個非線性映射結果,對于不同專業均能得到不同的權值分布和相對客觀的就業質量指數。
就業質量指數的計算可由式(1)進行描述:

其中,I表示綜合的就業質量指數,xi表示經過標準化處理后的第i個指標的具體數據,wi表示對于第i個數據最終所確定的權值。
從本質上看,就業質量指數用數學可表達為影響因子通過擬合函數f得到的映射結果。在一般算法中,擬合函數是簡單的線性求和。因此,為了拓展擬合函數,該文引入深度神經網絡模型。
一般的神經網絡由三層細分結構組成,如圖1所示。

圖1 神經網絡結構示意圖
1)輸入層[6]:輸入層是接收輸入向量的最淺層。絕大多數情況下,輸入層就是數據本身。在這一層,數據呈現其原始樣貌,輸入層通過權值連接到后端神經元。經過計算后,將映射結果傳遞到后端的深層神經元上。
2)隱藏層[7]:隱藏層是位于輸入層之后、輸出層之前的網絡層。隱藏層可深可淺,其主要功能是對前端輸入信號進行迭代映射,從而得到非線性的表達結果。從信號處理的角度而言,整個過程使低維信號不斷稀疏化,從而得到在高維空間可分的輸出標簽。
3)輸出層[8]:輸出層是整個網絡的目標空間。當原始信號經過足夠多的網絡層后,其已表現得足夠稀疏化。最終通過Softmax 函數將輸出層的向量映射到含有對應標簽的概率空間中,得到分類結果。
每一層網絡又可以細化成兩個組件[9],如圖2所示。

圖2 激活函數構造圖
由圖2 可知,網絡中的每個神經元由相應的權值和激活函數構成。權值將前一層的輸入首先進行線性求和,然后再用激活函數對求和結果進行映射。而激活函數通常是非線性的[10],因此對于每一層網絡而言,其輸入X={x1,x2,x3,…}和輸出Y可表示為:

其中,σ為非線性激活函數[11],較為常用的激活函數有tanh 函數、ReLU 函數及Sigmoid 函數等,如圖3 所示。

圖3 兩種激活函數示意圖
可以觀察到,Sigmoid 函數將定義域為(-∞,+∞)的輸入信號映射到(0,1)的輸出信號空間。而ReLU函數在(-∞,0)的區間內將輸入映射為0,在[0,+∞)的區間內對輸入進行線性映射。兩者整體上均實現了輸入信號與輸出信號的非線性映射關系。若干個網絡層疊加在一塊即可實現復雜的映射關系,通過訓練便可得到期望的模型。
神經網絡是一種數據驅動的模型,為了得到適應于訓練集的特定權值,神經網絡必須要進行訓練,最經典的訓練算法是反向傳播(Backpropagation)算法[12]。該方法的主要思想是將輸出結果和期望結果的差值從后向前傳播,使得網絡中的權值能在每一訓練回合中不斷更新,直到通過網絡得到的輸出與期望輸出一致或差值小于一定閾值時結束更新。反向傳播示意圖如圖4 所示。

圖4 反向傳播示意圖
根據圖4,有如下關系式[13]:

對于給定的網絡,可以通過計算得到相應的前向傳播和反向傳播結果。而整個網絡是基于期望輸出和真實輸出的差值進行反向傳播,從而更新權值使得網絡能夠在不同的數據集上得到不同的期望輸出。
神經網絡雖然已在各種應用背景下得到了成功應用,但在該任務中,影響因素可能過多。因此需要加入降維模塊,讓后續的神經網絡著重學習主要影響因素。
在算法設計流程中,該文加入了一種無監督的學習方式:自編碼器[14](AutoEncoder)。給定輸入空間X和期望的特征空間Y,編碼器需要求得兩個映射h、g,這兩個映射要使特征的重建誤差達到最小[15]:

將自編碼器應用于不含標簽的原始數據集,使其自動提取出主要影響因素。根據提取出的標簽構造訓練集,再用構造的數據集訓練神經網絡,得到相應的就業質量指數映射關系。
該文提出的整體算法流程如圖5 所示。

圖5 算法流程圖
第一部分,對原始數據進行預處理,包括標準化、去噪等清洗工作。在第二部分,自編碼器在原始數據集上進行訓練,提取多種影響因子的主要特征,得到對應的稀疏標簽構造數據集。第三部分,使用一個簡單的三層神經網絡在之前的數據集上使用反向傳播算法進行訓練,最終得到從影響因素到就業質量指數的映射關系。
第一部分采用標準化的算法[16],如式(5)所示:

其中,erfc 為非線性閾值函數,o為原始數據集的平均值,σ為數據集的方差。經過標準化的原始數據集,模型能夠在其中獲得更快的收斂速度和更高的訓練精度。
在第二部分中,在預處理過的數據集中對自編碼器進行訓練。該應用場景需要在無監督條件下提取出相應的標簽,并將相應的標簽映射到不同的區間值。由于經典的就業質量指數的計算涉及到20多種影響因素,為了抓取主要影響因素,該文算法在系統中加入對信號進行降維操作的步驟。具體地,該算法中使用了稀疏自編碼器。其輸入端的節點數目大于輸出端的節點數目,這種結構天然地保證輸入向量的維度大于輸出向量,能夠使輸入向量被稀疏化。相較于經典主成分分析方法(PCA),稀疏自編碼器的非線性提取能力更強,能夠實現更加復雜的數據映射關系且較好地完成了復雜關系中的降維。
第三部分中,對神經網絡進行訓練。輸入層輸入預處理后的數據,再通過一層隱藏層后得到輸出。輸出層的神經元維度和自編碼器輸出端的維度保持一致,便于根據自編碼器得到的稀疏結果計算誤差更新網絡權重。這一環節重點在于初始權值的設定、訓練方案的選擇、訓練會合以及batchsize 大小的選擇,網絡參數與訓練參數的具體設定會在后面的實驗部分給出。
經過以上3 個步驟,該文構建了一個基于神經網絡的就業質量指數評估算法。對于具有不同分布類型的數據集,神經網絡進行針對性的訓練后可以實現較為特異化的信號表達。然后,根據就業數據分布狀況采用相應的神經網絡模型直接進行預測評估。相較于傳統的線性擬合方案,新的算法對于不同的數據分布更加客觀。
該節根據上述算法模型以及應用背景進行實驗設計,并驗證模型的有效性。
在具體實現過程中,采用一個三層的神經網絡,激活函數采用tanh 函數。訓練算法使用隨機梯度下降算法SGD,Batchsize 設為100。不同于傳統的就業質量指數計算方案,文中的就業質量指數取值范圍設定為[0.0,10.0],步長為0.5。就業質量指數取值越高,則表明質量越好;反之,則越差。數據集為含有不同專業、不同年份的就業質量指數分布,以及相應的就業質量指數。該算法在Pytorch 上搭建模型,對模型進行訓練并得到相應的預測結果。
1)自編碼器特征提取結果
在驗證自編碼器的過程中,該文截取了就業機會(a)、公平待遇(b)、工作環境(c)、社會保障(d)、社會對話(e)、經濟(f)、社會背景(g)、工作時間(h)、穩定性(i)、工作保障(j)、報酬(k)、平衡工作和生活(l)這12 個維度進行訓練,然后進行降維,結果如表1 所示。

表1 自編碼器降維結果
根據自編碼器的降維結果,該文最終選定報酬、穩定性、社會保障和工作環境4 個指標作為主要影響因素構建了輸入向量。
2)神經網絡訓練結果
提取出主要影響因素后,采用5 個專業的就業相關數據:數控技術、電子商務、會計、民航運輸、軟件技術。在這些數據集上對神經網絡進行20 個Epoch 的訓練,其訓練過程中的損失曲線如圖6 所示。

圖6 神經網絡的loss曲線
由圖6 可知,經過20 個Epoch 的訓練,網絡基本收斂。將5 個專業的就業質量指數分別通過經典的線性擬合算法和該文提出的網絡模型進行計算,得到就業質量指數的計算結果,如圖7 所示。

圖7 兩種算法所得就業質量指數比較
在電子商務和數控技術兩個專業中,經典算法與傳統算法得到的結果反差較大。在經典算法中對于薪酬的權重過高,導致在這兩個專業中的就業質量指數較低。而通過網絡學習得到的評價方法能夠更全面地對各種因素進行綜合考量,得到更為客觀的評估結果。
該文針對經典的就業質量指數計算方案擬合性較差、權值選取較為經驗化的缺點,采用近年來效果突出的神經網絡模型提出一種新的算法。其能夠根據不同數據集進行針對性的訓練,得到不同的權值分布,使就業質量的評估不再經驗化,且加強了影響因素到評估指數的非線性映射特性。