趙瑞丹
(西安航空職業技術學院,陜西西安 710089)
傳統的就業數據來源于調查問卷(紙質或網絡),以及高校的官方統計信息。但這兩種方式均存在各自的問題,前者得到的數據較為有限,難以涵蓋全部學生,后者保證了數量,但無法顧及每個學生的就業質量[1-3]。事實表明,即使在畢業時有確定的就業崗位,但仍有大批學生對職業有了充分了解后,在一年或更短時間內更換工作。因此,合理地評估就業質量也是需要關注的重要問題[4-5]。
在高速發展的信息化時代,新的行業不斷產生,對人才的需求也迫切增加。學生就業質量的優劣,不僅能反映社會行業的發展趨勢,且可以及時地反饋給高校,從而適當地調整專業分布,提高教育水平[6-7]。
面對大量的就業數據,不僅缺少從事質量評估的專業人員,且因評估人員的水平不足導致評價結果因人而異。近年來,興起的人工智能與數據分析方法尤為適合應對此類問題。人工智能采用深度學習,可以模仿人腦對信息做出邏輯判斷,評估隱藏在數據背后的就業質量[8-9]。文中采用智能信息分析,將采集到的就業數據通過層次分析方法和單層感知器,確定每種信息每次的相應權重,最終產生對就業信息的質量評估。
數據采集包括兩個階段,第一階段采集學生畢業前的就業信息,主要內容包括6 個大類:學生個人信息(編碼A)、就業信息(編碼B)、檔案寄送地址(編碼C)、就業單位性質(編碼E)、工作性質(編碼F)、個人滿意度(編碼G1)。每個大類均包含若干小類,除填寫類信息外,選擇類信息均對應著具體的數值。
第一階段的個人滿意度取值范圍為0~100,表示學生對就業方向的滿意程度,第一階段的滿意度占比為40%。
考慮到學生還未參與到實際工作中,對工作和前景的認知尚不充分。在就業12 個月后再采集一次就業數據,作為第一階段數據的修正與補充。第二階段的滿意度由學生了解實際工作內容及行業知識后打分,具有更高的可信度,取值范圍為0~100,占比為60%。從數據量化可以看出,第一階段的數據主要用于建立就業信息資料庫;第二階段的數據用于輸入信息分析網絡訓練集,估計出每一層數據的權重,從而實現就業質量的評估。
實際采樣到的數據無法達到理想的采樣狀態,不能直接進入訓練集中參與運算。首先對采樣數據進行預處理,其過程包括:數據提取、相關性分析與離散化、數據清洗、數據集成4 個步驟[10-13]。
考慮采集到的原始信息為3 種格式:文本格式、表格格式和圖片格式。對于文本格式,使用Python自然語言處理,提取第一節中所述的類別信息。信息提取的基本過程,如圖1 所示。

圖1 文本類信息提取
表格類型的原始信息,多來源于院校發布,已極為接近理想的采樣狀態,直接進入下一步信息處理。
對于圖片類型的采集信息,利用Python構造信息提取算法,先調用文字識別軟件,提取圖片中的文本和圖形信息。再進一步提取和目標相關的數據,轉換為表格類型的文件。信息提取過程如圖2 所示。

圖2 圖片類信息提取
對于采集所給類別之外的信息,按照相關性強弱的關系將其歸納到該系統的類別中,使用互信息來衡量這種相關性,互信息的計算公式如下:

互信息可對文本特征值的相關性進行度量,將互信息值在(0.9,1)范圍內的兩種數據視為一類數據,進行合并。并將其具體值按類別的范圍歸納到相關的子類[14]。
文本類信息僅保留A、B、C 類,其余數據均將舍棄文本,保留具體的數值。大多數類型要求采樣到詳細的數值,對于單個如“好”、“差”等語言描述類的采樣數據,根據對應的取值范圍,離散化為相應的數值。
按A~M 的順序,檢查數據集中的數據。刪除重復項,計算數據集中的各個子類的均值和眾數。當數據集的該項缺失在30%以下時,用眾數補全缺失的數據;當缺失率達到50%~80%時,用均值補全缺失的數據;當缺失率達到80%以上時,從訓練集中刪除該子類[15]。數據的補全操作不包括A、B、C 項。
每位學生的數據按照一個標準模板存放,稱為標準數據包。以A 項數據為每個數據包的總類,存放下屬的B~M 類樣本數據及每個樣本的值。對每個類別只保存一個子類的數值,例如H 項僅保存H1~H5 五項數據中的一項,及其對應的具體數值。
通過數據預處理可以計算出學校的就業率、升學率信息,計算公式如下:

層次分析算法包括3 個層次:最高層、最低層和中間層。最高層為要解決的問題,最低層為決策時的備選方案,中間層為決策要考慮的因素及決策的準則?;谶@三層的質量評估模型如圖3 所示。

圖3 層次分析法模型
使用一致矩陣法構造各類對就業質量的判斷矩陣。判斷矩陣的元素由1~9 標度法給出,表示兩個準則層的因素對于就業質量評判的重要性對比,如表1 所示。

表1 1~9標度含義

圖4 依據重要性對比構造的判斷矩陣
為了使判斷矩陣是成對比較陣,對判斷矩陣的列求和,并將每個元素歸一化,其公式如下:

計算所有元素的和,并對每行歸一化。得到各指標對目標的權重,計算公式如下:

考慮到更換工作次數與就業質量成反向關系,且更換工作次數越多,說明就業的質量越低。因此對更換工作類單獨建立二次項模型,參與后續計算。計算得到的各類別的權重因子,如表2 所示。

表2 各類別的初始權重
更換工作類參與質量評估的選定為:

使用單隱藏層前饋網絡模型來降低質量估計的誤差,神經網絡由兩層神經元組成。輸入層接收8 個類別的采樣信息,隱藏層和輸出層為M-P 神經元,模型如圖5 所示[16]。

圖5 單隱藏層神經網絡模型
模型的隱藏層和輸出層神經元的激活函數均采用Sigmoid 函數,公式如下:

對于訓練集(xk,y),神經網絡的輸出為:

其中,β為輸出層神經元的輸入,θ為其閾值。隱藏層神經元的輸入為wj,閾值為bj,而β可表示為:

該網絡共有8×2+8×8+1=81個參數待定,BP算法在每一輪迭代中對參數進行更新估計,更新公式為:

其中,η用于控制算法中每一次迭代的更新步長,η∈(0,1]。
BP 算法的流程總結如下:
1)輸入訓練集和學習率;
2)使用3.3 節得到的各類權值初始化w1,w2,…,w8。v1,1,v1,2,…,v8,8均初始化為0.5;
3)根據式(7)計算每個訓練樣本的神經網絡輸出;
6)根據式(13)~(16)更新神經元的連接權值及閾值;
7)重復步驟2)~6),以達到停止條件。
停止條件為使訓練集上的累計誤差最小,如式(19)所示。

文中使用Python 編寫層次分析模型和單層感知器模型,仿真的訓練集采用武漢大學發布的2019 屆畢業生就業質量報告,并加以精簡。學習率η設置為0.6,當神經網絡輸出達到穩定時,得到神經網絡的各神經元連接權值和閾值。
使用構造的質量評估模型,評估2019 年某航空職業院校的3 492 名畢業生的就業質量。其中未就業137 人,就業率為96.08%,將已就業學生的數據分兩次進行采集,經過量化和預處理以后輸入到質量評估模型中,得到如圖6 所示的專業評分數據結果。

圖6 基于該模型的某高校專業評分結果
文中結合機器學習和信息分析技術,為高校的就業質量評估提供一種新的方法。基于文中構建的質量評估模型得出的專業評分數據,與實際高校專業質量情況進行比較,結果基本一致,證明了該模型的可靠性。與傳統一次性信息采集不同的是,文中選擇時間間隔一年的兩次就業數據采集,且就業質量的分析主要取決于第二次數據采集。實際操作過程中,遇到了樣本較少的問題,但隨著高校對畢業生的就業信息跟蹤調查的力度加大,這一問題也將得到解決。
該系統的優點在于,采用人工神經網絡可做出接近人類思維的決策,從而降低人力成本、時間成本。且隨著樣本數據的增多和訓練集的擴展,會使評估結果更加可靠,系統的升級與誤差修正也遠比傳統質量評估系統方便、簡潔。