李沛林
(云南省互聯網應急中心, 云南,昆明 650011)
隨著高校不斷的擴招,高校畢業生人數在不斷增加,畢業生的就業競爭越來越激烈,社會就業壓力增大,畢業生就業情況直接關系社會的穩定[1]。一般高校都有相應的畢業生就業管理系統,系統中全面保存學生的就業信息,可以對這些信息進行分析,找到影響高校畢業生就業的因素,并給高校就業工作者提供有價值的參考信息和建議,而高校畢業生就業預測就是一個重要的研究方向[2-4]。
對于高校畢業生就業預測問題,許多學者做了各種嘗試,當前存在許多有效的高校畢業生就業預測方法。如有學者提出了基于灰色理論的高校畢業生就業預測方法[5-6],該方法將高校畢業生就業問題看作一個灰色問題,通過擬合輸入和輸出之間的關系,進行高校畢業生就業預測,該方法簡單,建模效率高,但是由于其簡化了高校畢業生就業預測問題,因此高校畢業生就業預測結果不可靠[7]。隨后出現了基于神經網絡的高校畢業生就業預測方法,通過模擬人類大腦神經網絡的工作原理進行建模[8-9],但是人工神經網絡需要問題的先驗知識,缺陷十分明顯,如高校畢業生就業預測建模過于復雜,高校畢業生就業預測誤差大等[10]。近幾年,出現了基于支持向量機的高校畢業生就業方法[11],該方法不存在神經網絡的缺陷,高校畢業生就業預測效果得到了改善,但是其高校畢業生就業預測建模時間長,效率極低,無法適應當前高校畢業生就業發展要求[12]。
為了獲得更高精度的高校畢業生就業預測結果,本文提出了基于大數據分析技術的高校畢業生就業預測模型(ACO-LSSVM)。首先收集高校畢業生就業相關樣本數據,將其輸入到大數據分析技術—支持向量機進行訓練,擬合高校畢業生就業變化態勢,然后采用蟻群算法根據高校畢業生就業變化態勢對預測模型參數進行優化,構建最優的高校畢業生就業預測模型,最后與其它高校畢業生就業預測模型進行了對比測試,結果表明,大數據分析技術可以更好的描述高校畢業生就業變化態勢,提升高校畢業生預測效果,加快高校畢業生就業預測速度,具有更高的實際應用價值。
高校畢業生就業是一個系統工程,其與多種因素相關,如高校本身的名氣、學生專業、當前經濟、學生本身的學習情況、學生對畢業單位的期望等,具有較強的時變性、多樣性,這給高校畢業生就業預測帶來一定的困難。高校畢業生就業預測問題本質就是通過一定的方法對影響因素和高校畢業生就業率之間的變化關系進行擬合,找到高校畢業生就業變化特點,根據該特點對將來高校畢業生就業變化趨勢進行預測。設一個高校畢業生就業歷史數據為x1,x2,…,xn,y表示將來的高校畢業生就業結果,那么高校畢業生就業預測問題可表示為
y=f(x1,x2,…,xn)
(1)
式中,f()為輸入和輸出之間關系的擬合函數。
為了更好的對高校畢業生就業輸入和輸出之間關系進行擬合,本文引入大數據分析技術中的最小二乘支持向量機對擬合函數進行建模,并引入蟻群算法確定最小二乘支持向量機參數的最優值。
最小二乘支持向量機是一種針對非線性預測問題的大數據分析技術,相對于傳統支持向量機,其繼承了支持向量機的優點,同時進行了一些改進,如:將損失函數變為最小二乘損失函數,不等式約束變為等式約束,優化了耗時的二次規劃問題,復雜度明顯減少,同時提高了求解的速度。
對于訓練集:D={(xi,yi),i=1,2,…,n},通過映射函數φ(xi)將xi∈Rd變換到高維特征空間,建立如下回歸函數
f(x)=ω·φ(x)+b
(2)
式中,ω和b分別表示權向量和偏移量。
最小二乘支持向量機采用誤差平方ξi作為損失函數,這樣最小二乘支持向量機優化問題變為
(3)
式中,C為正則化參數且表示對超出誤差范圍樣本的懲罰度。
引入拉格朗函數對式(3)進行求解,拉格朗函數定義如下
(4)
式中,ai表示拉格朗乘子。
最優解滿足Karush-Kuhn-Tucker條件得到
(5)
同解變換后消除ω和ξi得到矩陣形式為
(6)
式中
(7)
(8)
式中,k(xi,x)具體為
(9)
式中,σ為核寬度參數。
核寬度參數σ和正則化參數C影響最小二乘支持向量機的學習效果,傳統方法采用人工方式隨機確定或者粒子群算法確定,但是它們都存在不足,本文采用蟻群算法確定核寬度參數σ和正則化參數C的最優值,具體過程如下。
(1) 隨機產生多個螞蟻,每一個螞蟻部署在初始節點。
(2) 對于第i只螞蟻,計算其從節點i轉到節點j的轉移概率,具體計算為
(10)

(3) 每一只螞蟻完成一次搜索后,對其經過的路徑上的信息素進行更新,具體如下
(11)

(4) 增加迭代次數,如果小于最大迭代次數,返回步驟(2)繼續進行,直到大于最大迭代次數為止。
(5) 將螞蟻所經過的節點連續起來,組成一個路徑,這樣得到多條路徑。
(6) 選擇最短路徑為蟻群算法的搜索結果,并對最優路徑進行解碼,得到參數σ和C的最優值。
Step1:對于某一個高校畢業生,對它們就業信息進行分析,提取與預測相關的數據。
Step2:對就業數據進行處理,剔除其中錯誤或者無效的數據,并劃分為訓練集和測試集。
Step3:采用最小二乘支持向量機對高校畢業生就業的訓練集進行學習,利用蟻群算法確定核寬度參數和正則化參數的最優值。
Step4:根據核寬度參數和正則化參數的最優值建立高校畢業生就業預測模型,如圖1所示。

圖1 大數據分析技術的高校畢業生就業預測過程
為了分析大數據分析技術的高校畢業生就業預測效果,采用VC ++6.0編程實現仿真實驗,并對仿真實驗測試結果進行分析。為了使大數據分析技術的高校畢業生就業預測結果具有可比性,選擇2種高校畢業生就業預測方法在相同仿真環境下進行對比測試,對比方法設計如下
(1) 最小二乘支持向量機的參數憑經驗采用隨機方式設置,該高校畢業生就業預測方法稱之為LSSVM。
(2) 最小二乘支持向量機的參數通過粒子群算法設置,該高校畢業生就業預測方法稱之為PSO-LSSVM。
由于高校的類型很多,本文基于國家對高校的分類情況,將高校劃分為:985大學,211大學,一本大學,二本學院,高等職業技術學院,對每一種高校,選擇不同數量的畢業生就業數據作為研究對象,它們數量具體分布表1所示。

表1 測試對象數據的分布
采用隨機方式設置最小二乘支持向量機的參數,具體如表2所示。同時采用粒子群算法、蟻群算法在線優化最小二乘支持向量機的參數,根據高校畢業生就業預測誤差最小化為目標,通過不斷的迭代得到的參數最優值如表2所示。對表2的最小二乘支持向量機參數值進行分析可以發現,3種高校畢業生就業預測方法的參數不同,建立了不同的高校畢業生就業預測預測模型。

表2 高校畢業生就業預測方法的參數值
采用高校畢業生就業預測精度和誤差衡量不同方法的性能,對于每一類高校畢業生就業預測數據,隨機選擇1/2數據組成訓練集,用于設計高校畢業生就業預測模型,其它數據對模型的性能進行分析,不同方法預測效果見圖2和圖3。從預測效果可以發現

圖2 預測精度對比

圖3 預測誤差對比
(1) 平均預測精度最低方法為LSSVM,其高校畢業生就業預測誤差最高,這是因為隨機確定參數難以建立理想的高校畢業生就業預測模型,無法描述高校畢業生就業變化特點。
(2) PSO-LSSVM的預測效果要明顯優于LSSVM,這說明采用粒子群算法獲得的參數要優于隨機確定的參數,可以描述高校畢業生就業變化特點,提高了高校畢業生就業平均預測精度。
(3) 在本文所有方法中,ACO-LSSVM的高校畢業生就業預測效果最好,提升了高校畢業生就業平均預測精度,誤差控制在高校畢業生就業實際要求范圍內,獲得了理想的高校畢業生就業預測結果,驗證了ACO-LSSVM應用于高校畢業生就業預測中的優越性。
由于當前高校畢業生數量比較大,因此對于建模方法的效率要求也越來越高,分別統計高校畢業生就業預測的訓練和測試平均時間,結果如表3、表4所示。從表3可知,ACO-LSSVM的高校畢業生就業預測訓練時間要明顯少于LSSVM、PSO-LSSVM,同時從表4也可以發現,ACO-LSSVM的高校畢業生就業預測時間最短,主要是由于蟻群算法找到了更優的參數,最優參數加快了高校畢業生就業預測建模的速度,實際應用價值更高。

表3 高校畢業生就業預測的訓練時間對比 單位:s

表4 高校畢業生就業預測的測試時間(s)對比
高校畢業生就業一直是高校研究人員關注的焦點,其預測結果的科學性有利于高校開展就業工作,而高校畢業生就業是一個系統工程,牽涉到各方面因素很多,使得高校畢業生就業面臨巨大挑戰。為了有效改善當前高校畢業生就業預測效果,提出了基于大數據分析技術的高校畢業生就業預測方法,首先采用大數據分析技術擬合高校畢業生就業的變化規律,并引入群智能算法中的蟻群算法對預測模型參數進行優化,提高高校畢業生就業預測精度,測試結果表明,大數據分析技術較好的解決了當前高校畢業生就業預測中存在的一些問題,減少了高校畢業生就業預測誤差,獲得了比其它方法更優的預測結果,可以應用于實際的高校畢業生就業管理中。