周潤娟,蔡金平,胡長新
(安徽工程大學電氣工程學院,安徽蕪湖241000)
基于遺傳算法的大學生就業信心指數組合預測*
周潤娟,蔡金平,胡長新
(安徽工程大學電氣工程學院,安徽蕪湖241000)
大學生的就業信心指數的變化趨勢,可作為高校制定學生工作計劃、應對當前就業形勢壓力的參考依據,信心指數預測結果的準確性直接關系到政策制定與實施的效果。在分析自回歸、神經網絡及灰色系統等單預測模型的優點與不足基礎上,提出綜合利用各單模型預測信息的組合預測思路,構建基于遺傳算法和信息熵求解單模型權重的組合預測模型。預測結果顯示,組合預測模型在擬合期的表現與神經網絡模型接近,優于其它兩種模型;在預測期遠超過其它模型的預測效果。組合預測模型的擬合性能和泛化性能優越,預測信息可作為高校制定相關政策時的重要參考依據。
大學生就業;信心指數;組合預測;遺傳算法;信息熵
準確掌握大學生就業信心情況,有助于及時把握大學生思想動態,為高校制定人才培養方案和應對就業問題措施,提供科學依據,具有較強的現實意義[1,2]。據人力資源和社會保障部最新統計資料顯示,2014年高校畢業生的就業規模將達到727萬,比2013年增加28萬人,再創歷史新高。運用科學方法及時預測出大學生的就業信心,對高校學生工作的開展尤為重要[3]。
嚴春紅等借鑒經濟領域中的消費信心指數,編制了浙江省高職院校的調查問卷,測度出大學生的就業信心指數,結果顯示浙江省高職生的整體就業信心指數偏低[4]。楊光軍等采用問卷調查方式研究了山東省德州市三所高校的就業信心指數,并用灰色模型法構建了基于時間序列的就業信心指數預測模型,可為高校制定長遠計劃提供參考依據[5]。然而在文[5]中,所構建的灰色模型僅對已有數據進行了擬合,缺少對模型的檢驗環節,模型的預測性能尚未得出。根據金菊良等的研究成果顯示[6],灰色模型法對具有趨勢性的時間序列預測性能較好,但對周期性數據泛化能力較差,不如自回歸法和神經網絡法。
本文提出綜合灰色模型法的趨勢性預測性能和自回歸法、神經網絡法的周期性預測性能,利用遺傳算法(GA)求解三種預測模型的權重,構建出基于GA的大學生就業信息指數組合預測模型(CombinationForecastingbasedonGAmethod,CF-GA)。
CF-GA模型主要思路是組合多個模型的預測性能,提高單模型的適用性。本文選用具有代表的自回歸法(TAR)、神經網絡法(BP)和灰色模型法(GM),分別運行預測模型,根據遺傳算法(GA)計算出單模型的權重值,組合得到組合預測模型結果。因此,CF-GA模型的構建共包括如下6個步驟。
步驟1:數據預處理。
首先,需要對原始數據(X1,X2,…,Xn)進行無量綱化,消除量綱效應。

其次,根據待預測時間序列的數據分布特征,確定模型輸入值、輸出值的個數,構建樣本對(Xn-k,…,Xn-1,Xn),其中Xn為待預測年份的輸出值,Xn-k,…,Xn-1,表示用前k年數據預測第n年的數據。模型構建過程,一般可應用數理統計中的自相關法,確定k值,考慮到大學生就業信心指數數據的小樣本特點,實際使用中,k值可直接取2~4。
步驟2:自回歸模型預測。
自回歸模型(TAR)能有效地描述具有周期性、跳躍性、相依性等復雜現象的非線性動態系統,非常適合處理具有周期性的系統預測問題。其基本思想為:在觀測時序{X(i)}的取值范圍內引入L-1個門限值(r(j),j=1,2,…,L-1),將該范圍分成L個區間,并根據延遲步數k將{X(i)}按{X(i-k)}值的大小分配到不同的門限區間內,再對不同區間內的X(i)采用不同的AR模型來描述,這些AR模型的總和完成了對時序{X(i)}整個非線性動態系統的描述。模型應用時需確定延遲步數k、門限個數L,及各個AR模型的系數,可用最小二乘法或遺傳算法等優化算法求解。限于篇幅,本文不再展開,可參考文獻[6]。
步驟3:神經網絡模型預測。
BP神經網絡是用BP算法訓練的一種多層前饋型非線性映射網絡,網絡中各神經元接受前一級的輸入,并輸出到下一級,網絡中沒有反饋聯接[7]。BP神經網絡通常可以分為不同的層(級),第j層的輸入僅與第j-1層的輸出聯接。BP算法是目前應用最為廣泛且較成功的一種算法,在各行各業都有著廣泛的應用,適合于預測樣本中含有最大、最小值的插值式預測,對趨勢性數據的外延性能較差。BP神經網絡在應用時,需確定隱層節點個數,各層之間的連接系數可通過BP網絡算法求解。
步驟4:灰色系統模型預測。
灰色系統預測模型來源于鄧聚龍等提出的灰色系統,即用微分方程描述事物發展的連續過程,實現預測未來發展的目的,因此適合于預測具有趨勢性特征的時間序列數據。楊光軍等基于大學生就業信心指數數據,建立了GM預測模型,模型運行結果顯示灰色系統模型可準確描述就業信心指數序列。與步驟2、3類似,對灰色系統模型預測更具體的內容可參考文獻[5]。
步驟5:CF-GA組合預測模型。
假設,對同一就業信心指數有m個預測模型分別進行預測,記實際觀測值為yd(t),第i個預測模型的預測值為y(i,t),第i個預測模型的權重為w(i)。其中:時刻t=1~n,n為樣本容量;模型序號i=1~m;w (i)≥0,。則組合預測模型的預測值為

組合預測模型的預測誤差絕對值為

步驟6:遺傳算法求解單模型權重
構建組合預測模型的關鍵是如何合理確定各單模型的權重值w(i),實際上是一個非線性優化問題,遺傳算法特別適合于解決此類問題[8]。金菊良等用遺傳算法建立了預測海洋冰情的組合預測模型[9],對提升單模型的預測效果十分明顯,但經遺傳算法優化后的單個模型權重值顯著超過其它模型,如文[9]的權重值為{0.160,0.004,0.836},預測性能依賴于第3個模型的預測結果,不利于綜合利用其它模型信息,導致組合后的模型適用性較差。實際上,權重值系列為待定的概率密度函數簇。根據信息熵理論,在已有信息約束條件下,應從函數簇中選擇熵值最大的密度函數,據此確定的密度函數更為客觀[10]。
基于上述考慮,本文構建包含最小化預測誤差絕對和、最大化權重值密度函數熵值的多目標函數,如式(4)所示,并用遺傳算法求解,得出單模型的權重值。

將求出的權重值w(i)代入式(2)中得到組合模型預測結果,與擬合期的TAR、BP、GM模型預測結果進行比較,分析組合三種單模型的CF-GA模型的擬合性能。然后,用沒有參加擬合計算的數據樣本,分別檢驗四種模型的預測性能,得出更為可靠的大學生就業信心指數預測結果,進而科學指導高校政策制定實踐。
2.1 數據來源
為便于比較,本文以文獻[5]中采集的山東省德州市三所高校的就業信心指數數據為例,驗證CF-GA模型的性能,預測大學生就業信心的變化趨勢。文獻[5]的就業信心指數位于0~200之間,數值越小表示越沒信心,越大表示越有信心,數值100為“消極”與“積極”的臨界值。圖1顯示2000~2012年大學生就業信心指數與經濟景氣指數的關系。
由圖1可知,就業信息指數與經濟景氣指數的變化方向不一致,經濟景氣指數高的時候,就業信心指數相反處于低位,呈負相關關系,相關系數R=-0.254,且就業信息指數的波動性明顯高于經濟景氣指數,說明僅用經濟景氣指數預測就業信心指數是不夠的,可從就業信心指數的周期性出發加以預測。

圖1 大學生就業信心指數與經濟景氣指數的關系
2.2 單模型預測
2.2.1 TAR模型預測
由于樣本數據較少,模型的延遲步數k=2,TAR模型的門限個數L=1。根據最小二乘法計算結果,門限閾值為106.60,整理得到預測模型如下:

模型擬合期預測結果如表1中第Y_TAR列所示,擬合期誤差絕對值和為92.75。分別用2009年、2010年數據預測2011年,2010年、2011年預測2012年就業信心指數進行檢驗。預測結果顯示,2011年實測數據為122,預測結果為111;2012年實測數據為132,預測結果為131.4,說明所建立的TAR模型在擬合期和檢驗期都有很好的預測性能,可以作為組合預測模型的輸入模型。

表1 CF-GA組合模型法預測結果誤差分析
2.2.2 BP模型預測
BP模型網絡結構中,輸入層節點個數為2,隱層節點個數取3,輸出層節點個數為1,將2000~2010年數據輸入BP網絡中,2011、2012年數據用作檢驗。預測結果如表1中第Y_BP所示,擬合期誤差絕對值和為34.93。2011、2012年的檢驗結果顯示,2011年實測數據為122,預測結果為129;2012年實測數據為132,預測結果為139.3,說明所建立的BP模型在擬合期和檢驗期也有較好的預測性能,可以作為組合預測模型的輸入模型。相對于TAR模型,BP模型在擬合期的表現更加,但檢驗期的表現不如TAR模型,這與BP模型的擬合性能較強,泛化能力較弱有關。
2.2.3 灰色系統模型預測
表1中第Y_GM列出了文[5]中灰色系統模型的預測結果,GM模型在擬合期、檢驗期的誤差絕對值和均大于相應的TAR、BP模型,說明GM模型在應對具有周期波動性的大學生就業信心指數預測中,表現不佳,與灰色系統模型適用于描述趨勢性特征有關。
2.3 模型權重計算
為便于比較基于信息熵改進后的權重情況。分別用傳統的不加熵誤差絕對值最小化單目標函數和改進后的同時考慮誤差絕對值最小化和熵值最大化的加熵多目標函數,進行對比,分別運用遺傳算法求解單模型權重值,如表2所示。

表2 基于遺傳算法的單模型權重計算結果
表2顯示,僅考慮誤差絕對值最小化的單目標函數的權重求解結果,賦予了BP模型0.973的權重,而另外兩個模型權重嚴重偏小。經計算權重分布的熵值為0.143,說明用該目標函數求解出的權重分布不確定性較大。據此權重分布計算擬合期的誤差絕對值和為34.92,接近BP模型的34.93,而檢驗期誤差絕對值和13.50超過了TAR模型的11.61,說明組合后的預測模型效果反而不如單模型的預測性能。
根據本文提出的引入信息熵理論,構造多目標函數求解出的權重分布較為合理,熵值0.958說明權重分布的不確定性較小,據此權重計算出的擬合期、檢驗期效果較好。
2.4 CF-GA組合預測
將三種模型(i=1,2,3)的擬合期(t=2002~2010)輸出值y(i,t)和權重值w(i)式(2)中,得到組合預測模型的擬合期輸出值,列入表1中第Y_GA列。CF-GA模型的擬合期誤差絕對值和50.66劣于BP模型的34.93,但優于TAR和GM模型的92.75和101.2。說明組合三種模型后的CF-GA具有與BP模型接近的優秀擬合性能。
將三種模型的檢驗期(t=2011,2012)輸出值和權重值代入式(2)中,可求出CF-GA模型的檢驗期預測值,其誤差絕對值和僅為3.34,遠小于GM模型的21.2和BP模型的14.37,也優于TAR模型的11.61,顯示出較強的泛化預測能力。
組合模型與單模型預測結果比較見圖2所示。進一步說明,綜合多種單模型的預測信息后,CF-GA模型具有更加強大的適用性,尤其適合于應用于預測大學生信心指數,或者類似的時間序列預測問題。

圖2 CF-GA組合模型與單個模型預測結果比較
2.5 預測結果討論
從圖2的CF-GA模型預測結果可知,雖然近年就業壓力較大,但學生對就業的信心仍較高,且成逐年上升趨勢。這與國家層面對大學生就業問題的重視,和制定的各種鼓勵自主創業政策的實施,具有很大的關系。高校在面對當前的就業形勢下,準確地獲取大學生就業信心指數及其變化趨勢,可及時調整高校學生工作重心,確保大學生對就業問題的信心。從圖2可知,德州市的三所高校根據大學生就業信心指數,及時調整、制定了學生工作計劃,將就業信心教育提升到大學生思想政治教育的層次上,同時多次舉辦各種職業規劃和實踐活動,解讀國家和各級地方政府的就業政策,將大學生的就業信心指數穩定在了上升趨勢中。
(1)單個預測模型在大學生就業信心指數預測中,表現不同,BP模型具有較強的擬合能力,TAR模型具有較強的泛化能力,GM模型就業信心指數預測中表現一般。
(2)CF-GA組合預測模型,綜合利用了單個預測模型的預測信息,極大地提升了模型的預測性能。CF-GA在擬合期的表現與BP模型接近,而在預測期則獲得了遠小于其它三種模型的預測誤差,顯示出強大的泛化預測能力。
(3)大學生就業信心指數的預測結果,可作為高校制定學生工作計劃的依據。根據預測結果,及時調整工作方向,可進一步地穩定大學生的就業信心。
注釋及參考文獻:
[1]裴菁.上海市大學生就業區域流向的實證研究[J].上海理工大學學報(社會科學版),2014(1):90-95.
[2]朱欣.我國大學生就業市場研究狀況綜述[J].高校教育管理,2013,7(5):121-124.
[3]周紅霞.大學生就業信心狀況調查與對策分析[J].東北師大學報(哲學社會科學版),2011(3):214-217.
[4]嚴春紅.大學生就業信心指數的設計與分析[D].金華:浙江師范大學,2007.
[5]楊光軍.灰色神經網絡在大學生就業信心指數預測中的應用[J].計算機系統應用,2013,22(8):190-193.
[6]金菊良,丁晶,魏一鳴.基于遺傳算法的門限自回歸模型在淺層地下水位預測中的應用[J].水利學報,1999(6):51-55.
[7]張鈴,張鈸.神經網絡中BP算法的分析[J].模式識別與人工智能,1994,7(3):191-195.
[8]汪應洛.系統工程[M].北京:機械工業出版社,2008:120-125.
[9]金菊良,魏一鳴,丁晶.用基于加速遺傳算法的組合預測模型預測海洋冰情[J].系統管理學報,2003,12(4):367-370.
[10]張明,金菊良,張禮兵.信息論方法在水資源系統工程中的應用[J].中國人口·資源與環境,2007,17(2):79-83.
Combination Forecasting of the Employment Confidence Index of College Student by GeneticAlgorithm
ZHOU Run-juan,CAI Jin-ping,HU Chang-xin
(College of Electrical Engineering,Anhui Polytechnic University,Wuhu,Anhui 241000)
Employment confidence index of college student(ECI)can be used as a reference to assist the university administrators to formulate work plans and cope with the current employment situation.So,the most accurate forecasting results are needed,which is directly related to the effect of policy formulation and implementation.In order to solve this problem,the advantages and disadvantages of the model of threshold auto-regression(TAR),back propagation(BP)and gray model were analyzed.According to analysis result,we propose a combined forecast model based on the genetic algorithm(CF-GA),in which GA is used to determinate the weight of each single model.The forecast results show that the performance of CF-GA has a good behavior to other three models,which can be used as an important reference for the university development of relevant policies.
college student employment;confidence index;combination forecasting;genetic algorithm;entropy
G647.38
A
1673-1891(2015)03-0077-04
2015-05-11
教育部人文社會科學研究專項任務項目(項目編號:12JDSZ3041);安徽高校省級科學研究項目(項目編號:2011sk637);安徽工程大學青年科研基金項目(項目編號:2013YQ38)。
周潤娟(1984-),女,安徽太湖人,碩士,助教,研究方向:環境污染綜合治理。