王程
(商洛學(xué)院 經(jīng)濟管理學(xué)院, 商洛 726000)
大學(xué)生就業(yè)問題越來越受到社會的關(guān)注,大學(xué)教育也已經(jīng)常說的精英教育逐步變成了大眾教育[1],隨著就業(yè)形勢的越來越嚴峻,大學(xué)生就業(yè)情況成為一所高校教育優(yōu)良程度的評判標(biāo)準(zhǔn)[2],就業(yè)率較高的高校成為大家的首選。對于高校來說,就業(yè)問題需要進行指導(dǎo)和管理,對于這種管理的流程需要分析不同的角度,從學(xué)生角度來分析,大學(xué)生就業(yè)首先要有一個合理的評估方法,對于學(xué)校的角度,學(xué)校對于畢業(yè)生的就業(yè)要增加管理的力度。針對高校的就業(yè)情況,除了必要的統(tǒng)計之外,更加需要建立以模型為基礎(chǔ)的評估制度,該模型需要考慮學(xué)生的考試成績等等,并且通過學(xué)生的綜合能力,比如科研能力、社交能力等等形成一種特征參數(shù),該參數(shù)是通過篩選甄別海量的數(shù)據(jù)所歸納出來,基于大數(shù)據(jù)的分析總結(jié)出評估模型,并且運用該模型支撐未來畢業(yè)生的就業(yè)選擇問題,提供必要的理論依據(jù)。
在目前的業(yè)界尚未對大數(shù)據(jù)由清晰明確的定義,它的第一次出現(xiàn)是在麥肯錫公司的報告中出現(xiàn)的,在維基百科上的較為模糊的定義是很難運用軟件的手段獲取大量的內(nèi)容信息,對其處理后整理得出的數(shù)據(jù)集合。其他計算機學(xué)科的學(xué)者給出的定義是數(shù)據(jù)的尺度極為巨大[3],常規(guī)的數(shù)據(jù)處理軟件無法對數(shù)據(jù)識別、存儲和應(yīng)用的海量數(shù)據(jù)信息[4]。雖然無法確切地給出精確的定義結(jié)論,然而在大數(shù)據(jù)領(lǐng)域的學(xué)者和教授們都是認可大數(shù)據(jù)所具有的幾個明顯特征,第一種是規(guī)模性[5],數(shù)據(jù)的規(guī)模已經(jīng)無法用當(dāng)前的計量模式去計算,獲取數(shù)據(jù)的行為也需要發(fā)生變化。第二種是高速性,海量數(shù)據(jù)往往是以人類無法想象的速度來產(chǎn)生的,在很短的時間內(nèi)就可以積累出海量的數(shù)據(jù)。第三種是多樣性[6],數(shù)據(jù)的多樣性,既是指數(shù)據(jù)的表現(xiàn)形式是多樣的,文字、音頻、視頻、圖片等等,另一方面又具有內(nèi)容的多樣性,許多不同觀點的內(nèi)容。互相交織在一起,十分復(fù)雜,難以有效管理。
大數(shù)據(jù)的管理是一項極為艱巨又困難的項目,其主要的措施包含三個方法,分別是對數(shù)據(jù)的集成、數(shù)據(jù)分析和數(shù)據(jù)解釋[7]。首先對于收集到的數(shù)據(jù)先進行必要的集成和存儲,然后再對數(shù)據(jù)進行分析,對于大學(xué)生就業(yè)問題,應(yīng)考慮就業(yè)問題的繁瑣性,對就業(yè)情況的分析要全面具體,更要注重某一因素的變化帶來的就業(yè)情況的變化。針對分析后的數(shù)據(jù)歸納時,要有合理的解釋過程[8],對數(shù)據(jù)的解釋和結(jié)果歸納在將來都要作為理論基礎(chǔ)來指導(dǎo)就業(yè)實踐問題,其分析的數(shù)據(jù)信息收集圖如圖1所示。

圖1 基于大數(shù)據(jù)管理的信息收集監(jiān)測系統(tǒng)細節(jié)圖
大數(shù)據(jù)的分析與管理,尤其涉及大學(xué)生自身能力與綜合實力考量的數(shù)據(jù)分析,有助于提升學(xué)生學(xué)習(xí)的興趣,增加學(xué)生的創(chuàng)業(yè)意識和學(xué)習(xí)能力,針對該模型時的信息統(tǒng)計,進而得出就業(yè)率評估模型,如圖2所示。

圖2 基于大數(shù)據(jù)管理的信息統(tǒng)計分析圖
在創(chuàng)建大學(xué)生就業(yè)率評估模型的過程中,通過獲取畢業(yè)生的歷史畢業(yè)結(jié)果與就業(yè)數(shù)據(jù),將這些數(shù)據(jù)集成在一起[9],然后進行分類總結(jié),提取出大學(xué)生們的就業(yè)數(shù)據(jù)中的特征參數(shù),轉(zhuǎn)換為建立模型所必要的特征向量,具體的原理分如下面的描述,首先假設(shè)R表示樣本數(shù)據(jù)集,O代表就業(yè)估計的期望信息量,K代表歷史學(xué)生就業(yè)數(shù)據(jù),Y代表學(xué)生就業(yè)的數(shù)據(jù)樣本,則利用式(1)畢業(yè)生的就業(yè)估計的樣本數(shù)據(jù)進行分類所示。p代表學(xué)生就業(yè)的分類函數(shù),T表示學(xué)生就業(yè)數(shù)據(jù)的不同方式的類型,如式(1)。
(1)
對于大學(xué)生來說,F(xiàn)表示的是高校畢業(yè)的學(xué)生就業(yè)狀態(tài)向量,w代表高校畢業(yè)生中待預(yù)測的畢業(yè)生利用式式子(2)組建學(xué)生就業(yè)率估計模型如下式(2)。
(2)
傳統(tǒng)的就業(yè)分析模型不適于互聯(lián)網(wǎng)時代數(shù)據(jù)量越來越復(fù)雜的情形,所以傳統(tǒng)的方法對數(shù)據(jù)的分析既不高效,又容易出現(xiàn)偏差,分析和預(yù)測的結(jié)果往往不會讓人滿意,所以基于大數(shù)據(jù)的分析更加精確一些。
在創(chuàng)建就業(yè)評估模型時,考慮每一個學(xué)生的特性,不同特性信息首先分類,根據(jù)決策樹,保證分類到的數(shù)據(jù)信息可以獲得最大數(shù)據(jù)增益率,組建的方程如下所示,由S代表給出的學(xué)生就業(yè)數(shù)據(jù)集,n代表其就業(yè)學(xué)生的數(shù)據(jù)樣本數(shù)量,{C1,C2…,Ck}代表數(shù)據(jù)類別的集合,針對Si代表學(xué)生的不同就業(yè)信息類別Ci中的樣本數(shù)量,并且需要滿足于如下的式(3)的條件,如式(3)。
(3)
并且在綜合考慮后,則可以利用式(4)的表述對于給定的待估計學(xué)生信息數(shù)據(jù)進行分類的期望信息。
(4)
其中,對于數(shù)據(jù)樣本A的劃分熵由Z來表示,Sij則代表條件概率,從而得到當(dāng)前的樣本數(shù)據(jù)集合A的信息增益如式(5)。
(5)
為了計算出高校畢業(yè)生的就業(yè)率的最大信息增益率,需要利用畢業(yè)生不同屬性的學(xué)生信息熵[10],該熵值用split(A)來表示,用以針對數(shù)據(jù)A的分析,特此加以區(qū)分。總之分析出的學(xué)生畢業(yè)后的就業(yè)信息增益率如式(6)。
(6)
綜上所述,可以根據(jù)式子分析出對于評估模型某些定性的分析方式,在創(chuàng)建了基于決策樹的高校畢業(yè)生的就業(yè)分類方程后,主要是為了求得畢業(yè)生的特征向量,使其滿足于最大的信息增益率,獲得最為優(yōu)化的結(jié)果。
通過上面的高校畢業(yè)生就業(yè)率的增益率數(shù)據(jù)分析的理論基礎(chǔ),對于這些數(shù)據(jù)采用灰色系統(tǒng)理論進行分析、總結(jié)歸納,來估計未來畢業(yè)生的就業(yè)情況?;疑到y(tǒng)理論是控制論中的重要理論,對小樣本的不確定性問題有著良好的指示,對于評估學(xué)生就業(yè)率的問題魯棒性很強,同時應(yīng)用該理論到模型建立問題中去,依據(jù)上述的最大信息增益率基礎(chǔ),設(shè)定模型建立的步驟,式(7)作為宏觀預(yù)測任意年度的某一學(xué)科門類畢業(yè)生就業(yè)數(shù)量的模型,則該模型的殘差為式(7)。
(7)
其中,分子上的兩個表達式相減,被減數(shù)和減數(shù)分別是灰色微分方程的時間相應(yīng)序列。下一步驟的展開則用來得到該數(shù)據(jù)樣本的白化方程,σ代表對于評估的模型的關(guān)聯(lián)度檢測,X是指畢業(yè)生數(shù)據(jù)信息的緊鄰均值序列,Y代表當(dāng)前全體畢業(yè)生的就業(yè)率狀態(tài),B則是指明歷史上的就業(yè)率信息,運用灰色理論的式(8)的白化方程為式(8)。
(8)
由U來代表對學(xué)生就業(yè)估計所需的關(guān)系數(shù)據(jù),ε代表畢業(yè)生的就業(yè)信息特征最大化的類內(nèi)的相似性關(guān)系,M是指模型的小誤差概率,則利用式子可以創(chuàng)建待評估的整體的學(xué)生就業(yè)估計模型W,具體如下式(9)所示,其中γ是數(shù)據(jù)信息的維度。
(9)
為了更好地實現(xiàn)基于大數(shù)據(jù)分析模型進行大學(xué)生就業(yè)成功率評估的可行性,將實驗重點關(guān)注評估的一致性作為評價指標(biāo),同時針對大數(shù)據(jù)分析模型進行大學(xué)生創(chuàng)業(yè)成功率評估的精度也作為考量的對象。在實現(xiàn)中為了彰顯實驗的全面性和公正性,將文獻中所提基于統(tǒng)計模型作為對比模型進行共同的分析和對比,從評估的全面性和評估的誤差率這兩方面來對大學(xué)生就業(yè)成功率評估的質(zhì)量進行考量。利用Matlab2017的軟件,在Windows平臺下進行安裝,基于Intel Core i7的處理器,在Matlab中輸入上述分析的模型語言轉(zhuǎn)換成Matlab的函數(shù)和輸入的數(shù)據(jù)信息。
利用matlab搭建大學(xué)生就業(yè)率評估模型,如表1所示。

表1 模型就業(yè)率評估的誤差
對其進行仿真,評測該模型的有效性,實驗數(shù)據(jù)選取某省高校的畢業(yè)生數(shù)量,通過與統(tǒng)計數(shù)字的比較就可以分析出,Q1和Q2的數(shù)量上基本一致,表現(xiàn)出其誤差很小,數(shù)據(jù)擬合出的曲線非常一致,Q1是模型預(yù)估出的就業(yè)畢業(yè)生的數(shù)量,Q2是真實的畢業(yè)生數(shù)量。
同時為了體現(xiàn)該評估模型的優(yōu)越性,需要與其他評估模型作出比較,針對聚類分析相關(guān)的預(yù)估模型,作出合適的比較過程。針對誤差比較,對比兩種模型的誤差分析,可以確切地看出本文采用灰色系統(tǒng)理論建立的模型的誤差小于聚類分析的構(gòu)建模型,如下圖3所示。

圖3 采用不同模型的評估誤差對比圖
接下來再比較分析兩個模型的穩(wěn)定性,可以清晰地分辨出其穩(wěn)定性的差異,該差異體現(xiàn)出本文的模型評估的穩(wěn)定性較好,幾乎都處于85%以上,其高可靠的穩(wěn)定評估的畢業(yè)生就業(yè)率較為平穩(wěn),不會出現(xiàn)較大的變化差錯,其具體的描述為圖4所示。

圖4 采用不同模型的穩(wěn)定性對比圖
以上的仿真結(jié)果可以表明,該評估模型對于就業(yè)率的分析較為高效,為后續(xù)分析就業(yè)的措施和政策的實施,提供了一定的理論基礎(chǔ),具有良好的指導(dǎo)性指示。
本文為滿足對于大學(xué)畢業(yè)生就業(yè)率的探索,基于大數(shù)據(jù)的分析,找出適當(dāng)而合理的分析模型,該模型分析出畢業(yè)生的就業(yè)情況,作為一定的就業(yè)率分析依據(jù),首先,介紹大數(shù)據(jù)的定義與特征,以及本文基于大數(shù)據(jù)的特征構(gòu)建模型,最后將模型與傳統(tǒng)的預(yù)測模型比較,在穩(wěn)定性的方面顯示出較為優(yōu)越的特性,同時其誤差也表現(xiàn)的較為微小。在后續(xù)的研究中,將繼續(xù)提高試驗的精度,引入神經(jīng)網(wǎng)絡(luò),對模型的確立更加精準(zhǔn)。