李兆飛,熊興中,湯勇,Volchenkov Dimitry
(1.四川輕化工大學自動化與信息工程學院,四川 宜賓 644002;2.人工智能四川省重點實驗室,四川 宜賓 644002;3.比勒費爾德大學先進認知交互技術中心,德國 比勒費爾德 D-33718)
隨著20世紀90年代末中國高等教育實行擴招政策以來,高等院校畢業生數量持續增長,社會就業崗位需求相對不足,畢業生教育結構、就業觀念與市場需求脫節的結構性矛盾仍然突出,畢業生就業工作面臨極大壓力[1]。高等院校畢業生的就業情況是國家及地方各級主管部門、學校和社會都非常關心的問題。高等院校畢業生信息數據庫涵蓋了高等教育環境的各個方面,能提供對各級教育機構目前狀況的一個意義深遠的觀察,通過對其分析,可以幫助指導專業建設和有針對性的課程改革,能預測復雜的教育系統發展的未來趨勢。然而,高等院校畢業生信息數據庫包含海量、結構異構、不同度量和非度量的陣列統計數據,如何從這些模糊、有噪聲、不完全、隨機、事先無法預知卻又成倍增長的潛在有用的“大數據”信息中獲取有價值的知識是目前亟需解決的問題。
傳統上用于高等院校畢業生就業趨勢分析系統的數據處理方法,使用簡單的SQL 語句進行數據庫查詢及基本的數據統計[2-4],并通過簡單的圖表進行可視化展示。這種方法雖然便于直接比較,但并沒有提供高等教育系統的綜合情況,其分析方法和呈現方式單一。目前,針對畢業生就業數據挖掘較多采用的技術主要是決策樹算法、神經網絡算法、關聯規則算法和模糊集方法等。如文獻[5]基于修正函數和屬性優先值的改進ID3算法,從時間復雜度和準確度方面進行畢業生數據挖掘。文獻[6]通過對ID3 算法生成畢業生就業分析模型并進行剪枝優化。文獻[7]基于云服務決策樹分類算法提高了大學生思想政治教育效率。文獻[8]采用ID3 算法生成就業預測決策樹模型進行就業決策分析。文獻[9]采用K-means 聚類分析和R-C4.5 決策樹方法挖掘影響高職畢業生就業質量的相關因素。文獻[10]基于變精度粗糙集的決策樹模型進行就業數據分析。但是這些決策樹方法計算量大,產生的決策分類規則魯棒性較弱。文獻[11]采用元分析方法對就業結果的影響進行了分析,但該方法本質上也是統計的方法,呈現方式單一。文獻[12]通過減少頻繁項集生成的數量,進行候選項集剪枝效率優化的改進Apriori算法,提高了算法的時間和空間復雜度,并應用于職業高中的教學評價與就業分析中。文獻[13]通過Apriori 算法在屬性選擇過程中進行數據預處理量化操作,然后進行對象聚類,得到支持度和置信度,形成對高校的就業分析規則。文獻[14]利用代價敏感的非頻集過濾矩陣尋找k-頻集構造過濾矩陣的Apriori 算法,進行高職院校就業數據挖掘。文獻[15]采用關聯規則挖掘Apriori 結合ID3 算法,對嘉華學院學生就業進行了分析。但是,無論怎么改進Apriori 算法,都會產生大量的中間項集,適應性較窄。因此,為滿足對高校畢業生就業系統數據庫幾十萬,幾百萬,甚至上億條多樣化和異構的畢業生信息數據進行挖掘分析及呈現的需求,必須建立一種先進而有效的畢業生就業趨勢分析系統的數據處理及呈現方法。
基于此,通過研究提出一種統計頻率特征距離的高校畢業生就業趨勢鄰接樹分析方法。該方法通過對不同度量和非度量的海量、結構異構的陣列統計數據,引入離散分布(圖)來合理的表征“待分析類別”間的距離,并基于相應分布的待分析類別之間的距離矩陣,進一步采用聚類分析技術進行定量多標準比較、分析。
提出的統計頻率特征距離的高校畢業生就業趨勢鄰接樹分析模型構建中,首先選擇一個“待分析類別”,而所有“比較特征”都是隨機變量,通過比較特征的離散概率統計分布(由隨機變量的值及其相應的概率組成)來描述待分析類別的特性并快速進行傅立葉變換(FFT);然后,通過待分析類別的頻域分布間的Wasserstein 距離(采用兩個向量間的標準歐幾里德距離)進行量化計算,得到待分析類別間的對稱相似距離矩陣, 定量、多標準地進行待分析類別的比較;最后,通過比較待分析類別聚類分析的鄰接生成樹的形式,對高校畢業生現狀進行可視化表征。構建的數據分析算法流程如圖1所示。

圖1 高等院校畢業生就業趨勢數據分析算法流程圖
由于圖表是一種極好的工具,可以直觀地比較不同類別(如高校)的產品成果和其他重要特征,因此,該步驟中對“待分析的類別”(也稱為“類、分類”或者“被觀測特征”,如“高等院校”)的每一個值,考慮每個相關的其他特征(如“專業”、“畢業生去向”和“工作單位類別”等,稱為“比較特征”)都是隨機變量X。X 作為一種可能的文本值(狀態)具有X1,X2,…,Xn多種,則作為分析的類別,其概率也有多種情況P(X1),P(X2),…,P(Xn)。離散概率分布(通過常用的SQL 語言或者相關統計算法實現)由隨機變量X 的值及其相應的概率P(X ) 組成,通過圖能得到體現。最終,從數據庫中就可以直接計算待分析的類別(如“高等院校”)的文本值或狀態的經驗分布。例如,如果選擇的類別是“院校”,選擇比較的特征是“就業單位行業”,那么部分院校畢業生就業單位行業可能的最終等級分布情況如圖2 所示。該方法具有可伸縮性、實時性、跨平臺性,允許與潛在的數據庫(如包括數十億個人信息的數據庫)同時工作。

圖2 部分院校畢業生就業單位行業可能的最終等級分布(從左到右依次排列)
雖然圖表便于對待分析類別進行直接比較,但并沒有提供整個高等教育系統的綜合情況。因此,通過引入離散分布(圖)來合理地表征待分析類別之間的距離,將有助于進行大規模的數據聚類分析。但該方法的主要問題在于數據庫中特定狀態的文本數據不構成度量空間,因此直接使用標準概率度量作為圖之間距離的方法不可取。在Volchenkov Dimitry 之前的研究中[16-19],常把離散分布圖視為由圖表示的信號,形成了對非度量結構數據集的分析技術。對圖上定義的擴散過程的譜分析,能夠基于自回避隨機游動的第一通道時間方法定義結構化數據集上的度量。該框架擴展了Wasserstein 度量的概念,Wasserstein 度量被定義為兩個概率分布在一個給定的度量空間的距離,如果是非度量空間則輔以圖形結構進行定義[20]。如果每一個分布被視為在頂點堆積的一個單位數量的“沙”,這樣的度量就是隨機行走者將一堆沙變成另一堆沙的最小“成本”(時間步長)。由于描述可能的文本值(狀態)給待分析類別之間的精確圖形結構關系未知,該步驟中假設它是一個完全圖,如圖3所示。

圖3 文本值(狀態)與待分析類別之間的完全圖結構
完全圖上定義的信號的譜等價于離散傅立葉變換(DFT),可以用酉DFT矩陣的形式表示如下:

式中,ωN= e-2πiN,i 為虛數單位,e 為自然對數底數,N 為數據個數。利用DFT,每個由圖表示的采樣信號yk(特別是直接從數據庫中計算狀態的分布)能被分解成頻域中的傅里葉模式Yk。
離散傅里葉逆變換如式(2)所示:

式中,N 為數據點個數,n 為變換點數,Yk為DFT 變換后的數據,k = 0,1,…,N - 1,在頻域中傅立葉變換的振幅采用下式計算得到:

式中,Re(Yk)和Im(Yk)分別表示Yk的實部和虛部, || Yk為頻域中傅里葉變換的振幅,分布的DFT 可以視為一個坐標變換,它只是簡單地指定一個新坐標系中向量的分量,保 持 點 積 和 向 量 范 數y = (y1,y2,…,yn) →y?=(Y1,Y2,…,Yn)。

DFT 的正交性對于該算法框架是最重要的,因為它允許使用兩個向量之間的標準歐幾里德距離作為Wasserstein度量,標準歐式距離公式如下:式中,Distance(y - z ) 表示兩個向量y 和z 間的歐式距離表示兩個向量y 和z 編碼后的向量y?和z?間的歐式距離,Yk和Zk為y 和z 經DFT 變換后的數據。為了評估向量y 和z 編碼后的兩個分布之間的距離,該算法框架中定義的距離為分布矢量中的對齊位置的不匹配分數。并且采用快速傅立葉變換(FFT)得到頻域的處理過程,解決數據特征尺度的統一問題,就可以使用統計特征分布間的標準歐式距離進行量化計算,從而得到待分析類別間的對稱相似距離矩陣。
離散傅立葉變換在很多領域都有廣泛的應用,并且有著名的快速算法(快速傅立葉變換),有效地用于計算離散傅立葉變換。本文提出的方法通過離散傅立葉變換計算分布之間的距離,具有統計魯棒性,能夠容忍部分不完整和偽造數據,使其可以用于不同的計算平臺且易于實現。
由于采用DFT 計算待分析類別(如院校)之間的距離,得到了描述每兩個待分析類別之間距離的一個對稱的、實值的、零對角的矩陣,基于相應分布的類別之間的距離矩陣,可以進一步采用各種聚類分析方法。本研究采用了系統進化樹的聚類形式,將密切相關的類別(如院校)置于同一個內部節點,其分支長度緊密再現了相關類別之間的觀察距離。特別地,使用鄰接樹方法[21]將一般數據聚類技術通過給定的距離,作為一個聚類度量應用于序列分析。鄰接算法拓撲結構相當于一個星型網絡,從一個完全不具備決斷能力的樹,通過連接最近矩陣中歐式距離最近的元素進行迭代,直至樹具有判斷的功能。并且,樹中所有分支的長度是已知的,分支(花穗)長度表明按照指標或選擇特征對數據的分級及排名(擬合優劣程度):分支越短,表明(與線性排序的距離矩陣)契合度越好;分支越長越遠,擬合度及關聯度越低,說明就業或單位等情況越不好。在每一步的近鄰連接貪婪的加入這對分類樹,最大限度地減少生成的鄰接樹的長度(分支長度的總和,距離矩陣中距離數值的一個特殊加權和),最終,生成一個接近最優的拓撲結構。
該步驟中,采用鄰接數算法對分析大型數據集(數百個或數千個分類單元)具有快速而實用的優點,并且有許多可用的程序實現該算法,使該方法在不同的計算平臺可行且易于實現。也使分析結果可以實現直觀明了的可視化表征,解決了決策者對待分析類別間的相似關系進行決策處理的困難,并且具有快速和魯棒分析的特點。
研究對象為四川省教育廳就業指導中心提供的截至2016 年8 月底的2016 屆畢業生就業信息數據庫(包含了390 000 多條省級高等院所畢業生信息)。該數據庫是一個矩形表,包括字段為:學籍信息(民族,政治面貌,學歷,專業,專業方向等),就業信息(畢業生去向,就業單位名稱,就業單位組織機構,就業單位性質,就業單位行業,就業單位所在地,工作職位類別),派遣信息(報到證簽發類別,報到證簽往單位名稱及簽往單位所在地)及報到證信息(報到證編號和報道起始時間)等。提出的統計頻率特征距離的高校畢業生就業趨勢鄰接樹分析方法中,統計特征選擇主要的14 個文本列或字段為:高等院校名稱、性別、政治面貌、學歷、專業、生源所在地、學制、師范生類別、困難生類別、畢業生去向、就業單位行業、就業單位性質和工作職位類別及簽往單位所在地,每個列或字段中的每個記錄可以僅用幾個文本值來表示,例如,在列的“就業單位行業”,該值可以是采礦業、制造業、建筑業等。
對該數據庫基于高等院校作為“待分析特征”,分別選擇畢業去向、就業地域類型、就業省份分布、就業行業分布、就業職位分布及就業單位性質進行了分類研究,由于篇幅所限,這里只給出了部分研究分析結果。
由四川省2016屆畢業生信息,統計了120所高等院校學生畢業去向(包括:簽就業協議形勢就業、科研助理、待就業、自主創業和升學等14種畢業去向)的分布。通過分析,大多數院校畢業生以簽勞動合同形式、簽就業協議和其他錄用形式就業為主。通過本文所提出的算法,得到各高等院校畢業生去向的整體聚類結果如圖4所示。
圖4 中,所生成的輻射樹左邊部分高校(四川大學、四川文理學院、四川化工職業技術學院)畢業生的畢業去向分布擬合最差(即該類高校畢業去向分布最分散);圖4 中下邊“燈泡”狀部分高校(西南財經大學、四川職業技術學院及四川工業管理職業學院)表示高等院校集團,這部分高等院校的畢業去向分布雜亂無章,很難區分優劣,但這部分學校中有兩類高校(四川郵電職業技術學院到四川工程職業技術學院為一簇,四川外國語大學成都學院到四川工業管理職業學院為另外一簇)具有較相似的畢業去向分布。圖4 中右上方分支部分高校(四川大學錦城學院到中國航空研究院611 研究所等)就業畢業去向分布擬合較好(即該類高校就業畢業去向分布較集中);圖4 中最右上方部分高校(中國燃氣渦輪研究院到等中共四川省委黨校)就業省份分布擬合最好(即該類高校就業類型分布最集中)。

圖4 高等院校畢業生畢業去向的聚類結果
由四川省2016屆畢業生信息,統計120所高等院校畢業生的就業地域類型(包括:直轄市、省會城市、計劃單列市、地級市和縣級市6 種地域類型)的分布。通過分析,大多數院校畢業生就業最多的地域是省會城市,其次是地級市。通過算法得到各高等院校畢業生就業地域類型的整體聚類結果如圖5所示。
圖5 中,所生成的輻射樹最右邊的族,分別為核工業西南物理研究院、西南通信研究院、西南技術物理研究院、中共四川省委黨校、西南自動化研究所、電信科學技術第五研究所、中國核動力研究設計院及中國燃氣渦輪研究院在同一個節點下,表明這些高校具有相似的就業地域類型,該部分高校就業地域分布擬合較差(即該類高校就業類型分布較分散)。左上方“燈泡”狀部分(四川托普信息職業技術學院、四川師范大學文理學院及成都職業技術學院等)表示高等院校集團,這部分高等院校的就業地域類型分布雜亂無章,很難區分優劣。右上方分支部分如四川大學、四川音樂學院、川北醫學院等高等院校畢業生的就業地域分布擬合最差(即該類高校就業類型分布最分散)。圖5 中,“燈泡”狀下邊部分高校(四川商務職業學院、四川藝術職業學院及四川西南科學大學城市學院等)就業地域分布擬合較好(即該類高校就業類型分布較集中)。圖5 中最右下方部分高校(中科院成都生物研究所、中國科學院光電技術研究所及中科院成都計算機應用研究所等院校)就業地域分布擬合最好,即該類高校就業類型分布最集中。

圖5 高等院校畢業生就業地域類型的聚類結果
由于篇幅所限,高等院校作為“待分析類別”對其它比較特征(如就業省份、就業行業及就業單位性質等)可以進行類似的分析。同時,也可以選擇畢業去向、就業地域類型、就業省份、就業行業及就業單位性質等作為“待分析類別”,其它特征或字段作為比較特征對高校畢業生相關數據進行聚類分析。
基于統計頻率特征距離的高校畢業生就業趨勢鄰接樹分析方法的研究,及對四川省2016 屆畢業生數據庫的部分待分析類別的研究分析表明,該方法可以實現省級或國家高等教育系統數百萬大學畢業生大規模數據的研究分析(數據規模越大,效果越好),其算法效率及可視化效果優于單純用SQL 語言進行數據庫查詢并通過圖表呈現的方式。該方法比決策樹算法計算量小,決策分類魯棒性更強;也較Apriori 算法簡單、分析效率高,是一種先進而有效的方法。能解決教育主管部門及相關機構進行大數據挖掘及戰略決策困難的問題,也可用于經濟、社會保障、衛生保健系統等各種大規模統計數據庫的分析,具有較好的應用前景。