基于增強特征判別性的典型相關分析和分類集成的助學金預測方法

2018-12-14 05:31:20張芳娟杜圣東

計算機應用 2018年11期

張芳娟，楊燕，杜圣東

(1.西南交通大學信息科學與技術學院，成都 611756； 2.四川省云計算與智能技術高校重點實驗室(西南交通大學)，成都 611756)(*通信作者電子郵箱yyang@swjtu.edu.cn)

0 引言

隨著信息技術的發展，特別是教育信息化的發展，數據驅動下的教育改革逐漸成為研究熱點。助學金評定工作作為高等院校一項重要的工作，傳統的評定方法大多是通過大量的學生個人問卷調查及其他相關信息來完成，評定過程工作量大且管理效率低。在高校管理逐漸數字化的背景下，使得高校學生助學金的便捷、高效預測成為可能。國內外有關助學金評定方法的研究和相關工作很少，因此，對于助學金評定方法的研究具有很大實際意義。

學生的經濟情況跟學生的在校行為(一卡通的消費金額、消費方式、學習習慣等)是緊密相關的。利用學生的生活行為數據和學習表現數據能夠更加真實和準確地預測需要資助的學生。學生在校行為數據是多源異構數據，如果將數據集進行簡單的組合，不能充分利用數據間的關聯、互補信息，而多視圖學習能在學習過程中考慮到不同視圖信息間的相互聯系[1-2]，因此，將學生在校行為數據從學習維度和生活維度劃分為兩個不同視圖，增強判別典型相關方法利用視圖間的關聯、互補信息，獲得優于僅僅基于單視圖數據學習的性能[3]。

典型相關分析(Canonical Correlation Analysis, CCA)[4]通過最大化視圖間的相關性獲得較單一視圖更好的學習效果, 但是作為無監督特征處理方法，基于CCA建立分類模型未必會獲得好效果。Sun等[3]在CCA的基礎上提出了判別典型相關分析(Discriminative Canonical Correlation Analysis, DCCA)，DCCA的優化目標在于使得類內相關性最大的同時類間相關性最小，但是沒有針對分類預測任務優化組合特征本身; 周旭東等[5]也在CCA的基礎上提出了增強視圖組合特征判別性的典型相關分析(Combined-feature-discriminability Enhanced Canonical Correlation Analysis，CECCA)，其優化目標考慮了視圖組合特征的判別性，但是忽略了類別之間的相關性; Xing等[6]在CCA的基礎上提出了完善的典型相關分析(Complete Canonical Correlation Analysis, C3A)，C3A在計算耗時、耗資源方面得到了優化，該優化目標并不是專門針對分類預測任務。上述方法雖然都各有優點，但并不是專門針對分類預測任務，沒有綜合考慮視圖組合特征的判別性和視圖類別相關性, 因此，本文提出一種增強判別性的典型相關算法。一方面將視圖的類間和類內相關性考慮進來，在最大化類內相關的同時最小化類間相關；另一方面考慮了視圖組合特征的判別性，從而達到增強特征判別性的目的，提高分類預測性能。

分類集成通過組合多個個體分類器來構建一個高精度的分類器，從而改善單個分類器的不穩定性同時提升分類預測準確率[7]。文獻[8-10]基于單一分類器構建集成模型，主要針對文本分類問題；文獻[11]采用加權投票法將支持向量機(Support Vector Machine, SVM)、樸素貝葉斯(Naive Bayes, NB)和邏輯回歸三種不同方法進行集成，獲得優于單個分類器的結果。相比上述幾種集成方法, 分類熵集成(Classification Entry, CE)[12]方法不僅考慮分類器的整體性能，而且還考慮了個體分類器的局部性能，可以自適應地為各個分類器分配權值，因此，高校助學金的預測模型基于EN-DCCA和分類熵集成策略構建。K最近鄰(K-Nearest Neighbor,KNN)方法簡單, 適用于大部分樣本集；隨機森林(Random Forest, RF)本身作為一種集成方法，能獲得較好的分類預測性能；樸素貝葉斯在小樣本集上也能獲得較好的效果，所以利用KNN、RF和NB三種方法作為個體分類器[13-14]。

1 相關原理

1.1 判別典型相關分析

設有來自c個類別的n對數據樣本集{(xi,yi)}∈Rp×Rq，其中，xi和yi分別來自兩個不同的視圖。記樣本集X=[x1,x2,…,xn]∈Rp×n,表示X有n個樣本，每個樣本有p個特征屬性; 記樣本集Y=[y1,y2,…,yn]∈Rq×n，Y也有n個樣本，每個樣本有q個特征屬性。

DCCA的優化函數是最大化類內相關且同時最小化類間相關，在該目標下獲得樣本集X和樣本集Y的投影向量wx和wy，DCCA的優化目標定義為：

s.t.wxTCxxwx=1,wyTCyywy=1

(1)

其中:Cw為類內相關矩陣，E[·]是數學期望，Cxx、Cyy分別為樣本集X、Y的自協方差矩陣，且Cxx=E[XXT]=XXT、Cyy=E[YYT]=YYT。

通過使用Lagrange乘子法，該問題的求解可通過解式(2)廣義特征值問題得到：

(2)

1.2 增強組合特征判別分析

跟DCCA定義方式相同，且記X=[x1,x2,…,xn]∈Rp×n，Y=[y1,y2,…,yn]∈Rq×n。設樣本集X、Y來自c個不同的類別，CECCA算法的優化目標是在CCA的優化目標函數中加入線性判別分析項，由于樣本X、Y的組合特征有并行化組合和串行組合兩種組合方式,因此，CECCA對應有CECCA_P和CECCA_S兩種具體算法，分別對并行組合特征和串行組合特征進行優化，從而得到視圖X、Y的投影向量wx和wy。

下面以CECCA_P進行說明，并行化組合特征的CECCA優化目標為：

s.t.wxTCxxwx=1,wyTCyywy=1

(3)

利用Lagrange乘子法，該優化問題可通過求解式(4)廣義特征值得到：

(4)

1.3 信息融合方法

Sun等[15]首次使用CCA方法實現了信息的特征融合。特征投影向量wx和wy將數據集X、Y分別映射為典型相關屬性特征wxTX、wyTY，wxTX和wyTY有串行組合和并行組合兩種方式。

串行融合：

(5)

并行融合：

(6)

基于分類建立模型時，利用上述信息融合方法便可得到融合之后的組合屬性特征，再將該組合特征用于分類預測任務。

1.4 分類熵集成

分類熵集成[12]同時考慮分類器的整體性能和個體分類器的局部性能，并且可以自適應分配權值。文獻[12]對該算法進行了詳細描述，設L為類別個數，算法主要包括以下4個步驟：

1)計算個體分類器的混淆矩陣；

2)計算全局準確率和局部準確率；

3)根據全局準確率和局部準確率計算個體分類器輸出類別的權重，在此基礎上計算分類熵CEj，j表示類別；

4)集成分類器輸出類別。

(7)

2 增強特征判別性的典型相關分析算法

增強特征判別性的典型相關分析(Enhanced-Discriminative Canonical Correlations Analysis, EN-DCCA)算法在判別典型相關分析(DCCA)方法的基礎上引入判別分析項，同時考慮了視圖類別的相關性和視圖組合特征的判別性，可求得更具有判別性的典型相關特征，從而提高分類預測性能。

同樣設有來自c個類別的n對數據樣本集{(xi,yi)}∈Rp×Rq，其中，xi和yi分別來自兩個不同的視圖。記樣本集X=[x1,x2,…,xn]∈Rp×n,表示X有n個樣本，每個樣本有p個特征屬性，記樣本集Y=[y1,y2,…,yn]∈Rq×n，Y也有n個樣本，每個樣本有q個特征屬性。

EN-DCCA的優化目標最大化類內相關的同時最小化類間相關，而且考慮了組合特征的判別性，在這兩者目標下獲得兩個視圖的投影向量wx和wy；EN-DCCA屬性特征并行組合的優化目標定義為：

s.t.wxTCxxwx=1,wyTCyywy=1

(8)

則EN-DCCA的優化目標可進一步簡化為:

s.t.wxTCxxwx=1,wyTCyywy=1

(9)

2wxTXAYTwy

s.t.wxTCxxwx=1,wyTCyywy=1

(10)

其中:A=2U-I，I為單位矩陣。

利用Lagrange乘子法，對優化目標建立Lagrange函數:

L(λ,wx,wy)=wxTCwwy+wxTXAXTwx+wyTYAYTwy+

2wxTXAYTwy-λ(wxTCxxwx+wyTCyywy-2)

(11)

對wx求偏導：

2XAYTwy-λ(XXTwx+wxTXXT)

(12)

化簡則有:

(13)

同理可得：

(14)

(15)

(16)

因此EN-DCCA的優化模型可通過求解式(17)廣義特征值問題得到。

(17)

3 基于EN-DCCA和分類集成的預測模型

本文基于提出的增強視圖特征判別性的典型相關分析算法EN-DCCA和分類集成方法來構建高校學生助學金預測模型。針對分類任務，EN-DCCA方法可以獲得更具判別性的特征，利用分類集成方法進行預測，進一步提升預測準確率。

基于EN-DCCA和分類集成的高校助學金預測模型如圖1所示。

圖1 高校助學金預測模型

圖1 所示的預測模型實施步驟如下：

1)數據預處理并獲得判別典型相關特征。

學生在校行為數據一般都是多源異構數據，首先將數據預處理，得到生活行為和學習表現兩個視圖數據，然后利用EN-DCCA算法進行特征學習，獲得增強判別性的典型相關特征。

2)構建分類集成模型實現資助金預測。

利用k-折交叉采樣方法[17]對EN-DCCA方法學習的特征進行抽樣，得到k個數據子集用于訓練個體分類器，最后用分類熵集成策略實現助學金預測，并輸出預測結果。

基于EN-DCCA和分類集成的助學金預測具體算法如下。

1) 基于EN-DCCA方法提取判別典型相關特征。

輸入：視圖X、Y，樣本類別個數c；

輸出：視圖X、Y的投影矩陣wx、wy。

a)構建增強視圖特征判別性優化目標；

b)計算Cw、Cxx、Cyy、A；

c)代入b)步計算的參數求解wx、wy；

d)計算判別典型相關特征wxTX、wyTY；

e)wxTX和wyTY信息融合；

2) 用分類集成方法完成預測。

輸出：預測結果。

b)基于數據子集訓練個體分類器；

c)利用分類熵集成方法對分類結果集成，最后輸出預測結果。

4 實驗及結果分析

4.1 數據集介紹及實驗設計

本實驗利用的數據來自多個學院8 376名本科生在校行為記錄，主要包括6部分：一卡通消費記錄、圖書借閱記錄、寢室門禁數據、圖書館門禁數據、學生成績數據、助學金信息數據。其中學生的消費信息、圖書借閱信息、寢室門禁、圖書館門禁數據來自學生的校園一卡通，每個數據集包含幾百萬條記錄，按學生的ID號進行處理。通過一卡通的消費記錄，可以提取出學生平均每周去食堂的消費次數、每次消費的金額、學校超市購物金額、打印資料費用等其他生活消費支出；寢室和圖書館門禁數據可以得到學生去圖書館自習的頻次、自習時間長短以及學生早出晚歸的時間等信息；圖書借閱記錄可以大致了解學生借閱的數量等信息。學生的助學金獲得情況作為類別標簽，分為4個類別：沒有助學金、三等助學金、二等助學金和一等助學金。另外，考慮到學生隱私問題，學號、成績等信息都經過脫敏處理。

為了能夠充分利用數據之間的相關、互補信息，將多維度學生在校行為數據從學習和生活方面劃分為兩個不同視圖，利用本文提出的EN-DCCA方法選擇出更具判別性的特征，并與CCA[4]、DCCA[3]、CECCA[5]方法進行對比；然后利用基于KNN、RF、Naive Bayes的分類集成方法進行預測，并與基于單分類器的預測結果對比。

4.2 EN-DCCA特征提取

為了驗證EN-DCCA算法特征提取的有效性，使用樣本分布圖展示效果。樣本分布圖是對特征利用主成分分析(Principal Component Analysis, PCA)[20]方法提取最重要的2維或3維特征展示樣本的分離性或者聚集現象，以此觀察目標特征是否具有判別性。本文分別選擇了CCA、DCCA、CECCA方法與本文提出的EN-DCCA算法進行對比, 結果如圖2所示。

圖2 不同特征學習方法的樣本分布情況

圖2(a)是將學生生活視圖數據和學生行為視圖數據并行組合的原始樣本分布情況；通過圖2(b)可以看出, CCA僅考慮了視圖數據間的相關性，并不具有判別性；從圖2(c)和圖2(d)可以發現, DCCA和CECCA不僅考慮了視圖數據間的相關性而且考慮了視圖的判別性；圖2(e)說明EN-DCCA算法效果較DCCA和CECCA，類內更緊湊，類間差距更大，因此具有更強的類別判別性。類別1樣本個數最多，表示不能獲得助學金學生，類別4樣本個數最少，代表能夠獲得一等助學金的學生，類別2和類別3分別代表獲得三等和二等助學金的學生。

4.3 基于EN-DCCA和分類集成的資助金預測性能

為了說明本文提出的EN-DCCA和分類集成助學金預測模型的有效性，將EN-DCCA提取的增強判別性特征用分類集成模型(記為RKN-CE)識別，并與RF、KNN、NB等不同單分類算法的預測效果進行對比；選擇CCA、DCCA、CECCA與EN-DCCA算法作對比。同時，為了說明將學生在校行為數據劃分為兩個不同視圖先進行特征學習再識別的優越性，與單個視圖也作了對比，單視圖數據集是將數據集X、Y并行組合，記為XY[5]，其中，數據集X是學生的在校行為數據，數據集Y是學生的學習表現數據。對比方式是將單視圖數據集XY不作任何處理，直接進行分類預測，并與EN-DCCA在相同分類集成方法下進行對比。先用訓練數據集訓練本文提出的預測模型，然后用測試數據集驗證該模型的有效性，為了能夠直觀展示預測結果，用預測準確率來評價該模型的有效性。

圖3給出了在RKN-CE集成方法下，對數據集XY，用CCA、DCCA、CECCA與EN-DCCA方法的10次實驗結果對比，可以看出EN-DCCA方法的效果比CCA、DCCA、CECCA方法要好；同時，基于EN-DCCA特征學習的預測效果比XY單視圖直接預測效果更優。圖4給出了用EN-DCCA方法獲得判別典型相關特征，然后用分類集成RKN-CE方法預測，并與單個分類算法RF、KNN、Naive Bayes的10次實驗預測結果對比，可以看出分類集成RKN-CE模型較其他單分類器能獲得更好的結果。

圖3 EN-DCCA與其他方法識別率對比

圖4 RKN-CE與單分類算法識別率對比曲線

表1是單視圖數據集XY、典型相關特征學習方法CCA、DCCA、CECCA、EN-DCCA處理的數據集分別用單分類器RF、KNN、NB和分類集成RKN-CE方法進行10次實驗得到的平均結果。最后一行的平均值表示同一種特征學習方法在不同分類器下的一個平均結果，加粗的值表示同一種分類方法針對不同特征學習算法的最好預測結果。本文提出的EN-DCCA和RKN-CE模型的預測平均值為90.01%，較其他典型相關特征學習方法和分類方法組合效果都好，且EN-DCCA特征學習方法在不同分類方法下的預測平均值為86.33%，平均識別效果優于其他特征學習方法。

表1 助學金預測平均識別準確率 %

5 結語

本文提出一種多視圖特征判別方法EN-DCCA，同時考慮了視圖特征間的相關性和視圖組合特征的判別性，并結合分類集成方法，構建了一種高校助學金預測模型。首先，將學生在校行為數據從生活和學習兩方面處理為兩個不同視圖; 然后用EN-DCCA特征判別方法對兩個視圖數據進行特征學習，將得到的增強判別典型相關特征用分類集成方法進行預測識別。為了說明EN-DCCA方法的有效性，分別與已有的典型相關分析方法DCCA、CECCA等進行了對比，實驗結果表明，基于EN-DCCA的特征學習方法識別率更好；同時，為了說明分類集成方法的優越性，與單分類算法進行了對比，最終實驗結果表明基于EN-DCCA和分類集成模型能有效實現高校助學金預測。EN-DCCA方法主要針對兩個視圖進行特征學習，在后續的研究中希望將該方法擴展到三個及以上視圖中。