王 珺 衛(wèi)金茂 張 璐
(南開大學(xué)計算機與控制工程學(xué)院 天津 300071) (南開大學(xué)軟件學(xué)院 天津 300071) (weijm@nankai.edu.cn)
基于保留分類信息的多任務(wù)特征學(xué)習(xí)算法
王 珺 衛(wèi)金茂 張 璐
(南開大學(xué)計算機與控制工程學(xué)院 天津 300071) (南開大學(xué)軟件學(xué)院 天津 300071) (weijm@nankai.edu.cn)
在模式識別中,特征選擇是一種非常有效的降維技術(shù).特征評價標(biāo)準(zhǔn)在特征選擇過程中被用于度量特征的重要性,但目前已有的標(biāo)準(zhǔn)存在著只考慮類之間的分離性而未考慮其相關(guān)性、無法去除特征之間的分類冗余性以及多用于單變量度量而無法獲取子集整體最優(yōu)性等問題.提出一種保留分類信息的特征評價準(zhǔn)則(classification information preserving, CIP),并使用多任務(wù)學(xué)習(xí)技術(shù)進行實現(xiàn).CIP是一種特征子集度量方法,通過F范數(shù)實現(xiàn)已選特征子集的分類信息與原始數(shù)據(jù)分類信息的差異最小化,并通過l2,1范數(shù)約束選擇特征個數(shù).近似交替方向法被用于求解CIP的最優(yōu)解.理論分析與實驗結(jié)果表明:CIP選擇的最優(yōu)特征子集不僅最大程度上保留了原始數(shù)據(jù)類別之間的相關(guān)性信息,而且有效地降低了特征之間的分類冗余性.
特征選擇;多任務(wù)學(xué)習(xí);分類信息保留;特征冗余;近似交替方向法
特征選擇是一種非常有效的降維方法,其旨在從原始數(shù)據(jù)中選擇一組具有較高區(qū)分能力的特征組成特征子集[1],從而達(dá)到降低維度以及提高精度的目的[2].特征評價準(zhǔn)則在特征選擇過程中必不可少,被準(zhǔn)則評價為優(yōu)秀的特征會被加入到特征子集中而成為降維空間的一個維度,而非優(yōu)的特征會被淘汰.

Fig. 1 Distributions of 2-dimensional instances belonging to three classes圖1 3類樣本在2維空間的分布圖
目前常見的特征評價準(zhǔn)則在通常情況下多用于單變量度量,其缺點在于無法保證選出的特征子集的最優(yōu)性.首先,對某些類別具有高辨識度的特征不能被選出.如圖1(a)所示,特征fi能較好地分離類別1和類別3,卻不能辨識屬于類別2的樣本.同樣,特征fj能較好地辨識類別2,但無法辨識類別1和類別3.所以在使用單變量評價準(zhǔn)則的特征選擇中,fi與fj會由于不能有效識別所有類而被賦予較低的權(quán)重,從而被淘汰.然而,在由2個特征組成的子空間中,所有樣本均可以被正確識別,如圖1(b)中直方圖所示.這歸因于fi與fj對不同的類別具有互補的識別性能,而這種互補性在單變量度量中往往被忽視.其次,特征之間的高度冗余性也是造成單變量度量標(biāo)準(zhǔn)選出的特征子集往往比預(yù)期性能要差的原因.冗余特征意味著其所包含的分類信息已包含于其他已選擇的特征中,無法提供新的有價值的分類信息[3].而單變量度量往往無法排除掉這類特征.

Fig. 2 Correlation of two features for recognizing the target class圖2 2個特征識別目標(biāo)類別時的相關(guān)性
針對單變量準(zhǔn)則的以上問題,特征子集選擇法受到越來越多的關(guān)注,代表性的有SPFS(similarity preserving feature selection)[4]等.SPFS不僅被證明是諸多單變量準(zhǔn)則[5-10]的更一般形式,而且能有效降低特征冗余性.然而,SPFS也有2點缺陷:
1) 其降低的特征冗余性并非特征之間用于識別目標(biāo)類別的冗余信息,如圖2所示.圖2中,陰影部分為特征fi與fj分別提供的獨立的分類信息,網(wǎng)格(紅色)部分為2個特征共享的分類信息,即2個特征之間的分類冗余信息,而黑色部分為與分類無關(guān)的冗余信息.SPFS度量的是黑體部分與紅點部分之和,顯然是不合理的.只有降低特征之間與分類有關(guān)的冗余性,才能有效提高所選特征子集的識別性能.
2) 以SPFS為代表的保留樣本相似性的方法通常以在降維空間最大化類間離散度為目標(biāo),但卻忽視了類間的相關(guān)性信息.這一點在多標(biāo)記數(shù)據(jù)的降維問題[11]中尤為明顯.多標(biāo)記分類中,一個樣本通常屬于多個分類,所以類與類之間具有較強的相關(guān)性[12-14].僅僅度量類間離散度、而忽略類間相關(guān)性的特征選擇方法,顯然是不夠合理的.
針對以上問題,本文提出一種保留分類信息的特征選擇算法CIP(classification information preserving),并通過多任務(wù)學(xué)習(xí)技術(shù)進行了實現(xiàn).對比其他特征選擇算法,CIP具有3點優(yōu)勢:
1) CIP是一種特征子集選擇方法,可以解決采用單變量度量無法保證子集最優(yōu)性的問題;
2) CIP可以有效地降低特征間的分類冗余性,從而提高特征子集的分類識別性能;
3) CIP可以在降維空間最大程度上保留原空間類別間的相關(guān)性信息,從而對多標(biāo)記數(shù)據(jù)有較好的分類效果.
近年來,基于保留樣本相似性的特征選擇法應(yīng)用較為普遍.不僅諸多傳統(tǒng)的特征評價準(zhǔn)則可以被涵蓋其中,如希爾伯特-施密特獨立性準(zhǔn)則(Hilbert-Schmidt independence criterion,HSIC)[5]、拉普拉斯得分(Laplacian Score)[6]、費舍爾得分(Fisher Score)[7]、微量比準(zhǔn)則(trace ratio)[8]及ReliefF[9]等,且基于其核心思想,一些新方法也被不斷提了出來,如譜特征選擇(spectral feature selection,SPEC)[10]、樣本相似性保留特征選擇SPFS[4]等.
HSIC通過核函數(shù)來度量特征與類別之間的依賴性,以選出對類別依賴性最大的特征子集.Laplacian Score是一種基于拉普拉斯特征映射和局部保留投影的度量方法,局部保留能力強的特征會被選入到最優(yōu)特征子集中.Fisher Score通過度量類內(nèi)緊湊度與類間離散度[15]來判定特征的識別性能,優(yōu)秀的特征可以保證在降維空間中同類樣本之間的距離較小、而不同類樣本之間的距離較大.同樣的想法也被用于ReliefF中.不同的是,ReliefF統(tǒng)計的是隨機抽取的樣本與其在同類及不同類中的若干最近鄰樣本之間的差異性.基于譜圖理論,SPEC試圖在降維空間中最大程度上保留原空間的譜信息,來獲取對各分類較高的辨識度.該方法不僅可用于有監(jiān)督的特征選擇,而且同樣適用于無監(jiān)督的特征選擇[16].在文獻(xiàn)[4]中,一種更具普適性的樣本相似性保留算法SPFS被提出,該方法被歸結(jié)為HSIC,Laplacian Score,F(xiàn)isher Score,trace ratio,ReliefF,SPEC的一般形式.
以上方法是比較流行且有效的特征選擇方法,但仍存在無法度量特征間分類冗余性、無法在降維空間保留類別間的相關(guān)性信息以及多數(shù)方法只能用于單變量度量等問題.而本文提出的CIP方法可以較好地解決這些問題.

F=(fj)∈n×m描述,響應(yīng)yi∈c由類標(biāo)記C=(cl)∈描述.則保留分類信息的特征子集評價準(zhǔn)則CIP定義如下:
(1)
其中,S為c個類的相似度矩陣,k為選擇特征的個數(shù).

其中,j=1,2,…,m.
對于式(1)有:



命題1. CIP可以最小化特征間的分類冗余性.
證明.

),



證畢.

命題2. CIP可以最大化保留原空間的類間相關(guān)性信息.
證明.
tr(STH)=((XW)TCSCT(XW))=

其中,sl1,l2代表類cl1與cl2之間的相似度.由此可得:


證畢.
式(1)中的CIP準(zhǔn)則是一個整數(shù)規(guī)劃問題.因此它是NP難問題,直接求解比較復(fù)雜.此外,式中的l2,0范數(shù)約束也是非平滑的,這意味著式(1)的收斂速度通常會比較慢[17].鑒于以上2方面原因,本節(jié)將重新規(guī)劃CIP的求解形式,進而使用稀疏多任務(wù)學(xué)習(xí)技術(shù)對其進行實現(xiàn).
3.1 CIP的多任務(wù)學(xué)習(xí)規(guī)劃
將相似性矩陣S進行譜分解,可得:
(2)
其中,σ1≥σ2≥…≥σc,Φ和Σ分別為S的特征向量與特征值矩陣.則式(1)可以表示為
(3)
其中,p是指示變量,反映了對應(yīng)的特征是否被選中.顯然這是一個多變量回歸問題,可以通過多任務(wù)學(xué)習(xí)技術(shù)來解決[18-19].按照這個思路,將式(3)進一步表示為
(4)

將使用拉格朗日增量法求解式(4)中的多變量最小化問題.式(4)的等價形式可表示為
(5)
則定義拉格朗日函數(shù)如下:

(6)


對L1(U)而言,有等式成立:
(7)

(8)
通過梯度下降法求解式(8),可得其最優(yōu)解為
(9)
同理U在[t+1]次迭代的最優(yōu)解可表示為
(10)


(11)
先固定變量p,則可得W的最優(yōu)解為


(12)

(13)
其中,τ>0,W[t]為W在第[t]次迭代得到的最優(yōu)解.則W在第[t+1]次的最優(yōu)解為

(14)
同理,p的最優(yōu)解也可以通過固定W得到.此時式(11)等價于以下的最小化問題:
(15)
值得注意的是,矩陣V為了問題簡化而在上述求解過程中取值被暫時固定.現(xiàn)采用近似交替方向法(proximal alternating direction method, PADM)[20]來實現(xiàn)以上求解,則可知在此框架下,V在[t+1]次迭代的最優(yōu)解可表示為

(16)
3.2 CIP的算法設(shè)計
算法1將使用PADM來實現(xiàn)3.1節(jié)的推導(dǎo).PADM是一種有效的解決多變量回歸問題的規(guī)劃方法.在文獻(xiàn)[20]中已證明,對?β>0,PADM可以從任何初始點{W[0],U[0]}開始迭代,而最終收斂于式(5)的最優(yōu)解{W*,U*}.
算法1. 保留分類信息的特征選擇法(CIP).
輸入:F=(f1,f2,…,fm),C,S,k,β,τ,λ;
輸出:p[t].


③ while “未滿足收斂條件”
④ 根據(jù)式(10)計算U[t+1];
⑤ 根據(jù)式(14)計算W[t+1];

⑦ 根據(jù)式(16)更新V[t+1];
⑧t=t+1;
⑨ end while;
⑩ returnp[t].
就時間復(fù)雜度而言,算法1中從m個候選特征里排序選出最優(yōu)的k個特征的時間復(fù)雜度為O(klogm).因此,CIP總的時間復(fù)雜度為O(t(m2c2+nmc2+klogm)).
本節(jié)將CIP方法與7種比較流行的特征選擇方法進行比較,這些方法包括SPEC,SPFS,ReliefF,mRMR(minimal redundancy maximal relevance)[21],Laplacian Score,F(xiàn)isher Score,MSMTFL(multi-stage multi-task feature learning)[19].其中,SPEC,SPFS,ReliefF,Laplacian Score,F(xiàn)isher Score可視為保留樣本相似性的方法,且除SPFS之外其他方法均為單變量度量,而SPFS為特征子集度量.mRMR是一種基于互信息[22]的特征選擇方法,不僅算法本身的性能比較高,而且被證明可以有效的降低特征之間的冗余性,所以也將其與CIP進行比較.MSMTFL是一種多任務(wù)學(xué)習(xí)方法,它通過截斷l(xiāng)1,l1范數(shù)來求解非凸優(yōu)化問題,從而實現(xiàn)多任務(wù)稀疏特征選擇.
4.1 實驗設(shè)置

對于CIP而言,其類間相似度矩陣S定義為


值得注意的是,算法1中涉及到CIP選擇過程的收斂條件,這里采用2種收斂條件,只要滿足其一即可判定為收斂:
1) 最大迭代次數(shù)tmax=103;

4.2 人工數(shù)據(jù)
在spider①環(huán)境下隨機生成2組帶有噪聲特征的測試數(shù)據(jù),以測試對比算法對噪聲特征的處理性能.在2組數(shù)據(jù)中,只有前5個特征與目標(biāo)類別高度相關(guān),剩余特征均為與分類無關(guān)的高斯噪聲特征.在第1組數(shù)據(jù)中,特征數(shù)m固定為50,樣本數(shù)n從30逐漸增加到300,間隔為30.在第2組數(shù)據(jù)中,樣本數(shù)n固定為300,特征數(shù)m從30逐漸增加到300.
各對比算法按照各自特征評價準(zhǔn)則對數(shù)據(jù)中的所有特征進行排序,實驗結(jié)果記錄下前5個高度相關(guān)特征在各個排序結(jié)果中的平均位置.位置越靠前、即所得結(jié)果值越小.說明算法對噪聲特征具有越好的抗噪能力.實驗結(jié)果如圖3所示.
由圖3可以看出,無論是樣本數(shù)量改變還是候選特征數(shù)量改變,CIP選擇最優(yōu)特征的能力都是比較出色的.在圖3(a)中,當(dāng)樣本數(shù)量較少時,各方法從噪聲特征中選出有用特征是比較困難的,這種情況下CIP的性能要明顯優(yōu)于其他算法.隨著樣本數(shù)量增加,各算法選擇特征的能力也逐漸增強,此時CIP的表現(xiàn)比較優(yōu)秀而且穩(wěn)定.在圖3(b)中,隨著候選特征數(shù)量的增加,CIP與mRMR,Laplacian Score,F(xiàn)isher Score表現(xiàn)均比較穩(wěn)定,而SPFS的波動比較明顯,說明SPFS對噪聲特征的處理能力要弱于其他算法.這主要是由于SPFS從本質(zhì)上來講是一種去冗余的特征選擇方法,在本實驗中其采用了前向的貪心搜索策略,所以在對候選特征進行評價選擇時,SPFS會優(yōu)先選擇低冗余特征而非具有較強分類能力的特征,因此在本實驗中其性能要弱于其他對比方法.

Fig. 3 Average ranks of the correlated features with the increase of instance number and feature number圖3 相關(guān)特征隨著樣本數(shù)和特征數(shù)增加的平均排序位置
4.3 單標(biāo)記數(shù)據(jù)
本節(jié)與4.4節(jié)將測試各算法在真實數(shù)據(jù)上的特征選擇性能.14組單標(biāo)記數(shù)據(jù)在本節(jié)被用來進行測試,如表1所示:

Table 1 Test Data of Single-Label Task
表1中既有低維度數(shù)據(jù),也有高維度數(shù)據(jù).類別數(shù)目從2~16不等,所以以下的實驗中同時包含了2分類問題及多分類問題.數(shù)據(jù)來源包括UCI數(shù)據(jù)①、微陣列數(shù)據(jù)(microarray)[4,10,23]以及臉部識別數(shù)據(jù)(face recognition)[4,6,10].各對比算法依次選取1,2,…,50個最優(yōu)特征組成特征子集,即特征數(shù)k從1依次增加到50.Ionosphere數(shù)據(jù)集和Tennis Major Tournaments數(shù)據(jù)集的特征數(shù)m<50,所以這2個數(shù)據(jù)集的k值最多增加到m.
4.3.1 分類精度
在weka②環(huán)境下被選擇出的特征子集的識別性能分別通過SMO(sequential minimal optimization)分類器、樸素貝葉斯(Na?ve Bayesian,NB)分類器及K-近鄰(K-nearest neighbor,K-NN)分類器進行測試.其中,SMO分類器是對經(jīng)典支持向量機(support vector machine, SVM)的一種實現(xiàn)算法,具有高效、易實現(xiàn)、適用于大規(guī)模數(shù)據(jù)學(xué)習(xí)等優(yōu)點.NB分類器假設(shè)特征之間彼此獨立,通過估計樣例在類條件下的后驗概率來判斷其類別.K-NN分類器是一種基于距離度量的學(xué)習(xí)算法,其通過考慮每個樣例K個最近鄰的分類情況來判斷該樣例所屬的類別.
各分類器分別進行10重的10折交叉驗證測試,最高分類精度如表2~4所示.每行最優(yōu)結(jié)果用粗體標(biāo)出,最后一行統(tǒng)計了各算法在所有測試數(shù)據(jù)集上的平均分類精度.
由表2~4可以看出,CIP算法的性能總體上要優(yōu)于被測試的其他特征選擇算法.值得注意的是:通常情況下在多任務(wù)學(xué)習(xí)中,正則參數(shù)λ與懲罰參數(shù)β需要根據(jù)測試數(shù)據(jù)集的不同進行相應(yīng)的調(diào)節(jié),最常用的方法是交叉驗證法.在本實驗中,為了提高CIP的運行效率,而對所有測試數(shù)據(jù)集固定使用統(tǒng)一的參數(shù)設(shè)定.如果進行調(diào)參操作,CIP的性能通常比表2~4中的結(jié)果還會有所提高.

Table 2 Maximal SMO Classification Precision for Selected Feature Subset via Each Method

Table 3 Maximal Na?ve Bayesian Classification Precision for Selected Feature Subset via Each Method

Table 4 Maximal K-Nearest Neighbor (K=3) Classification Precision for Selected Feature Subset via Each Method
4.3.2 分類冗余性
分類冗余性是衡量特征子集是否優(yōu)秀的一個重要標(biāo)準(zhǔn).冗余性越小,子集中各特征之間共享的分類信息越少,從而子集整體上提供的有效的分類信息也就越多.定義特征子集的分類冗余性如式(17)所示:
(17)



Table 5 Average Classification Redundancy for Selected Feature Subset via Each Method
4.4 多標(biāo)記數(shù)據(jù)
多標(biāo)記數(shù)據(jù)與單標(biāo)記數(shù)據(jù)每條樣本屬于且僅屬于一個類別不同,其部分或者全部樣本具有1個以上的類別標(biāo)記.也就是說,類別之間是具有關(guān)聯(lián)性的.本節(jié)將測試CIP,SPEC-1,SPFS-SFS在多標(biāo)記數(shù)據(jù)上的特征選擇性能,以及在降維空間保留原空間類別之間相關(guān)性的能力.
從Mulanlibrary①下載6組多標(biāo)記數(shù)據(jù)進行測試,如表6所示.表6中除了記錄有每組測試數(shù)據(jù)集的特征數(shù)m、樣本數(shù)n以及類別數(shù)c,還記錄了類標(biāo)簽集合的勢LC,即每條樣本所屬類別的平均數(shù)量.

Table 6 Test Data of Multi-Label Task
4.4.1 分類精度和漢明損失
在meka②環(huán)境下對各對比算法選擇出的特征子集的分類性能進行測試.分類器使用BR(binary relevance),基礎(chǔ)分類器采用SMO.對特征子集進行10折交叉驗證分類測試,平均分類精度及平均漢明損失如表7和表8所示.

Table 7 Average BR+SMO Classification Precision for Selected Feature Subset via Each Method

Table 8 Average BR+SMO Hamming Loss for Selected Feature Subset via Each Method
分類精度用于衡量樣本是否能被正確分到其所屬的所有類別中,而漢明損失則用于衡量樣本是否被錯誤地分到某一個類別中.由表7和表8可以看出,對于這2個度量指標(biāo)CIP的表現(xiàn)均優(yōu)于SPEC和SPFS方法.后2種方法只關(guān)注類間分離性,而無法度量及保證類間相關(guān)性.CIP旨在在降維空間最大程度上保留原空間中的類間相關(guān)性信息,因此比SPEC和SPFS更適合在多標(biāo)記數(shù)據(jù)中進行特征選擇.
4.4.2 類間相關(guān)性
度量與保留類間相關(guān)性信息是多標(biāo)記特征選擇算法所要面臨的主要問題之一.有效地保留這些信息有助于識別分類樣本、提高算法性能.在以下的實驗中,通過式(18)來計算特征子集所保留的類間相關(guān)性信息與原空間相關(guān)性信息之間的差別:

(18)

度量結(jié)果如表9所示,每行中最小的殘差取值被用粗體標(biāo)出.從表9可以看出,CIP具有優(yōu)于SPEC和SPFS的保留類間相關(guān)性信息的能力,僅次于CIP表現(xiàn)的是SPFS,該方法通過保留樣本間的相似性來最大化降維空間中類別之間的分離性,所以對于類間的相關(guān)性信息也具有一定的保留性能.
Table 9 Average Residual Class Correlation Information in the Feature Subset Selected by Each Method

表9 各方法選出的特征子集的平均殘留類間相關(guān)性信息量
本文研究了多任務(wù)特征選擇問題.目前流行的特征選擇方法面臨單變量度量不能保證全局最優(yōu)、無法降低特征間分類冗余性及無法保留原空間類別之間的相關(guān)性等難題.本文提出一種保留分類信息的特征子集選擇方法CIP,并通過多任務(wù)學(xué)習(xí)技術(shù)進行了實現(xiàn),由此解決了以上3個問題.實驗結(jié)果表明:CIP在各類數(shù)據(jù)上均取得較好的效果.
[1]Xu Yan, Li Jintao, Wang Bin, et al. A category resolve power-based feature selection method [J]. Journal of Software, 2008, 19(1): 82-89 (in Chinese)(徐燕, 李錦濤, 王斌, 等. 基于區(qū)分類別能力的高性能特征選擇算法[J]. 軟件學(xué)報, 2008, 19(1): 82-89)
[2]Guyon I, Elisseeff A. An introduction to variable and feature selection [J]. Journal of Machine Learning Research, 2003, 3: 1157-1182
[3]Duan Jie, Hu Qinghua, Zhang Lingjun, et al. Feature selection for multi-label classification based on neighborhood rough sets [J]. Journal of Computer Research and Development, 2015, 52(1): 56-65 (in Chinese)(段潔, 胡清華, 張靈均, 等. 基于鄰域粗糙集的多標(biāo)記分類特征選擇算法[J]. 計算機研究與發(fā)展, 2015, 52(1): 56-65)
[4]Zhao Zheng, Wang Lei. Liu Huan, et al. On similarity preserving feature selection [J]. IEEE Trans on Knowledge and Data Engineering, 2013, 25(3): 619-632
[5]Zhang Yin, Zhou Zhihua. Multi-label dimensionality reduction via dependence maximization [J]. ACM Trans on Knowledge Discovery from Data, 2010, 4(3): Article 14
[6]Zhao Jidong, Lu Ke, He Xiaofei. Locality sensitive semi-supervised feature selection [J]. Neurocomputing, 2008, 71(101112): 1842-1849
[7]Gu Quanquan, Li Zhenhui, Han Jiawei. Generalized fisher score for feature selection [C]Proc of the 27th Int Conf on Uncertainty in Artificial Intelligence. Arlington, VA: AUAI, 2011: 266-273
[8]Nie Feiping, Xiang Shiming, Jia Yangqing. Trace ratio criterion for feature selection [C]Proc of the 23rd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2008: 671-676
[10]Zhao Zheng, Wang Lei, Liu Huan. Efficient spectral feature selection with minimum redundancy [C]Proc of the 24th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2010: 673-678
[11]Feng Lin, Wang Jing, Liu Shenglan, et al. Multi-label dimensionality reduction and classification with extreme learning machines [J]. Journal of Systems Engineering and Electronics, 2014, 25(3): 502-513
[12]Zhang Mingling, Zhou Zhihua. A review on multi-label learning algorithms [J]. IEEE Trans on Knowledge and Data Engineering, 2014, 26(8): 1819-1837
[13]Li Yufeng, Huang Shengjun, Zhou Zhihua. Regularized semi-supervised multi-label learning [J]. Journal of Computer Research and Development, 2012, 49(6): 1272-1278 (in Chinese)(李宇峰, 黃圣君, 周志華. 一種基于正則化的半監(jiān)督多標(biāo)記學(xué)習(xí)方法[J]. 計算機研究與發(fā)展, 2012, 49(6): 1272-1278)
[14]Zheng Wei, Wang Chaokun, Liu Zhang, et al. A multi-label classification algorithm based on random walk model [J]. Chinese Journal of Computers, 2010, 33(8): 1418-1426 (in Chinese)(鄭偉, 王朝坤, 劉璋, 等. 一種基于隨機游走模型的多標(biāo)簽分類算法[J]. 計算機學(xué)報, 2010, 33(8): 1418-1426)
[15]Liu Shenglan, Feng Lin, Qiao Hong. Scatter balance: An angle-based supervised dimensionality reduction [J]. IEEE Trans on Neural Networks and Learning Systems, 2014, 26(2): 277-289
[16]Tang Jiliang, Alelyani S, Liu Huan. Feature selection for classification: A review [G]Data Classification: Algorithms and Applications. Boca Raton, FL: CRC, 2014: 37-64
[17]Liu Jun, Ji Shuiwang, Ye Jieping. Multi-task feature learning via efficient l2,1-norm minimization[C]Proc of the 25th Int Conf Uncertainty in Artificial Intelligence. Arlington, VA: AUAI, 2009: 339-348
[18]Argyriou A, Evgeniou T, Pontil M. Convex multi-task feature learning [J]. Machine Learning, 2008, 73(3): 243-272
[19]Gong Pinghua, Ye Jieping, Zhang Changshui. Multi-stage multi-task feature learning [J]. Journal of Machine Learning Research, 2013, 14: 2979-3010
[20]Xiao Yunhai, Song Huina. An inexact alternating directions algorithm for constrained total variation regularized compressive sensing problems [J]. Journal of Math Imaging Vision, 2012, 44: 114-127
[21]Peng Hanchuan, Long Fuhui, Din Chris. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238
[22]Xu Junling, Zhou Yuming, Chen Lin, et al. An unsupervised feature selection approach based on mutual information [J]. Journal of Computer Research and Development, 2012, 49(2): 372-382 (in Chinese)(徐峻嶺, 周毓明, 陳林, 等. 基于互信息的無監(jiān)督特征選擇[J]. 計算機研究與發(fā)展, 2012, 49(2): 372-382)
[23]Wei Jinmao, Wang Shuqin, Yuan Xiaojie. Ensemble rough hypercuboid approach for classifying cancers [J]. IEEE Trans on Knowledge and Data Engineering, 2010, 22(3): 381-391

Wang Jun, born in 1981. PhD candidate. Her main research interests include pattern recognition and machine learning (junwang@mail.nankai.edu.cn).

Wei Jinmao, born in 1967. Professor and PhD supervisor. His main research interests include machine learning, data mining, Web mining, and bioinformatics.

Zhang Lu, born in 1989. Master. Her main research interests include machine learning and natural language processing (luzhang@mail.nankai.edu.cn).
Multi-Task Feature Learning Algorithm Based on Preserving Classification Information
Wang Jun, Wei Jinmao, and Zhang Lu
(CollegeofComputerandControlEngineering,NankaiUniversity,Tianjin300071) (CollegeofSoftware,NankaiUniversity,Tianjin300071)
In pattern recognition, feature selection is an effective technique for dimension reduction. Feature evaluation criteria are utilized for assessing the importance of features. However, there are several shortcomings for currently available criteria. Firstly, these criteria commonly concentrate all along on class separability, whereas class correlation information is ignored in the selection process. Secondly, they are hardly capable of reducing feature redundancy specific to classification. And thirdly, they are often exploited in univariate measurement and unable to achieve global optimality for feature subset. In this work, we introduce a novel feature evaluation criterion called CIP (classification information preserving). CIP is on the basis of preserving classification information, and multi-task learning technology is adopted for formulating and realizing it. Furthermore, CIP is a feature subset selection method. It employs Frobenius norm for minimizing the difference of classification information between the selected feature subset and original data. Also l2,1 norm is used for constraining the number of the selected features. Then the optimal solution of CIP is achieved under the framework of the proximal alternating direction method. Both theoretical analysis and experimental results demonstrate that the optimal feature subset selected by CIP maximally preserves the original class correlation information. Also feature redundancy for classification is reduced effectively.
feature selection; multi-task learning; classification information preserving; feature redundancy; proximal alternating direction method
2015-11-09;
2016-04-13
國家自然科學(xué)基金項目(61772288,61070089);天津市自然科學(xué)基金項目(14JCYBJC15700)
This work was supported by the National Natural Science Foundation of China (61070089) and the Natural Science Foundation of Tianjin of China (14JCYBJC15700).
TP181; TP391