999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于低秩評(píng)分的非監(jiān)督特征選擇算法

2015-12-23 01:01:20謝乃俊楊國(guó)亮梁禮明
關(guān)鍵詞:特征

謝乃俊,楊國(guó)亮,羅 璐,梁禮明

(江西理工大學(xué) 電氣工程與自動(dòng)化學(xué)院,江西 贛州341000)

0 引 言

根據(jù)評(píng)判數(shù)據(jù)特征重要性時(shí)是否利用了類(lèi)別標(biāo)簽信息,特征選擇算法可以分為有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督3類(lèi)方法。有監(jiān)督特征選擇算法主要是依據(jù)數(shù)據(jù)的特征與類(lèi)別標(biāo)簽信息之間的相關(guān)程度來(lái)選擇特征,經(jīng)典的算法有fisher評(píng)分(fisher score,F(xiàn)S)[1]。現(xiàn)實(shí)中,數(shù)據(jù)的類(lèi)別標(biāo)簽信息很少,人為地去獲取數(shù)據(jù)的類(lèi)別標(biāo)簽非常耗時(shí)、代價(jià)昂貴,因此人們提出了半監(jiān)督和無(wú)監(jiān)督特征選擇算法。方差評(píng)分 (variance data,VD)和拉普拉斯評(píng)分 (Laplacian score,LS)屬于非監(jiān)督方法。在方差評(píng)分算法中,代表信息量多的特征點(diǎn)被選擇;拉普拉斯評(píng)分算法在考慮信息量的同時(shí)引入了局部信息描述能力約束項(xiàng)來(lái)對(duì)特征進(jìn)行評(píng)分。半監(jiān)督方法則利用部分類(lèi)別標(biāo)簽作為數(shù)據(jù)的一種先驗(yàn)信息,文獻(xiàn)[2]中提出了 一 種 半 監(jiān) 督 的 約 束 評(píng) 分 (constrain score,CS),同時(shí)利用無(wú)標(biāo)簽的數(shù)據(jù)和帶有標(biāo)簽的數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)的特征選擇,提高算法的性能。隨后,文獻(xiàn) [3]中將稀疏表示系數(shù)引入特征的評(píng)分標(biāo)準(zhǔn)中,提出了無(wú)監(jiān)督的稀疏評(píng)分特征選擇方法。然而,稀疏表示理論方法為了使數(shù)據(jù)的表示稀疏滿足稀疏性,需要一個(gè)完備的詞典,怎樣構(gòu)建有效的數(shù)據(jù)字典存在很大的挑戰(zhàn)。低秩表示理論是在稀疏的基礎(chǔ)上發(fā)展而來(lái)的最新的數(shù)據(jù)表示方法,它通過(guò)最小化核范數(shù)來(lái)誘導(dǎo)數(shù)據(jù)在字典下的低秩結(jié)構(gòu),能夠有效揭示數(shù)據(jù)的全局結(jié)構(gòu)信息。目前,低秩表示在子空間恢復(fù)[4]、運(yùn)動(dòng)目標(biāo)檢測(cè)[5]、特征提取[6]等任務(wù)中得到成功的運(yùn)用。本文運(yùn)用具有干凈字典約束的低秩表示模型學(xué)習(xí)數(shù)據(jù)的全局連接權(quán)值矩陣,揭示數(shù)據(jù)的全局結(jié)構(gòu)和鑒別信息,利用該權(quán)值矩陣代替拉普拉斯評(píng)分機(jī)制中的局部連接矩陣,構(gòu)建了一種低秩評(píng)分機(jī)制,用于非監(jiān)督的特征選擇。該算法對(duì)那些揭示數(shù)據(jù)全局結(jié)構(gòu)信息和鑒別信息能力較強(qiáng)、表達(dá)信息量較多的特征賦予更大的重要性。

1 低秩連接權(quán)值矩陣

數(shù)據(jù)的連接權(quán)值矩陣一定程度上能夠揭示數(shù)據(jù)間的某種關(guān)系,利用不同方法構(gòu)建的連接權(quán)值矩陣所表示的數(shù)據(jù)結(jié)構(gòu)信息不同。低秩表示模型能夠?qū)W習(xí)出數(shù)據(jù)在字典下的最低秩表示,這種表示能夠揭示數(shù)據(jù)的全局結(jié)構(gòu)信息,同時(shí)又有一定的數(shù)據(jù)鑒別表達(dá)能力[7]。本節(jié)在低秩表示模型中引入干凈字典約束和低秩系數(shù)對(duì)稱(chēng)性約束構(gòu)建低秩連接權(quán)值矩陣,揭示數(shù)據(jù)間的結(jié)構(gòu)信息。

1.1 干凈字典約束的低秩表示

假設(shè)數(shù)據(jù)集合X =[x1,x2,…,xn]∈Rd×n,采樣于l個(gè)獨(dú)立的子空間(ln),d代表數(shù)據(jù)的維數(shù),n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù)。現(xiàn)實(shí)數(shù)據(jù)往往受噪聲的干擾,假設(shè)采樣數(shù)據(jù)集X由原始干凈數(shù)據(jù)D 和噪聲干擾數(shù)據(jù)E 疊加而成,因此,數(shù)據(jù)X 可以表示成X =D+E。由ln可知,“干凈”數(shù)據(jù)集中某些數(shù)據(jù)點(diǎn)來(lái)自相同的子空間,彼此間具有類(lèi)似的屬性,所以干凈數(shù)據(jù)矩陣D 具有低秩性特點(diǎn),而噪聲干擾數(shù)據(jù)往往滿足稀疏性。通過(guò)低秩性和稀疏性約束,可以構(gòu)建如下的優(yōu)化目標(biāo)函數(shù)來(lái)恢復(fù)出 “干凈”數(shù)據(jù)成分和噪聲成分

式中:λ>0是噪聲懲罰參數(shù),平衡噪聲對(duì)干凈數(shù)據(jù)的影響。上述優(yōu)化問(wèn)題是典型的非凸優(yōu)化問(wèn)題,在魯棒主成分分析[8]中,常常將式 (1)轉(zhuǎn)換為具有封閉解的松弛凸優(yōu)化問(wèn)題

假設(shè)數(shù)據(jù)集D 中的任意一列di能夠由數(shù)據(jù)本身D 中的每一列線性 組合表示成di=Dzi,D =[d1,d2,…,dn]∈Rd×n中每一列di代表一個(gè)數(shù)據(jù)點(diǎn)向量,Zi=Rn×l是字典中所有列對(duì)數(shù)據(jù)di線性表示的系數(shù)。由于所有數(shù)據(jù)都是在相同的字典下進(jìn)行線性表示,數(shù)據(jù)集D 具有低秩性,所以在表達(dá)式D=DZ 中,系數(shù)矩陣Z 同樣具有低秩這一特性。考慮一對(duì)數(shù)據(jù)點(diǎn)(di,dj)兩者互相表示時(shí)具有對(duì)等性,我們引入對(duì)稱(chēng)約束條件Z =ZT,因此,可以通過(guò)求解如下優(yōu)化問(wèn)題得到數(shù)據(jù)的低秩表示系數(shù)

式 (4)的最優(yōu)解Z*是數(shù)據(jù)在干凈字典約束下的最低秩表示,Z*=[,,…,]。數(shù)據(jù)在字典下的低秩表示是一種全局聯(lián)合的表示方式,具有揭示數(shù)據(jù)全局結(jié)構(gòu)信息的表達(dá)能力,能夠自動(dòng)的學(xué)習(xí)出數(shù)據(jù)間的相關(guān)性,使得具有相近屬性的數(shù)據(jù)在相互表示的時(shí)候提供較大的權(quán)值。

1.2 低秩模型求解

增廣拉格朗日乘子(augmented Lagrange multipiler,ALM)法分為精確增廣拉格朗日 (EALM,exact ALM)方法和非精確增廣拉格朗日 (IALM,inexact ALM)方法也稱(chēng)為交替方向法 (ADM)。Lin在文獻(xiàn) [11]中證明了非精確增廣拉格朗日方法能夠有效的解決式 (2),下面我們?cè)敿?xì)的介紹運(yùn)用ADM 方法求解干凈字典約束的低秩表示模型式 (4)。首先參考文獻(xiàn) [12],介紹一種優(yōu)化問(wèn)題求解定理。

定理1 假設(shè)存在如下優(yōu)化問(wèn)題

其中M =UΣVT代表數(shù)據(jù)矩陣M 的奇異值分解,式 (5)的最優(yōu)解為

式中:Σ1——數(shù)據(jù)矩陣M 的奇異值大于的奇異值,U1、V1——相應(yīng)的奇異向量。

通過(guò)引入拉格朗日乘子Y 消除式 (4)中的等式約束X =D+E,保留等式約束D =DZ 和Z =ZT,式 (4)轉(zhuǎn)換成

利用迭代方法求解最優(yōu)的(D,Z,E,Y),由于無(wú)法一次性得出所有參數(shù)的最優(yōu)解,采用交替求解策略,固定其他參數(shù),分別對(duì)每個(gè)參數(shù)獨(dú)立的進(jìn)行更新。

(1)更新D,Z

為了更新(D,Z),固定參數(shù)E,Y,更新方法如下

根據(jù)定理1可知,上述問(wèn)題的最優(yōu)解為

(2)更新E

固定參數(shù)D,Z,Y,對(duì)參數(shù)E 進(jìn)行更新

[13]可知:參數(shù)Ek+1的最優(yōu)化解為Ek+1=其中,當(dāng)時(shí),算子Ωε(X)的第i列為否則,Ωε(X)的第i列為零向量。完整的迭代求解過(guò)程列在算法1中。

1.3 數(shù)據(jù)的低秩權(quán)值矩陣

數(shù)據(jù)的圖結(jié)構(gòu)能夠揭示數(shù)據(jù)集中隱含的本質(zhì)結(jié)構(gòu)信息,不同的構(gòu)圖方法揭示的數(shù)據(jù)信息結(jié)構(gòu)也不同。傳統(tǒng)的K 鄰域和ε鄰域圖構(gòu)建反映了數(shù)據(jù)集在歐式空間中局部結(jié)構(gòu)關(guān)系,揭示的是數(shù)據(jù)的局部結(jié)構(gòu)信息。數(shù)據(jù)的局部信息結(jié)構(gòu)被證明能夠很好的揭示數(shù)據(jù)的流形結(jié)構(gòu),但是局部鄰域圖的構(gòu)建過(guò)程面臨鄰域參數(shù)k 的選擇問(wèn)題。在構(gòu)圖方法中參數(shù)k對(duì)圖的好壞起到?jīng)Q定性作用,現(xiàn)有方法往往通過(guò)經(jīng)驗(yàn)設(shè)置k值,沒(méi)有一種好的有效的機(jī)制來(lái)對(duì)進(jìn)行適應(yīng)性計(jì)算。基于稀疏表示的l1圖從數(shù)據(jù)全局角度考慮來(lái)揭示數(shù)據(jù)點(diǎn)間的關(guān)系,通過(guò)學(xué)習(xí)出數(shù)據(jù)在字典下的稀疏表示來(lái)揭示數(shù)據(jù)的全局結(jié)構(gòu)信息。但是由于稀疏性約束條件,往往只有很少的一部分全局信息被揭示,而且,當(dāng)數(shù)據(jù)存在噪聲干擾時(shí),l1圖揭示數(shù)據(jù)信息的能力會(huì)受到影響。

低秩圖是在上述干凈字典約束的低秩表示模型的基礎(chǔ)上構(gòu)建了揭示數(shù)據(jù)全局信息的一種結(jié)構(gòu)圖。由于干凈字典約束低秩表示模型學(xué)習(xí)的是數(shù)據(jù)在干凈字典下的全局聯(lián)合線性表示,能夠揭示數(shù)據(jù)間的全局結(jié)構(gòu)信息,同時(shí)干凈字典約束還能消除噪聲數(shù)據(jù)的干擾。因?yàn)閿?shù)據(jù)被字典聯(lián)合的全局表示,低秩模型學(xué)習(xí)得到的全局連接權(quán)值相似度矩陣中存在密集的數(shù)值很小的連接值,這些值對(duì)全局信息的揭示不起作用,所以,將每個(gè)數(shù)據(jù)的低秩表示系數(shù)歸一化

(zi=zi/zi2)并設(shè)置一個(gè)閾值,使得閾值以下的系數(shù)為零。數(shù)據(jù)的低秩權(quán)值矩陣W 定義為

2 低秩評(píng)分

有一數(shù)據(jù)集X =[x1,x2,…,xn]∈Rd×n,d表示數(shù)據(jù)特征的個(gè)數(shù),n為數(shù)據(jù)樣本的個(gè)數(shù)。令fri是第i個(gè)樣本數(shù)據(jù)xi的第r個(gè)特征為反映某個(gè)特征所包含信息量大小的能力,定義如下的數(shù)據(jù)特征方差模型

低秩評(píng)分是在方差模型的基礎(chǔ)上保持了數(shù)據(jù)樣本點(diǎn)間的全局結(jié)構(gòu)信息提出的一種特征評(píng)分算法,選擇出那些包含信息量多,全局結(jié)構(gòu)信息表達(dá)能力強(qiáng)的特征。低秩評(píng)分模型如下

式中:Wij——數(shù)據(jù)樣本點(diǎn)間的相似度關(guān)系,通過(guò)上述低秩表示模型學(xué)習(xí)得出的,具有全局?jǐn)?shù)據(jù)表示能力,權(quán)值的Wij表示數(shù)據(jù)樣本點(diǎn)(i,j)間的相似關(guān)系,具有大權(quán)值的樣本點(diǎn)來(lái)自同類(lèi)的概率大,且具有較好的鑒別表示能力。Vs(r)表示特征的方差估計(jì),特征方差估計(jì)的本質(zhì)是將特征投影到最大方差的方向上,在該方向選擇出滿足條件的特征。大的方差說(shuō)明數(shù)據(jù)特征在不同環(huán)境下屬性的表現(xiàn)區(qū)分性大,包含的信息量豐富,區(qū)分不同屬性事物的能力強(qiáng)。相反,小方差的特征對(duì)不同屬性事物區(qū)分發(fā)揮不了多大的作用。從式 (14)中我們能夠觀察出,如果某一特征的Vs(r)和Wij越大,(fri-frj)越小,那么該特征最后的低秩評(píng)分結(jié)果較小,特征表達(dá)信息的能力強(qiáng)。

經(jīng)過(guò)下面簡(jiǎn)單的推導(dǎo)可以得出

由此,低秩評(píng)分模型式 (14)轉(zhuǎn)換為

式中:L——拉普拉斯矩陣L =D-W ,D 為一對(duì)角矩陣,Dii=Wij。數(shù)據(jù)特征的低秩評(píng)分算法過(guò)程見(jiàn)算法2。

3 實(shí)驗(yàn)分析

為了驗(yàn)證提出的低秩評(píng)分算法的有效性,我們?cè)贗ris鳶尾花數(shù)據(jù)集、PIE和ORL人臉數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)并同傳統(tǒng)的特征選擇算法進(jìn)行比較。實(shí)驗(yàn)先通過(guò)特征選擇算法在原始特征上選出一個(gè)子集,然后在新的特征子集上進(jìn)行聚類(lèi)或分類(lèi)實(shí)驗(yàn)。在PIE數(shù)據(jù)集上進(jìn)行數(shù)據(jù)的聚類(lèi)實(shí)驗(yàn),在ORL庫(kù)上進(jìn)行分類(lèi)實(shí)驗(yàn)。低秩評(píng)分算法屬于非監(jiān)督的特征選擇算法,因此選擇同已存在的方差評(píng)分,拉普拉斯評(píng)分和稀疏評(píng)分3 種非監(jiān)督的特征選擇算法進(jìn)行比較分析,其中拉普拉斯算法中的鄰域參數(shù)設(shè)置為k=5。

3.1 Iris鳶尾花數(shù)據(jù)集

鳶尾花數(shù)據(jù)集包含3種類(lèi)別共150 個(gè)數(shù)據(jù)樣本點(diǎn),每種類(lèi)別的數(shù)據(jù)樣本個(gè)數(shù)為50,每個(gè)數(shù)據(jù)樣本點(diǎn)含有4個(gè)數(shù)據(jù)特征。

我們分別選擇數(shù)據(jù)的單個(gè)特征利用簡(jiǎn)單的最近鄰分類(lèi)器對(duì)數(shù)據(jù)進(jìn)行分類(lèi),數(shù)據(jù)中第1,2,3,4個(gè)特征對(duì)應(yīng)的分類(lèi)識(shí)別率分別為:r1=0.38,r2=0.20,r3=0.84,r4=0.86。表明不同特征在分類(lèi)中發(fā)揮的作用按降序排列依次為:F4,F(xiàn)3,F(xiàn)1,F(xiàn)2,F(xiàn)i表示第i個(gè)特征。

表1中列出了數(shù)據(jù)4個(gè)特征在不同評(píng)分算法下的最后評(píng)分結(jié)果。在方差評(píng)分中,得分越高說(shuō)明該特征的作用越大,其他幾種算法則是得分越小的重要性越大。從表1中列出了4種算法學(xué)習(xí)出的特征重要性排位結(jié)果:方差評(píng)分算法為F3,F(xiàn)1,F(xiàn)4,F(xiàn)2,低秩評(píng)分算法和其他兩種算法都是F4,F(xiàn)3,F(xiàn)1,F(xiàn)2。對(duì)比上面分別用每個(gè)特征進(jìn)行分類(lèi)實(shí)驗(yàn)可知,在特征選擇效果上而言,方差評(píng)分效果不佳,而低秩評(píng)分算法和其他兩種算法對(duì)特征重要性評(píng)價(jià)更接近真實(shí)情況。另外,在利用不同算法對(duì)數(shù)據(jù)特征打分后,按其重要性選擇不同的特征組合來(lái)進(jìn)行實(shí)驗(yàn),選取數(shù)據(jù)中的不同特征組成兩個(gè)特征子集合,分別為特征子集(F1,F(xiàn)2),(F4,F(xiàn)3),將特征集中的兩個(gè)特征分別視為x 和y 軸,得到數(shù)據(jù)特征鑒別能力的可視化圖,結(jié)果如圖1所示。結(jié)果同樣證明,特征F4,F(xiàn)3的對(duì)數(shù)據(jù)的鑒別表達(dá)能力要強(qiáng)于特征F1,F(xiàn)2。

表1 幾種評(píng)分算法對(duì)不同特征的評(píng)分結(jié)果

圖1 Iris數(shù)據(jù)2維可視化

3.2 PIE人臉數(shù)據(jù)集

PIE人臉數(shù)據(jù)集中收集了68個(gè)人的41368張人臉數(shù)據(jù),包含每個(gè)人在不同光照,表情和姿態(tài)條件下的數(shù)據(jù),來(lái)自卡內(nèi)基梅隆人臉表情數(shù)據(jù)庫(kù)。在本文的實(shí)驗(yàn)中,保持人臉的表情和姿態(tài)條件不變,選取每個(gè)人的21張不同光照下的人臉數(shù)據(jù)組成實(shí)驗(yàn)數(shù)據(jù)集。每張人臉數(shù)據(jù)都被裁剪為32×32像素大小的尺度。在PIE 數(shù)據(jù)集上,先利用不同算法對(duì)特征進(jìn)行選擇,然后通過(guò)K 均值聚類(lèi)算法對(duì)新的特征數(shù)據(jù)集聚類(lèi)。最后選擇歸一化互信息度量標(biāo)準(zhǔn) (normalized mutual information metric,NIM)來(lái)評(píng)價(jià)幾種不同特征選擇算法在聚類(lèi)中的表現(xiàn)。NIM 的基本思想是通過(guò)比較數(shù)據(jù)點(diǎn)的真實(shí)標(biāo)簽信息和聚類(lèi)得到的標(biāo)簽信息來(lái)評(píng)價(jià)實(shí)驗(yàn)的表現(xiàn)。在PIE人臉數(shù)據(jù)上低秩打分中懲罰參數(shù)設(shè)置為λ=0.5。

為了得到可靠的實(shí)驗(yàn)結(jié)果,在數(shù)據(jù)集的68個(gè)類(lèi)別子集上選取不同的類(lèi)別數(shù)進(jìn)行實(shí)驗(yàn) (類(lèi)別數(shù)分別選取K =5,10,30,68)。在給定一個(gè)特定的類(lèi)別數(shù)K 后,下面的過(guò)程被重復(fù)執(zhí)行20次,求解20次的平均表現(xiàn)性能。在68類(lèi)數(shù)據(jù)中隨機(jī)的選擇K 類(lèi)數(shù)據(jù),運(yùn)用不同的特征評(píng)分方法對(duì)每個(gè)特征進(jìn)行打分,學(xué)習(xí)出其重要性排序;選擇前d 個(gè)特征組成新的特征數(shù)據(jù)進(jìn)行10次K 均值聚類(lèi)實(shí)驗(yàn),選出最好的聚類(lèi)效果。圖2顯示選取不同數(shù)量特征時(shí),幾種特征重要性評(píng)分算法在聚類(lèi)中的表現(xiàn),K 表示參與實(shí)驗(yàn)的類(lèi)別數(shù),橫坐標(biāo)軸表示選擇特征的維數(shù),縱坐標(biāo)表示分類(lèi)的NIM 數(shù)值,NIM 數(shù)值越大分類(lèi)效果越好。通過(guò)比較結(jié)果表明,在所有的情況下本文提出的低秩評(píng)分算法在聚類(lèi)實(shí)驗(yàn)中取得最好的表現(xiàn)。在類(lèi)別數(shù)K 選擇為5類(lèi)和10類(lèi)的情況下,特征數(shù)量選擇為300個(gè)以?xún)?nèi)時(shí),低秩評(píng)分算法和稀疏評(píng)分算法的表現(xiàn)相當(dāng)?shù)姆€(wěn)定,而拉普拉斯評(píng)分在100個(gè)特征數(shù)以?xún)?nèi),聚類(lèi)表現(xiàn)出現(xiàn)一個(gè)上升階段,這說(shuō)明,利用數(shù)據(jù)全局結(jié)構(gòu)信息的評(píng)分機(jī)制比利用數(shù)據(jù)局部結(jié)構(gòu)信息的評(píng)分機(jī)制更能揭示特征點(diǎn)的重要性。隨著類(lèi)別數(shù)的增多,不同特征維數(shù)下的方差評(píng)分聚類(lèi)表現(xiàn)反而越來(lái)越穩(wěn)定,不會(huì)出現(xiàn)類(lèi)似5類(lèi)中前200個(gè)特征數(shù)內(nèi)的那種大的波動(dòng),表明利用數(shù)據(jù)方差信息的評(píng)分機(jī)制需要更多數(shù)據(jù)來(lái)揭示數(shù)據(jù)特征的重要性。

圖2 幾種算法在不同特征數(shù)下的聚類(lèi)表現(xiàn)

特征選擇的主要目的是為了減少數(shù)據(jù)的維數(shù),使得某些算法在低維數(shù)據(jù)上能夠快速有效的執(zhí)行,同時(shí)又不影響數(shù)據(jù)本質(zhì)屬性的表達(dá)能力。為了驗(yàn)證特征選擇算法的性能,表2列出了4種算法在選取不同特征個(gè)數(shù)下的聚類(lèi)表現(xiàn)結(jié)果,表中數(shù)值表示算法在聚類(lèi)表現(xiàn)中的NIM 值。對(duì)比幾種算法的表現(xiàn)可以看出:①所有算法在選擇特征數(shù)量適當(dāng)時(shí),聚類(lèi)效果更好,說(shuō)明特征選擇算法能夠有效的提高數(shù)據(jù)聚類(lèi)算法的聚類(lèi)能力;②低秩評(píng)分特征選擇算法在選擇不同特征時(shí)的聚類(lèi)表現(xiàn)都強(qiáng)于其他幾種算法,尤其在特征選擇數(shù)量少的時(shí)候,優(yōu)勢(shì)更加的明顯,證明了低秩特征選擇算法在數(shù)據(jù)聚類(lèi)中相比于其他算法更具有優(yōu)勢(shì)。為了更加直觀的揭示各種算法在聚類(lèi)中表現(xiàn)不同的原因,在人臉圖像中分別標(biāo)注了特征重要性排序后的前50、100、150、200個(gè)特征的幾何位置分布如圖3所示。從圖中能夠直觀的看出,特征通過(guò)方差評(píng)分算法對(duì)其重要性排序后,排序靠前的200個(gè)特征點(diǎn)主要分布在人臉圖像的四周和中間鼻子位置;拉普拉斯評(píng)分算法和稀疏評(píng)分算法的結(jié)果顯示重要性前200個(gè)特征主要是在人臉的眼睛,鼻子,嘴巴區(qū)域分散的分布;低秩評(píng)分算法則主要集中在眼睛,嘴巴和鼻子區(qū)域,從直觀的認(rèn)知中可知,人臉特征主要是由五官來(lái)決定的,圖3所示的結(jié)果能夠直觀的說(shuō)明低秩評(píng)分取得較好表現(xiàn)的原因。

表2 不同算法聚類(lèi)的NIM 評(píng)價(jià)結(jié)果

3.3 ORL人臉數(shù)據(jù)集

ORL人臉庫(kù)是由英國(guó)劍橋Olivetti實(shí)驗(yàn)室提供,數(shù)據(jù)集包含40個(gè)人共400張圖片,收集了每個(gè)人在不同時(shí)期,不同表情和不同姿態(tài)下的10張人臉圖片。每張人臉數(shù)據(jù)都經(jīng)過(guò)位置校正預(yù)處理并被裁剪為32×32像素大小的尺度。實(shí)驗(yàn)中,首先,我們分別在每類(lèi)中選擇不同數(shù)量(l=2,4,6,8)數(shù)據(jù)樣本參與學(xué)習(xí),通過(guò)不同打分機(jī)制得到特征點(diǎn)的重要性排序,該數(shù)據(jù)庫(kù)上低秩評(píng)分機(jī)制中的參數(shù)設(shè)置為λ=1.6。然后選擇原始數(shù)據(jù)的前d個(gè)特征子集組成新的數(shù)據(jù)表示原始數(shù)據(jù),利用最近鄰分類(lèi)器對(duì)數(shù)據(jù)分類(lèi)。

幾種算法在不同特征數(shù)下的分?jǐn)?shù)表現(xiàn)如圖4所示。

圖3 不同算法評(píng)價(jià)的重要特征幾何分布

圖4 幾種算法在不同特征數(shù)下的分類(lèi)表現(xiàn)

圖4中給出了不同打分算法給數(shù)據(jù)特征評(píng)分后,按特征重要性選擇不同的特征數(shù)進(jìn)行最近鄰分類(lèi)的結(jié)果,L 表示每類(lèi)參與學(xué)習(xí)的樣本數(shù)。從實(shí)驗(yàn)結(jié)果中能夠看出低秩評(píng)分算法在不同的數(shù)據(jù)參與訓(xùn)練情況下都取得了比其他算法要好的效果。不同算法隨著參與訓(xùn)練的樣本增多時(shí)取得的分類(lèi)效果也有所提升,但是相對(duì)于在PIE 人臉數(shù)據(jù)庫(kù)上取得的效果來(lái)說(shuō),低秩評(píng)分效果的優(yōu)勢(shì)較其他幾種算法而言沒(méi)有那么的明顯,主要原因是ORL數(shù)據(jù)庫(kù)中,人臉圖像在姿態(tài)上存在較大的差異導(dǎo)致數(shù)據(jù)的低秩這一特性受到一定程度的破壞,影響了低秩評(píng)分的效果。圖5中標(biāo)記了二維人臉特征的重要性信息,從左向右依次是取訓(xùn)練樣本數(shù)為2,4,6,8的評(píng)分結(jié)果,圖中越亮的位置表示該特征越重要。從圖5中能夠直觀的看出,經(jīng)過(guò)低秩評(píng)分機(jī)制獲得的重要性特征集中分布在人臉的嘴巴,鼻子和眼睛部位,說(shuō)明低秩評(píng)分機(jī)制能夠更好的揭示特征重要性的真實(shí)情況。

圖5 特征重要性分布

4 結(jié)束語(yǔ)

本文提出一種基于低秩評(píng)分的非監(jiān)督特征選擇算法。算法綜合考慮了數(shù)據(jù)特征信息量大小的表達(dá)能力,揭示數(shù)據(jù)全局結(jié)構(gòu)信息和鑒別信息的能力以及相同情況下特征屬性相近性的能力,因此,通過(guò)低秩評(píng)分特征選擇算法選擇出的重要性特征能夠很好的揭示數(shù)據(jù)的本質(zhì)特征信息。同已經(jīng)存在的方差評(píng)分,拉普拉斯評(píng)分和稀疏評(píng)分特征選擇相比較,低秩評(píng)分在數(shù)據(jù)聚類(lèi)和分類(lèi)任務(wù)中獲得了更好的表現(xiàn)。尤其在數(shù)據(jù)類(lèi)別較多和選擇特征數(shù)量較少的情況下,優(yōu)勢(shì)更加明顯,體現(xiàn)了低秩評(píng)分特征選擇比傳統(tǒng)的特征選擇算法能夠更好地提升傳統(tǒng)模式識(shí)別中聚類(lèi)和分類(lèi)算法的性能。

參考文獻(xiàn):

[1]Gu Q,Li Z,Han J.Generalized fisher score for feature selection [C]//Proceedings of the International Conference on Uncertainty in Articial Intelligence,2011.

[2]Zhang D,Chen S,Zhou Z H.Constraint score:A new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41 (5):1440-1451.

[3]SU Yaru.Research on dimensionality reduction of high-dimensinal data[D].Hefei:University of Science and Technology of China,2012 (in Chinese).[蘇雅茹.高維數(shù)據(jù)的維數(shù)約簡(jiǎn)算法研究 [D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.]

[4]Liu G,Lin Z,Yan S,et al.Robust recovery of subspace structures by low-rank representation [J].Pattern Analysis and Machine Intelligence,2012,35 (1):172-184.

[5]Shen X,Wu Y.A unified approach to salient object detection via low rank matrix recovery [C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012:853-860.

[6]Zhang N,Yang J.Low-rank representation based discriminative projection for robust feature extraction [J].Neurocomputing,2013,111:13-20.

[7]Zhuang L,Gao H,Huang J,et al.Semisupervised classification via low rank graph [C]//Sixth International Conference on Image and Graphics.IEEE,2011:511-516.

[8]Candès E J,Li X,Ma Y,et al.Robust principal component analysis?[J].Journal of the ACM,2011,58 (3):1-11.

[9]Recht B,F(xiàn)azel M,Parrilo P A.Guaranteed minimumrank solutions of linear matrix equations via nuclear norm minimization[J].SIAM Review,2010,52 (3):471-501.

[10]Xu H,Caramanis C,Sanghavi S.Robust PCA via outlier pursuit[J].Systems Advances in Neural Information Processing Systems,2010,23:2496-2504.

[11]Lin Z,Chen M,Ma Y.The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matrices[R].UIUC Technical Report UILU-ENG-09-2215,2009.

[12]Vidal R,F(xiàn)avaro P.Low rank subspace clustering(LRSC)[J].Pattern Recognition Letters,2014,43:47-61.

[13]Liu G,Lin Z,Yu Y.Robust subspace segmentation by lowrank representation [C]//Proceedings of the 27th International Conference on Machine Learning,2010:663-670.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 亚洲国产精品VA在线看黑人| 欧美一级特黄aaaaaa在线看片| 国模粉嫩小泬视频在线观看| 91福利在线观看视频| 亚洲欧美日韩中文字幕一区二区三区| 国产精品午夜福利麻豆| 国产黄色爱视频| 中文字幕无码av专区久久| 久久人妻xunleige无码| av天堂最新版在线| 91精品人妻互换| 国产91精品最新在线播放| 亚洲AV无码久久天堂| 手机成人午夜在线视频| 99久久婷婷国产综合精| 久久久久久国产精品mv| 午夜视频免费试看| 久久动漫精品| 一级不卡毛片| 午夜精品久久久久久久无码软件| 在线免费无码视频| 在线观看国产小视频| 久久9966精品国产免费| 国产精品爆乳99久久| 亚洲欧美极品| 国产综合在线观看视频| 色老头综合网| 国产爽妇精品| 青草91视频免费观看| 久久黄色视频影| 亚洲一区二区日韩欧美gif| 国产成人精品一区二区三区| 日本www在线视频| 亚洲日本一本dvd高清| 国产网友愉拍精品| 亚洲青涩在线| 欧美影院久久| 亚洲av色吊丝无码| 免费看美女自慰的网站| 亚洲永久免费网站| 色婷婷色丁香| 美女毛片在线| 亚洲日本中文综合在线| 国产尤物jk自慰制服喷水| 无码久看视频| 国产美女在线免费观看| 亚洲国模精品一区| 人妻丰满熟妇AV无码区| 成人一级免费视频| 欧美成人一区午夜福利在线| 国产女人18水真多毛片18精品| 国内精品九九久久久精品| 国产九九精品视频| 尤物精品国产福利网站| 丰满的少妇人妻无码区| 91青草视频| 麻豆精品国产自产在线| 亚洲最猛黑人xxxx黑人猛交| а∨天堂一区中文字幕| 国产精品区视频中文字幕 | 午夜国产理论| 欧美精品亚洲二区| 女人18毛片水真多国产| 亚洲性视频网站| 五月婷婷激情四射| 首页亚洲国产丝袜长腿综合| 美女一级毛片无遮挡内谢| 欧美黄色a| 精品国产免费人成在线观看| 国产AV毛片| a级毛片免费播放| 香蕉eeww99国产在线观看| 人妻少妇久久久久久97人妻| A级毛片高清免费视频就| 国产你懂得| 99re视频在线| 精品国产香蕉伊思人在线| 色九九视频| 永久成人无码激情视频免费| 国产精品极品美女自在线网站| 亚洲欧美一区二区三区麻豆| 日本欧美精品|