魯棒自適應(yīng)概率加權(quán)主成分分析

2021-05-22 12:18:46高云龍羅斯哲潘金艷陳柏華張逸松

自動(dòng)化學(xué)報(bào) 2021年4期

高云龍羅斯哲潘金艷陳柏華張逸松

隨著技術(shù)的進(jìn)步,數(shù)據(jù)采集的效率逐漸提高,使得數(shù)據(jù)的規(guī)模越來越大、復(fù)雜性越來越高.在大多數(shù)情況下,這些高維數(shù)據(jù)都存在著能夠保留大部分有效信息的低維子空間,如何移除高維空間中的噪聲和無關(guān)信息,提高后續(xù)學(xué)習(xí)算法的性能和效率一直是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn).在過去的幾十年中涌現(xiàn)出了許多優(yōu)秀的算法,PCA[1]是其中最經(jīng)典的方法之一,它通過線性變換把數(shù)據(jù)投影到一個(gè)新的坐標(biāo)空間中,希望用較少的變量來表示原數(shù)據(jù)所提供的大部分信息.PCA逐漸發(fā)展為多種應(yīng)用的預(yù)處理技術(shù)方法,如圖像識(shí)別、生物信息和數(shù)據(jù)挖掘[2?4].由于其用途廣泛且原理簡單,研究者們陸續(xù)提出了各種改進(jìn)的PCA算法.Koren等[5]提出的WPCA使用了加權(quán)距離來減輕離群點(diǎn)對投影方向的影響,突出了與主成分相關(guān)的特征;Schlkopf等[6]通過非線性映射將原始數(shù)據(jù)映射到高維特征空間,再執(zhí)行kernel-PCA以提取特征;李春娜等[7]極大化帶有稀疏正則項(xiàng)的Lp模樣本方差,同時(shí)賦予算法魯棒性和稀疏性.

衡量算法的優(yōu)劣,一個(gè)重要的指標(biāo)就是魯棒性,盡管基于L2模的PCA能夠解決許多問題,但并不能有效地處理小樣本問題中的離群點(diǎn)[8],因?yàn)長2模的非線性變化特征會(huì)放大離群點(diǎn)所帶來的影響,使算法傾向于保留外圍結(jié)構(gòu).為了減輕異常點(diǎn)的負(fù)面影響,目前已經(jīng)提出了各種增強(qiáng)魯棒性的解決方案.L1模被認(rèn)為是增強(qiáng)算法魯棒性的有效手段之一.Ke等[9]提出了L1-PCA算法,通過極小化基于L1模的重建誤差來提取主成分;Kwak[10]則在特征空間中極大化對應(yīng)的L1模并利用貪婪算法求解模型;在此基礎(chǔ)上,Nie 等[11]提出了一種非貪婪迭代算法能夠得到比貪婪算法更好的結(jié)果.

盡管基于L1模的PCA魯棒性較強(qiáng),但是由于計(jì)算代價(jià)大,而且不具有旋轉(zhuǎn)不變性[12].因此,大量具有旋轉(zhuǎn)不變性的魯棒PCA算法相繼出現(xiàn),這些方法通過采用不同的準(zhǔn)則函數(shù)或者優(yōu)化算法來降低異常點(diǎn)對損失函數(shù)的影響,以提高主成分分析過程中對于異常點(diǎn)的魯棒性.He等在文獻(xiàn)[13]中將PCA的均方誤差(MSE)準(zhǔn)則修改為最大熵(MaxEnt)準(zhǔn)則來盡可能地保留數(shù)據(jù)的不確定性;進(jìn)而在文獻(xiàn)[14]中提出HQ-PCA,使用最大相對熵準(zhǔn)則(MCC)代替MSE,并采用半二次(Half-Quadratic)優(yōu)化將原問題轉(zhuǎn)換為一系列二次規(guī)劃問題進(jìn)行求解.HQPCA提高了算法對于噪聲的魯棒性,同時(shí)保留了平移與旋轉(zhuǎn)不變性;He等在文獻(xiàn)[15]中基于數(shù)據(jù)的子空間屬性,分析了魯棒低秩矩陣恢復(fù)方法和基于M估計(jì)的魯棒主成分分析方法之間的聯(lián)系,提高主成分提取過程中對任意噪聲的處理能力;Ding 等[16]使用旋轉(zhuǎn)不變的R1模構(gòu)造重建誤差,在一定程度上抑制了離群點(diǎn)的影響,但是該方法依賴于投影空間中的維數(shù);Nie等[17]在此基礎(chǔ)上提出了RPCAOM,計(jì)算了在R1范數(shù)下的最優(yōu)均值并能夠自動(dòng)刪除最優(yōu)的數(shù)據(jù)均值;受此啟發(fā),許多魯棒PCA采用L21模作為魯棒降維的有效手段.Nie等[18]基于L21范數(shù)最大化在理論上與重構(gòu)誤差最小化的關(guān)聯(lián)性提出了PCA-L21,并設(shè)計(jì)了一種有效的非貪婪優(yōu)化算法來求解相關(guān)的最大化問題;Wang 等[19]將L21模的距離度量擴(kuò)展為L2,p,可針對不同的數(shù)據(jù)選擇適當(dāng)?shù)膒以達(dá)到更好的效果;但以上魯棒PCA算法缺乏考慮重建誤差和投影數(shù)據(jù)描述方差之間的關(guān)系,在主成分提取的過程中容易造成判別信息的丟失.對此,Wang 等[20]提出的Angle PCA方法通過最大化每個(gè)樣本點(diǎn)的描述方差和重建誤差之間的比率來確定主成分空間,通過每個(gè)數(shù)據(jù)點(diǎn)與主成分方向的偏移角度進(jìn)行加權(quán),但其權(quán)值的變化呈余切函數(shù)的快速非線性變化特征,導(dǎo)致其過度強(qiáng)調(diào)局部特征,所提取的主成分泛化性能弱.

基于此,本文提出了魯棒自適應(yīng)概率加權(quán)主成分分析(RPCA-PW).RPCA-PW 基于樣本點(diǎn)的重建誤差與描述方差在L2,p模下的變化關(guān)系確定每個(gè)樣本點(diǎn)的可靠性程度.其核心是選擇主成分空間及其補(bǔ)空間作為參考,通過分析樣本點(diǎn)與這兩個(gè)描述空間的相似度來確定主成分空間及其補(bǔ)空間對數(shù)據(jù)描述的不確定性,結(jié)合交替迭代的優(yōu)化算法,從而能夠在降維過程中自適應(yīng)地降低噪聲和異常樣本點(diǎn)的影響.本文提出的方法不僅對離群點(diǎn)具有魯棒性,并可針對不同數(shù)據(jù)集選擇合適的p以達(dá)到更好的效果,本文將在人工數(shù)據(jù)集、UCI 數(shù)據(jù)集和人臉圖像數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),進(jìn)而證明本文所提出算法的有效性.

1 相關(guān)工作

1.1 PCA

考慮如下樣本矩陣:X=[x1,x2,···,x n]∈Rd×n,其中n和d分別為樣本數(shù)量和維數(shù).不失一般性,這里假設(shè)X=[x1,x2,···,x n]已經(jīng)去中心化,即定義投影矩陣W∈Rd×m(m

由式(1)和式(2)可知,由于L2模對離群點(diǎn)敏感,傳統(tǒng)PCA 對噪聲的魯棒性不強(qiáng),噪聲的存在會(huì)使得PCA 的計(jì)算結(jié)果會(huì)出現(xiàn)很大的誤差.

1.2 L222,,,ppp -PCA

L2,p-PCA采用L2,p模作為重建誤差的距離度量,可針對不同的數(shù)據(jù)選擇適當(dāng)?shù)膒以達(dá)到更好的效果.L2,p-PCA不僅能在一定程度上削弱噪聲點(diǎn)的影響,而且還保留了PCA 所需的特性,如旋轉(zhuǎn)不變性.此外,基于L2,1模的魯棒PCA可作為L2,p-PCA的特例.L2,p-PCA的目標(biāo)函數(shù)定義為:

L2,p模的非線性函數(shù)特征在一定程度上降低了噪聲和異常樣本點(diǎn)的影響力,但是仍然不能完全剔除噪聲和異常樣本點(diǎn)的影響.究其原因,L2,p-PCA的根本特征在于僅考慮了樣本點(diǎn)與數(shù)據(jù)簇整體統(tǒng)計(jì)特征的偏差程度(bias),但沒有考慮噪聲點(diǎn)與可靠數(shù)據(jù)點(diǎn)在不同的子空間屬性下潛在的可分性,從而造成判別信息的丟失.

1.3 Angle PCA

Angle PCA采用L2模來構(gòu)造投影數(shù)據(jù)的重建誤差和描述方差,通過最大化方差和重構(gòu)誤差之比來確定投影矩陣,即Angle PCA通過求解以下目標(biāo)函數(shù)來確定主成分:

因此,目標(biāo)函數(shù)(4)被稱為Angle PCA.通過對樣本點(diǎn)迭代加權(quán)的方式來降低噪聲和異常樣本的影響.這種建模方式的核心是能夠減少重建誤差較大樣本點(diǎn)產(chǎn)生的損失,從而提升對噪聲的魯棒性.但cotαi的非線性快速衰減特征造成了Angle PCA對數(shù)據(jù)的全局結(jié)構(gòu)特征提取能力差.例如:當(dāng)樣本點(diǎn)與主成分方向之間的夾角增大時(shí),cotαi迅速減小,使得主成分對數(shù)據(jù)的局部結(jié)構(gòu)特征描述能力強(qiáng),但是對數(shù)據(jù)的全局結(jié)構(gòu)特征描述能力差.這一特征造成Angle PCA最優(yōu)解的穩(wěn)定性差,對初始投影矩陣W的選取依賴性很強(qiáng).例如:當(dāng)模型的初始W選擇恰當(dāng)時(shí),則Angle PCA對噪聲點(diǎn)具有很強(qiáng)的魯棒性,若初始W確定的投影方向與實(shí)際主成分方向垂直的時(shí)候,式(5)起到的作用則正好相反,表現(xiàn)為突出非主成分樣本點(diǎn)在模型中所占的比重(此時(shí)非主成分樣本點(diǎn)的重建誤差很小).

2 魯棒自適應(yīng)概率加權(quán)主成分分析

為了能夠充分考慮重建誤差和投影數(shù)據(jù)描述方差之間的聯(lián)系,并根據(jù)數(shù)據(jù)主要統(tǒng)計(jì)特征及其互補(bǔ)信息確定各樣本點(diǎn)的可靠程度,在提取主成分的過程中,提高可靠度較高樣本點(diǎn)的影響力,同時(shí)削弱可靠度較低樣本點(diǎn)的影響程度,本文建立以下RPCAPW 模型:

模型(7)中采用了L2,p模作為度量標(biāo)準(zhǔn),不僅可以降低噪聲的影響,而且具有旋轉(zhuǎn)不變性,改變p值的大小可應(yīng)用于不同類型的數(shù)據(jù)集,大大提高了算法的靈活性和魯棒性.

為了提高RPCA-PW對數(shù)據(jù)全局結(jié)構(gòu)特征的描述能力和對噪聲的魯棒性,需要模型(7)中δi滿足以下要求:

1)能夠反映出樣本點(diǎn)的可靠性(不確定性).對于可靠樣本點(diǎn),δi應(yīng)取較大的值,對于噪聲和異常樣本點(diǎn),δi應(yīng)取較小的值,通過分析樣本點(diǎn)的不確定性削弱噪聲和異常值的影響.

2)在主成分空間所確定的一個(gè)較大的鄰域內(nèi),δi的取值應(yīng)保持穩(wěn)定,以提高主成分對數(shù)據(jù)全局結(jié)構(gòu)特征的提取能力,從而提高主成分的泛化性能.

3)能夠根據(jù)數(shù)據(jù)受噪聲污染的實(shí)際情況動(dòng)態(tài)調(diào)整各局部鄰域的大小,即能夠動(dòng)態(tài)調(diào)整主成分局部鄰域和主成分互補(bǔ)空間局部鄰域的劃分界限.

為了滿足上述要求,本文通過以下模型確定權(quán)值:

由于ai對于不同i的取值相互獨(dú)立,因此通過簡單的數(shù)學(xué)變換:

求得ai最優(yōu)解的解析形式為:

式(11)中基于ai最優(yōu)解的稀疏性結(jié)構(gòu)特征使得在主成分周圍的鄰域內(nèi),δi為某個(gè)固定的較大正數(shù),在重建誤差相對大的噪聲樣本局部鄰域內(nèi),δi為某個(gè)固定的非常小的正數(shù)或等于零.另外式(11)中的參數(shù)λi,決定了局部稀疏鄰域的大小,即決定了主成分樣本的局部鄰域與異常樣本局部鄰域的劃分,通過調(diào)節(jié)λi可以動(dòng)態(tài)調(diào)整各自局部鄰域的大小.

下面通過與PCA、Angle PCA的比較實(shí)例來說明RPCA-PW對離群點(diǎn)的魯棒性:

如圖1所示,圖1(a)中是一組由500個(gè)數(shù)據(jù)點(diǎn)組成的服從高斯分布的數(shù)據(jù)簇,在圖1(b)中將隨機(jī)插入10個(gè)與原分布差異很大的離群點(diǎn).結(jié)果顯示,PCA對樣本點(diǎn)的分布非常敏感,主方向計(jì)算結(jié)果誤差非常大;因?yàn)閏ot(αi)函數(shù)非線性快速衰減的加權(quán)方式,使Angle PCA在離群點(diǎn)的影響之下,投影方向也發(fā)生了一定程度的偏離,圖1(c)顯示了cot(αi)的變化過程;而RPCA-PW的投影方向不受離群點(diǎn)的影響,主成分空間仍然很好地保留了原數(shù)據(jù)的全局結(jié)構(gòu)特征,有效排除少數(shù)離群點(diǎn)造成的影響.這是因?yàn)镽PCA-PW 充分考慮了數(shù)據(jù)在描述空間中的分布特征,可以將脫離數(shù)據(jù)集的異常樣本造成的影響降到最低.圖1(d)中顯示了權(quán)重系數(shù)δi的變化過程,根據(jù)δi的變化趨勢,可以分為三個(gè)階段,分別代表著RPCA-PW 為主成分點(diǎn)、過渡點(diǎn)和離群點(diǎn)所屬的三個(gè)局部區(qū)域所分配的不同權(quán)重(對于離群點(diǎn),有δi=0),通過調(diào)節(jié)參數(shù)λi可以控制兩個(gè)跳變點(diǎn)的位置,即(138,10)與(500,0)的位置,進(jìn)而調(diào)整三類區(qū)域的范圍.

圖1 人工數(shù)據(jù)集上的魯棒性實(shí)驗(yàn)Fig.1 Robustness experiment on artificial data set

3 優(yōu)化算法

本節(jié)中利用優(yōu)化理論中的交替優(yōu)化算法求解模型(7),通過簡單的數(shù)學(xué)代換,可得:

將式(13)代入模型(7)中,模型(7)最后變?yōu)?

RPCA-PW 的目標(biāo)是找到一個(gè)投影矩陣W,以最大化目標(biāo)函數(shù)(14)的值,其中有三個(gè)與W相關(guān)的未知變量分別是W、d1,i和d2,i.因此,目標(biāo)函數(shù)沒有閉式解,難以直接求解目標(biāo)函數(shù)(14).本文采用文獻(xiàn)[20]中的算法來交替地更新W、d1,i和d2,i,具體來說,是在第i次迭代中,當(dāng)d1,i和d2,i已知時(shí),通過最小化目標(biāo)函數(shù)(14)更新投影矩陣W.在這種情況下,將目標(biāo)函數(shù)(14)簡化為:

其中,D是對角矩陣,對角線上的元素為Dii=d1,i+δid2,i,ai可由式(11)獲得.根據(jù)矩陣?yán)碚?目標(biāo)函數(shù)(15)中投影矩陣W的列向量由矩陣X DXT的前m個(gè)最大特征值所對應(yīng)的特征向量組成,隨后再使用得到的W來更新d1,i和d2,i,重復(fù)該迭代過程直至算法收斂.算法1中給出了求解RPCA-PW的具體算法.

算法1.RPCA-PW算法

3:對于每個(gè)i,通過式(11)來更新權(quán)值ai;

4:計(jì)算對角矩陣D,其中對角線上的元素為Dii=d1,i+δid2,i;

5:更新投影矩陣W,其中W的列向量由矩陣X DXT的前m個(gè)最大特征值所對應(yīng)的特征向量組成;

6:若J(Wk)≥J(Wk?1),轉(zhuǎn)到第8步,否則轉(zhuǎn)到第7 步;

7:通過線搜索Armijo算法確定步長的子梯度下降法[21]找到滿足J(Wk)≥J(Wk?1)的Wk,如果沒有解決方案,轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟8;

8:k ←k+1;

9:End while

輸出:W ∈Rd×m

4 討論

本節(jié)中討論了RPCA-PW 算法的收斂性以及L2,p范數(shù)下不同p值所對應(yīng)的損失函數(shù)變化情況,并給出本文算法與其他相關(guān)魯棒PCA算法的關(guān)系.

4.1 算法收斂性

本文的基本思路是對于給定的主成分空間,通過模型(8)學(xué)習(xí)每個(gè)樣本點(diǎn)的誤差極小化概率描述,將學(xué)習(xí)到的概率描述反饋到模型(7)中,從而自適應(yīng)地修改模型(7)中描述誤差項(xiàng)的權(quán)重,從而達(dá)到提高PCA魯棒性的目的.因此算法1的收斂性應(yīng)該從以下三個(gè)方面考慮:

1)給定W條件下,對模型(8)的優(yōu)化

對于W已經(jīng)給定的條件下,模型(8)存在解析解,其最優(yōu)解由式(11)給出.

2)給定δi條件下,對模型(7)的優(yōu)化

模型(7)的拉格朗日函數(shù)為:

其中,拉格朗日乘子Λ是用于強(qiáng)制正交約束WTW=I的對角矩陣.在第k次迭代中,當(dāng)δi已知時(shí),為了滿足KKT條件,式(16)的梯度必須等于零,即

根據(jù)算法1中的步驟5,能夠找到式(17)的最優(yōu)解.因此,算法1的收斂解決方案滿足問題的KKT條件.式(16)的拉格朗日方程為:

對W求導(dǎo)可得到關(guān)于式(18)的KKT條件:

注意到在式(19)中,矩陣D與Wk?1有關(guān).假設(shè)在第k次迭代中獲得局部最優(yōu)解W?,即W?=Wk=Wk?1.在這種情況下,式(17)與式(19)保持一致,這意味著算法1的收斂解決方案滿足模型(7)的KKT條件,即

上述分析保證了算法1的最優(yōu)解是模型的一個(gè)駐點(diǎn).此外,算法1中的步驟6和步驟7 說明RPCA-PW的目標(biāo)函數(shù)值在每次迭代中都是非遞減的,這樣就保證了算法具有單調(diào)收斂的特性.

3)迭代更新W和δi,算法1的收斂性驗(yàn)證

這里通過實(shí)驗(yàn)驗(yàn)證迭代更新W和δi時(shí)算法1的收斂性,具體內(nèi)容見實(shí)驗(yàn)部分第5.3.5節(jié).

4.2 不同p值下的損失函數(shù)

圖2繪制了p在不同取值下的目標(biāo)函數(shù)取值變化曲線.從圖中可以看出,當(dāng)p為2時(shí),具有大重建誤差的樣本點(diǎn)將會(huì)顯著地支配目標(biāo)函數(shù),因此傳統(tǒng)的基于MSE 的PCA算法對于噪聲敏感.與p=2相比,p=0.5或1可以在一定程度上減弱大距離樣本點(diǎn)的影響,對于噪聲點(diǎn)具有更強(qiáng)的魯棒性,此外,與p=1或2相比,p=0.5可以進(jìn)一步削弱異常樣本點(diǎn)的影響,同時(shí)提高主成分鄰域中的樣本點(diǎn)在求解最優(yōu)解時(shí)的影響.

圖2 p 在不同取值下的目標(biāo)函數(shù)取值變化曲線Fig.2 Objective function values under different p

4.3 與相關(guān)算法之間的聯(lián)系

基于對于p的不同取值的分析,下面將討論RPCA-PW與幾種魯棒PCA算法之間的相互聯(lián)系,從模型的角度出發(fā)分析各自算法的特點(diǎn),包括PCA,R1-PCA,L2,p-PCA和Angle PCA.

4.3.1 與PCA的聯(lián)系

經(jīng)典PCA算法建立在均方差或者重建誤差意義上,目的是使得投影空間中樣本點(diǎn)協(xié)方差最大或者重建誤差最小,本質(zhì)是在最小均方差意義下尋找最能代表數(shù)據(jù)特征的投影向量子空間,因此有:

1)若模型(6)中的ai=1(i=1,···,n),p=2,得到:

2)若模型(6)中的ai=0(i=1,···,n),p=2,得到:

模型(21)和(22)是PCA的兩種標(biāo)準(zhǔn)等價(jià)形式.

4.3.2 與R 1-PCA的聯(lián)系

一個(gè)數(shù)據(jù)矩陣的R1模就是每個(gè)數(shù)據(jù)點(diǎn)的L2模之和,R1-PCA將原PCA 模型中的L2模改成R1模進(jìn)行求解,R1模在降低噪聲影響的同時(shí)能保持旋轉(zhuǎn)不變性.若模型(6)中的ai=0(i=1,···,n),p=1,可得

模型(23)即為R1-PCA 的目標(biāo)函數(shù).

4.3.3 與LLL 222,,,ppp -PCA的聯(lián)系

L2,p-PCA 采用L2,p模構(gòu)造每個(gè)樣本點(diǎn)的重建誤差,與大多數(shù)現(xiàn)有的PCA-L1方法相比,L2,p-PCA直接最小化了樣本點(diǎn)的重建誤差,與L1-PCA方法相比,L2,p-PCA保留了PCA的旋轉(zhuǎn)不變性.若模型(6)中的ai=0(i=1,···,n),則它的形式簡化為:

模型(24)即為L2,p-PCA的目標(biāo)函數(shù).

4.3.4 與Angle PCA的聯(lián)系

Angle PCA 采用最大化每個(gè)樣本點(diǎn)的協(xié)方差和重建誤差之比的總和所得到的結(jié)果作為投影矩陣,根據(jù)文獻(xiàn)[22]中的定理1,模型(4)可以等價(jià)轉(zhuǎn)換為以下形式:

則它與模型(4)中的加權(quán)效果相同.

5 實(shí)驗(yàn)結(jié)果與分析

本節(jié)將文中所提算法在人工數(shù)據(jù)集、UCI 數(shù)據(jù)集和人臉數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),并將其性能與傳統(tǒng)PCA 和相關(guān)魯棒PCA算法進(jìn)行比較,例如:PCA-L21、RPCA-OM、Angle PCA、MaxEnt-PCA、HQ-PCA和L2,p-PCA.其中式(6)中的參數(shù)ε是為了防止除零,本文在實(shí)驗(yàn)中統(tǒng)一設(shè)置為0.05,另一參數(shù)λi的取值決定主成分及非主成分的局部鄰域大小,實(shí)驗(yàn)中根據(jù)不同的數(shù)據(jù)集動(dòng)態(tài)地進(jìn)行調(diào)整,為了方便超參數(shù)設(shè)置,本文在實(shí)驗(yàn)中統(tǒng)一置λi為:

在實(shí)驗(yàn)中使用最近鄰域(1-NN)分類器[23]進(jìn)行分類以計(jì)算識(shí)別準(zhǔn)確率,在人臉重構(gòu)實(shí)驗(yàn)中,平均重建誤差由原始未被遮擋的圖像與重構(gòu)圖像之間的平均距離定義,如下所示:

5.1 人工數(shù)據(jù)集實(shí)驗(yàn)

為了驗(yàn)證本文所提算法在進(jìn)行特征提取時(shí)能夠有效挖掘數(shù)據(jù)集中的底層結(jié)構(gòu),實(shí)驗(yàn)選用的人工數(shù)據(jù)集是一組隨機(jī)生成的雙高斯數(shù)據(jù)集.在該數(shù)據(jù)集中,存在兩個(gè)服從高斯分布的數(shù)據(jù)簇,目標(biāo)是找到一個(gè)合適的低維投影空間,使得兩組數(shù)據(jù)簇在低維子空間中能夠明顯分開.然后將RPCA-PW與PCA和Angle PCA進(jìn)行比較,結(jié)果如圖3所示.

從圖3中可以看出,當(dāng)這兩組數(shù)據(jù)簇相距很遠(yuǎn)時(shí),三種PCA方法都能夠找到一個(gè)合適的投影方向使得數(shù)據(jù)集在一維空間中保留絕大多數(shù)的信息.隨著兩個(gè)數(shù)據(jù)簇之間的距離逐漸減少,PCA變得不再有效,具體表現(xiàn)為在一維投影空間中,兩組數(shù)據(jù)簇互相重疊,完全丟失判別信息.隨著兩個(gè)集群變得更加接近,PCA與Angle PCA 都無法得到最佳的投影方向.而RPCA-PW 所找到的一維投影在各種情況下都能將兩組數(shù)據(jù)簇明顯分開.實(shí)驗(yàn)結(jié)果說明PCA由于傾向于保留數(shù)據(jù)集整體的外圍結(jié)構(gòu),受到大距離樣本的干擾明顯;Angle PCA更加注重保留局部結(jié)構(gòu),但是它采用的快速衰減加權(quán)方式將過多的樣本點(diǎn)當(dāng)成劣點(diǎn)處理,丟失了過多的全局結(jié)構(gòu)判別信息;RPCA-PW在提取主成分的過程中,在突出樣本點(diǎn)主成分與互補(bǔ)子空間的區(qū)域性差異的同時(shí),能夠有效揭示數(shù)據(jù)集中的底層結(jié)構(gòu).

5.2 UCI數(shù)據(jù)集實(shí)驗(yàn)

為了驗(yàn)證本文提出算法的特征提取能力,本實(shí)驗(yàn)選用了UCI數(shù)據(jù)集中常用的幾個(gè)數(shù)據(jù)集,如:Australian、Cars、Cleve和Solar等,這些數(shù)據(jù)集已被用于許多研究,具體信息在表1中列出.為了消除隨機(jī)影響,實(shí)驗(yàn)時(shí)采用了十折交叉驗(yàn)證法,將每個(gè)數(shù)據(jù)集降至c ?1維,其中c為類別數(shù),然后采用最近鄰分類器對每一數(shù)據(jù)集求出識(shí)別正確率并計(jì)算出對應(yīng)的重建誤差.其中對于采用L2,p-norm的作為距離度量算法,實(shí)驗(yàn)中分別將p設(shè)為0.5,1,1.5,2四個(gè)值進(jìn)行實(shí)驗(yàn).最終得到8種算法在10個(gè)數(shù)據(jù)集上的平均識(shí)別正確率和重建誤差大小.實(shí)驗(yàn)結(jié)果如表2和表3所示.

表1 實(shí)驗(yàn)中使用的UCI數(shù)據(jù)集Table 1 UCI data sets used in the experiment

通過觀察發(fā)現(xiàn),在完全相同且隨機(jī)的實(shí)驗(yàn)條件下RPCA-PW能夠在8組UCI數(shù)據(jù)集上取得更高的平均識(shí)別正確率,同時(shí)在5組UCI數(shù)據(jù)集上有著最小的重建誤差.此外,HQ-PCA在4組UCI數(shù)據(jù)集上取得最小的重建誤差,也展現(xiàn)出了優(yōu)越的性能.在p取不同值的情況下,對應(yīng)L2,p-PCA和RPCA-PW算法的識(shí)別正確率也有所區(qū)別,其中當(dāng)p=0.5的時(shí)候,L2,p-PCA和RPCA-PW在總體上擁有更好的降維性能,這是因?yàn)榕cp=1或2相比,p=0.5可以進(jìn)一步削弱異常樣本點(diǎn)的影響,同時(shí)提高主成分鄰域中的樣本點(diǎn)在求解最優(yōu)解時(shí)的影響.因此在UCI真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明RPCA-PW在擁有更高精度的基礎(chǔ)上,還通常具有更小的重建誤差.

圖3 三種算法在雙高斯人工數(shù)據(jù)集上的投影結(jié)果Fig.3 Projection result of three algorithms on two-Gaussian artificial dataset

表2 UCI 數(shù)據(jù)集上各算法的平均分類正確率(%)Table 2 Average classification accuracy of each algorithm on UCI data sets(%)

表3 UCI 數(shù)據(jù)集上各算法的重建誤差Table 3 Reconstruction error of each algorithm on UCI data sets

5.3 人臉識(shí)別與重建實(shí)驗(yàn)

5.3.1 人臉數(shù)據(jù)庫

本節(jié)中運(yùn)用兩個(gè)人臉數(shù)據(jù)庫的人臉圖像進(jìn)行實(shí)驗(yàn),其中Extended Yale B人臉數(shù)據(jù)庫由2 414個(gè)正面人臉圖像組成,這些正面人臉圖像是從38個(gè)具有不同光照的個(gè)體中采樣的,其中每人有65張圖像.AR 數(shù)據(jù)庫包含超過4 000張126人(70名男性和56名女性)的面部圖像,包括不同的面部表情、光照強(qiáng)度與遮擋范圍.

5.3.2 人臉識(shí)別實(shí)驗(yàn)

實(shí)驗(yàn)中,將每張圖像的大小調(diào)整為32×32像素,這樣每幅圖像就被轉(zhuǎn)化為了一個(gè)1 024維的向量,并且讓所有數(shù)據(jù)被歸一化至均值為0.為消除隨機(jī)影響,實(shí)驗(yàn)方法選擇十折交叉驗(yàn)證法,并在訓(xùn)練集圖像中添加遮擋噪聲塊、高斯噪聲和椒鹽噪聲三種不同類型的噪聲以測試各算法的魯棒性,其中噪聲塊的位置是隨機(jī)的,遮擋噪聲像素與圖像像素?cái)?shù)的比率為0.05～0.10.圖4(a)～(b)分別列出了兩個(gè)數(shù)據(jù)庫的原始圖像以及添加噪聲后對應(yīng)的圖像.

比較結(jié)果如圖5所示,不同的噪聲類型添加到同一數(shù)據(jù)庫上表現(xiàn)出各不相同的實(shí)驗(yàn)結(jié)果.從圖中不難發(fā)現(xiàn)本文算法對不同維度降維后的分類性能總體上要優(yōu)于其他的魯棒PCA 算法.此外,從圖中可以得到兩個(gè)結(jié)論:1)特征空間中的分類結(jié)果要優(yōu)于原始空間中的分類結(jié)果,特別是當(dāng)特征空間的維數(shù)增加時(shí).這是因?yàn)樵肼暱赡馨l(fā)生在原始空間中,而降維方法可以找到具有大部分判別信息的主成分空間并拋棄補(bǔ)空間中的冗余信息,從而更準(zhǔn)確和快速地分類.2)在不同的情況下,RPCA-PW在總體上要優(yōu)于其他方法.因?yàn)镽PCA-PW 能夠有效地排除少數(shù)異常樣本的不良影響,最終收斂到正確結(jié)果并且保持很高的識(shí)別精度,所以當(dāng)圖像保留足夠的空間信息時(shí),它具有更好的性能并且取得更高的平均識(shí)別率.

5.3.3 人臉重構(gòu)實(shí)驗(yàn)

為了直觀觀察使用特征空間對遮蓋噪聲圖進(jìn)行重構(gòu)之后的效果圖,本節(jié)在Extended Yale B和AR兩個(gè)人臉數(shù)據(jù)庫中進(jìn)行人臉重構(gòu)實(shí)驗(yàn).為了方便觀察,將每張圖片的大小調(diào)整為64×64像素,并在訓(xùn)練集圖像中添加遮擋噪聲塊以測試各算法的魯棒性,遮擋噪聲塊的位置是隨機(jī)的,噪聲像素與圖像像素?cái)?shù)的比率為0.05～0.10.實(shí)驗(yàn)中首先使用各算法提取出前30個(gè)特征值所對應(yīng)的特征向量組成的特征空間,再使用這些特征對遮蓋噪聲圖像進(jìn)行重構(gòu).圖6是各算法的人臉重構(gòu)效果圖.

從圖中可以看出,經(jīng)典PCA算法對原始圖片的重構(gòu)效果最差,因?yàn)榛诰秸`差的PCA算法,其重構(gòu)性能易受噪聲點(diǎn)影響,導(dǎo)致質(zhì)量差.PCAL21、Angle PCA和RPCA-OM三種算法能夠較為清晰地還原人臉的輪廓,但是對于噪聲塊遮擋部位的還原效果并不理想.而HQ-PCA與基于L2,pnorm 的RPCA-PW和L2,p-PCA對于遮蓋部分的還原更加清晰,表現(xiàn)出對噪聲有更好的魯棒性.而本文算法在降維過程中對于圖片全局結(jié)構(gòu)特征的提取能力強(qiáng),因此在圖像重構(gòu)中能夠獲得更為清晰的人臉輪廓,尤其是對于遮蓋部分的還原幾乎不受影響.

圖4 Extended Yale B和AR 人臉數(shù)據(jù)庫原始圖像與加入三種不同噪聲后對應(yīng)的圖像(從上至下分別為黑白噪聲塊、高斯噪聲和椒鹽噪聲)Fig.4 Original images in Extended Yale B and AR face database and the corresponding images with three different noise types(top to bottom are noise block,Gaussian noise and salt-and-pepper noise respectively)

圖5 不同維度下的各算法平均識(shí)別準(zhǔn)確率Fig.5 Recognition accuracy with different reduced dimensions

圖6 人臉重構(gòu)效果圖,每一列從左到右依次是原圖、PCA、PCA-L21、RPCA-OM、Angle PCA、HQ-PCA、L2,p-PCA p=0.5、L2,p-PCA p=1、RPCA-PW p=0.5、RPCA-PW p=1Fig.6 Face reconstruction pictures,each column represents original image,PCA,PCA-L21,RPCA-OM,Angle PCA,HQ-PCA,L2,p-PCA p=0.5,L2,p-PCA p=1,RPCA-PW p=0.5 and RPCA-PW p=1 from left to right

5.3.4 算法時(shí)間比較結(jié)果

為了比較本文提出的RPCA-PW算法和其他算法的運(yùn)行效率,這里統(tǒng)計(jì)了各算法在不同數(shù)據(jù)集上的平均運(yùn)行時(shí)間,其中包括10個(gè)UCI數(shù)據(jù)集和2個(gè)人臉圖像數(shù)據(jù)集.實(shí)驗(yàn)結(jié)果如圖7 所示.

從實(shí)驗(yàn)結(jié)果可以看出,PCA由于只需要進(jìn)行一次特征分解,因此運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)低于其他的PCA算法;PCA-L21采用的是非貪婪優(yōu)化算法,整體上優(yōu)化了迭代過程從而減少了運(yùn)行時(shí)間;相比之下,RPCA-PW 雖然需要更長的平均迭代時(shí)間,但是算法擁有更好的分類性能和魯棒性,而且從總體而言,平均運(yùn)行時(shí)間也要低于各算法的平均值.

5.3.5 算法收斂性實(shí)驗(yàn)

為了測試RPCA-PW算法的收斂性能,本文進(jìn)行如下的實(shí)驗(yàn)以驗(yàn)證算法在不同類型標(biāo)準(zhǔn)數(shù)據(jù)集上的收斂性能.這里選取了6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行相關(guān)的收斂性實(shí)驗(yàn)(包括4個(gè)不同類型的UCI數(shù)據(jù)集與2個(gè)人臉圖像數(shù)據(jù)集).所提算法在標(biāo)準(zhǔn)數(shù)據(jù)集上的收斂曲線如圖8所示.

圖7 各算法對不同數(shù)據(jù)集的平均時(shí)間比較結(jié)果Fig.7 Comparison of average iteration time for different data sets by different algorithms

圖8 RPCA-PW收斂曲線Fig.8 Convergence curves of RPCA-PW

從圖8的實(shí)驗(yàn)結(jié)果可以看出,相比較于只需要進(jìn)行一次特征分解即可得到結(jié)果的傳統(tǒng)PCA算法,RPCA-PW雖然需要更多的迭代次數(shù),但是通常能夠保證在迭代十次之內(nèi)收斂,而且在迭代的過程中,穩(wěn)定性也沒有受到破壞.因此所提算法能夠在僅僅增加少量計(jì)算量的前提下,大大提高算法的魯棒性和泛化性能.

6 結(jié)論

本文提出了一種新的PCA模型,稱為魯棒自適應(yīng)概率加權(quán)PCA.RPCA-PW較經(jīng)典PCA算法在魯棒性上有了明顯的改進(jìn),具體表現(xiàn)在采用L2,p模降低離群點(diǎn)對于模型的影響,并且基于投影空間中數(shù)據(jù)的結(jié)構(gòu)信息與重建誤差之間的關(guān)系,在提取主成分的過程中加強(qiáng)對識(shí)別關(guān)鍵的樣本點(diǎn)的影響,削弱那些與識(shí)別過程關(guān)系不大或者冗余大的樣本點(diǎn)來提高精度.從而在計(jì)算過程中能夠自動(dòng)識(shí)別異常點(diǎn)樣本,有效地降低了樣本中離群點(diǎn)的干擾,這一點(diǎn)在實(shí)際應(yīng)用中也有著一定的意義.此外,所提出的模型可作為廣義公式,幾種現(xiàn)有的算法都能作為其特例.在人工數(shù)據(jù)集、UCI數(shù)據(jù)集和人臉數(shù)據(jù)庫上與其他PCA方法進(jìn)行了對比實(shí)驗(yàn),結(jié)果表明本文提出的模型擁有更好的識(shí)別精度,并且對噪聲有顯著高的魯棒性.