高云龍 羅斯哲 潘金艷 陳柏華 張逸松
隨著技術的進步,數據采集的效率逐漸提高,使得數據的規模越來越大、復雜性越來越高.在大多數情況下,這些高維數據都存在著能夠保留大部分有效信息的低維子空間,如何移除高維空間中的噪聲和無關信息,提高后續學習算法的性能和效率一直是模式識別和機器學習領域的研究熱點.在過去的幾十年中涌現出了許多優秀的算法,PCA[1]是其中最經典的方法之一,它通過線性變換把數據投影到一個新的坐標空間中,希望用較少的變量來表示原數據所提供的大部分信息.PCA逐漸發展為多種應用的預處理技術方法,如圖像識別、生物信息和數據挖掘[2?4].由于其用途廣泛且原理簡單,研究者們陸續提出了各種改進的PCA算法.Koren等[5]提出的WPCA使用了加權距離來減輕離群點對投影方向的影響,突出了與主成分相關的特征;Schlkopf等[6]通過非線性映射將原始數據映射到高維特征空間,再執行kernel-PCA以提取特征;李春娜等[7]極大化帶有稀疏正則項的Lp模樣本方差,同時賦予算法魯棒性和稀疏性.
衡量算法的優劣,一個重要的指標就是魯棒性,盡管基于L2模的PCA能夠解決許多問題,但并不能有效地處理小樣本問題中的離群點[8],因為L2模的非線性變化特征會放大離群點所帶來的影響,使算法傾向于保留外圍結構.為了減輕異常點的負面影響,目前已經提出了各種增強魯棒性的解決方案.L1模被認為是增強算法魯棒性的有效手段之一.Ke等[9]提出了L1-PCA算法,通過極小化基于L1模的重建誤差來提取主成分;Kwak[10]則在特征空間中極大化對應的L1模并利用貪婪算法求解模型;在此基礎上,Nie 等[11]提出了一種非貪婪迭代算法能夠得到比貪婪算法更好的結果.
盡管基于L1模的PCA魯棒性較強,但是由于計算代價大,而且不具有旋轉不變性[12].因此,大量具有旋轉不變性的魯棒PCA算法相繼出現,這些方法通過采用不同的準則函數或者優化算法來降低異常點對損失函數的影響,以提高主成分分析過程中對于異常點的魯棒性.He等在文獻[13]中將PCA的均方誤差(MSE)準則修改為最大熵(MaxEnt)準則來盡可能地保留數據的不確定性;進而在文獻[14]中提出HQ-PCA,使用最大相對熵準則(MCC)代替MSE,并采用半二次(Half-Quadratic)優化將原問題轉換為一系列二次規劃問題進行求解.HQPCA提高了算法對于噪聲的魯棒性,同時保留了平移與旋轉不變性;He等在文獻[15]中基于數據的子空間屬性,分析了魯棒低秩矩陣恢復方法和基于M估計的魯棒主成分分析方法之間的聯系,提高主成分提取過程中對任意噪聲的處理能力;Ding 等[16]使用旋轉不變的R1模構造重建誤差,在一定程度上抑制了離群點的影響,但是該方法依賴于投影空間中的維數;Nie等[17]在此基礎上提出了RPCAOM,計算了在R1范數下的最優均值并能夠自動刪除最優的數據均值;受此啟發,許多魯棒PCA采用L21模作為魯棒降維的有效手段.Nie等[18]基于L21范數最大化在理論上與重構誤差最小化的關聯性提出了PCA-L21,并設計了一種有效的非貪婪優化算法來求解相關的最大化問題;Wang 等[19]將L21模的距離度量擴展為L2,p,可針對不同的數據選擇適當的p以達到更好的效果;但以上魯棒PCA算法缺乏考慮重建誤差和投影數據描述方差之間的關系,在主成分提取的過程中容易造成判別信息的丟失.對此,Wang 等[20]提出的Angle PCA方法通過最大化每個樣本點的描述方差和重建誤差之間的比率來確定主成分空間,通過每個數據點與主成分方向的偏移角度進行加權,但其權值的變化呈余切函數的快速非線性變化特征,導致其過度強調局部特征,所提取的主成分泛化性能弱.
基于此,本文提出了魯棒自適應概率加權主成分分析(RPCA-PW).RPCA-PW 基于樣本點的重建誤差與描述方差在L2,p模下的變化關系確定每個樣本點的可靠性程度.其核心是選擇主成分空間及其補空間作為參考,通過分析樣本點與這兩個描述空間的相似度來確定主成分空間及其補空間對數據描述的不確定性,結合交替迭代的優化算法,從而能夠在降維過程中自適應地降低噪聲和異常樣本點的影響.本文提出的方法不僅對離群點具有魯棒性,并可針對不同數據集選擇合適的p以達到更好的效果,本文將在人工數據集、UCI 數據集和人臉圖像數據庫上進行實驗,進而證明本文所提出算法的有效性.
考慮如下樣本矩陣:X=[x1,x2,···,x n]∈Rd×n,其中n和d分別為樣本數量和維數.不失一般性,這里假設X=[x1,x2,···,x n]已經去中心化,即定義投影矩陣W∈Rd×m(m 由式(1)和式(2)可知,由于L2模對離群點敏感,傳統PCA 對噪聲的魯棒性不強,噪聲的存在會使得PCA 的計算結果會出現很大的誤差. L2,p-PCA采用L2,p模作為重建誤差的距離度量,可針對不同的數據選擇適當的p以達到更好的效果.L2,p-PCA不僅能在一定程度上削弱噪聲點的影響,而且還保留了PCA 所需的特性,如旋轉不變性.此外,基于L2,1模的魯棒PCA可作為L2,p-PCA的特例.L2,p-PCA的目標函數定義為: L2,p模的非線性函數特征在一定程度上降低了噪聲和異常樣本點的影響力,但是仍然不能完全剔除噪聲和異常樣本點的影響.究其原因,L2,p-PCA的根本特征在于僅考慮了樣本點與數據簇整體統計特征的偏差程度(bias),但沒有考慮噪聲點與可靠數據點在不同的子空間屬性下潛在的可分性,從而造成判別信息的丟失. Angle PCA采用L2模來構造投影數據的重建誤差和描述方差,通過最大化方差和重構誤差之比來確定投影矩陣,即Angle PCA通過求解以下目標函數來確定主成分: 因此,目標函數(4)被稱為Angle PCA.通過對樣本點迭代加權的方式來降低噪聲和異常樣本的影響.這種建模方式的核心是能夠減少重建誤差較大樣本點產生的損失,從而提升對噪聲的魯棒性.但cotαi的非線性快速衰減特征造成了Angle PCA對數據的全局結構特征提取能力差.例如:當樣本點與主成分方向之間的夾角增大時,cotαi迅速減小,使得主成分對數據的局部結構特征描述能力強,但是對數據的全局結構特征描述能力差.這一特征造成Angle PCA最優解的穩定性差,對初始投影矩陣W的選取依賴性很強.例如:當模型的初始W選擇恰當時,則Angle PCA對噪聲點具有很強的魯棒性,若初始W確定的投影方向與實際主成分方向垂直的時候,式(5)起到的作用則正好相反,表現為突出非主成分樣本點在模型中所占的比重(此時非主成分樣本點的重建誤差很小). 為了能夠充分考慮重建誤差和投影數據描述方差之間的聯系,并根據數據主要統計特征及其互補信息確定各樣本點的可靠程度,在提取主成分的過程中,提高可靠度較高樣本點的影響力,同時削弱可靠度較低樣本點的影響程度,本文建立以下RPCAPW 模型: 模型(7)中采用了L2,p模作為度量標準,不僅可以降低噪聲的影響,而且具有旋轉不變性,改變p值的大小可應用于不同類型的數據集,大大提高了算法的靈活性和魯棒性. 為了提高RPCA-PW對數據全局結構特征的描述能力和對噪聲的魯棒性,需要模型(7)中δi滿足以下要求: 1)能夠反映出樣本點的可靠性(不確定性).對于可靠樣本點,δi應取較大的值,對于噪聲和異常樣本點,δi應取較小的值,通過分析樣本點的不確定性削弱噪聲和異常值的影響. 2)在主成分空間所確定的一個較大的鄰域內,δi的取值應保持穩定,以提高主成分對數據全局結構特征的提取能力,從而提高主成分的泛化性能. 3)能夠根據數據受噪聲污染的實際情況動態調整各局部鄰域的大小,即能夠動態調整主成分局部鄰域和主成分互補空間局部鄰域的劃分界限. 為了滿足上述要求,本文通過以下模型確定權值: 由于ai對于不同i的取值相互獨立,因此通過簡單的數學變換: 求得ai最優解的解析形式為: 式(11)中基于ai最優解的稀疏性結構特征使得在主成分周圍的鄰域內,δi為某個固定的較大正數,在重建誤差相對大的噪聲樣本局部鄰域內,δi為某個固定的非常小的正數或等于零.另外式(11)中的參數λi,決定了局部稀疏鄰域的大小,即決定了主成分樣本的局部鄰域與異常樣本局部鄰域的劃分,通過調節λi可以動態調整各自局部鄰域的大小. 下面通過與PCA、Angle PCA的比較實例來說明RPCA-PW對離群點的魯棒性: 如圖1所示,圖1(a)中是一組由500個數據點組成的服從高斯分布的數據簇,在圖1(b)中將隨機插入10個與原分布差異很大的離群點.結果顯示,PCA對樣本點的分布非常敏感,主方向計算結果誤差非常大;因為cot(αi)函數非線性快速衰減的加權方式,使Angle PCA在離群點的影響之下,投影方向也發生了一定程度的偏離,圖1(c)顯示了cot(αi)的變化過程;而RPCA-PW的投影方向不受離群點的影響,主成分空間仍然很好地保留了原數據的全局結構特征,有效排除少數離群點造成的影響.這是因為RPCA-PW 充分考慮了數據在描述空間中的分布特征,可以將脫離數據集的異常樣本造成的影響降到最低.圖1(d)中顯示了權重系數δi的變化過程,根據δi的變化趨勢,可以分為三個階段,分別代表著RPCA-PW 為主成分點、過渡點和離群點所屬的三個局部區域所分配的不同權重(對于離群點,有δi=0),通過調節參數λi可以控制兩個跳變點的位置,即(138,10)與(500,0)的位置,進而調整三類區域的范圍. 圖1 人工數據集上的魯棒性實驗Fig.1 Robustness experiment on artificial data set 本節中利用優化理論中的交替優化算法求解模型(7),通過簡單的數學代換,可得: 將式(13)代入模型(7)中,模型(7)最后變為: RPCA-PW 的目標是找到一個投影矩陣W,以最大化目標函數(14)的值,其中有三個與W相關的未知變量分別是W、d1,i和d2,i.因此,目標函數沒有閉式解,難以直接求解目標函數(14).本文采用文獻[20]中的算法來交替地更新W、d1,i和d2,i,具體來說,是在第i次迭代中,當d1,i和d2,i已知時,通過最小化目標函數(14)更新投影矩陣W.在這種情況下,將目標函數(14)簡化為: 其中,D是對角矩陣,對角線上的元素為Dii=d1,i+δid2,i,ai可由式(11)獲得.根據矩陣理論,目標函數(15)中投影矩陣W的列向量由矩陣X DXT的前m個最大特征值所對應的特征向量組成,隨后再使用得到的W來更新d1,i和d2,i,重復該迭代過程直至算法收斂.算法1中給出了求解RPCA-PW的具體算法. 算法1.RPCA-PW算法 3:對于每個i,通過式(11)來更新權值ai; 4:計算對角矩陣D,其中對角線上的元素為Dii=d1,i+δid2,i; 5:更新投影矩陣W,其中W的列向量由矩陣X DXT的前m個最大特征值所對應的特征向量組成; 6:若J(Wk)≥J(Wk?1),轉到第8步,否則轉到第7 步; 7:通過線搜索Armijo算法確定步長的子梯度下降法[21]找到滿足J(Wk)≥J(Wk?1)的Wk,如果沒有解決方案,轉到步驟9,否則,轉到步驟8; 8:k ←k+1; 9:End while 輸出:W ∈Rd×m 本節中討論了RPCA-PW 算法的收斂性以及L2,p范數下不同p值所對應的損失函數變化情況,并給出本文算法與其他相關魯棒PCA算法的關系. 本文的基本思路是對于給定的主成分空間,通過模型(8)學習每個樣本點的誤差極小化概率描述,將學習到的概率描述反饋到模型(7)中,從而自適應地修改模型(7)中描述誤差項的權重,從而達到提高PCA魯棒性的目的.因此算法1的收斂性應該從以下三個方面考慮: 1)給定W條件下,對模型(8)的優化 對于W已經給定的條件下,模型(8)存在解析解,其最優解由式(11)給出. 2)給定δi條件下,對模型(7)的優化 模型(7)的拉格朗日函數為: 其中,拉格朗日乘子Λ是用于強制正交約束WTW=I的對角矩陣.在第k次迭代中,當δi已知時,為了滿足KKT條件,式(16)的梯度必須等于零,即 根據算法1中的步驟5,能夠找到式(17)的最優解.因此,算法1的收斂解決方案滿足問題的KKT條件.式(16)的拉格朗日方程為: 對W求導可得到關于式(18)的KKT條件: 注意到在式(19)中,矩陣D與Wk?1有關.假設在第k次迭代中獲得局部最優解W?,即W?=Wk=Wk?1.在這種情況下,式(17)與式(19)保持一致,這意味著算法1的收斂解決方案滿足模型(7)的KKT條件,即 上述分析保證了算法1的最優解是模型的一個駐點.此外,算法1中的步驟6和步驟7 說明RPCA-PW的目標函數值在每次迭代中都是非遞減的,這樣就保證了算法具有單調收斂的特性. 3)迭代更新W和δi,算法1的收斂性驗證 這里通過實驗驗證迭代更新W和δi時算法1的收斂性,具體內容見實驗部分第5.3.5節. 圖2繪制了p在不同取值下的目標函數取值變化曲線.從圖中可以看出,當p為2時,具有大重建誤差的樣本點將會顯著地支配目標函數,因此傳統的基于MSE 的PCA算法對于噪聲敏感.與p=2相比,p=0.5或1可以在一定程度上減弱大距離樣本點的影響,對于噪聲點具有更強的魯棒性,此外,與p=1或2相比,p=0.5可以進一步削弱異常樣本點的影響,同時提高主成分鄰域中的樣本點在求解最優解時的影響. 圖2 p 在不同取值下的目標函數取值變化曲線Fig.2 Objective function values under different p 基于對于p的不同取值的分析,下面將討論RPCA-PW與幾種魯棒PCA算法之間的相互聯系,從模型的角度出發分析各自算法的特點,包括PCA,R1-PCA,L2,p-PCA和Angle PCA. 4.3.1 與PCA的聯系 經典PCA算法建立在均方差或者重建誤差意義上,目的是使得投影空間中樣本點協方差最大或者重建誤差最小,本質是在最小均方差意義下尋找最能代表數據特征的投影向量子空間,因此有: 1)若模型(6)中的ai=1(i=1,···,n),p=2,得到: 2)若模型(6)中的ai=0(i=1,···,n),p=2,得到: 模型(21)和(22)是PCA的兩種標準等價形式. 4.3.2 與R 1-PCA的聯系 一個數據矩陣的R1模就是每個數據點的L2模之和,R1-PCA將原PCA 模型中的L2模改成R1模進行求解,R1模在降低噪聲影響的同時能保持旋轉不變性.若模型(6)中的ai=0(i=1,···,n),p=1,可得 模型(23)即為R1-PCA 的目標函數. 4.3.3 與LLL 222,,,ppp -PCA的聯系 L2,p-PCA 采用L2,p模構造每個樣本點的重建誤差,與大多數現有的PCA-L1方法相比,L2,p-PCA直接最小化了樣本點的重建誤差,與L1-PCA方法相比,L2,p-PCA保留了PCA的旋轉不變性.若模型(6)中的ai=0(i=1,···,n),則它的形式簡化為: 模型(24)即為L2,p-PCA的目標函數. 4.3.4 與Angle PCA的聯系 Angle PCA 采用最大化每個樣本點的協方差和重建誤差之比的總和所得到的結果作為投影矩陣,根據文獻[22]中的定理1,模型(4)可以等價轉換為以下形式: 則它與模型(4)中的加權效果相同. 本節將文中所提算法在人工數據集、UCI 數據集和人臉數據庫上進行實驗,并將其性能與傳統PCA 和相關魯棒PCA算法進行比較,例如:PCA-L21、RPCA-OM、Angle PCA、MaxEnt-PCA、HQ-PCA和L2,p-PCA.其中式(6)中的參數ε是為了防止除零,本文在實驗中統一設置為0.05,另一參數λi的取值決定主成分及非主成分的局部鄰域大小,實驗中根據不同的數據集動態地進行調整,為了方便超參數設置,本文在實驗中統一置λi為: 在實驗中使用最近鄰域(1-NN)分類器[23]進行分類以計算識別準確率,在人臉重構實驗中,平均重建誤差由原始未被遮擋的圖像與重構圖像之間的平均距離定義,如下所示: 為了驗證本文所提算法在進行特征提取時能夠有效挖掘數據集中的底層結構,實驗選用的人工數據集是一組隨機生成的雙高斯數據集.在該數據集中,存在兩個服從高斯分布的數據簇,目標是找到一個合適的低維投影空間,使得兩組數據簇在低維子空間中能夠明顯分開.然后將RPCA-PW與PCA和Angle PCA進行比較,結果如圖3所示. 從圖3中可以看出,當這兩組數據簇相距很遠時,三種PCA方法都能夠找到一個合適的投影方向使得數據集在一維空間中保留絕大多數的信息.隨著兩個數據簇之間的距離逐漸減少,PCA變得不再有效,具體表現為在一維投影空間中,兩組數據簇互相重疊,完全丟失判別信息.隨著兩個集群變得更加接近,PCA與Angle PCA 都無法得到最佳的投影方向.而RPCA-PW 所找到的一維投影在各種情況下都能將兩組數據簇明顯分開.實驗結果說明PCA由于傾向于保留數據集整體的外圍結構,受到大距離樣本的干擾明顯;Angle PCA更加注重保留局部結構,但是它采用的快速衰減加權方式將過多的樣本點當成劣點處理,丟失了過多的全局結構判別信息;RPCA-PW在提取主成分的過程中,在突出樣本點主成分與互補子空間的區域性差異的同時,能夠有效揭示數據集中的底層結構. 為了驗證本文提出算法的特征提取能力,本實驗選用了UCI數據集中常用的幾個數據集,如:Australian、Cars、Cleve和Solar等,這些數據集已被用于許多研究,具體信息在表1中列出.為了消除隨機影響,實驗時采用了十折交叉驗證法,將每個數據集降至c ?1維,其中c為類別數,然后采用最近鄰分類器對每一數據集求出識別正確率并計算出對應的重建誤差.其中對于采用L2,p-norm的作為距離度量算法,實驗中分別將p設為0.5,1,1.5,2四個值進行實驗.最終得到8種算法在10個數據集上的平均識別正確率和重建誤差大小.實驗結果如表2和表3所示. 表1 實驗中使用的UCI數據集Table 1 UCI data sets used in the experiment 通過觀察發現,在完全相同且隨機的實驗條件下RPCA-PW能夠在8組UCI數據集上取得更高的平均識別正確率,同時在5組UCI數據集上有著最小的重建誤差.此外,HQ-PCA在4組UCI數據集上取得最小的重建誤差,也展現出了優越的性能.在p取不同值的情況下,對應L2,p-PCA和RPCA-PW算法的識別正確率也有所區別,其中當p=0.5的時候,L2,p-PCA和RPCA-PW在總體上擁有更好的降維性能,這是因為與p=1或2相比,p=0.5可以進一步削弱異常樣本點的影響,同時提高主成分鄰域中的樣本點在求解最優解時的影響.因此在UCI真實數據集上的實驗表明RPCA-PW在擁有更高精度的基礎上,還通常具有更小的重建誤差. 圖3 三種算法在雙高斯人工數據集上的投影結果Fig.3 Projection result of three algorithms on two-Gaussian artificial dataset 表2 UCI 數據集上各算法的平均分類正確率(%)Table 2 Average classification accuracy of each algorithm on UCI data sets(%) 表3 UCI 數據集上各算法的重建誤差Table 3 Reconstruction error of each algorithm on UCI data sets 5.3.1 人臉數據庫 本節中運用兩個人臉數據庫的人臉圖像進行實驗,其中Extended Yale B人臉數據庫由2 414個正面人臉圖像組成,這些正面人臉圖像是從38個具有不同光照的個體中采樣的,其中每人有65張圖像.AR 數據庫包含超過4 000張126人(70名男性和56名女性)的面部圖像,包括不同的面部表情、光照強度與遮擋范圍. 5.3.2 人臉識別實驗 實驗中,將每張圖像的大小調整為32×32像素,這樣每幅圖像就被轉化為了一個1 024維的向量,并且讓所有數據被歸一化至均值為0.為消除隨機影響,實驗方法選擇十折交叉驗證法,并在訓練集圖像中添加遮擋噪聲塊、高斯噪聲和椒鹽噪聲三種不同類型的噪聲以測試各算法的魯棒性,其中噪聲塊的位置是隨機的,遮擋噪聲像素與圖像像素數的比率為0.05~0.10.圖4(a)~(b)分別列出了兩個數據庫的原始圖像以及添加噪聲后對應的圖像. 比較結果如圖5所示,不同的噪聲類型添加到同一數據庫上表現出各不相同的實驗結果.從圖中不難發現本文算法對不同維度降維后的分類性能總體上要優于其他的魯棒PCA 算法.此外,從圖中可以得到兩個結論:1)特征空間中的分類結果要優于原始空間中的分類結果,特別是當特征空間的維數增加時.這是因為噪聲可能發生在原始空間中,而降維方法可以找到具有大部分判別信息的主成分空間并拋棄補空間中的冗余信息,從而更準確和快速地分類.2)在不同的情況下,RPCA-PW在總體上要優于其他方法.因為RPCA-PW 能夠有效地排除少數異常樣本的不良影響,最終收斂到正確結果并且保持很高的識別精度,所以當圖像保留足夠的空間信息時,它具有更好的性能并且取得更高的平均識別率. 5.3.3 人臉重構實驗 為了直觀觀察使用特征空間對遮蓋噪聲圖進行重構之后的效果圖,本節在Extended Yale B和AR兩個人臉數據庫中進行人臉重構實驗.為了方便觀察,將每張圖片的大小調整為64×64像素,并在訓練集圖像中添加遮擋噪聲塊以測試各算法的魯棒性,遮擋噪聲塊的位置是隨機的,噪聲像素與圖像像素數的比率為0.05~0.10.實驗中首先使用各算法提取出前30個特征值所對應的特征向量組成的特征空間,再使用這些特征對遮蓋噪聲圖像進行重構.圖6是各算法的人臉重構效果圖. 從圖中可以看出,經典PCA算法對原始圖片的重構效果最差,因為基于均方誤差的PCA算法,其重構性能易受噪聲點影響,導致質量差.PCAL21、Angle PCA和RPCA-OM三種算法能夠較為清晰地還原人臉的輪廓,但是對于噪聲塊遮擋部位的還原效果并不理想.而HQ-PCA與基于L2,pnorm 的RPCA-PW和L2,p-PCA對于遮蓋部分的還原更加清晰,表現出對噪聲有更好的魯棒性.而本文算法在降維過程中對于圖片全局結構特征的提取能力強,因此在圖像重構中能夠獲得更為清晰的人臉輪廓,尤其是對于遮蓋部分的還原幾乎不受影響. 圖4 Extended Yale B和AR 人臉數據庫原始圖像與加入三種不同噪聲后對應的圖像(從上至下分別為黑白噪聲塊、高斯噪聲和椒鹽噪聲)Fig.4 Original images in Extended Yale B and AR face database and the corresponding images with three different noise types(top to bottom are noise block,Gaussian noise and salt-and-pepper noise respectively) 圖5 不同維度下的各算法平均識別準確率Fig.5 Recognition accuracy with different reduced dimensions 圖6 人臉重構效果圖,每一列從左到右依次是原圖、PCA、PCA-L21、RPCA-OM、Angle PCA、HQ-PCA、L2,p-PCA p=0.5、L2,p-PCA p=1、RPCA-PW p=0.5、RPCA-PW p=1Fig.6 Face reconstruction pictures,each column represents original image,PCA,PCA-L21,RPCA-OM,Angle PCA,HQ-PCA,L2,p-PCA p=0.5,L2,p-PCA p=1,RPCA-PW p=0.5 and RPCA-PW p=1 from left to right 5.3.4 算法時間比較結果 為了比較本文提出的RPCA-PW算法和其他算法的運行效率,這里統計了各算法在不同數據集上的平均運行時間,其中包括10個UCI數據集和2個人臉圖像數據集.實驗結果如圖7 所示. 從實驗結果可以看出,PCA由于只需要進行一次特征分解,因此運行時間遠遠低于其他的PCA算法;PCA-L21采用的是非貪婪優化算法,整體上優化了迭代過程從而減少了運行時間;相比之下,RPCA-PW 雖然需要更長的平均迭代時間,但是算法擁有更好的分類性能和魯棒性,而且從總體而言,平均運行時間也要低于各算法的平均值. 5.3.5 算法收斂性實驗 為了測試RPCA-PW算法的收斂性能,本文進行如下的實驗以驗證算法在不同類型標準數據集上的收斂性能.這里選取了6個標準數據集進行相關的收斂性實驗(包括4個不同類型的UCI數據集與2個人臉圖像數據集).所提算法在標準數據集上的收斂曲線如圖8所示. 圖7 各算法對不同數據集的平均時間比較結果Fig.7 Comparison of average iteration time for different data sets by different algorithms 圖8 RPCA-PW收斂曲線Fig.8 Convergence curves of RPCA-PW 從圖8的實驗結果可以看出,相比較于只需要進行一次特征分解即可得到結果的傳統PCA算法,RPCA-PW雖然需要更多的迭代次數,但是通常能夠保證在迭代十次之內收斂,而且在迭代的過程中,穩定性也沒有受到破壞.因此所提算法能夠在僅僅增加少量計算量的前提下,大大提高算法的魯棒性和泛化性能. 本文提出了一種新的PCA模型,稱為魯棒自適應概率加權PCA.RPCA-PW較經典PCA算法在魯棒性上有了明顯的改進,具體表現在采用L2,p模降低離群點對于模型的影響,并且基于投影空間中數據的結構信息與重建誤差之間的關系,在提取主成分的過程中加強對識別關鍵的樣本點的影響,削弱那些與識別過程關系不大或者冗余大的樣本點來提高精度.從而在計算過程中能夠自動識別異常點樣本,有效地降低了樣本中離群點的干擾,這一點在實際應用中也有著一定的意義.此外,所提出的模型可作為廣義公式,幾種現有的算法都能作為其特例.在人工數據集、UCI數據集和人臉數據庫上與其他PCA方法進行了對比實驗,結果表明本文提出的模型擁有更好的識別精度,并且對噪聲有顯著高的魯棒性.
1.2 L222,,,ppp -PCA

1.3 Angle PCA

2 魯棒自適應概率加權主成分分析







3 優化算法




4 討論
4.1 算法收斂性





4.2 不同p值下的損失函數

4.3 與相關算法之間的聯系





5 實驗結果與分析


5.1 人工數據集實驗
5.2 UCI數據集實驗




5.3 人臉識別與重建實驗





6 結論