李驁,王卓,于曉洋,陳德運,張英濤,孫廣路
(1.哈爾濱理工大學計算機科學與技術學院,黑龍江 哈爾濱 150080;2.哈爾濱理工大學儀器科學與技術博士后流動站,黑龍江 哈爾濱 150080;3.哈爾濱工業大學計算機科學與技術學院,黑龍江 哈爾濱 150001)
隨著數據科學的發展與數據形式的多樣化,現實世界的對象通常可以通過多個視角進行更完整和充分的描述。例如,圖像可以通過顏色、邊緣、紋理等進行描述;網頁可以通過頁面的文本和指向它們的超鏈接進行描述等,上述類型的數據稱為多視圖數據。多視圖數據的每個視圖都是關于同一對象的一種描述,不同視圖通常從不同角度描述對象的某種特性,同時分析所有視圖并將它們包含的信息進行融合學習的過程稱為多視圖學習[1]。
子空間聚類是近年來提出的一類應用于高維數據聚類的有效方法,其通過學習高維數據本身固有的子空間結構來表征數據內在關聯關系,然后利用子空間表示構造描述數據近鄰關系的親和矩陣,并對其實施圖切劃分算法獲得聚類結果。因此,子空間表示矩陣的優劣是影響子空間聚類性能的關鍵因素。目前主流的子空間聚類算法中,大多假設每個樣本都可以通過自身的線性組合來進行重構,并通過對自表示矩陣施加適當的約束,來有效地學習數據的子空間結構[2]。稀疏子空間聚類(SSC,sparse subspace clustering)[3]是子空間聚類的典型代表之一,該方法認為樣本在重構時僅選擇少量的近鄰樣本,因此考慮施加1l范數從而獲得具有稀疏性的自表示矩陣。與SSC 相比,低秩表示(LRR,low-rank representation)[4]認為有些樣本遠離了底層的子空間,并且利用l2,1范數將重構誤差矩陣正則化。Fu 等[5]提出了一種基于張量低秩表示和稀疏編碼的子空間聚類方法,同時考慮樣本的特征信息和空間結構,尋求在所有空間方向上對原始空間結構的最低秩表示。Wang 等[6]提出了一種低秩表示約束的穩健子空間聚類模型,在尋求數據的低秩表示時將監督信息作為硬約束條件,以增強表示的鑒別能力。由于自表示的稀疏性和連通性在有效的子空間聚類中起著重要作用,Yang 等[7]提出了一種后處理技術來優化稀疏性和連通性,利用初始親和矩陣中包含的相關信息為每個樣本找到較好的鄰居,重新分配選定的鄰居的系數并消除其他值,生成一個新的系數矩陣,進而改善子空間聚類性能。類似地,許多擴展的子空間聚類方法相繼被提出,并得到了廣泛的應用。
然而,隨著數據呈現形式的發展,考慮到單獨的視圖并不足以全面描述數據的信息,子空間聚類已經被擴展到多視圖的情況,以獲得性能的進一步提升。多視圖子空間聚類是通過融合不同視圖數據的自表示重構來學習一個公共的自表示矩陣,該自表示矩陣融合了不同視圖的子空間結構信息,進而得到一個從全局角度進行完整數據近鄰關系描述的子空間表示。Xu 等[8]提出多視圖學習方法應該充分利用共識和互補的原則以確保成功。為了實現共識原則,一個典型的策略是通過子空間學習來獲得一個可以由多視圖共享的潛在子空間[9]。為了探索不同視圖之間的互補信息,Gao 等[10]提出了一種多視圖子空間聚類算法,該算法對數據的每一個視圖進行子空間聚類,利用一個公用的類指示矩陣來保證數據的一致性。Zhang 等[2]提出了潛在多視圖子空間聚類方法,學習基于多視圖特征的潛在表示,并生成一個公共子空間表示,探索多視圖間潛在的一致性信息。進一步地,Li 等[11]提出針對子空間聚類的靈活多視圖表示學習,旨在通過引入希爾伯特·施密特獨立標準(HSIC,Hilbert-Schmidt independence criterion),潛在表示可以靈活地編碼來自不同視圖的互補信息,并探索不同視圖之間的非線性關系。張茁涵等[12]通過對隱式子空間表示施加低秩和稀疏約束來探索多視角之間的互補信息。受SSC 和LRR 的啟發,Zhang 等[13]提出了低秩張量約束多視圖子空間聚類算法,利用不同模態展開的秩約束子空間張量,將基于LRR 的子空間聚類擴展到多視圖學習中,很好地探索來自多個源的互補信息,并大幅改進了子空間聚類的性能。該結構的多視圖子空間學習策略使這些聚類方法都僅使用原始特征空間中數據的線性子空間,這并不足以捕獲真實數據之間復雜的相關性。對此,Abavisani 等[14]提出了一種基于SSC 和LRR 的子空間聚類算法的多模態擴展方法,并利用核學習適應數據的非線性特性。為了解決原始的高維特征向量包含噪聲或冗余信息隨維數的增加而呈指數級增長的問題,Kang等[15]提出了一種分區級別的多視圖子空間聚類方法尋找來自多個分區的共識聚類,這種分區級融合方法可以更好地利用隱藏的聚類結構信息。Liu 等[16]提出一種通過協同訓練穩健數據表示進而實現多視圖子空間聚類的方法,該方法將聚類與穩健數據表示的生成融合到一個模型中來獲得聚類結果。
盡管上述多視圖子空間聚類方法取得了一定的效果,但仍存在2 個主要的因素限制了其性能的提升。一方面,真實環境下的數據常常受到噪聲的干擾,而這些含噪數據的高維性又會使數據本身以及數據之間存有較大的冗余特性,噪聲和冗余會導致自表示過程難以學習到數據本質的子空間結構;另一方面,傳統多視圖學習方式忽略了視圖間的高階關聯性,也沒有充分考慮不同視圖的差異性結構,導致融合后的子空間表示矩陣性能并不理想。面向上述2 個問題,考慮從噪聲和冗余性去除、視圖間高階關聯性捕獲及各異性結構信息保持2 個角度出發,本文提出一種低冗余穩健表示的多視圖子空間聚類方法。為了適應數據的非線性特性,所提方法將數據在核空間進行分析,從局部角度(視圖內)構建多核的低冗余穩健表示學習模型,學習適當的數據低維表達,消除噪聲干擾和冗余性對子空間結構探究的影響。同時,考慮從全局角度(視圖間)充分挖掘視圖間的高階關聯結構,采用低秩張量約束,融合多視圖信息來尋求不同視圖的潛在張量子空間表示矩陣。本文穩健多視圖子空間學習算法的總體結構如圖1 所示。
本文主要探究多核低冗余表示學習的多視圖子空間聚類方法,下面將介紹本文方法所涉及的一些基礎性相關工作及局限性分析。
對于給定來自k個類簇的含有n個數據的數據集X∈Rd×n,子空間聚類算法的目的是尋找一個利用樣本自身作為字典進行數據重構的子空間表示矩陣Z∈Rn×n,其一般的表示形式為
其中,L(?)和Ω(?)分別為自表示重構損失函數和正則化約束,λ為正則化參數。大量文獻針對式(1)中的表達式設計了相應的重構損失函數和約束形式,以適應不同類型數據的子空間結構約束,不斷提升子空間學習的性能。在獲得子空間表示矩陣Z后,一般利用其構造對稱的親和矩陣,再將該親和矩陣送入標準譜聚類算法得到最后的聚類結果。
對于給定含有V個視圖的數據集合,可以將式(1)簡單拓展為如下的多視圖子空間學習模型
1) 考慮到多視圖數據是相同對象的不同表達形式,因此各視圖數據應共享同一子空間結構(如文獻[11,14]),基于式(2)中的模型,其共享子空間結構學習可通過式(3)實現。
該方式認為不同的視圖數據均共享相同的子空間結構Z,通過對Z施加對所有視圖數據的重構約束來融合不同視圖對子空間結構的互補性信息,并利用一個統一的正則項Ω(Z) 約束子空間表示矩陣的先驗特性。
2) 考慮視圖間的異質或多源結構可能引起的表示矩陣差異性,構造滿足一致性約束的共享子空間學習模型(如文獻[15,17]),其表達式為
區別于式(3)中迫使表示矩陣在各視圖中完全相同的做法,式(4)在每個視圖學習各自的子空間表示矩陣,再利用約束共享子空間與各視圖子空間矩陣的關系來實現多視圖信息的融合,更靈活地從不同視圖中學習一個共享的子空間表示。
然而,上述基于共享式的多視圖子空間學習方法在具體聚類應用中仍存在一定的局限性。一方面,上述方法中直接采用多視圖原始數據進行子空間學習,而這些原始高維數據往往存在一定的冗余性,且從真實環境中獲取時也不可避免地會受到噪聲的干擾。數據的冗余結構和噪聲會影響重構損失的自表示過程,進而不能學習到真實的子空間表示結構,導致后續聚類性能的下降;另一方面,上述的2 種子空間共享方法更多地考慮子空間結構的一致性,卻忽略了對視圖數據異質性而引起的表示矩陣差異性的保持,因此在保持表示矩陣各異性的前提下更好地融合不同視圖的近似結構也是本文需要解決的一個關鍵問題。
針對上述相關工作的描述,為了消除原始數據中的冗余信息和噪聲,并考慮適應高維數據潛在的非線性特性,本文考慮在核空間學習數據的穩健低冗余表示,并利用其替代原始數據來學習數據的真實的本質子空間結構,實現提高子空間聚類性能的目的。給定核函數集合,第v個視圖的第s個核矩陣為
其中,i,j∈{1,2,…,n}表示實例樣本索引,表示Xv的第i列數據。由此可知,當有V個視圖、S種核映射時,將會產生m=SV個相應的核矩陣。
為了在核空間對數據進行分析,本文選取多項式核函數計算BBC-Sport 數據集中第一個視圖數據的核矩陣。然后,對核矩陣進行特征分解,將得到的特征值從大到小排序并進行分布統計。圖2(a)展示了特征值分布統計曲線,橫坐標表示特征值序號,縱坐標表示當前序號之前的特征值之和與特征值總和的比值。由文獻[18]可知,對應于較大特征值的特征向量會攜帶更多的判別信息。選用特征值大小作為判別信息的近似度量,可以從圖2(a)中觀察到2 個重要的現象。一方面,盡管特征值總個數超過500,但其前50 個特征值已包含了該數據集中超過60%的主要判別信息;另一方面,BBC-Sport數據集共有5 個類別,若只取前5 個特征向量,其僅包含了35.07%的判別信息。
根據上述現象描述,可以揭示2 個重要結論。首先,數據樣本間的關鍵性判別信息只包含在一小部分大特征值對應的特征向量中,而其他大多數特征向量可認為是冗余信息。類似地,本文將歸一化數據加入方差為1 的高斯白噪聲,將干擾數據對應的核矩陣也進行特征分解,并利用排序后30%的小特征值及其特征向量重建核矩陣,如圖2(b)所示,從圖2(b)中可以看出,小特征值重建的核矩陣更偏重于表達數據中由確定數據和隨機噪聲交叉內積項所產生的噪聲分量核。因此,可考慮通過基于核的低冗余學習方式達到去除冗余和噪聲的目的。其次,在傳統多核聚類方法中將學到的表示特征維度c設為類簇數k的常用做法并不理想(如BBC-Sport中前k=5 個特征值對應的判別信息量僅35.07%),可考慮利用多核來學習滿足c>k條件的攜帶更多判別信息的低冗余表示,并將其替代原始數據進行后續的多視圖子空間聚類。
基于上述考慮,采用如下的模型進行核穩健低冗余數據表示的學習。
其中,U∈Rc×n表示數據的低冗余表示特征矩陣,K∈Rn×n表示由原始數據得到的核矩陣,Tr(·) 表示矩陣的跡。式(6)問題的求解是通過選取核矩陣K的前c個特征向量重組而來。根據上述分析,以這種方式得到的數據表示矩陣U不僅可以在去除冗余性的同時保留其主要判別信息,還能夠在一定程度上通過丟棄小特征值對應的特征向量來抑制噪聲分量的干擾,提高數據表示的穩健性。
根據3.1 節的分析,考慮到數據的冗余性和噪聲會導致自表示重構模型中難以學習到數據真實的本質子空間結構,本文將用低冗余數據表示Up代替原始數據Xp,提出如下基于低冗余表示的子空間學習模型。
其中,Z p為第p個視圖的子空間表示矩陣,I為單位陣,λ為正則化參數,為Frobinus 范數。
在獲得了每個局部視圖數據的子空間表示矩陣Zp后,本文期望能夠將多視圖信息進行融合,從全局角度建模視圖間的關聯性。然而,如2.2 節所述,現有多視圖子空間學習策略主要是假設各視圖間存在一個共享子空間表示矩陣,這種融合策略忽略了視圖間的各異性和高維相關性,對于具有二維特性的子空間表示矩陣不能實現其多維的關聯性建模。為此,考慮將各視圖子空間表示矩陣Zp集成來構造一個3 階張量矩陣Z,并對Z實施低秩約束來捕獲不同視圖之間的高階相關性。一方面,子空間表示系數在一定程度上反映了樣本間的相似性關系,由于是相同對象的不同視圖,因此不同的Zp應包含相近的相似性信息。另一方面,類簇的數量總是比樣本數量要小得多,所以張量Z具有潛在的低秩特性。基于上述兩點考慮,提出如下的基于低冗余數據表示的張量子空間學習模型。
式(8)中采用張量低秩約束形式進行多視圖信息融合的優勢體現在2 個層面。首先,區別于傳統共享式模型,張量約束形式不強制要求將不同視圖的信息融入一個公共的子空間矩陣中,而是利用低秩來捕獲各視圖子空間矩陣的一個聯合的潛在相關性結構。這個結構仍是一個由多個視圖構成的具有相關性的張量體,其在融合一致性結構的同時有效地保持了不同視圖的差異化信息。其次,在張量低秩的求解過程中,會對張量立方體從多個維度探尋其低秩相關性信息,相比于共享方式中采用的二維約束形式,能更全面地挖掘視圖間的互補性信息,提高多視角融合的多維互補性。
聯合上述的低冗余學習和張量子空間學習模型,將多核穩健表示學習與張量子空間學習放入統一的學習框架,提出本文穩健多視圖子空間學習目標函數。
其中,γ=[γ1,…,γ m]為權重參數。本文方法通過子空間表示學習模型將低冗余表示UP、子空間表示矩陣Zp以及潛在張量子空間表示矩陣Z放入同一目標函數,實現三者的聯合學習。從式(9)目標函數中可以看出,低冗余數據表示UP將同時從低冗余表示學習和低秩張量子空間表示矩陣Z中學習而來,視圖專屬子空間學習過程在挖掘視圖內相關性的同時,還挖掘了視圖間的高階相關性。這種來自多視圖融合的潛在信息也通過Zp傳遞到UP的低冗余表示學習的過程,以獲得更好的低冗余數據表示。對于潛在張量子空間結構Z的學習,由于本框架Zp在迭代過程中是動態調整的,隨著低冗余數據表示質量的提高,模型能夠聯合學習到更好的視圖專屬子空間表示及其融合的張量子空間表示,進一步改善模型的穩健性。通過交替的優化低冗余表示、視圖專屬子空間表示和潛在張量子空間表示,使它們在迭代過程中相互促進,以獲得目標函數的聯合最優解。
在獲得了張量子空間矩陣Z后,利用計算親和矩陣J(Z(p)表示Z沿視角方向的第p個切片),并將其送入譜聚類算法得到本文方法的聚類結果。
本節設計了一種有效的數值優化算法來求解式(9)中的目標函數。由于變量Z和Zp之間的耦合性,使式(9)目標函數中張量低秩約束的求解具有一定的困難。為了解決變量間的耦合關系,采用交替方向乘子法[19],引入輔助變量Q 使變量可分離,將式(9)轉化為
在式(10)的基礎上,構造其相應的拉格朗日增廣函數,得到下面的可分離優化形式,并采用交替優化技術來計算式(9)的近似解
對于變量Z,可以明顯地看出各子空間表示矩陣都是獨立的,固定其他變量,式(11)可變為
對于變量Q,固定其他變量,可得到如下的子優化問題
式(16)的張量核范數約束問題可根據文獻[20]中基于t-SVD 的張量核范數最小化算法進行求解,得到變量Q 的閉式解。
對于變量U,由于低冗余數據表示在式(11)中是相互獨立的,固定其他變量,可分別對每個Up采用式(17)進行優化
為了便于求解,將式(17)改寫為
式(18)的跡最大化問題可通過對Mp的特征分解進行求解,其中Up是由矩陣Mp的前c個最大特征值所對應的特征向量組成的。
綜上所述,本文提出的目標函數的求解步驟如算法1 所示。
算法1本文提出的目標函數的求解
關于式(9)中的參數β和γ,實際上反映了不同視圖的子空間重構損失和低冗余表示學習中的貢獻度,傳統的經驗設定方式不能有效獲得目標函數的聯合最優解。因此,本文將這2 個參數也看作一種特殊的變量,與其他變量類似,在歸一化約束條件下給出如下的參數優化方案。
1) 對于變量β,固定式(11)中的其他變量,關于β的目標函數可以簡化為
根據柯西?施瓦茲不等式有
2) 對于變量γ,固定式(11)中的其他變量,關于γ的目標函數可以簡化為
與β的求解相似,有
當且僅當γ1/v1=γ2/v2=…γm/vm存在時,式(23)可取得最大值。考慮式(22)中γ的約束條件,可通過式(24)來計算參數γ
本文在3 個公開數據集上進行多視圖聚類實驗,數據集的具體情況闡述如下。
1) BBC-Sport 數據集:由BBC-Sport 網站的737 份文件組成,對應于5 個主題領域的體育新聞,包括田徑、板球、足球、橄欖球和網球,共有2 個不同的視圖。
2) ORL 數據集:由40 個不同性別的人的400 張面部圖像組成,其中每個人有10 張不同拍攝角度的人臉圖像。本文將對數據集中的每個樣本提取灰度強度(Gray)、局部二值模式(LBP)和Gabor這3 種特征來表示這些人臉圖像,共有3 個不同的視圖。
3) UCI-Digits 數據集:由對應10 個類別的2 000 個數字圖像組成,分別提取傅里葉系數、像素平均和形態學特征3 個不同的特征來表示這些數字圖像,共有3 個不同的視圖。
為了證明所提方法的有效性,本文將在上述3 個數據集上與5 種先進的多視圖子空間聚類方法進行對比。這5 種方法分別是文獻[2]中潛在多視圖子空間聚類(LMSC,latent multiview subspace clustering)、文獻[14]中多模態稀疏和低秩子空間聚類(MSSC,multimodal sparse and low-rank subspace clustering)、文獻[15]中基于劃分的多視圖子空間聚類(PMSC,partition level multiview subspace clustering)、文獻[11]中彈性多視圖表示學習的子空間聚類(FMR,flexible multiview representation learning for subspace clustering)以及文獻[16]中協同穩健多視圖子空間聚類(CoMSC,multiview subspace clustering via co-training robust)。

表1 在BBC-Sport 數據集上進行不同方法的ACC、NMI 和F-measure 比較
從表1~表3 可以看出,本文方法在3 種指標上幾乎都優于其他對比方法。在ACC 指標中,本文方法在BBC-Sport、ORL 和UCI-Digits 數據集上相比次優方法依次提升0.9%、1.4%和4.4%;在NMI指標中,本文方法僅在ORL 數據集上略低于MSSC方法,在其他數據集上均優于對比方法,在BBC-Sport 和UCI-Digits 數據集上相比次優方法分別提升4.8%和7.3%;在F-measure 指標中,本文方法在BBC-Sport、ORL 和UCI-Digits 數據集上相比次優方法依次提升2.9%、0.4%和8.3%。上述結果表明,在原始數據上本文方法學習到的低冗余表示能夠改善局部視圖的子空間學習能力,并通過低秩張量融合多視圖信息,提高多視圖子空間聚類的性能。

表2 在ORL 數據集上進行不同方法的ACC、NMI 和F-measure 比較

表3 在UCI-Digits 數據集上進行不同方法的ACC、NMI 和F-measure 比較
為了驗證對比方法在噪聲數據條件下的性能,本文對上述數據集隨機選取部分樣本添加高斯白噪聲進行聚類實驗(加噪樣本比例是指加噪樣本數占樣本總數的比例),并通過調整噪聲方差和加噪樣本比例來驗證不同噪聲強度下的模型性能。實驗中,設置噪聲方差分別為0.1 和0.3,加噪樣本比例以0.1 為間隔步長從0.1 變化到0.5,所有視圖原始數據均進行了范數歸一化。
3 種指標在2 種噪聲方差下的實驗結果分別如圖3 和圖4 所示。從實驗結果可以看出,隨著加噪樣本比例的不斷上升,本文方法在3 種指標上幾乎都優于其他對比方法。以不同加噪樣本比例下的指標均值考量在BBC-Sport、ORL 和UCI-Digits 數據集上聚類性能的平均水平。當噪聲方差為0.1 時,在ACC 指標中,本文方法在3 個數據集上依次高于次優方法20%、2.53%和9.55%;在NMI 指標中,本文方法在 3 個數據集上依次高于次優方法17.26%、2.27%和7.84%;在F-measure 指標中,本文方法在3 個數據集上依次高于次優方法31.7%、6.96%和10.22%。當噪聲方差為 0.3 時,本文方法在BBC-Sport 數據集上各評價指標的實驗結果均有較明顯的優勢;對于其他2 個數據集的實驗結果,在ACC 指標中,本文方法在ORL 和UCI-Digits 數據集上分別高于次優方法1%和8.5%;在NMI指標中,本文方法在ORL 和UCI-Digits 數據集上分別高于次優方法1.72%和7.1%;在F-measure 指標中,本文方法在ORL 和UCI-Digits 數據集上分別高于次優方法5.14%和8.76%。綜合上述驗證實驗結果,說明了本文方法在噪聲干擾下具有有效性和穩健性。
本文方法由5 個子問題組成,在每次迭代時,變量Z的求解需計算式(15)中逆矩陣,其復雜度為O(n3)。對于變量Q,首先要對n×m×n的三維張量進行快速傅里葉變換和逆變換,復雜度為O(mn2log(n));其次,還要對變換后張量的各切片做奇異值分解,復雜度為O(m2n2)。因此,變量Q的復雜度為O(m2n2+mn2log(n))。在U子問題中,需要對每個視圖進行特征分解,復雜度為O(mn3)。優化參數β和γ的時間復雜度為O(cn2)。由于視圖數m遠小于樣本數n(m?n),因此本文方法進行t次迭代的時間復雜度為O(tmn3)。在實驗對比方法中依據其文獻描述,LMSC、MSSC、PMSC 以及FMR 的時間復雜度均為O(tn3),CoMSC 的時間復雜度為O(tmn3),可以看出本文方法與CoMSC 方法的時間復雜度略高于其他對比方法。
為了分析本文數值算法的收斂性,以BBC-Sport 數據集為例,以迭代次數和目標函數值分別為橫、縱坐標繪制收斂性曲線,如圖5 所示。從圖5 中可以看出,本文方法在BBC-Sport 數據集上迭代10 次左右即可達到收斂,說明了本文數值算法具有高效穩定的收斂性能。
本文提出了一種核穩健低冗余表示學習的多視圖子空間聚類方法。該方法利用多核學習捕獲數據的非線性相關性信息,并利用特征分解方法去除數據中的冗余信息和噪聲干擾獲得了具有低冗余性的穩健數據表示。為了在探索多視圖間的互補性信息的同時能夠探索多視圖間的差異性信息,將每個視圖的子空間表示矩陣重組為張量形式,利用張量低秩約束從全局角度挖掘了視圖間的高階相關性且保持了局部視圖的各異性子空間結構。將本文提出的多視圖聚類方法在3 個公開數據集上與主流的先進多視圖子空間聚類方法進行對比實驗,并對本文模型的參數和收斂性進行分析,實驗結果表明了本文方法的優越性和穩健性。