一、引言
譜聚類是子空間聚類算法的關鍵研究方向。由于其出色的性能,基于譜聚類的子空間聚類方法已被廣泛應用于模式識別、圖像處理、計算機視覺等領域。稀疏子空間聚類(Sparse SubspaceClustering,SSC)是一種有效的譜聚類方法,它利用高維數據的稀疏表示系數來構建關聯矩陣。然而,SSC只考慮了數據的稀疏表示,缺乏對數據全局結構的描述。這導致SSC得到的系數矩陣過于稀疏,在聚類高度相關的數據時可能無法取得滿意的結果。因此,基于SSC的衍生聚類算法不斷涌現
文獻③提出了一種名為重加權子空間聚類的算法,該算法通過應用選代加權最小化框架,可以降低聚類結果的錯誤率。文獻提出了一個低秩稀疏子空間聚類模型,將關聯矩陣、原始數據的低維子空間和聚類結果整合到一個統一框架中。文獻在加權子空間聚類的損失函數中添加了結構信息,并提出了一個結構重加權稀疏子空間聚類模型(SRSSC)。上述SSC及其擴展方法主要通過學習系數矩陣的塊對角表示來保證原始數據的空間結構。
然而,通過這些方法得到的塊對角結構并不穩健,易受子空間獨立性和噪聲的影響,導致子空間的聚類性能受到嚴重影響。為解決該問題,本文提出一種塊對角稀疏表示的子空間聚類(BDRSSC)方法。所提方法同時利用范數懲罰和塊對角先驗。稀疏表示可以更好地描述數據的子空間特征,使得系數矩陣盡可能地具有理想結構。此外,該方法直接以塊對角作為軟約束,可以加強系數矩陣的塊對角結構。注意到塊對角正則項使得提出的BDRSSC問題是非凸的。為此,本文提出交替最小化算法來求解該問題。
二、相關基礎
稀疏子空間聚類利用自表示特性將數據表示為其他數據的線性組合。對于數據矩陣Y,SSC通過求解以下稀疏優化問題得到稀疏系數矩陣:

三、基于塊對角稀疏表示的子空間聚類
(一)所提模型構建
SCC方法求解帶有稀疏約束的子空間聚類問題。假設數據是干凈無噪聲的,目標函數由式(1)給出。在子空間獨立的假設下,模型(1)的解具有塊對角結構。然而,在真實環境中,數據往往包含噪聲。因此,為了提高魯棒性,考慮加人噪聲項。則SSC的基本模型如下:

其中, Y 和 B 分別表示數據矩陣和系數矩陣。由于噪聲的影響,求解問題(2)很難獲得具有塊對角結構的解。同時,如果不同子空間過于接近或不獨立,會進一步破壞塊對角結構,嚴重影響聚類性能。
因此,本文考慮在目標函數上加人一個 k 塊對角正則項,以獲得更好的塊對角結構。具體而言,塊對角正則項的定義如下:


四、性能分析
本節提供數值實驗,考察所提算法的聚類性能。共考慮兩種數據集。為了驗證所提算法的有效性,選取三個基線算法作為對比,包括
,
和SRSSC[5]

首先,考慮擴展的YaleB數據集。該數據集包括2414幅正面人臉圖像,由38個物體在不同姿態和不同光線下獲得。為了減少計算成本,每張圖像的像素為32×32 。表1展示了本文所提算法和其他幾種基線算法對YaleB數據集的聚類誤差結果。可以看出,對于不同的聚類目標數,本文所提算法具有最低的聚類誤差,且遠低于其他基線算法。當聚類目標增多時,聚類難度變大,但本文所提算法仍具有較低的聚類誤差。
下面考慮MNIST手寫數字的圖像數據集。該數據集由從0到9的10個類別組成,包括60000個訓練樣本和10000個測試樣本。每個樣本都是一個灰色手寫數字圖像。該圖像被矢量化為784維向量,具有 28×28 像素。

MNIST數據集的聚類誤差結果。可以看出,對于不同的聚類樣本數,本文所提算法均具有最低的聚類誤差,且遠低于其他基線算法。當樣本數量增多時,聚類難度變大,但本文所提算法仍具有低于其他基線的聚類誤差。
五、結束語
本文提出了一種基于塊對角正則化的稀疏子空間聚類算法。該算法能夠保證系數矩陣具有稀疏特征,并且可以直接獲得塊對角屬性。具體而言,本文利用交替最小化算法來求解該問題,并在兩個實際數據集上做了仿真實驗。結果表明,相較于基線算法,本文所提算法具有更佳的聚類性能。
作者單位:丁熠中國電子科技集團有限公司蘇大勇中電科申泰信息科技有限公司
參考文獻
[1]蔡曉妍,戴冠中,楊黎斌.譜聚類算法綜述[J].計算機科學,2008,35(07): 14-18.
[2]王衛衛,李小平,馮象初,等.稀疏子空間聚類綜述[]自動化學報, 2015,41(08): 1373-1384.
[3]Xu J, Xu K, Chen K, et al. Reweighted sparse subspace clustering[J]. Computer Vision and Image Understanding, 2015, 138: 25-37.
[4]Zhu X, Zhang S, Li Y, et al. Low-rank sparse subspace for spectral clustering[J]. IEEE Transactions on knowledge and data engineering, 2018, 31(8): 1532-1543.
[5]Wang P, Han B, Li J, et al. Structural reweight sparse subspace clustering[J]. Neural processing letters, 2019, 49: 965-977.
[6]陳曉云,陳慧娟.潛在最小二乘回歸子空間分割方法[].模式識別與人 工智能,2016,29(01):31-38.