








摘要:低秩表示(Low-Rank Representation,LRR) 能夠將每個數據點表示為若干個基的線性組合,是一種獲取樣本底層低維結構的方法。然而,大多數LRR 方法使用原始數據集作為字典,這不能揭示數據的真實分割。本文提出了基于子空間字典低秩表示的流形投影學習:該方法學習最優子空間作為LRR 問題的字典,而不是使用原始數據集;利用基數最少的方案,低秩表示矩陣能很好地恢復原始數據;通過對投影矩陣施加行稀疏約束,該方法不僅可以選擇鑒別性特征并忽略冗余特征,而且使子空間學習具有很好的解釋性。此外,通過引入流形結構保持約束,使得樣本的原始表示和距離信息在投影下保持不變。在多個真實世界數據集上的實驗結果表明,該方法優于最近提出的一些相關方法。
關鍵詞:低秩表示;無監督投影;子空間學習;特征提取;流形學習
中圖分類號:TP391.4 文獻標志碼:A
低秩表示(Low-Rank Representation, LRR) 是機器學習中的一類重要表示學習方法,其主要思想是學習數據的低秩表示來發現數據內在的低維結構[1]。觀測數據可能取自多個不相交的子空間的并集,根據這個假設,LRR 學習方法具有最低秩的數據的表示。由于數據點可以表示為基的線性組合,因此LRR 方法通過選擇特定的字典來捕獲數據的底層結構。LRR 方法還可以有效地執行子空間聚類和糾錯[2]。這意味著, 如果數據受到噪聲或離群點的污染,LRR 方法可以準確地恢復行空間和離群點,這些行空間和離群點是由多個線性或仿射子空間[3-4] 用低秩表示得到。
LRR 和投影學習都能發現數據的潛在低維結構,有很多研究[5-8] 將二者有機結合,利用投影矩陣約束LRR 的學習過程。在過去的幾十年中,諸如數據挖掘[9]、計算機視覺[10-11] 等問題涉及低秩表示和特征提取,因為矩陣的秩是挖掘嵌入在樣本特征中的局部或全局信息的潛在度量,盡管這些低秩投影或低秩嵌入方法具有健壯性,但研究人員在探索高維原始數據中的低維嵌入時存在性能不足的問題。為了解決這個問題,Wong 等[5] 提出了一種稱為低秩嵌入的穩健線性降維方法,該方法在特征提取方面具有一定的優勢。為了在特征提取中同時保持全局和局部結構,Wen 等[6] 提出了一種基于LRR的投影方法,該方法在學習低秩表示的同時對數據重建誤差施加圖約束。Lu 等[7] 提出了一種基于重構誤差最小化的子空間學習和自適應概率鄰域圖嵌入的方法,該方法利用自適應圖的內在關系來獲取數據點之間的相似性。Lu 等[12] 提出一種對稱圖學習模型,它在集成學習框架中探索數據點的距離信息和數據的表示信息。
雖然上述研究在低秩表示方面取得了一定的成果,但仍有一些問題需要解決。首先,大多數LRR 相關方法利用原始數據集本身作為低秩表示的字典,但這并不是最佳選擇[1]。由于原始數據集可能包含噪聲和離群點,使用該數據集作為糾錯字典將導致低秩矩陣不能反映真實的分割結果。作為線性張成數據空間的基本向量,字典必須能夠通過簡單的線性組合來表示原始數據集[2]。其次,低秩投影算法不限制投影本身,因此無法提取用于識別的關鍵特征[13],在投影中考慮區分特征是特征提取或選擇的關鍵[14]。最后,低秩圖嵌入方法不能有效地保留非線性高維數據中固有的低維結構,限制了它們的應用。在投影過程中應該保持原始數據的流形結構,這使得投影學習具有更好的可解釋性[15]。