賀艷芳,李莉杰
(河南開封科技傳媒學院 理工學院,河南 開封 475004)
聚類是機器學習中最重要的研究課題之一,其目的是在不知道樣本標簽的情況下,將樣本分成不同的組,稱為聚類。在當今時代,聚類技術在人工智能、數據挖掘和模式識別中占有重要的地位,通過聚類能夠進行圖像識別、數據的分類等。聚類技術屬于無監督學習,利用數據之間內在結構技術,它是把相似的數據結構分為一類。多視角數據的特征包含了同一個對象不同角度的信息。例如:一個網頁數據中有兩個視角的數據既包含網頁內容又包含網頁鏈接信息,其中網頁內容是一個視角,而網頁鏈接信息是另一個視角;視頻中包含音頻、圖像等特征;圖像數據中既涉及顏色直方圖特征、紋理特征等圖像特征,又設計描述該圖像內容的文本。多視圖聚類就是將多個特征集聚成在一起進行聚類。由于這種方法解決了聚類的很多問題,所以多視圖聚類算法已被廣泛的使用和開發,以獲得額外的信息,以改善最終的聚類。而在這些方法中,譜聚類方法因其定義明確的數學框架和易于實現而成為最流行的方法。目前常見的多視角方法可以分為以下幾種方法:(1)協同訓練方法;(2)多核學習方法;(3)多視圖融合方法;(4)多視角子空間學習方法。協同訓練算法在多視角算法中屬于半監督學習方法,該算法只能解決兩個視角的問題,當出現多個視角特征,用該算法會有局限性。它是通過訓練兩個視圖中的兩個分類器,這兩個分類器進行分類,一起相互訓練,兩個視覺之間相互學習,不斷迭代,直到信息一致。多核學習方法是將不同數據用多核表示,多視角數據通過多核框架,將多特征數據映射到高維空間,在高維空間構造組合空間,利用各個核的特征映射組合,在高維空間得到精確度更高的聚類結果。多視圖融合方法,通過構建多視圖親和矩陣來進行聚類,一個視圖用來約束另一個視圖的相似度矩陣,通過強化不同視圖的聚類來達成一致。大多數現有的基于圖的聚類方法用圖結構分離數據聚類。同時基于圖學習的方法能更好地捕獲數據空間的圖結構。多視角子空間學習方法,學習目的從多視圖中獲得合適的子空間,這些視圖生成一致性表示。
現實生活中的數據往往是多角度或多領域的,而傳統的數據表示僅僅用一種數據表示,多數據的共性是有多個特征,使用多視角聚類算法能同時處理多特征數據。盡管這些多視角中的單個視角能充分完成聚類學習任務,但是結合不同視角的互補信息能減少任務的復雜性。由于稀疏表示和低秩約束利用不包含噪聲的數據集且具有自表達的特性對數據點進行重建,即每個數據點能用其他樣本點的線性組合來表示。本文研究前人的稀疏表示和低秩約束多視角算法,發現文獻Elhamifar等人提出了使用稀疏矩陣表示的子空間聚類,該算法中的數據點和其他數據點之間是線性組合關系。文獻LIU等提出的多視角子空間聚類算法,該算法用二維數據矩陣來描述系數之間的關聯性,最終讓數據構成的相關系數矩陣的秩達到最小。Kheirandishfard等人提出的DLRSC算法(Deep Low-Rank Subspace Clustering),該算法將低秩表示約束融入深度學習子空間聚類中,主要方法是將深度學習中的自編碼器中間的單個自表達層替換成兩個低秩自表達層,從而實現對自表達矩陣的低秩約束。該算法實驗表明,基于深度學習的子空間聚類模型DSC往往可以更好地挖掘出數據之間的復雜結構,用更有的表示方法表述數據間的數據結構,為了最終獲得更好的聚類效果。從以上多視角算法研究中,發現稀疏矩陣和低秩約束在多視角中占有重要地位。然而,主要的挑戰是如何集成這些信息,利用稀疏矩陣和低秩約束提供一個融合兼容所有視圖的解決方案。
構建一個功能強大,能有效描述數據點之間內在聯系的圖是當前多視圖聚類算法實現的目標,基于圖的半監督學習算法取得了良好的性能。當前較為火的基于圖的構造算法中,低秩表示(low-rank representation, LRR)它可以同時探索數據的全局結構。因此,可以利用LRR學習到低秩系數矩陣來構建數據的近鄰矩陣。除了傳統的LRR模型,還有許多先進的方法,例如最近有人提出了變體。為了有效地探索結構信息的數據,鄭等人施加局部表示系數的約束特征從而形成了局部的低秩代表約束(LRRLC)模型。
LRR中考慮一組樣本=[,,…,x]∈R,LRR的目的是將數據中的每個樣本表示為=[,,…,a]∈R,通過=,其中=[,,…,z]是一個矩陣,每個z和樣本x的系數對應一個線性組合。因此在中每條記錄都可以看成對于的x的重構。LRR算法能通過下面式子獲得最小秩的解優化問題:

其中直接優化秩函數是NP難問題,很難求出該解。因此,我們通常使用跟蹤規范(也稱為核規范)。作為最接近秩范數的凸代理,它實現以下目標:

其中‖·‖*是某個矩陣的奇異值之和。考慮到樣本通常是有噪聲的或者缺失數據構成,LRR可以用一個更合理的目標可以表示為:


子空間聚類算法被用于處理高維數據,它是機器學習中常用的聚類算法,而具有高維數據特征的數據在數據結構中較復雜。首先它將輸入的數據特征映射到子空間的低維,其次在低維空間中,利用數據特征的不同,最后在子空間中把數據進行不同的聚類劃分。從上面可以看出,基于子空間的聚類算法能把輸入到不同子空間的數據融合在一起,子空間中聚類能夠計算出子空間聚類的數目、數據的維度和每個子空間對應的基。由于子空間在處理高維度數據具有一定的優勢,子空間被廣泛用于圖像的處理。
給定數據矩陣∈R,子空間自表示特性可以表示為=,其中,為自表示系數矩陣,通過使用最小化矩陣的范數,求出的最優解,該解具有對角結構。求解過程可以由下列式子表示:

其中,‖·‖表示矩陣的范數,不同算法使用的范數不同,如在稀疏子空間聚類(SSC)算法應該采用范數。
基于子空間聚類算法,該文獻[9]提出的算法是通過學習一個低秩核的映射,該核函數將數據從低維度空間映射到高維空間,在高維特征空間中具有線性子空間的結構。當高維特征子空間呈現線性結構時,數據對應的核函數()是低秩的。映射到高維特征線性子空間上,優化目標函數可以表示為:

其中:=(,)=()()表示未知的核Gram矩陣;是一個平衡參數。在這里,最優化‖()‖使得()是低秩的。可以將式(5)轉為以下形式:

上述式(5)優化需要解決‖()‖的問題,因為上述式子過于依賴()。通過使用LEE等人提出的重參數,解決上述的最小的解。因為核矩陣是對稱半正定矩陣,故可以把它分解成=,同時在該式子中,是一個方陣。可以得到以下式子:

利用‖‖來代替‖()‖,則目標函數表示為:

其中:()()=,在該式子中,假設數據點在離線性子空間距離很近,因此可以使用比較簡單的核函數去定義。本算法的主要通過學習一個核矩陣=來解決問題。
深度學習是當前學者研究的熱點內容,它是以神經網絡為基礎,在對深層神經網絡訓練時,需要大量的數據和計算能力,當前研究者主要研究卷積層的深度學習框架。主要的深度學習框架有AWS亞馬遜MXNet,谷歌的Tensorflow,Facebook的PyTorch等,上述的框架都是利用稠密矩陣乘法實現卷積計算。
將深度學習引入到多視角模型中,可以使用合適的自表達關系。深度學習在算法中能更深層次挖掘數據之間的關系。通過挖掘出比較好的數據自表達方式,提高聚類性能。
為了向自表達矩陣中添加低秩表示約束,通常是直接在目標函數中增加自表達矩陣的核范數正則化‖‖。但是在反向傳播算法中,這種方法不適用。因為難以計算出核范數約束的梯度,讓這一方法變得困難。為了解決這個問題,通過在該文在提出的DMSC算法中添加秩約束rank()≤來解決。可以由以下式子解決:


針對當前基于K-means的多視角模糊聚類算法研究中存在的問題,文獻[13]提出的一種基于低秩約束的熵加權多視角模糊聚類新方法。它主要通過向多視角模糊聚類算法的目標學習準則中引入低秩約束項,在整體上控制聚類過程中各視角的一致性;另一方面由于所有視圖都被平等對待,在這些方法中沒有考慮每個視圖的差異基于香農熵理論,通過熵加權機制來控制各視角之間的差異性。
設多視角隸屬度,…,,融合成為一個隸屬度矩陣,將矩陣的秩函數凸松弛為核函數,在矩陣中進行低秩約束,可以將多視角數據之間的一致性問題轉為核范數最小問題進行求解,具體定義為:




其中約束條件為:

以上算法是在k-means算法的基礎上進行研究,該算法的優點對噪音跟離群點比較敏感。由于在高維數據的情況下,數據點的距離相近,使用歐式距離無法測量數據點的關系,故該算法也不能解決高維數據的問題。雖然利用低秩約束的子空間聚類能夠解決高維數據的問題,但是利用K-means算法的多視角聚類在結構上具有一定的優勢,它能夠構建多視角的隱式結構,能夠充分利用多視角數據的互補性,同時在K-means算法的基礎上利用低秩約束和稀疏約束算法,能解決解決數據的局部結構和稀疏結構問題。
在將來的工作中,我們會將低秩約束融入多視圖聚類算法中,融合多視圖不同的相似矩陣,同時會研究由于多視角數據集在收集過程中導致數據的丟失即不完備數據,設計新的算法處理不完備數據。同時針對大數據,進一步研究在大數據背景下,多視角聚類的算法。