倪團雄,洪智勇,余文華,張 昕
(1.五邑大學 智能制造學部,廣東 江門 529020;2.粵港澳工業大數據協同創新中心,廣東 江門 529020)
隨著信息社會的發展,數據的表示形式更加豐富,單一數據形式往往難以充分表達數據的完整信息,而多視圖數據可以彌補樣本特征單一的缺點,更加全面地表征數據。多視圖數據是指從同一數據源提取的不同特征集或者多個來源的數據[1]。例如,傳感器信號的時域和頻域特征、圖像的顏色和紋理等特征、三維物體不同角度的成像特征等等。然而,實際應用中很難獲取經過有效標注的數據樣本,而無監督學習只需要關注數據本身,數據之間的映射關系存在很大的研究空間。聚類作為無監督學習重要的算法之一,可解釋較強,學習參數少,因此無監督的多視圖聚類學習吸引了學者們的廣泛關注。多視圖聚類根據數據本身的特征,綜合不同視圖的互補信息,通過學習共識函數,將具有相似結構的數據劃分到不同的類簇中,已經在數據分析[2]、生物信息[3]、自然語言處理[4]、社交網絡[5]等領域得到關注和應用。因此,多視圖聚類學習具有重要的研究意義和應用場景。
現有的多視圖聚類方法主要分為兩類:傳統機器學習方法和深度學習方法。在傳統算法中,一些機器學習方法[6-7]將特征表示和聚類過程互相分離,這種方式不利于后續的聚類優化。為了改進這種缺陷,基于子空間學習的方法[8-14]假設所有的視圖數據共享一個潛在的公共子空間,通過探索多視圖的互補信息將多視圖數據投影得到共同的低維映射。如Zhang等[12]直接通過多視圖學習子空間表示,分別沿著交替方向最小化和廣義拉格朗日乘子優化模型,使得每個視圖的信息更加互補。基于協同訓練的聚類算法[15-16]則根據先驗知識充分地學習促進不同視圖的信息,達到最大限度的共識聚類。如Kumar等[5]較先提出具有協同訓練思維的多視圖譜聚類,比如成對共正則譜聚類。算法假設一對數據點之間的關系在所有視圖中保持一致的類簇,使得兩個點在所有視圖內要么都出現在同一簇中,要么都屬于不同的簇。受到相同啟發,Zhao等人[16]基于協同訓練框架,提出了聯合K-均值聚類和線性判別分析[17]的多視圖聚類算法,利用在一個視圖學習的標簽引導其他視圖的判別子空間。其他主流算法如基于圖[18-22]和多核學習方法[23-27],它們都假設多視圖數據可以用一個或多個核矩陣構成特征空間。以上這些傳統方法雖然解釋性較強,但受限于淺層和線性的學習函數,難以表達數據特征的深層信息,從而影響聚類效果。基于深度學習方法的聚類工作原理與上述方法類似,只是表征學習采用深度神經網絡。例如,基于深度圖學習的方法[28-31]使用圖神經網絡結合親和度矩陣對多視圖數據進行聚類。類似地,深度子空間方法[32-33]與上述都有相同的子空間假設,但需要計算深度神經網絡中間表示的自表示矩陣。另外,對抗性方法[34-35]通過生成器和判別器對齊不同視圖中隱藏特征表示的分布。如Li等[34]通過深度自動編碼器學習各個視圖共享的潛在表示,同時利用對抗訓練來進一步捕獲數據分布和分解潛在的空間。這些深度模型雖然能學習到視圖的深層信息,但卷積運算主要作用在圖像的局部近鄰上,往往會丟失全局的關鍵信息,難以合理分配特定視圖的權重。
針對這些問題,筆者認為,基于深度學習的多視圖聚類方法關鍵在于如何提取關鍵的視圖信息及如何融合不同視圖特征從而引導聚類過程。受卷積注意力算法[36]的啟發,該文提出一種基于卷積注意力和對比學習的深度多視圖聚類網絡(AEMC)。主要貢獻在于:首先,該模型結合卷積層和卷積注意力模塊,構造編碼器網絡,通過兩個維度的注意力模塊,提取每個視圖的高層次細節特征,其次,為了引導聚類的優化方向,使用對比學習策略,通過構造正負樣本間接引導模型的聚類效果。
卷積注意力模塊(CBAM)[36]是一種沿著兩個維度(通道和空間)計算注意力圖的深度網絡模塊。假設給定一個特征圖F,CBAM模塊將依次通過通道和空間注意模塊,分別在兩個維度上學習關鍵信息和位置,然后將注意力權重和特征圖相乘,輸出特征圖的維度保持不變。卷積注意力模塊的具體結構如圖1,具體實現步驟如下:

圖1 卷積注意力模塊

Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=

(1)
其中,σ、φ0、φ1分別是激活函數和多層感知器的參數。

Ms(F)=σ(f(7×7)([AvgPool(F');
MaxPool(F')]))=
(2)
將該模塊融入設計的深度多視圖聚類模型中,通過提取通道和空間多維度的特征信息,平衡全局和局部注意力特征,從而影響后續的多視圖聚類效果。
假設給定樣本總數為n的多視圖數據集


圖2 聚類模型(主要由編碼器模塊和聚類模塊組成:編碼器用于提取視圖的關鍵信息,聚類模塊通過對比方法和深度發散聚類引導聚類過程)
(1)編碼器網絡e(i)。在編碼器模型結構中,將卷積注意力模塊分別嵌入3層卷積神經網絡中,構成編碼器網絡,每一層的結構如圖3,其中卷積層采用3×3的卷積核,激活函數使用Relu ,池化層選擇窗口為2×2,步長為2的最大池化。

圖3 編碼器結構

(3)
接著,將不同視圖的特征進行融合,得到公共表示zi:
(4)
其中,wi是初始化視圖的權重。
最后,將公共表示zi通過帶softmax激活函數的全連接層進行降維,從而得到k維的輸出向量ai。
損失函數用于衡量模型的預測值和真實值的差異程度。該文選擇基于深度發散的聚類(DDC)[37]損失作為基準聚類損失,該聚類損失由三部分組成:多密度泛化的柯西—施瓦茨發散項,其公式為:
(5)
其中,k表示聚類簇的數量,kab為高斯核函數,表示為:
(6)
其中,θ是超參數。
第二項為不同數據樣本之間的正交聚類分配:
(7)
最后一項則將聚類分配向量逼近標準單純形:
(8)
其中,mbj=exp(-‖ab-ej‖2),總的聚類損失Lc由式(5)(7)(8)組成,即 :
Lc=L1+L2+L3
(9)
然而聚類過程還缺乏一定的引導方向,同時為避免模型過擬合以及優化模型,該文在聚類損失中融入對比損失函數,共同優化總的損失函數。受對比學習方法SimClr[38]的啟發,將其重構并融入模型的聚類模塊中。文中模型將SimClr的損失函數重構表示如下:

(10)
其中,exp()函數表示以自然數e為底的指數函數,p()采用1層隱藏層的多層感知器,將其映射到對比空間,sim()表示余弦相似度,τ為溫度超參數。在該模型中,選擇經過dropout[39]數據增強后的視圖樣本和融合后的樣本作為正樣本,其他的樣本作為負樣本,對比損失目標在于增加正樣本間的相似度,減少和負樣本的相似度。因此,最后模型總的優化損失函數L表示為:
L=Lc+ρLs
(11)
其中,ρ為對比損失參數。
在四組公共多視圖數據集上評估所提出的模型(AEMC),并將其與其他主流模型進行比較。四個數據集分別是:
(1)E-MNIST:E-MNIST是一組公共基準數據集,由28×28像素的60 000個手寫數字圖像(10個類別)組成。在實驗中使用由文獻[26]提供的版本(包含60 000個樣本),包含原始的灰色圖像視圖和數字邊緣視圖。
(2)E-FMNIST:這是手寫數據集MNIST的另一個版本,數據視圖同樣包括原始數字和邊緣檢測雙視圖。
(3)PASCAL VOC2007(VOC):采用由文獻[40]提供的數據集,總共20種類別,數據集包含人工標注的自然圖像GIST特征和詞頻計數特征。
(4)SentencesNYU v2(RGB-D),由1 449張經過標注的室內場景的圖像以及它們的相關描述信息組成。具體如表1所示。

表1 數據集概述
實驗系統環境為Red Hat 4.8.5,硬件環境:GPU為16 GB顯存的NVIDIA Quadro P500,CPU為Intel Xeon的GOLD 5118處理器,軟件環境:cuda10.02和python3.7,采用Pytorch深度學習框架搭建模型。
在公開的基準數據集上驗證模型的效果,主要的超參數設置如下:實驗的訓練批次epoch設置為100,使用默認參數的ADAM優化器優化模型,CBAM模塊使用文獻[31]中的默認參數,超參數θ設置為0.2,多視圖權重wi初始化為均值0.5,溫度超參數τ采用文獻[33]推薦的τ=0.1,學習率lr設置為0.01,對比損失參數ρ設置為0.05。為了降低實驗結果的隨機性干擾,在每組數據集重復訓練5次并取其平均值作為實驗評估結果。并和當前幾種經典深度模型進行對比,同時,將深度發散聚類模型(DDC)作為獨立參考模型,并通過消融實驗對模型的組成部分進行分析對比。
評估指標:
為更精準地評價聚類算法,采用聚類準確率(ACC)和標準互信息(NMI)來評價深度聚類算法的性能。其中ACC表示正確聚類的樣本占總樣本的比例,NMI則是基于信息論思想,用于度量兩組樣本之間的相似度,兩組評價指標的值越大代表聚類效果越好。假設y和y'分別表示模型的聚類標簽和數據集的真實標簽,ACC計算公式如下:
(12)

假設n個數據樣本聚類得到的類別C=c1,c2,…,ck,真實聚類為L=l1,l2,…,lj,NMI表達式為:
(13)
其中,I(l,c)=H(l)-H(l|c)表示互信息,H(X)為信息熵。
為了評估模型的性能,將提出的基于卷積注意力編碼器的多視圖聚類模型(AEMC)同當前主流的多視圖聚類模型進行對比,對比模型包括:
(1)深度多模態子空間聚類(DMSC)[32];
(2)基于端到端對抗性注意力網絡的多模態聚類(EAMC)[35];
(3)深度典型相關性分析(DCCA)[41];
(4)深度對抗多視圖聚類(DAMC)[34];
(5)對比多視圖聚類(CoMVC)[42]。
另外,為了檢驗改進后的模型整體結構相對基準聚類是否提高聚類效果,從而證明模型的卷積注意力編碼器模型和對比學習策略的優勢,將基準深度發散聚類模型(DDC)作為獨立對比組。
2.4.1 模型對比結果分析
定量研究了E-MNIST、E-FMNIST、VOC、RGB-D四組數據集在卷積注意力編碼器模型上的表現,結果見表2。從表中對比結果可知,文中模型在手寫數據集E-MNIST和E-FMNIST上的聚類準確率,標準互信息優于大多數模型,聚類準確率分別領先文獻[42]中的對比聚類方法(CoMVC)0.7百分點和1.3百分點,在E-MNIST上的標準互信息高于對比聚類方法(CoMVC)1.2百分點;在VOC和RGB-D數據集上則優于大多數主流模型,但略低于對比聚類方法。

表2 不同數據集上不同模型的對比結果 %
另外,在獨立對比實驗中,進一步探索了模型(AEMC)和深度發散聚類基準模型(DDC)在4組數據集上的聚類效果,具體見表3。從表中數據可知,該模型在4組數據集上較深度發散基準模型都有明顯的改善,特別是在E-MNIST公共數據集上,聚類準確率和標準互信息分別提高了10.2百分點和8.1百分點。

表3 不同數據集上AEMC和DDC模型的對比結果 %
綜合以上分析,將卷積注意力模塊嵌入編碼器網絡中以及聚類優化中使用對比學習策略,能夠提取視圖的更多關鍵特征,引導模型的聚類方向,從而提高聚類效果。聚類結果表明,多視圖融合表征的質量有助于對比學習策略的使用,兩者又相互促進聚類的效果。因此說明該模型具備一定的有效性和魯棒性。
2.4.2 損失函數研究
為更直觀地觀察基準損失和模型損失函數的變化,以數據集VOC為例,將數據集的基準聚類損失和總的損失函數進行可視化。模型在訓練過程中Loss曲線隨迭代批次epoch的變化如圖4所示,其中,依次選擇每10次迭代的Loss值構成散點。從圖中曲線變化得知,模型經100次訓練后逐漸收斂,基準模型和文中模型在訓練100批次后損失函數也趨于穩定,因此epoch的設置合理,模型訓練足夠充分。

圖4 模型Loss變化曲線
2.4.3 消融實驗
前面的實驗初步證明模型具有一定的效果,然而模型的具體結構對聚類結果的影響程度還不清楚。因此,為了進一步探索模型具體結構的實際聚類效果,對模型不同結構組合的聚類結果進行消融對比實驗。如表4,實驗分別設置無CBAM和正負對比樣本,有CBAM模塊但無正負對比樣本,無CBAM模塊但有正負對比樣本三組對比參照組。

表4 在E-MNIST,VOC數據集上的消融結果 %
從表中結果可以發現,當模型缺少卷積注意力模塊(CBAM)和對比損失優化函數Ls后,該模型在E-MNIST,VOC數據集上的聚類精度分別下降了6.5百分點、7百分點,同理,無卷積注意力模塊(CBAM)和對比損失優化函數Ls,標準互信息值分別下降了1.7百分點和12.6百分點,由此可知卷積注意力模塊和對比策略相對模型有所改進。
此外,以E-MNIST數據集為例,分別可視化其在訓練過程中文中模型和深度發散基準模型的曲線變化結果,如圖5所示。其中圖5(a)是E-MNIST數據集訓練聚類精度隨訓練迭代次數的變化曲線,模型的精度隨著訓練次數增加逐漸收斂,并在95%附近趨于穩定,且精度高于基準聚類模型。同理,圖5(b)為E-MNIST數據集標準互信息隨訓練批次的變化曲線,在92%附近逐漸平緩,同樣高于基準聚類模型。因此,消融實驗表明模型的卷積模塊和對比學習模塊促進聚類的效率,提高了聚類的準確率和標準互信息值。

(a)聚類精度
針對傳統多視圖聚類算法淺層學習的限制和深度學習方法多維度特征學習的局限問題,提出一種基于卷積注意力機制的深度多視圖聚類網絡,將卷積注意力模塊結合卷積模塊構成編碼器網絡,提取每個視圖的通道和空間關鍵特征,提高多維度特征的關注度。此外,在優化聚類模型時使用對比學習策略,防止過擬合及引導模型的聚類方向。實驗結果表明,模型的聚類準確率較高,聚類效果明顯。
然而,該研究也存在諸多不足,比如數據集形式單一、模型訓練參數較多、訓練內存和時間消耗大等等。未來的研究將會關注復雜的多視圖數據及網絡改進,如圖像和文本數據的結合,數據缺失的多視圖數據的處理,以及預訓練網絡,探索更多類型的數據集是否有利于注意力參數的優化和網絡的兼容性。