梁 凌,鄧趙紅,王士同
江南大學 人工智能與計算機學院,江蘇 無錫214122
+通信作者E-mail:dengzhaohong@jiangnan.edu.cn
隨著信息探索技術的高速發展,數據的多元性以及復雜性越來越高。例如在瀏覽一個網頁的時候,可以由網頁上的視頻、圖片以及超鏈接對其進行評價,此類信息被稱為多視角數據[1-3]。大部分原始多視角數據沒有標簽,通過對這類無標簽的多視角數據集進行整理及特征提取,可以發現這類數據在同一視角內存在個性化信息(差異性)[4],而其在不同視角間又存在著共性信息(一致性)[5]。如何有效利用多視角數據的一致性以及差異性是多視角學習的一個重點。
多視角聚類作為多視角學習的一個重要分支,近年來已取得了重要進展。已有的多視角聚類方法可以由視角信息分成三大類:基于顯式視角信息的多視角聚類、基于隱空間信息的多視角聚類、顯隱視角協同的多視角聚類。分別回顧如下。
基于顯式視角的多視角聚類:該類多視角聚類算法通常以K-means/模糊C-means 或者譜聚類算法為基礎,把經典的單視角聚類目標函數擴展為多視角版本,并對目標函數添加約束項來實現不同視角間的協作。典型方法如下所示:Pedrycz 首次將協同的概念引入模糊聚類中,將模糊劃分矩陣進行重構 后 得到CO-FCM(collaborative fuzzy clustering)[6]。Yamanishi等人由隨機概率分布的形式得到了CO-EM(collaborative expectation-maximization algorithm)算法,并且在手寫數據集上驗證了算法的有效性[7]。Lu等提出了稀疏的多視角譜聚類,該方法計算拉普拉斯矩陣的特征向量后得到了稀疏的相似度矩陣,使得譜聚類的可解釋性更強[8]。Chen 等通過最大熵技術提出了多視角自動兩級變權聚類算法TW-k-means(automated two-level variable weighting clustering),該算法各視角的權重以及各視角內特征的權重在聚類過程中可以自動地更新[9]。上述算法均可直接對目標公式進行優化,利用各視角的個性化信息進行協同聚類,但是這類算法對于視角之間的共性信息挖掘不足。
基于隱空間信息的多視角聚類:該類算法通過特征學習將多視角數據集映射到低維空間來獲得隱空間信息。在進行聚類任務時,隱空間的數據可以由不同的映射將共享空間的信息重新映射至不同視角所在的空間。例如,Liu等人基于NMF(nonnegative matrix factorization)提出一種聯合非負矩陣分解中心協同正則化的多視角聚類算法,各視角系數相似矩陣(隱空間信息)使該算法的聚類結果更加具有優勢[10]。Cao 等人利用希爾伯特施密特獨立準則來考慮視角間的共享信息,其有效減少了冗余的共享信息來提升聚類的性能[11]。Deng 等人對軟子空間聚類進行了研究,為不同軟子空間分配了自適應的香農熵權重,可以重新尋找到最適合的空間視角[12]。上述算法在一定程度上沒有充分考慮各視角的個性化信息,導致聚類結果受到影響。
顯隱視角協同的多視角聚類:除了上述兩類重要的多視角聚類技術外,基于顯隱視角協同的多視角聚類也已得到了初步關注。Deng 等人提出一種顯隱視角協同的多視角模糊聚類算法,其不僅充分利用了顯性視角的信息,并且有效利用了隱空間的共享信息,在一定程度提升了聚類結果[13]。
根據上述算法可知,雖然多視角算法已經在一定程度上取得了許多進展,但仍然存在下述挑戰:(1)盡管諸多多視角算法提出了視角協同機制,但大部分多視角算法僅僅利用了顯空間的個性化信息或者隱空間的共性信息,未能有效平衡顯隱信息的協同學習;(2)目前存在的部分顯隱視角協同的多視角聚類僅僅對視角間的權重進行擇優,卻忽視了對特征權重的擇優。
針對上述挑戰,本文提出兼顧顯隱信息與特征加權的多視角模糊聚類算法MVSH(multi-view fuzzy clustering combining visual and hidden information with feature weighting)。首先,本文為了有效平衡顯隱視角的協同學習,利用非負矩陣分解[14]得到的隱空間信息來提升視角間信息的共享。其次,為了有效利用多視角樣本下不同的特征,本文對每個視角下樣本特征進行加權從而篩選出最能提升聚類性能的特征,以更好地利用多視角數據的個性化信息。最后,為了優化各個視角的權重,本文引入香農熵的自動加權機制,使得MVSH 能夠有效劃分視角權重。
本文的貢獻可以歸納如下:
(1)提出了一個兼顧顯隱信息與特征加權的多視角模糊聚類算法,通過為不同視角下的特征進行加權,進而更好地利用多視角數據的個性化信息。
(2)將香農熵自動加權機制添加至本文算法中,自適應地調整所有視角的權重,并挑選出最優視角。
(3)采用非負矩陣分解來抽取多視角樣本的隱空間信息,使得所有視角的樣本能夠學習各個視角共享的隱空間信息。
(4)在多個數據集上與其余算法對比進而驗證了本文算法的有效性。
給定一個多視角數據集X=[x1,x2,…,xN]∈Rd×N,xi=(x1,x2,…,xd)T∈Rd×1,其中N代表樣本的數量,d代表樣本的特征數。NMF 的目的是為了尋找兩個非負以及低秩的矩陣,分別為系數矩陣以及基矩陣,可得X≈WH。其中,r的范圍為r<min{d,N},因此目標函數可以定義為如下所示:

為此,Lee 和Sun 提出了一種迭代多乘子更新算法,得到如下的更新式:

聚類算法是經典的機器學習技術,其在處理多視角數據時,通常獨立地考慮不同視角下的樣本,然后將每一個視角下的樣本當作獨立的任務進行聚類。通過集成學習[15-16]的策略將各個視角下的聚類結果集成起來,從而得到最后的聚類結果。但是,此類算法人為地割裂了各個視角單獨分析的策略,其忽視了樣本之間的協同信息,也容易受到明顯異常某一視角的影響,導致這類算法性能較差。多視角聚類算法的常用策略可以大致分為三類:第一類算法為協同學習算法[17-19],其旨在多視角聚類的過程中實現視角的協同;第二類算法為多視角子空間聚類[20-22],其旨在多個子空間中學習得到一種統一的表述,使得模型對于高維數據有一個更好的處理效果;第三類算法為多核學習[23-25],其使用不同的預定義內核處理不同的視角,然后將內核線性或非線性組合,從而得到一個一致的內核。
給定多視角數據集X={X1,X2,…,XK},共有K個視角,其中第k個顯視角的樣本集用矩陣表示為,其中dk為特征數,N為樣本數。利用非負矩陣分解技術構造出如下所示的優化目標:

采用ADMM(alternating direction method of multipliers)交替乘子法[26]以及文獻[27]可得如下更新規則:

大部分多視角聚類學習算法只運用了顯視角的信息,卻忽視了顯視角之間共享的隱空間信息,無法對共享隱信息以及顯視角信息進行協同學習。因此,通過特征學習技術來提取顯視角數據共享的隱視角數據是有必要的。為了利用各視角共享的隱空間信息,同時將多視角學習機制引入模糊聚類中。本文提出了一種兼顧顯隱信息與特征加權的多視角模糊聚類算法,本文算法的具體框架如圖1 所示。
有多視角數據集X={X1,X2,…,XK},共有K個視角。其中,第k個視角下的數據表現為,1 ≤k≤K,1 ≤j≤N。其中,N表示樣本的個數,dk表示第k個視角下的特征數。通過相關工作可以得到共享的隱空間信息,該隱空間信息保存了各個顯空間視角的共性空間信息,通過視角融合技術將其隱視角的信息共享至各個顯視角的特征空間。因此,本文基于構造的顯隱視角合并數據集提出了一種新的顯隱視角協同多視角模糊聚類算法,其目標函數為:


其中,H=[h1,h2,…,hN]∈Rr×N,hi=[hi,1,hi,2,…,hi,r]T∈Rr×1,r表示為隱空間數據的特征數;U是C×N的模糊劃分矩陣,C為聚類中心的個數;α、β、η為正則化參數;為第k個顯視角下的聚類中心,表示第k個顯視角聚類i的類中心;為隱空間的聚類中心,表示隱視角聚類i的類中心;模糊指數m>1;向量o=[o1,o2,…,oK]T是顯視角的權重值;是第k個顯視角數據的特征權重值;為隱視角數據的特征權重值。
在式(8)中,每一項的具體意義如下所示:

Fig.1 Multi-view fuzzy frame fused with hidden view information圖1 融合隱視角信息的多視角模糊框架
為了求解式(8),本文采用經典的交叉迭代策略對目標函數進行求解。該策略把式(8)轉化為如下6個子優化問題進行求解。




根據2.2 節公式的推導過程,本文算法的具體流程描述如算法1 所述。
算法1 MVSH
輸入:多視角數據集{Xk},k=1,2,…,K,聚類數目C,正則化參數α,β,η,m,容忍度值ε,最大迭代次數tmax,隱空間信息H。
輸出:U,Vk,,o,zk,z~,聚類結果。
1.隨機產生各顯視角類中心點集Vk,隱視角,視角權重o,顯視角特征權重zk,隱視角特征權重z~ 。
2.Fort←1,2,…,Tdo
3.根據式(9)更新顯視角類中心點Vk;
4.根據式(11)更新顯視角類中心點;
5.根據式(13)更新模糊劃分矩陣U;
6.根據式(18)更新顯視角權重o;
7.根據式(23)更新顯視角特征權重zk;
8.根據式(28)更新隱視角特征權重z~ ;
9.if||Jt+1-Jt||<ε
10.算法停止迭代。
11.else
12.t←t+1;
13.end if
14.end for
本章對兼顧顯隱信息與特征加權的多視角模糊聚類算法(MVSH)進行實驗研究。
為了充分驗證MVSH 的有效性,本文共選取了5個多視角數據集對本文算法進行驗證,分別為Water Treatment Plant(WTP)數據集、Iris 數據集、Image Segment(IS)數據集、Dermatology 數據集、Forest Type數據集。這些數據集的信息統計如表1 所示。

Table 1 Statistics of data sets表1 數據集的統計信息
WTP 數據集是一個水處理廠數據集,通過預處理的方式將其處理為兩個視角的數據,其中第一個視角為輸入的條件以及輸入需求的特征,第二個特征為輸出需求的特征。其樣本數為527,類別數為3。
Dermatology 數據集來自UCI 數據集,是一個病理學相關的數據集,其樣本數為366 個。其中第一視角為組織病理學視角,第二視角為臨床視角。
IS 數據集來自于UCI 數據集庫,其由2 310 個樣本組成,類別數為7,共擁有兩個視角。其中第一個視角為RGB 視角,第二個視角為形狀視角。
Iris 數據集來自UCI 數據集,是經典的鳶尾花數據集。其由150 個樣本組成,人為地劃分為兩個視角:第一個視角為花萼長度特征和花萼寬度特征;第二個視角為花瓣長度特征和花瓣寬度特征。
Forest Type 數據集來自UCI 數據集,其由326 個樣本組成,類別數為4。其擁有兩個視角:第一個視角為圖像的波段視角;第二個視角為光譜值以及差異值視角。
3.2.1 評價指標
本文主要從如下三方面分析算法的聚類性能,分別為歸一化信息(normalized mutual information,NMI)、芮式指標(Rand index,RI)以及純度(Purity),具體的定義如下所示。
歸一化信息(NMI)[28]:

其中,Ni,j表示類i樣本被分至第j類聚類的數目;Ni表示類i所包含的樣本的數目;Nj表示第j類聚類包含聚類的數目。
芮氏指標(RI)[29]:

其中,f00表示數據點具有不同的類標簽并且屬于不同類的樣本數;f11表示數據點具有相同的類標簽并且屬于同一類的樣本數,并且N表示總樣本數。
純度(Purity)[30]:

其中,N表示總的樣本個數;Ω={ω1,ω2,…,ωK}表示聚類得到的K個簇的集合;C={c1,c2,…,cJ}表示數據集包含的J個類別的集合;|ωk?cj|表示聚類得到的第k簇和數據集中的第j個類的交集所包含的樣本數。
3.2.2 參數設置
在本文,MVSH 與6 個算法進行了對比,其中有多任務聚類算法Combkm(robust maximum entropy clustering algorithm with its labeling for outliers)[31]、Co-clustering 算法[32]、多視角雙層變量自動加權聚類算法TW-k-means算法[9]、基于非負矩陣分解的多視角聚類(multi-view clustering via joint nonnegative matrix factorization,MVJNMF)[10]、多視角核譜聚類算法(multiview kernel spectral clustering,MVKSC)[33]、顯隱視角協同聚類(multi-view clustering with the cooperation of visible and hidden views,MVCoVH)[13]。具體的參數設置如表2 所示。在本章實驗中,通過網格搜索策略確定算法中的參數,使用范圍如表2所示。確定最佳參數后,執行算法10 次得到均值以及方差,根據NMI、RI以及Purity的平均值和標準差來評價本文算法。
本文所提算法與對比算法在不同數據集上的實驗結果如表3 至表5 所示,括號中為方差(std)。通過分析表3 至表5,可得出如下結論:
本文提出的MVSH 與其余的多視角算法相比,其在5 個數據集上的實驗結果是最優的。
分析表3可知,與基于多任務組合的算法Combkm進行對比,本文的實驗結果,如NMI以及RI的評價指標明顯優于此算法,說明本文算法利用香農熵有效地兼顧了各個視角的權重,而簡單地將多視角樣本融合不能得到較好的聚類性能。
分析表4 和表5 可知,本文算法的表現優于TWk-means 以及MVKSC。這是由于這兩個算法僅僅利用了多視角的原始特征集進行聚類,而忽視了視角之間的共性信息。本文算法提取了視角間關聯的隱性信息,既保證了每個視角下的個性化信息,同時兼顧了視角之間的共性信息,提升了聚類的結果。

Table 2 Parameter setting of comparison algorithms表2 對比算法的參數設置

Table 3 NMI(std)of 7 algorithms表3 7 個算法的NMI(std)

Table 4 RI(std)of 7 algorithms表4 7 個算法的RI(std)

Table 5 Purity(std)of 7 algorithms表5 7 個算法的Purity(std)
MVJNMF 算法利用非負矩陣分解的方式挖掘了多個視角之間的隱性信息,MVCoVH 利用了顯隱信息進行協同聚類。然而MVJNMF 未能有效利用每個視角的個性化信息,MVCoVH 僅僅對視角間的權重進行擇優,卻忽視了對特征權重的擇優。本文提出的MVSH 不僅有效利用了每個視角的個性化信息,并且為每一個視角下樣本的特征進行加權,極大地提升了聚類性能。
綜上所述,在進行多視角聚類任務時,本文算法取得了優異的結果。
本文算法含有4 個正則化參數即(α、β、η以及m),其中β控制香農熵對目標函數的影響,α控制隱視角的權重,m控制模糊指數的變化,η控制特征的權重。本節固定α、β、m,且只對η進行參數敏感性分析,實驗結果如圖2 所示。從圖2 可知,Iris 數據集以及WTP 數據集對于參數η敏感度較低,Forest Type 數據集、Dermatology 數據集以及IS 數據集對于參數η敏感度較高。且易看出,參數η在(2-3,2-2,2-1)區間取得了較好的性能。
本文提出了一種新的多視角模糊聚類算法MVSH,即融合顯隱空間信息學習的模糊聚類算法。首先,提出了一種多視角隱信息學習模型。本文通過特征提取得到了各個視角共享的隱空間信息。為了更為有效地學習每個視角的個性化信息,為每個視角下的樣本進行特征加權。其次,利用隱空間信息更好地共享數據間的共性信息。接下來,本文通過引入自適應加權機制來調整視角間最優權重。最后,實驗證明本文算法取得了非常優異的結果。

Fig.2 Parameter η sensitivity analysis on 5 data sets圖2 參數η 在5 個數據集上的敏感度分析
雖然本文算法在處理多視角數據時已經取得了較好的聚類結果,但是仍然存在改進的空間。例如,可以考慮不同視角數據之間的拓撲信息來增強視角間的協同。未來將在相關方面做進一步的討論。