潘笑顏 婁錚錚 姬 波 葉陽東
(鄭州大學信息工程學院 鄭州 450001) (panxiaoyan@gs.zzu.edu.cn)
多視角生成模型的可解釋性聚類
潘笑顏 婁錚錚 姬 波 葉陽東
(鄭州大學信息工程學院 鄭州 450001) (panxiaoyan@gs.zzu.edu.cn)
針對聚類中的多視角和可解釋的問題,提出多視角生成模型的可解釋性聚類算法(interpretable clustering with multi-view generative model, ICMG).ICMG能夠產生多個視角的聚類劃分,并通過視角的語義信息對聚類結果進行定性和定量地解釋.首先,構建一種多視角生成模型(multi-view generative model, MGM),該模型使用貝葉斯程序學習(Bayesian program learning, BPL)和嵌入多視角因素的貝葉斯案例模型(multi-view Bayesian case model, MBCM)生成多個視角.其次,基于視角的匹配度進行聚類得到多種聚類方案.最后使用視角的原型和子空間所附帶的語義信息定性和定量地解釋聚類結果.實驗結果表明:ICMG能夠得到多種可解釋的聚類結果,相比于傳統多視角聚類算法具有較明顯的優勢.
貝葉斯程序學習;貝葉斯案例模型;可解釋;多視角;聚類
聚類將相似數據劃分為同一簇,不相似數據劃分為不同簇,進而捕捉到數據之間的模式結構[1-2].傳統的聚類算法僅僅從單一視角對數據進行分析,并且由于聚類分析缺乏帶有語義的類標簽,因此得到的聚類結果單一化和不可解釋.單一的和不可解釋的聚類結果給決策者提供的信息非常匱乏,然而決策者需要參考豐富的信息來支撐自己的決策.例如針對一個主要地震帶的地震數據,如果僅僅基于傳統聚類對地震數據做一個劃分,從這個劃分中我們能了解到的地震信息極少;如果將地震數據分別按發生位置、震動性質以及震源深度等進行劃分,這樣的劃分將使我們對這個地震帶所發生的地震的了解比較全面和透徹,有助于幫助人們做好周到的預防減少損失.因此,聚類結果的多視角性和可解釋性非常重要.聚類結果的多視角性指基于多個視角進行聚類得到多種聚類結果.聚類結果的可解釋性即聚類結果由決策規則推理得到,并且聚類結果可以被定性和定量地解釋.多視角的和可解釋的聚類結果將給決策者提供更多的選擇空間,并且可以使決策者批判性、改善性和探索性地相信和使用聚類結果.
針對聚類結果的多視角性問題,比較直接的方法是通過簡單地連接不同的視角將譜聚類從單視角擴展到多視角,然后基于相似圖表或相似矩陣進行聚類[3-7].但是這種方法的視角之間缺少協調和互補,所以不能得到令人滿意的聚類效果.Kumar等人[8-9]提出使用多視角的協同訓練進行譜聚類的方法,但是這個方法需要構建每個視角的相似圖表,這個過程對于高維多視角數據非常復雜,所以譜聚類方法不能有效地處理高維多視角數據.Cai等人[10]提出了一種不需要構建每個視角的相似圖表的方法,即MVKM算法.該方法使用l2,1準則學習每個視角的權值并且使用K-Means進行聚類.然而,MVKM基于沒有任何可區別子空間學習機制的原始特征進行聚類,所以容易導致維災難.為了避免維災難,一些研究者提出一種含有可區別子空間學習機制的多視角聚類方法[11-13].這種方法首先學習視角的子空間,然后基于視角的子空間進行多視角聚類.但是這種方法的聚類結果僅僅列出了每一個數據在每個視角下的類標簽,這對于數據的探索性分析來說是遠遠不夠的[14],數據的探索性分析需要解釋數據被這樣劃分的原因,即需要簡明地解釋聚類結果.
針對聚類結果的可解釋性問題,Fraiman等人[15]提出基于無監督二叉樹的可解釋聚類.該方法將聚類結果的可解釋總結在一個結構簡單的二叉樹里,具體有3步:1)使用一個遞歸分裂算法構建一個二叉樹;2)使用極小相異原則修建樹;3)聚合不需要分享相同的祖先的葉子.該方法雖然可以得到可解釋的聚類規則,但是對于高維數據則需要構造的樹相對較大,得到的可解釋規則較復雜.Kim等人[14]提出了一種不需要構造樹的可解釋的特征選擇和提取方法.該方法將可解釋標準直接加入特征選擇和提取的模型中,然后得到可解釋的特征.由于此方法沒有得到可解釋的聚類規則,所以Chen等人提出了基于判別矩陣混合模型的可解釋聚類(DReaM)[16].DReaM是一個學習每個簇的矩形決策規則的概率判別模型.由于矩形判別規則可以明確地解釋一個簇的定義過程和不同簇之間的區別,所以DReaM可以得到可解釋的聚類結果.但是DReaM需要先有基于規則的領域知識即是半監督方法,并且不能定性和定量地解釋聚類結果.
本文提出多視角生成模型的可解釋性聚類算法(interpretable clustering with multi-view genera-tive model, ICMG),該算法構建了多視角生成模型(multi-view generative model, MGM),該模型通過使用貝葉斯程序學習(Bayesian program learning, BPL)的組合思想和嵌入多視角因素的貝葉斯案例模型(multi-view Bayesian case model, MBCM)生成多個視角.ICMG基于每個視角的匹配度進行聚類得到多種聚類方案,并且使用視角的原型和子空間所附帶的語義信息定性和定量地解釋聚類結果.
本文的主要貢獻有3方面:
1) 構建MBCM.MBCM是將多視角因素引入到貝葉斯案例模型上的一種生成模型,MBCM生成的數據包含多視角因素.
2) 構建MGM.MGM基于有效原則和無冗余原則使用BPL的組合思想和逆過程使用MBCM生成多個有效的無冗余視角,并使用原型和子空間描述視角.
3) 提出ICMG算法.ICMG首先使用MGM得到多個使用原型和子空間描述的視角;然后利用原型和子空間構建規則集,基于規則集進行聚類;最后使用原型和子空間所附帶的語義信息定性和定量地解釋聚類劃分,進而得到有語義的類標簽.
1.1貝葉斯案例模型
貝葉斯案例模型(Bayesian case model, BCM)[17]定義了一個數據的生成過程,貝葉斯案例模型的圖形式如圖1所示,其中а,c,q和λ是超參數,N表示數據的數目,S表示類的數目.過程如下:
1) 生成數據xi的混合權值πi,πi~Dirichlet(α).
2) 生成類s的原型ps,子空間特征指示器ws和特征取值分布Φs,ps~Uniform(1,N),wsj~Bernoulli(q),Φsj~Dirichlet(g(psj,wsj,λ)).
3) 從混合權值πi中選擇第i個數據第j個特征的類zij,zij~Multinomial(πi),從特征取值分布Φs中選擇類zij的第j個特征的取值即為第i個數據第j個特征的取值.

Fig. 1 Bayesian case model圖1 貝葉斯案例模型
貝葉斯案例模型使用吉布斯采樣算法執行推理,吉布斯采樣算法能很快地收斂,特別是在混合模型中[18].貝葉斯案例模型經過推理得到式(1)和式(2).其中,如果zij=s和xij=v1,則n(s,i,j,v1)=1,表示如果第i個數據第j個特征的取值為v1且屬于類s,則n(s,i,j,v1)為1,否則為0.n(s,·,j,v1)表示第j個特征取值為v1且屬于類s的所有數據的總和.n(s,·,j,·)表示第i個數據除了第j個特征的所有特征取值為v1且屬于類s的特征個數之和,B為Beta函數.
p(zj=s|zij,x,p,w,α,λ)∝
×
.
(1)

(2)
貝葉斯案例模型是一個基于案例的可解釋模型,并且使用無監督生成機制解釋聚類而不是使用監督的方法[19]或僅僅關注鄰居點的方法[20].貝葉斯案例模型利用案例推理和原型分類模擬生成過程,能夠自動地提供生成解釋性的框架.貝葉斯案例模型由一個代表觀察者潛在結構的標準離散混合模型[21-22]構成,并且在標準混合模型上增加了代表聚類的原型和子空間特征指示器,原型和子空間特征指示器比標準混合模型更適宜人類理解.
1.2貝葉斯程序學習
貝葉斯程序學習(BPL)[23]是通過部分、子部分和空間關系的組合來學習可以代表概念的隨機程序的方法.BPL定義了一個生成模型,這個生成模型的過程如下(以生成一個字符為例):
1) 從原始的筆畫中抽樣n1個筆畫作為子部分集,然后抽樣子部分的順序;
2) 基于子部分和子部分數據構造部分集;
3) 抽樣部分之間的聯系,基于部分和部分之間的聯系構造代表概念的程序;
4) 增加子部分的變動因素,抽樣部分開始的位置,組成一個部分的軌道;
5) 抽樣發散性變化,基于發散性變化抽樣圖像;
6) 得到字符圖像.
BPL捕獲了從僅僅幾個例子中學習類的可視化概念和以人類最相似的方式生成事物的能力[23-25].BPL使用簡單的概率程序代表概念.BPL通過重用已經存在的部分構造新的程序,具有現實世界中生成過程的因果和組合的特性.
本文針對聚類的多視角性和可解釋性問題,提出ICMG算法.ICMG構建了多視角生成模型,該模型逆過程使用MBCM生成多個視角.ICMG基于每個視角的匹配度進行聚類,并且使用視角的原型和子空間所附帶的語義信息定性和定量地解釋聚類結果.
2.1嵌入多視角因素的貝葉斯案例模型
嵌入多視角因素的貝葉斯案例模型(MBCM)將多視角因素引入貝葉斯案例模型,如圖2所示.圖2中的變量的意義參照貝葉斯案例模型,推理公式參照貝葉斯案例模型.嵌入多視角因素的貝葉斯案例模型定義數據的生成過程如下:
1) 選擇第i個數據的第j個特征的一個視角v,再選擇視角v的類s;

4) 循環步驟3)V次,得到由多個視角生成的第i個數據xi;
5) 循環步驟4)N次,得到數據集X.

Fig. 2 Multi-view bayesian case model圖2 嵌入多視角因素的貝葉斯案例模型
MBCM利用案例推理模擬多視角數據的生成過程,能夠自動地提供生成解釋性的框架.MBCM的主要任務是通過類標簽、原型和重要特征進行聯合推理學習每個視角的每個類的原型和重要特征指示器.MBCM從基于案例推理上形式化概念,并利用原型和重要特征指示器對聚類進行本質的解釋,利用原型和重要特征指示器在解釋性上提供了定量的和可測量的好處.

Fig. 3 Multi-view generating model圖3 多視角生成模型
MBCM和BCM的區別如下:
1) MBCM將多視角因素引入生成模型,BCM沒有多視角因素.
2) MBCM生成的數據包含多個視角,BCM生成的數據只有一個視角.
3) MBCM包含由多個視角構造數據的過程,BCM沒有該過程.
2.2多視角生成模型

MGM根據視角的有效原則和無冗余原則制定了2個評價視角的標準:
標準1. 基于視角Vi能夠聚為唯一一個類的數據的個數越多,視角Vi被選擇的可能性就越大.
標準2. 選擇的較好視角中,各視角的關注點越不同越好.
標準1的計算如式(3)和式(4),標準2的計算如式(5).式(3)和式(4)統計了基于各視角能夠聚為唯一一個類的數據的個數,式(5)統計了各視角之間的子集關系,通過刪除有子集的較好視角進而實現視角的無冗余.式(3)中的ctij表示第i個數據是否只能完全匹配第j類,式(5)中的hij表示第i個視角中是否存在類的重要特征是第j個視角類的重要特征的子集.選擇cti值最大并且hi*=0的視角作為有效的無冗余視角.

(3)
(4)
(5)
MGM基于組合和因果原則生成多個視角;MGM逆過程使用MBCM得到描述視角的原型和子空間,原型和子空間本身的語義可以解釋視角;MGM基于有效性原則和無冗余原則篩選出多個有效的無冗余視角.
2.3多視角生成模型的可解釋性聚類算法
多視角生成模型的可解釋性聚類算法(ICMG)基于MGM生成的多視角進行聚類,并使用多視角的原型和子空間本身的語義解釋聚類結果.聚類結果和視角一一對應,所以可以得到多種可解釋的聚類方案.過程如下:1)MGM生成多視角,并且得到對視角具有描述意義的原型和子空間;2)基于視角的原型,子空間和匹配度公式(見式(6))進行聚類,并使用原型和子空間本身的語義對聚類結果進行定性和定量地解釋.

(6)
其中,dij表示數據i和類j的重要特征的匹配度,ntij表示數據i和類j的重要特征的取值相同的個數,ntj表示類j的重要特征的個數.
算法1使用MGM生成多個視角,根據視角的匹配度進行聚類并且使用原型和子空間本身的語義對聚類結果進行定性和定量地解釋,聚類結果和視角一一對應,所以可以得到多種可解釋的聚類方案.
算法1. ICMG算法
輸入: 數據集X(N行,u列)、聚類的個數S、抽樣次數N1、每次抽樣的個數n1;
輸出: 數據的較好視角的類標號L、較好視角的類的原型和重要特征T.
① fori=1:N1
D為從X中隨機抽樣的n1條數據;
end for
② fori=1:N
利用式(3)和式(4)計算cti;
end for
③ fori=1:n1
forj=1:n1
利用式(5)計算hij;
end for
end for
④ 利用標準1和標準2得到視角T={t1,t2,…,ty},y為T中元素的個數.
⑤ forf=1:y
fori=1:N
forj=1:S
end for

end for
end for

⑦ returnL,T.
2.4算法分析
在ICMG算法里,首先要生成多個視角,多視角生成的步驟可在O(N2)的時間內完成,N為數據的數目;其次基于視角計算匹配度,計算匹配度的步驟可以在O(m1×N)的時間內完成,其中m1為視角的數目和類的數目的乘積;最后基于視角對所有數據進行聚類,這一步驟可在O(t×N)的時間內完成,其中t為視角的數目.所以,ICMG算法的時間復雜度與數據的數目的平方相關.
3.1實驗數據集
實驗數據集是Attribute Datasets[26]中的Apascal_train數據集和Ayahoo_test數據集.Apascal_train數據集共6 340張圖片,人工把這些圖片分成2類:有人的圖片為類1,沒有人的圖片為類2;Ayahoo_test數據集共2 644張圖片,人工把這些圖片分成2類:有動物的圖片為類1,沒有動物的圖片為類2.多視角算法CTSC[27]和CRSC[28]作為對比算法.
3.2實驗結果及分析
3.2.1 Apascal_train數據集實驗結果
ICMG算法對Apascal_train數據集聚類得到表1和表2.其中表1根據評價標準1統計了各視角能夠唯一確定類的數據的數目,從表1中得到能夠唯一確定類的數據的個數最多的是視角2、視角3和視角4.表2根據評價標準2統計了各視角之間的子集關系,表2中的所有0表示所有視角的關注點都不一樣.根據表1和表2得到Apascal_train數據集較好的視角為視角2、視角3和視角4.

Table 1 The Results of Criterion 1 (Apascal_train)表1 標準1的計算結果(Apascal_train數據集)

Table 2 The Results of Criterion 2 (Apascal_train)表2 標準2的計算結果(Apascal_train數據集)
Apascal_train數據集基于ICMG的聚類結果的定性解釋如下:
1) 基于視角2的聚類關注的是圖中是否有圓形物、頭發、手、噴氣發動機、排氣管、踏板、發動機、桅桿、馬鞍、莖桿、皮膚、嘴、皮膚和羊毛.
2) 基于視角3的聚類關注的是圖中是否有臥式氣缸、耳朵、嘴、腿、腳/鞋、爐子、花、莖桿、罐、羽毛、排氣、踏板、發動機、帆、桅桿、葉、羊毛、明亮的和草木.
3) 基于視角4的聚類關注的是圖中是否有頭、臉、螺旋槳、桅桿、爐子、爐子座、韁繩、馬鞍和羊毛.
Apascal_train數據集基于ICMG的聚類結果的定量解釋如下(如圖4~6所示):
1) 基于視角2的聚類結果的類1中66.48%是沒有圓形物、沒有頭發、沒有手、沒有噴氣發動機、沒有排氣、沒有踏板、沒有發動機、沒有桅桿、沒有馬鞍、沒有莖桿、沒有皮膚和不明亮的圖片.基于視角2的聚類結果的類2中都是有嘴、有頭發、有皮膚和沒有羊毛的圖片.
2) 基于視角3的聚類結果的類1中23.62%是沒有臥式氣缸、沒有耳朵、沒有嘴、沒有腿、沒有腳/鞋、沒有爐子、沒有羽毛但是有花、莖桿和罐的圖片.基于視角3的聚類結果的類2中77.68%是沒有排氣管、沒有踏板、沒有發動機、沒有帆、沒有桅桿、沒有葉子、沒有莖桿、沒有罐、沒有羊毛、沒有草木和不明亮的圖片.

Fig. 4 Clustering based on view 2 for Apascal_train圖4 Apascal_train數據集基于視角2的聚類

Fig. 5 Clustering based on view 3 for Apascal_train圖5 Apascal_train數據集基于視角3的聚類

Fig. 6 Clustering based on view 4 for Apascal_train圖6 Apascal_train數據集基于視角4的聚類
3) 基于視角4的聚類結果的類1中82.02%是沒有頭、沒有臉、沒有螺旋槳、沒有桅桿、沒有爐子和沒有爐子座的圖片.基于視角4的聚類結果的類2中90.5%是有頭、沒有韁繩、沒有馬鞍和沒有羊毛的圖片.
3.2.2 Ayahoo_test數據集實驗結果
ICMG算法對Ayahoo_test數據集進行聚類得到表3和表4.表3根據評價標準1統計了各視角能夠唯一確定類的數據的個數,從表3中得到能夠唯一確定類的數據的個數最多的是視角1、視角2、視角3、視角4和視角5.表4根據評價標準2統計了各視角之間的子集關系,表4中的1表示視角3的關注點是視角4的關注點的子集.根據表3和表4得到Ayahoo_test數據集的較好的視角為視角1、視角2、視角3和視角5.

Table 3 The Results of Criterion 1 (Ayahoo_test)表3 標準1的計算結果(Ayahoo_test數據集)

Table 4 The Results of Criterion 2 (Ayahoo_test)表4 標準2的計算結果(Ayahoo_test數據集)
Ayahoo_test數據集基于ICMG的聚類結果的定性解釋如下:
1) 基于視角1的聚類關注的是圖中是否有腿、腳/鞋、韁繩、馬鞍、塑料、閃光、頭、鼻子、手、輪子、門、前燈、發動機、木制品、布、毛茸茸、羊毛、明亮和皮革制品.
2) 基于視角2的聚類關注的是圖中是否有軀干、大燈、排氣、發動機、韁繩、布、羊毛、明亮、耳、眼、腿、翅膀、馬鞍、金屬和毛茸茸.
3) 基于視角3的聚類關注的是圖中是否有軀干、角、韁繩、馬鞍、金屬、圓形物、頭、耳朵、鼻子、臉、眼、輪子、門、排氣管、發動機、布、毛茸茸、明亮和皮革制品.
4) 基于視角5的聚類關注的是圖中是否有阻塞、耳、眼、軀干、腿、翅膀、韁繩、馬鞍、方方正正、圓形物、輪子、前燈、排氣管、發動機、布、毛茸茸的、明亮和皮革制品.
Ayahoo_test數據集基于ICMG的聚類結果的定量解釋如下:
1) 基于視角1的聚類結果的類1中59.39%的圖片中沒有韁繩、沒有馬鞍、沒有塑料和不發光,但是有腿、有腳/鞋和有毛茸茸的東西.基于視角1的聚類結果的類2中51.27%的圖片中沒有頭、沒有鼻子、沒有手、沒有輪子、沒有門、沒有前燈、沒有發動機、沒有木制品、沒有布、沒有毛茸茸的東西、沒有羊毛、不明亮和沒有皮革制品.如圖7所示.
2) 基于視角2的聚類結果的類1中69.85%的圖片是沒有軀干、沒有大燈、沒有排氣、沒有發動機、沒有韁繩、沒有布、沒有羊毛和不明亮.基于視角2的聚類結果的類2中64.70%的圖片中沒有翅膀、沒有韁繩、沒有馬鞍和沒有金屬,但是有耳朵、有眼睛、有軀干、有腿和有毛茸茸的東西.如圖8所示.
3) 基于視角3的聚類結果的類1中56.00%的圖片中沒有角、沒有韁繩、沒有馬鞍和沒有金屬,但是有耳朵、有軀干和有毛茸茸的東西.基于視角3的聚類結果的類2中60.07%的圖片是沒有圓形物、沒有頭、沒有耳朵、沒有鼻子、沒有臉、沒有眼睛、沒有輪子、沒有門、沒有排氣管、沒有發動機、沒有角、沒有韁繩、沒有馬鞍、沒有布、沒有毛茸茸的東西、不明亮和沒有皮革制品.如圖9所示.
4) 基于視角5的聚類結果的類1中所有圖片中沒有阻塞、沒有翅膀、沒有韁繩和沒有馬鞍,但是有耳朵、有眼睛、有軀干、有腿和有毛茸茸的東西.基于視角5的聚類結果的類2中48.89%的圖片中沒有方方正正的東西、沒有圓形物、沒有輪子、沒有前燈、沒有排氣、沒有發動機、沒有布、沒有毛茸茸的東西、不明亮和沒有皮革制品.如圖10所示.

Fig. 7 Clustering based on view 1 for Ayahoo_test圖7 Ayahoo_test數據集基于視角1的聚類

Fig. 8 Clustering based on view 2 for Ayahoo_test圖8 Ayahoo_test數據集基于視角2的聚類

Fig. 9 Clustering based on view 3 for Ayahoo_test圖9 Ayahoo_test數據集基于視角3的聚類

Fig. 10 Clustering based on view 5 for Ayahoo_test圖10 Ayahoo_test數據集基于視角5的聚類
3.2.3 ICMG算法與其他多視角算法的對比分析
ICMG算法對Apascal_train數據集和Ayahoo_test數據集的聚類結果如表5所示,表5展示的是準確率(AC),從表5中可以看出:
1) 針對數據集Apascal_train和Ayahoo_test,ICMG得到了多種聚類方案,而且每個聚類方案的準確率都比CRSC和CTSC高.
2) 不同的視角的準確率不同.

Table 5 Clustering Results
本文從3個方面對比驗證算法的可解釋性,分別是:聚類過程是否黑盒化,算法是否產生決策規則,聚類結果是否有定性和定量地解釋.如表6所示.聚類過程黑盒化是指不表明一個數據被劃分為一個簇的原因,如圖11所示.

Table 6 Algorithmic Interpretation表6 算法的可解釋性

Fig. 11 Clustering in back box圖11 聚類過程黑盒化
從表6可以得到:
1) CRSC和CTSC是聚類過程黑盒化的算法,如圖11所示.ICMG不是黑盒化的算法,因為ICMG基于決策規則進行聚類,如圖12所示:

Fig. 12 Clustering based on decision rules圖12 基于決策規則的聚類
2) ICMG比CRSC和CTSC具有更好的解釋性.因為ICMG是基于決策規則進行聚類并且可以定性和定量地解釋聚類結果.
ICMG算法利用視角的重要特征構成規則集,基于規則集進行聚類可以得到每一個數據被劃分為一個簇的原因.ICMG算法利用視角的語義定性和定量地解釋聚類結果進而得到每一個簇的詳細的組成成分.因此,ICMG聚類性能優于其他多視角聚類.ICMG算法對聚類結果的解釋可以使使用者基于自己的專業知識批判性、改善性和探索性地相信和使用聚類結果.
3.3聚類結果可解釋的驗證
為了驗證ICMG的可解釋性的效果,我們做了一個社會調查的實驗.實驗過程如下:1 000個人,平均年齡24歲,給這些人分別展示Ayahoo_test數據集的CRSC算法的聚類結果和ICMG算法的聚類結果,每人給兩分種時間觀察這些聚類結果,然后總結每個類的成分或聚成一類的圖片的共同點.實驗結果是60%的人認為CRSC算法的聚類結果看不出每個類的成分,也找不到聚成一類的圖片的共同點,40%的人是集中觀察部分CRSC算法聚類結果進而理解每個類的成分,這樣得到的理解往往是片面的和不自信的,80%的人認為ICMG算法的聚類結果由于有類的原型和子空間做指引能很快地了解每個類的成分,而且能很自信地說出聚成一類的圖片的共同點,20%的人對ICMG算法的聚類結果表示懷疑,認為存在個別圖片與此圖片所在的類的原型和子空間不完全符合,但承認大部分圖片還是符合的和能讓人理解的.因此,ICMG得到的聚類結果具有可解釋性.
針對聚類的多視角和可解釋問題,本文提出ICMG算法.為了得到多個有語義的視角,ICMG構建MGM模型.MGM基于有效原則和無冗余原則使用BPL的組合思想和MBCM生成多個有效的無冗余視角,并使用原型和子空間描述視角.ICMG基于每個視角的匹配度進行聚類,并且使用視角的原型和子空間所附帶的語義信息定性和定量地解釋聚類結果,所以ICMG可以得到多種可解釋的聚類方案.
[1] Rodriguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496
[2] Lou Zhengzheng, Ye Yangdong, Liu Ruina. Non-redundant multi-view clustering based on information bottleneck[J]. Journal of Computer Research and Development, 2013, 50(9): 1865-1875(婁錚錚, 葉陽東, 劉瑞娜. 基于IB方法的無冗余多視角聚類[J]. 計算機研究與發展, 2013, 50(9): 1865-1875
[3] Wang Yang, Zhang Wenjie, Wu Lin, et al. Iterative views agreement: An iterative low-rank based structured optimization method to multi-view spectral clustering[C] //Proc of the 25th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2016: 2153-2159
[4] Li Yeqing, Nie Feiping, Huang Heng, et al. Large-scale multi-view spectral clustering via bipartite graph[C] //Proc of the 29th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI, 2015: 2750-2756
[5] Cai Xiao, Nie Feiping, Huang Heng, et al. Heterogeneous image feature integration via multi-modal spectral clustering[C] //Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 1977-1984
[6] Guo Dongyan, Zhang Jian, Liu Xinwang, et al. Multiple kernel learning based multi-view spectral clustering[C] //Proc of the 22nd Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2014: 3774-3779
[7] Wang Hongxing, Weng Chaoqun, Yuan Junsong, et al. Multi-feature spectral clustering with minimax optimization[C] //Proc of the 2014 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 4106-4113
[8] Kumar A, Daume H. A co-training approach for multi-view spectral clustering[C] //Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 393-400
[9] Kumar A, Rai P, Daume H. Co-regularized multi-view spectral clustering[C] //Proc of the 25th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2011: 1413-1421
[10] Cai Xiao, Nie Feiping, Huang Heng. Multi-viewk-means clustering on big data[C] //Proc of the 23rd Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2013: 2598-2604
[11] Xu Jinglin, Han Junwei, Nie Feiping. Discriminatively embeddedK-means for multi-view clustering[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 5356-5364
[12] Xu Yumeng, Wang Changdong, Lai Jianhuang. Weighted multi-view clustering with feature selection[J]. Pattern Recognition, 2016, 53: 25-35
[13] Cao Xiaochun, Zhang Changqing, Fu Huazhu, et al. Diversity-induced multi-view subspace clustering[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 586-594
[14] Kim B, Shah J, Doshi-Velez F. Mind the gap: A generative approach to interpretable feature selection and extraction[C] //Proc of the 29th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 2260-2268
[15] Fraiman R, Ghattas B, Svarc M. Interpretable clustering using unsupervised binary trees[J]. Data Analysis and Classification, 2013, 7(2): 125-145
[16] Chen Junxiang, Chang Yale, Hobbs B. Interpretable clustering via discriminative rectangle mixture model[C] //Proc of the 16th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 823-828
[17] Kim B, Rudin C, Shah J. The bayesian case model: A generative approach for case-based reasoning and prototype classification[C] //Proc of the 28th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 1952-1960
[18] Attias H. Inferring parameters and structure of latent variable models by variational bayes[C] //Proc of the 15th Conf on Uncertainty in Artificial Intelligence. Paris: AUAI, 1999: 21-30
[19] Graf A B A, Bousquet O, Ratsch G, et al. Prototype classification: Insights from machine learning[J]. Neural Computation, 2009, 21(1): 272-300
[20] Baehrens D, Schroeter T, Harmeling S, at al. How to explain individual classification decisions[J]. Journal of Machine Learning Research, 2010, 11(2010): 1803-1831
[21] Hofmann T. Probabilistic latent semantic indexing[C] //Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999: 50-57
[22] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(2003): 993-1022
[23] Lake B M, Salakhutdinov R, Tenenbaum J B. Human-level comcept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338
[24] Lake B M, Salakhutdinov R, Tenenbaum J B. One-shot learning by inverting a compositional causal process[C] //Proc of the 27th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2013: 2526-2534
[25] Lake B M, Salakhutdinov R, Gross J. One shot learning of simple visual concepts[C] //Proc of the 33rd Annual Meeting of the Cognitive Science Society. United Kindom: Psychology, 2011: 2568-2573
[26] Farhadi A, Endres I, Hoiem D. Describing objects by their attributes[C] //Proc of IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1778-1785
[27] Kumar A, Daumé H. A co-training approach for multi-view spectral clustering[C] //Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 393-400
[28] Kumar A, Rai P, Daumé H. Co-regularized multi-view spectral clustering[C] //Proc of the 25th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2011: 1413-1421
InterpretableClusteringwithMulti-ViewGenerativeModel
Pan Xiaoyan, Lou Zhengzheng, Ji Bo, and Ye Yangdong
(SchoolofInformationEngineeringZhengzhouUniversity,Zhengzhou450001)
Clustering has two problems: multi-view and interpretation. In this paper, we propose an interpretable clustering with multi-view generative model (ICMG). ICMG can get multiple clustering based multi-view meanwhile qualitatively and quantitatively interpret clustering results by using semantic information in views. Firstly, we construct a multi-view generative model (MGM). It generates multiple views by using Bayesian program learning (BPL) and multi-view Bayesian case model (MBCM). Then we get multiple clustering by clustering based on views’ matching degree. Finally, ICMG qualitatively and quantitatively interprets clustering results by using semantic information in views’ prototypes and important features. Experimental results show ICMG can get multiple interpretable clustering and the performance of ICMG is superior to traditional multi-view clustering.
Bayesian program learning (BPL); Bayesian case model (BCM); interpretable; multi-view; clustering

Pan Xiaoyan, born in 1990. Master at Zhengzhou University. Her main research interests include machine learning and data mining.

Lou Zhengzheng, born in 1984. PhD. His main research interests include machine learning, pattern recognition and computer vision.

Ji Bo, born in 1973. PhD. Associate professor. His main research interests include artificial intelligence, pattern recognition and information theory.

Ye Yangdong, born in 1962. Professor. PhD supervisor at Zhengzhou University. Senior member of CCF. His main research interests include intellectual system, database system, machine learning.
2017-03-19;
:2017-05-22
國家自然科學基金項目(61502434,61170223);河南省科技攻關項目(172102210011) This work was supported by the National Natural Science Foundation of China (61502434,61170223) and the Henan Provincial Key Technology Research and Development Program (172102210011).
葉陽東(ieydye@zzu.edu.cn)
TP181