章 蓉 , 陳 誼 , 張夢錄 , 孟可欣
(1. 北京工商大學計算機與信息工程學院 食品安全大數據技術北京市重點實驗室,北京 100048;2. 武漢理工大學信息工程學院,湖北 武漢 430070)
聚類算法作為數據分析中的一種重要挖掘手段,能夠根據相似性度量對混亂、無規律的原始數據自動分組,其結果反映了數據內部的分布特征和結構模式。并極大地降低了分析人員探索位置數據的認知負擔。馬昱欣等[1]對比了數據挖掘與可視化提取知識的流程發現,加入可視化方法后,用戶可以通過視覺通道從結果中發現和提取符合需求的數據特征和模式[2-3]。同時視覺模型可以利用交互方式接受用戶的反饋并生成新的可視化結果,用戶的專業知識和任務需求得到了很好地考慮[4]。SEO和SHNEIDERMAN[5]早在 2002年就提出了一個 Hierarchical Clustering Explorer的交互式可視化工具來探索聚類結果。隨后,研究者們又陸續提出了多種交互式聚類可視分析系統[6-9],將分析的上下文和分析任務的目標與期望相結合,以幫助用戶更高效地進行聚類分析。
越來越多維數眾多且結構復雜數據的涌現加大了傳統的聚類方法處理這類數據的復雜性和計算成本,許多更具擴展性和交互性的數據聚類可視分析系統[10-13]相繼被提出。面對日益復雜的海量數據,可視分析通過對聚類算法選擇、模型參數設定和分析結果展示等不同方面進行融合,相對于數據挖掘和統計學方法,在挖掘聚類結果和理解聚類過程方面有更大的優勢。許多綜述文章[14-17]大多是針對數據量大為數據聚類帶來的問題對算法進行歸納總結,忽略了高維數據“維度詛咒(curse of dimensionality)”問題也為聚類分析提出了不少挑戰。這些挑戰既存在于算法選擇方面,也存在于可視化設計方面。本文從高維數據進行數據聚類時存在的問題出發,回顧了近10年高維數據聚類可視分析取得的研究成果并進行了總結,其主要貢獻為:
(1) 總結了高維數據聚類過程中常用的數據處理方法,并對其性能進行了比較。
(2) 總結了近10年來高維數據聚類的2類可視分析方法,包括基于降維及子空間聚類的可視分析方法。
(3) 對目前高維數據聚類可視分析中存在的機遇與挑戰進行了討論。
研究人員進行聚類分析的目的主要有2種:①為了減少數據量,將聚類結果作為其他算法的預處理過程,之后將諸如分類、特征學習等算法在檢測到的簇中進行操作;②為了更好地理解數據,通過探索有意義的簇及其特征空間來認識數據的內在結構[18]。前者追求較好的聚類結果是為了更好地進行后續的分類及特征學習,主要是側重于設計和改進聚類算法以更好地匹配數據集。后者需要研究人員能夠深入數據內部,發現和展示數據內部規律及隱藏的模式特征。本文主要針對后者對近年來高維數據聚類可視分析方法進行總結。
聚類本身是一個探索過程,并且其數據通常都是無標簽的。在大數據時代,人們對于收集和存儲原始數據的屬性和內在結構并不了解,甚至十分陌生,很難直接知曉數據集中是否存在聚類模式以及其反映的數據內部是怎樣的數據特征和規律。即使研究人員根據領域知識提前知道數據集中可能存在聚類模式,但在聚類算法的選擇和模型參數的設定等方面也面臨著巨大的組合空間。高維數據的維度可以從幾十維到幾百維不等,在進行聚類分析時不僅需要解決數據量大的問題,其自身高維性帶來的“維度詛咒”問題[19]也會使得傳統聚類算法的結果非常不理想。除此之外,由于人類自身難以直接構建和快速識別超過三維空間中數據的結構和特征,對高維數據的聚類結果進行有效可視化也存在著許多挑戰[20]。例如平行坐標是一種常用的多維數據可視化方法,但是隨著數據量和維度的增加,其視覺紊亂現象會變得十分嚴重。同時平行坐標難以呈現非相鄰維度之間數據的分布特點。盡管文獻[21-22]對平行坐標做了改進,但是單一的可視化方法難以滿足日益增長的聚類分析需求。
圖1為高維數據聚類可視分析的流程圖。高維數據聚類可視分析可分為2步: 第1步數據建模,即對高維數據進行聚類,挖掘數據中存在的聚類模式。高維數據中“維度詛咒”問題為數據聚類帶來最直接的影響是時間和空間復雜度呈指數上升趨勢以及使度量樣本間相似性的距離度量失去意義。除此之外,“高維性”這一特點也使得數據中簇的形成并非依賴于所有維度,而是在部分維度上呈現出聚類模式,且由不同的特征空間構成。這些問題都為高維數據聚類帶來了許多挑戰。如何從這類具有高維性的復雜數據[23]中挖掘出合適的聚類結果是高維數據聚類可視分析的首要問題。降維和子空間聚類算法是用來有效挖掘高維數據中聚類模式的2種數據處理方法。其可以幫助研究人員排除高維數據中不相干維度的影響,同時挖掘其中隱藏的聚類模式。

圖1 高維數據聚類可視分析流程圖
在挖掘出聚類模式后,高維數據聚類可視分析的第2步是利用可視化技術幫助用戶分析和理解聚類結果,揭示數據內部隱藏的結構和關系。
(1) 聚類結果分析。其主要針對無標簽數據,由于缺乏一致、定量的指標評價聚類結果好壞,用戶需要根據其任務和自身的專業知識來判斷聚類結果是否符合需求。除此之外,聚類算法、樣本和屬性的不同組合會對聚類結果產生較大的影響,甚至由于算法隨機挑選的初始點不同,在算法、參數和樣本等都一致的情況下聚類結果也可能會發生改變。這都為用戶分析和比較不同聚類結果帶來了挑戰。利用可視化技術分析聚類結果能夠為用戶同時呈現數據的不同聚類結果,通過交互手段幫助用戶比較其異同,發現其區別和聯系,進而獲得較好的聚類結果。然后通過簡潔交互界面的設計發現簇內數據點之間的關聯關系[24],并幫助用戶直觀的了解數據項之間的聯系。
(2) 特征空間分析。簇在特征空間中的分布情況反映了數據內部的結構和規律,對數據進行聚類分析的目的也是為了幫助用戶自動、高效地發現原始數據集中的這些結構和規律。為此需要探索特征空間維度間的相關關系并發現數據在空間中的分布特點[25]。由于聚類算法主要是通過用戶自定義的相似性度量對數據進行自動分組,這會使挖掘出的聚類結果可能存在相互之間沒有實際關系或規律的數據被聚集到同一個簇中。此外高維數據中的聚類模式往往不存在于全局空間中,這些都要求用戶能夠準確發現并認識不同簇內數據在其特征空間中的分布。利用可視化技術,用戶可以直觀的比較不同簇內數據在其特征空間中的分布情況。同時通過交互方法可以比較同一簇在不同特征空間的分布情況,并分析和比較其區別和聯系,進而正確認識數據的內部結構和規律。
高維數據聚類可視分析的數據建模過程是為了幫助用戶挖掘高維數據中存在的聚類模式并獲得聚類結果。在這個過程中,用戶首先需要對原始數據集進行篩選并構造特征矩陣,為數據處理提供可靠的待分析數據;然后對其進行聚類,挖掘數據中存在的聚類模式。為了解決這些問題并獲得聚類結果,目前常用的處理方法是降維和子空間聚類2種。
降維是通過線性或非線性變換,將數據從原始的高維空間嵌入至低維空間,在剔除不相干維度影響的同時使數據在低維空間中盡可能保持高維空間中的結構。經典的降維方法包括主成分分析[26](principal component analysis,PCA)、線性判別法[27](linear discriminant analysis,LDA)、多維尺度縮放[28](multidimensional scaling,MDS)、等度量映射[29](isometric mapping,isomap)、局部線性嵌入[30](local linear embedding,LLE)、t-SNE[31]等。上節討論的“維度詛咒”問題是影響高維數據聚類的一個重要因素,通過對數據進行降維處理,研究人員可以將高維空間中稀疏的數據映射至一個低維稠密空間,使其空間樣本點之間的距離變得有意義,并作為聚類算法中的相似性度量對數據進行自動分組。對降維后的數據應用諸如 k-means、DBSCAN、層次聚類算法等主流的聚類算法,挖掘數據在原高維空間中存在的聚類模式。例如對于一個具有500維的數據集,首先利用 PCA方法將該數據從原始空間降維至10維空間,然后對其數據應用DBSCAN的聚類方法獲得聚類結果。聚類算法用于降維后的數據,大大降低了算法的時間和空間復雜度。
子空間聚類[32-33]旨在探索存在于高維數據子空間中的簇。通過將數據的原始特征空間分成不同的子空間以保留原數據集中的不同特征,減少了不相關維度和特征的影響,能夠幫助用戶同時挖掘數據中的簇及其特征空間。在子空間聚類算法中,一般采用2種策略來避免檢索有意義的子空間和發現聚類模式之間的循環依賴關系。根據策略將子空間聚類算法分為:自底向上搜索網格方法[34-38]和自頂向下搜索迭代方法[39-43]。
通過對高維數據聚類可視分析的數據建模過程進行討論可以看到,降維和子空間聚類這 2種數據處理手段都可以用來解決高維數據聚類過程中遇到的問題并為用戶提供聚類結果。但 2種手段解決高維數據聚類問題的原理和最后獲得的聚類結果且有很大的不同,這也會為后續分析和理解聚類結果并認識數據內部結構和規律提出不同的需求。
利用降維方法挖掘高維數據中的聚類模式,主要目的是通過保持數據特征在高維空間和低維空間的一致性,使得主流的聚類算法能夠在一個低維稠密空間挖掘數據在原始高維空間中存在的聚類模式,降低由于“高維性”為聚類算法帶來的長時間和空間復雜度。利用子空間聚類方法挖掘高維數據中的聚類模式則不需要將高維數據映射到低維空間,正如上節討論的,通過自頂向下或者自底向上的搜索策略能夠直接挖掘出高維數據中的聚類模式,同時用戶還能獲取每個簇的特征空間。這也是子空間聚類幫助高維數據聚類獲得聚類結果區別于降維方法的地方,因為數據從原始高維空間映射至低維空間后,聚類算法在低維空間中所使用的相似性度量涉及到的維度已經失去了原有的意義,其可解釋性較差[44]。因此用戶不能獲得構成該聚類模式的特征空間。這種差異也為后續分析聚類結果提出了不同的要求。
表1對比了利用降維和子空間聚類方法對高維數據進行聚類的性能。可以看到降維方法適用于同一特征空間中的數據簇,其為研究人員提供一個很好的全局概覽。但結果難以解釋,且用戶很難同時獲得與該簇相關的維度集合[45]。一旦維數增加,全局降維技術就不是最優的,更好的方法是發現與局部聚類任務最相關的子空間[46]。而且利用降維和主流聚類算法的組合挖掘高維數據的聚類模式對聚類結果的好壞有很大的影響。WENSKOVITCH等[47]已對可聚類分析中降維和聚類算法的選擇以及應用等方面做了總結。除此之外,降維后的數據并不能完全保留高維空間中數據項之間的所有關系,因此在降維過程中很難確定應該保留數據中的哪個特征更有利于下一步分析[48]。特別是非線性降維,不同參數設置會顯示哪些數據特性都是難以回答的[49]。該問題在利用子空間聚類挖掘高維數據中的聚類模式時則不會出現,相反的,用戶可以通過子空間聚類挖掘出高維數據中可能存在的所有聚類模式并獲得各個簇的特征空間。盡管子空間聚類的這種優勢可以保證用戶不丟失高維數據中的信息,但容易產生冗余信息,例如挖掘出的不同子空間中簇存在重疊現象。其造成更多的計算時間,并加大了用戶的認知負擔,用戶還需從這些結果中辨別具有意義的聚類結果。

表1 降維與子空間聚類方法的性能比較
考慮到降維和子空間聚類方法的不同運行機制以及利用2種方法獲得的聚類結果對于后續分析的關注點不同,本文將高維數據聚類可視分析方法分為:基于降維和基于子空間的聚類可視分析方法2大類。
SEDLMAIR等[50]設計了一個工作流模型,用二維、三維散點圖和散點圖矩陣的可視化技術來編碼數據,并利用矩陣熱圖的形式比較3種技術對于數據可分性的性能,指導用戶在驗證高維數據中的聚類結果可分性時選擇更好的可視化編碼。GRIPARIS等[51]利用降維方法對地球觀測檔案進行探索,旨在識別具有相似語義的內容。
通過高亮三維投影空間的數據點能幫助用戶發現具有相似結構的數據項,如圖2所示。WANG等[52]提出了一個感知驅動的線性降維方法,并將其結果以二維散點圖的可視化形式與其他降維方法進行了比較,發現該方法彌補了監督降維方法未考慮到人類的感知能力而導致一些類結構未被研究人員觀察到的情況。

圖2 地球觀測檔案聚類結果可視化[51]
隨著維度的增加和數據結構也變得更加復雜,單一的可視化展示已經難以滿足分析需求。同時通過降維和聚類算法對初始參數設定往往不能直接得到較好的結果,需要研究人員進行迭代分析。文獻[46]設計了TripAdvisorN-D的可視分析系統(圖3),該系統從一個初始的投影散點圖開始,為用戶提供了交互式工具對數據進行全局導航和局部探索,分析和認識高維數據中簇的分布情況。隨后 WANG和 MUELLER[53]考慮到人們缺乏真正理解超過三個維度空間的能力,在 TripAdvisorN-D的基礎上設計并開發了一個Subspace Voyager系統。該系統為用戶生成一組連續的三維子空間并將數據投影到其中,顯示為軌跡球。用戶可以通過旋轉、跳轉、拖拽、保存等手段對高維數據進行可視化聚類分析。但這些都過于依賴用戶手動調整參數,缺乏指導性意見來幫助用戶發現分析簇。XIA等[54]提出了基于投票的投影推薦框架并開發了一個可視分析系統。用戶在初始投影中發現聚類模式后,可以選定該簇,這時系統會自動推薦一個效果更佳的投影讓用戶識別出該簇。當系統沒有更好地推薦時,用戶可以人為地調整投影結果。圖 4為該系統的一個實例分析過程。與其類似,LAI等[55]希望通過增強局部投影探索高維數據,為此開發了FocusChanger系統,該系統能夠半自動地幫助用戶進行聚類分析,使人的分析能力充分和機器的計算能力相結合。

圖3 TripAdvisorN-D系統界面[46]
將深度學習模型的隱藏層作為降維的一種特殊形式也受到廣泛關注。ZHANG等[56]通過無監督深度學習框架發現的簇反映了鄰域的深層特征。HAN等[57]首次將深度學習技術應用到流數據的特征學習中,并提出將 FlowNet網絡的輸入集劃分為簇,這些簇中蘊藏著最能捕獲底層流特性和模式的子集,圖5為FlowNet網絡框架圖,圖6為結果可視化效果圖。
通過文獻可知,基于降維的高維數據聚類可視分析方法主要是通過散點圖或以散點圖為主視圖,其他視圖輔助的多視圖協同技術分析高維數據的聚類結果。在早期,研究人員通過散點圖的各種形式如二維散點圖、散點圖矩陣等方式對聚類結果進行投影,投影圖中點與點之間的位置關系反映了各點之間的相似程度,而用戶也能很好地通過位置關系來辨別不同降維和聚類算法組合獲得的聚類結果之間的好壞。隨著數據集及維度數量變大,更具交互和指導性的可視化方案設計出現,這也正是本節開始討論的利用降維方法解決高維數據聚類問題帶來的挑戰決定的。根據表1可以看到,研究人員很難直接知道降維后的數據對于數據在原始高維空間中特征的保留情況,特別是隨著數據量和維度數量的增加以及目前對于深度學習的火熱研究,更加大了該問題的難度。因此能夠提供指導信息來引導研究人員下一步操作的半自動化可視分析方案變得越來越重要。同時設計多個視圖來輔助研究人員分析當前狀態下聚類結果反映的數據特征,以提供交互方法來調整算法參數并獲得更好的聚類結果的需求也變得更加重要。

圖4 文獻[54]實例分析過程圖

圖5 FlowNet網絡框架圖[57]

圖6 FlowNet實例結果圖[57]
ASSENT等[58]指出現有的子空間聚類方法缺乏交互可視化,同時目前算法對子空間的維數存在偏倚,即未考慮到不同子空間中維度的密度是不可比的。在此基礎上,作者提出了維數無偏子空間聚類和子空間簇的距離函數,同時設計了 2個可視化工具允許用戶瀏覽整個子空間集群,放大到單個對象,深入分析子空間集群特征。該系統的不足之處是不支持相應子空間中數據分布的可視化比較。Heidi Matrix[59]基于每個子空間中k個最近鄰點的計算,使用二維矩陣加以顏色映射呈現數據集中的簇,同時還比較了這些簇在不同的特征空間中是否有重疊的數據分布情況。FERDOSI等[60]提出了一種用于聚類子空間排序方法,克服了許多聚類算法要求用戶在沒有任何指導原則的情況下,設置大量的參數和難以反映當前集群的數量或集群的重要性等問題,其設計的可視化系統以樹形結構幫助用戶交互選擇各個子空間,并對其數據分布情況進行呈現。YUAN等[61]提出了層次化的交互式子空間可視分析方法,圖7為Dimension Projection Matrix/Tree工作流程圖。該方法包括 2種新的探索視圖,其一是維度投影矩陣,在矩陣中,每行或每列表示一組維度,每
個單元格顯示具有相應維度的數據的維度投影;其二是維度投影樹,其中每個節點是維度投影矩陣。該方法能夠同時探索高維數據的數據相關關系和維度間的相關關系。

圖7 維度投影矩陣/樹工作流程圖[61]
簇的特征空間分析在聚類分析中也是一個非常重要的研究工作,其能幫助用戶發現數據內部結構和分布規律。2015年 WATANABE等[62]基于雙聚類技術提出一種提取特征子空間的新方法。與傳統方法不同,高相關的維度被自動分組形成子空間。在傳統的平行坐標上,通過增加聚類的平行坐標圖(Clustered PCP)和聚合的平行坐標圖(Contracted PCP)來幫助用戶對特征空間進行比較。夏佳志等[63]認為維度間的相關性往往存在著數據上局部性,即不同數據子集體現出不同的維度相關性。在全局相關性分析時,這種維度局部相關性往往被掩蓋,為此,提出一種基于子空間聚類的局部相關性可視分析方法。幫助用戶發現簇內維度之間的局部相關關系。圖8為其系統圖。隨后 XIA等[64]又提出一種基于維度相關性的子空間聚類可視方法,其開發的系統使用戶能不斷挑選相關性較高的維度構成子空間并可視化數據在子空間中的分布情況。不僅能幫助用戶了解各維度間相關性大小,同時還能比較同一個簇在不同子空間中的分布情況。圖9為該系統的實例分析過程。值得一提的是,在進行子空間聚類時,有一些簇可能在數據的原始維度中難以發現,但在一些重構的維度構成的空間中發現。ZHOU等[65]提出了一種基于維度重建的高維數據子空間聚類可視分析方法。該方法能夠從子空間的數據投影中重建新維度,以保留有趣的集群信息。圖10為文獻[65]提出的交互式子空間分析的維度重建概念圖,重建的維度包含在具有原始維度的分析工作流程中,以幫助用戶構建能夠清楚地顯示聚類模式的子空間。為了避免子空間聚類算法挖掘出冗余信息,LEHMANN和THEISEL[66]提出了一種尋找相關投影的新方法。通過定義一個度量來衡量加入新的維度構成的子空間投影中簇類效果是否會增加,如果有則成為新的投影,否則舍棄。這樣很好地避免了子空間聚類出現冗余的問題。
通過上述文獻可以看到,基于子空間的高維數據聚類可視分析方法同樣是以散點圖的形式來分析聚類結果,用戶可以通過點與點之間的距離直觀、快速地獲得數據內部簇的分布情況。與基于降維的高維數據可視分析方法不同,由于子空間聚類本身可以發現高維數據內部所有可能存在的聚類模式,不會產生信息丟失的情況,而且在發現聚類模式的同時還能抽取出相應的特征空間,因此用戶不用像采用降維的方法那樣,去分析聚類結果中保留了哪種數據特征和降維過程中會產生哪些信息的丟失。相反的,在基于子空間聚類的分析中用戶需要辨別聚類結果中的冗余信息,比較不同簇之間是否存在折疊、交叉等情況,這導致在設計可視化方案時需要提供更多便捷的交互方法以觀察數據在不同特征空間的分布情況。除此之外,由于子空間聚類算法的運行機制,即自頂向下和自底向上的搜索機制帶有一定的層次結構,特別是自底向上的搜索機制,因此在基于子空間聚類的高維數據聚類可視分析中,也常常會出現樹形或類樹形的可視化方案來幫助用戶發現不同層面的子空間中簇內數據的分布情況。

圖8 基于子空間聚類的局部相關性可視分析系統[63]

圖9 基于維度相關性的子空間聚類可視方法實例分析過程

圖10 交互式子空間分析的維度重建概念圖[65]
通過總結高維數據聚類過程中常用的數據處理方法及其可視化方法。可以看到交互式可視分析能夠幫助研究人員從多角度對高維數據的聚類過程和結果進行探索和分析,并發現其內部規律和分布特征。表2對高維數據聚類可視分析方法進行了總結。
由表2可以看到,基于降維的聚類可視分析方法主要是分析通過降維后挖掘出的聚類結果是否很好地保留了其在原始空間中的特征以及保留了哪種特征,進而幫助用戶獲得較好的聚類結果。盡管線性和非線性降維都可以找到低維空間并從中挖掘聚類模式,但是線性降維是通過尋找一個線性函數將數據從高維空間映射至低維空間,并平衡了全局數據,但會導致一些數據項在低維空間處于錯誤位置,造成這些點的周圍信息丟失,使得原始高維空間中一些特征沒有很好地保留下來。利用可視化方法對其聚類結果進行分析時,用戶需要獲得原始空間對于降維后空間的影響程度,且通過調整維度的重要性來修改降維過程保留的特征,通過設計一個較為連續的變化視圖來觀察維度重要性的變化對于聚類結果的影響,使得這些錯誤信息得到修正。而非線性降維是通過保留數據項的周圍信息將數據從高維空間映射至低維空間,且未考慮全局數據之間的關系,致使原始空間中的維度對于降維后空間的影響作用也難以獲得,同時加大了其結果解釋性的難度。用戶對參數進行設置較困難,研究人員很難回答不同的參數設置會保留哪些數據特征。
基于子空間聚類的可視分析方法不僅可以獲得高維數據中所有的聚類模式,同時可以獲得簇的特征空間,在這個過程中極少甚至不會存在信息丟失,為用戶分析數據內部結構和規律提供了可靠的模式來源。但是在子空間聚類的2種不同搜索策略下,獲得的聚類結果也會有差異。通過自頂向下的搜索策略可將數據集初始化分為k個部分,并賦予每個簇相同權值,然后重復采用某種策略對初始簇不斷改進并更新權值,最終獲得聚類結果。利用該搜索策略進行的子空間聚類不會產生重復的簇。而自底向上的搜索策略則是利用了關聯規則中的先驗性質,即如果一個k維單元存在聚類模式,那么在k–1維空間中也存在聚類模式。反之,如果一個k維單元不存在聚類模式,那么在k–1維空間中也不存在聚類模式。從一維開始,不斷向上搜索,最后獲得聚類結果。通過這種搜索策略對數據集的全面挖掘,不會失去任何一個簇信息,但是這樣也極易挖掘出冗余信息。相比于自頂向下的子空間聚類算法,自底向上的子空間聚類算法設計的可視化方案,除了能夠幫助用戶深入不同子空間分析簇內數據的分布,比較其分布之間的差異,在獲得正確認識數據內部結構之外,還需要避免冗余信息的挖掘,降低認知負擔,使得用戶能夠更高效地認識數據。

表2 高維數據聚類可視分析方法總結
利用交互式可視化方法對高維數據進行聚類分析,可以充分結合人的認知能力和計算機強大的計算存儲能力,幫助研究人員認識和了解數據的內部結構以及數據規律。然而隨著收集到高維數據的數據量不斷增加,維度間的關系更加錯綜復雜,高維數據聚類可視分析仍具有重要的研究意義:
(1) 研究聚類可視分析過程中的不確定性。該研究需求來自于基于降維的高維數據可視分析方法。降維方法不可避免地會產生數據信息丟失問題,是由于維度對于影響降維后空間重要性的不確定性造成的,其影響了降維過程中特征的保留。這種不確定性對于用戶來說都是透明的,即使用戶能夠感知到這些失真和丟失信息[67],但難以通過交互手段來控制和調整這些錯誤[68],進而導致其結果不能令人信服[69-70]。除此之外,由于聚類本身是一個無監督的學習方法,主要針對無標簽數據,并且不同領域的用戶對于同一個數據集會出現不同分析需求,這都加大了算法選擇和參數設定的不確定性。例如對于電子健康記錄進行聚類分析,心臟病專家希望通過心血管癥狀對其進行分組,而教練可能希望通過與其運動技能相關的特征進行分組[71]。因此通過研究不確定性,用戶可以根據自身的需求接受當前聚類結果或重新調整參數以獲得更優的聚類結果。
(2) 優化交互方式。其主要是針對基于子空間聚類的高維數據可視分析方法。子空間聚類可以為用戶挖掘出高維數據中所有的聚類模式及其特征空間,并且在這個過程中不會發生損失。但是也會帶來信息冗余的問題,這大大加重了用戶的認識負擔。同時可造成挖掘出的一些聚類模式沒有實際意義,相互之間存在重疊等問題。因此需要設計出便捷的交互方案來幫助用戶識別、篩選出有意義的聚類模式并分析模式反映的數據特征,進而更好地認識和了解數據內部結構。目前,對于同時探索數據集中的簇及其特征空間時常常采用不同的方法,解釋不同方法挖掘到的簇及其特征空間也會增加研究人員的認知識別負擔[72]。需要設計一致的可視化表示與平滑的交互方法來探索和發現簇及其特征空間。
(3) 設計更具指導性的可視分析系統其對于基于降維和基于子空間聚類的高維數據聚類可視分析來說都是有用的。對于普通用戶而言,直接對各種參數進行設定并獲得正確的結果是很難的,哪怕對具有極高專業知識的研究人員而言也不是一個簡單的事情。設計具指導性的可視分析系統能夠幫助用戶更高效地進行分析。XIA等[73]提出了一個探索性的可視化分析方法LDSScanner,為用戶提供了選擇適當模型所需的上下文信息。SACHA等[74]開發的SOMFlow系統提供了一個自定義的度量,以指導用戶的下一步行動。文獻[11]提出了一個 the Clustering Tour的新特征,該特征可以根據集群配置、數據特性和用戶反饋為用戶進行推薦。TATU等[75]通過定義子空間相似性來處理子空間冗余的問題。可以看到設計和實現更具指導性的聚類可視分析系統能更好地幫助用戶有效地在空間中進行搜索,理解數據的內部結構,避免一些無用工作的進行。
可視分析技術是高維數據聚類分析的一個有效的手段。本文首先總結了高維數據聚類過程中常用的數據處理方法并對其性能進行了比較;隨之對近 10年高維數據聚類可視分析的研究成果進行了總結;最后指出了該領域存在的機遇與挑戰。