利用局部主方向實現交互式聚類可視化*

2018-06-19 06:10:34張志豪張軍平

計算機與生活 2018年6期

盧穎，張志豪,2，張軍平,2+

1.復旦大學計算機科學技術學院，上海 200433

2.上海市智能信息處理重點實驗室，上海 200433

1 引言

聚類是數據挖掘和機器學習的重要研究方向之一，旨在按照一定的準則將無標簽數據劃分成不同的類或簇。在處理高維數據聚類時，常將數據映射到低維空間，再通過可視分析來完成聚類。然而，如果可分性不好，或數據本身有重疊問題時，單純依靠聚類算法不能對數據形成好的分析結果。

因此，人們期望結合機器學習和可視化以及人機交互的優點，提出一種可以輔助聚類分析的方法。具體來說，本文提出了一個用于聚類分析的可視化交互系統。首先通過維數約簡的方法將數據點降到二維進行可視化，然后計算出感興趣區域內投影點的主方向，再通過拉伸主方向和其垂直方向上的數據點距離與數據進行交互，減少投影點的堆疊現象，改善聚類分析的效果。

本文的主要貢獻包括：

（1）提出了一個用于聚類分析的可視化交互系統。系統利用維數約簡的方法將數據投影到二維平面可視化，讓用戶與數據自由地交互，進行聚類分析。

（2）創新性地利用局部主方向的方法指導聚類。本文提出的“局部主方向+交互”的聚類方法，在可視化領域是一種全新的方法，其充分利用了交互性的優勢，提升用戶在聚類問題中的參與度；同時該方法又結合了機器學習領域中局部主方向對數據方向性的直觀反映，增強了聚類分析的效果。用戶可以先查看所選投影點主方向及其垂直方向上的頻數直方圖，再調節主方向和垂直方向上的比例參數，對投影點之間的距離在兩個方向上進行縮放，使得投影點沿著主方向和垂直方向移動，減少重疊現象，增加數據的可分性，達到更好的可視化聚類效果。

（3）通過實驗的方法，綜合評估討論了局部主方向方法對交互式可視化聚類分析的影響和有效性。該方法可以有效地改善投影點的可分性，在實現相似聚類效果的同時，減少降維算法的迭代次數，提升聚類分析效率。

（4）使用用戶調研的方法，采訪記錄用戶的使用體驗，探討整個交互式可視化系統和局部主方向方法對聚類分析的幫助。結果表明，基于局部主方向的交互式可視分析方法是行之有效的。

2 相關工作介紹

本章將簡要介紹聚類算法和減輕高維數據低維投影點重疊的研究。

粗略來講，聚類算法可劃分為5類[1]。

第一類是基于劃分的聚類算法，如K-均值（K-means）算法和CLARANS（clustering algorithm based on randomized search）算法[2]等。這類算法旨在將數據點分成若干個小團，每個小團代表一個類，通常假設數據服從某個分布。

第二類是基于層次的聚類算法，典型的層次聚類算法有BIRCH（balanced iterative reducing and clustering using hierarchies）算法[3]和 CURE（clustering using representatives）算法[4]等。這類算法將給定的數據集分解成若干層次，直至滿足條件為止。其主要缺點是一旦進行層次分離或合并操作，這一操作將無法撤銷。

第三類是基于密度的聚類算法，如DBSCAN（density-based spatial clustering of applications with noise）算法[5]和OPTICS（ordering point to identify the cluster structure）算法[6]等。這類算法能發現離群點和任意形狀的簇。

第四類是基于網格的聚類算法，典型的算法有Wave-Cluster算法[7]和 STING（statistical information grid-based method）算法[8]。這類算法因為聚類過程不依賴于具體的數據點，網格的數量又通常遠小于數據點數，一般運行速度較快。但是數據分布不規則時，這類算法效果不是很好。

第五類是基于模型的聚類算法，如期望最大化（expectation maximization）算法[9]和自組織映射（selforganizing maps，SOM）算法[10]等。這類算法假設數據由若干潛在的概率分布組合而成，通過不斷優化模型讓模型和真實的數據分布相符。模型既可以是統計模型，也可以是神經網絡。

盡管聚類算法在很多方面都取得了好的效果，但在處理高維數據時受維數災難問題影響，往往難以獲得直觀且好的聚類效果。一種策略是通過維數約簡投影到低維，通過可視化由人來進行后期評估。其原因是，按格式塔理論[11]，人的視覺系統具有很強的聚類能力，可以將相似的目標自動聚成團。然而，可視分析的難易度受數據點投影的重疊程度影響。如果聚類算法不能得到好的可分性，數據則有可能在低維產生混疊，導致隨后的分析變得困難。

為了減少數據點重疊給后期分析帶來的困難，研究者做了大量相關研究，這些研究可劃分成4類。

第一類工作是通過增加視覺通道來改善視覺效果，比如為散點圖的數據點選擇不同的尺寸、透明度、形狀和布局等。Woodruff等人[12]通過繪制尺寸不同的投影點來增強可視化的視覺效果。Dang等人[13]則是通過改變數據點的布局來解決二維平面上的重疊問題。這類做法雖然直觀和簡單，但增加的視覺編碼可能會給用戶造成視覺假象，影響其對數據屬性的理解。

第二類工作的主要思想是對投影點進行密度估計，計算密度場，建立顏色和密度之間的映射關系。Bachthaler等人[14]提出了一個嚴格、精確、通用的數學模型來創建連續的散點圖。但是在同一視圖內對多個密度場進行顏色編碼對用戶具有一定的誤導性。

第三類工作試圖將高密度區域的投影點移動到其他空間較大的區域，以此緩解投影點重疊的問題。基于這一想法，Janetzko等人[15]提出可以用橢球像素分布改變原始投影點的分布，減少投影點的重疊。但這種可視化方式會改變低維空間中投影點的分布情況和拓撲結構，使得用戶無法從低維空間中獲得高維數據的真實情況。

第四類工作是借助諸如放縮（zoom）、魚眼（fisheye）、上下文聚焦（focus+context）等交互的方法探索重疊的投影點。這類典型的工作有Yuan等人[16]提出的交互探索分析高維數據子空間的方法。Chen等人[17]綜合運用了上述4種交互技巧，提出了一種基于多類藍噪聲采樣[18]的方法，在盡量保留數據點的分布和相對密度的同時，解決重疊問題。

數據投影點的重疊使得聚類的邊界變得模糊，容易困擾甚至誤導用戶，并使其最終做出錯誤的判斷。而可視分析中的交互技術賦予了用戶與投影點交互的能力，讓用戶直接參與到聚類的探索過程中，對整個聚類過程有較好的掌控。受文獻[19]的啟發，本文選取局部主方向作為提示信息給用戶，幫助其進行交互探索。局部主方向作為數據點的局部朝向，可以編碼為一個新的可視通道，從而幫助用戶區分不同類別。鑒于此，本文提出了一種基于局部主方向的交互式可視聚類分析方法。

3 基于局部主方向的交互式聚類可視化

本章分五部分來介紹基于局部主方向的交互式聚類可視化方法。

3.1 可視分析方法

用戶利用整個系統進行聚類分析的過程如下：

如算法1所示，用戶首先選擇一種降維方法得到數據集的初始可視化效果。降維方法的選取依賴于先驗知識或是多次對比嘗試。

算法1初始可視化算法

輸入：數據集dataset，降維方法f。

輸出：初始可視化結果，數據點平面坐標result。

在初始可視化效果基礎上，用戶選取感興趣的區域（如投影密度較大的區域）進行進一步探索（見算法2）。

算法2興趣區探索

輸入：興趣區數據點平面坐標data，主方向上直方圖組數b1，主方向垂直方向上直方圖組數b2，主方向上縮放比例k1，主方向垂直方向上縮放比例k2。

探索過程中，用戶通過查看該區域主方向及其垂直方向，以及兩個方向上的頻數直方圖，從直觀上了解區域內投影點的分布情況。在此基礎上，用戶可以縮放主方向及其垂直方向上的點點距離，減少數據點的重疊，便于聚類分析。

用戶還可以對不同的類進行著色，增強視覺效果。為了避免距離縮放導致的數據點重合問題和非選區內數據點干擾縮放效果問題，探索過程中用戶可以隱藏選區外的數據點，獲得更好的用戶體驗。

3.2 友好的交互界面

如圖1所示，系統主要分為三部分：信息欄、可視化探索區域、主方向參數欄。為了讓用戶專注于數據探索和聚類分析，可視化探索區域的面積較大，且處于視覺聚焦的中間位置。

（1）信息欄。如圖2所示，信息欄中包含的信息有數據集、降維方法、降維方法中所用距離度量信息。用戶可以導入不同的數據集進行探索。由于數據集的性質各不相同，用戶需要選擇合適的降維方法和距離度量才能獲得一個比較好的初始可視化效果。除此之外，信息欄還提供當前用戶已經標注的類別標記信息。為了防止誤操作，提供刪除標記功能。

（2）可視化探索區域。圖3中的可視化探索區域主要分為兩部分：數據顯示區域和輔助按鈕區域。

在數據顯示區域內，用戶可以通過點擊數據點與數據交互，查看高維空間中的原始信息。對于圖像類數據（如MNIST），提示框內會顯示原始的圖像；對于數值類型的數據，提示框內則顯示各個維度上的數值信息。

Fig.1 User interface of system圖1 系統界面

Fig.2 Information column圖2 信息欄

Fig.3 Visual exploration area圖3 可視化探索區域

利用輔助按鈕區域的按鈕，用戶可以和數據進行更多的交互操作。用戶可以選擇查看或隱藏數據的原始標簽。系統為用戶提供多邊形筆刷來選中感興趣的區域。用戶還可以隱藏未選中的數據點，便于探索。對于選區內的數據點，用戶可以標注成一個類，也可以利用主方向方法進一步探索。方便起見，系統提供了一鍵復位的按鈕，可以讓用戶將所有數據點放回原位。

（3）主方向參數欄。圖4中右側的主方向參數欄包含與主方向方法相關的一些輔助按鈕和信息。在可視化探索區域確定選區后，用戶可以選擇顯示或是隱藏該區域內數據的主方向和垂直方向，兩者分別用紅色箭頭和藍色箭頭表示。如果沒有進行區域選取操作，則默認計算所有數據點的主方向。在查看主方向的同時，用戶可以通過兩個方向上的頻數直方圖來獲得數據分布信息，并且可以通過調節頻數直方圖的組數來獲得更好的分析體驗。此外，用戶可以調節主方向及其垂直方向上的縮放比例，令選區內數據點沿著兩個方向移動，減少數據點的重疊，獲得更好的聚類效果。

Fig.4 Selected data and corresponding principal direction column圖4 選中數據區域和對應的主方向欄

3.3 降維方法的選擇

在整個系統的使用過程中，用戶首先需要選擇一種降維方法得到較好的初始可視化效果。

降維方法分為線性降維方法和非線性降維方法。線性降維方法如主成分分析（principal component analysis，PCA）[20]、多維標度分析（multidimensionalscaling，MDS）[21]等；非線性降維方法包括t-SNE（t-distributed stochastic neighbor embedding）[22]、LLE（local linear embedding）[23]等。線性降維方法的降維結果通常是原本維度的線性組合，而非線性降維方法的結果可能難以解釋。但在聚類分析中，并不關心降維結果的實際意義，只是關心數據在約簡后維度上的可分性和離群點的保留情況。

對于同一數據集，不同降維方法產生的可視化效果不同，比如在MNIST[24]數據集上，t-SNE[22]的可視化效果比MDS[25]的效果好。同樣的降維方法，在不同的數據集上效果也各不相同。與MNIST[24]數據集上相反，在UCI的wine數據集[25]上，MDS[21]方法可以獲得比較好的可視化效果，而t-SNE[22]的效果卻并不理想。

基于此，系統提供了多種降維方法供用戶選擇，以減少單一降維方法可能導致的初始可視化結果不夠理想的問題。

3.4 主方向的意義和計算

3.4.1 主方向

在二維平面上，如果樣本點在某個方向上的投影的方差最大，則稱該方向為主方向。從技術上來說，計算主方向等價于對二維平面上點坐標進行主成分分析，找到最大化投影點方差的方向。

記原坐標系為x-y坐標系，記以主方向與其垂直方向為正交基的坐標系為xmd-ymd坐標系，對坐標系x-y中的樣本X=(x1,x2,…,xn)∈?2×n，經變換后得到在xmd-ymd坐標系下的樣本：

其中，W∈?2×2為變換矩陣；Z∈?2×n是樣本在xmdymd坐標系下的表達。

坐標變換后的樣本點的方差為要使方差最大化，也即：

求解W的過程也就是進行主成分分析的過程（見算法3）。

算法3獲取主方向和垂直方向

輸入：數據D={d1,d2,…,dn}。

輸出：主方向md及其垂直方向mdv。

v為特征值和特征向量*/

顯然，在主方向上所有數據點滿足最近重構性和最大可分性，相比其他方向，在主方向上樣本點的可分性比較好。

3.4.2 拉伸變換

因為主方向具有最大可分性，在該方向上數據點的投影能夠盡可能地分開，所以令初始數據點沿著主方向進行變換可以減少數據點的重疊，增加視覺上的可分性。如圖5所示，對主方向和其垂直方向上單位長度大小進行變換（見算法4），圖中紅色的方向為主方向，藍色的方向為垂直方向，步驟②中主方向上縮放比例為229%，垂直方向上為443%。可以在保持選區內數據點結構的同時，減少數據點的堆疊現象，使數據變得可分。

Fig.5 Stretching demo along principal direction圖5 沿主方向拉伸的示意圖

算法4收縮拉伸點點距離

輸入：數據D={(x1,y1),(x2,y2),…,(xn,yn)}，主方向上拉伸倍數k1，主方向垂直方向上拉伸倍數k2，主方向md，主方向垂直方向mdv。

輸出：變換后數據坐標D′={(x1′,y1′),(x2′,y2′),…,(xn′,yn′)}。

如圖6所示，記原始坐標系為x-y坐標系，以主方向與其垂直方向為正交基的坐標系為xmd-ymd坐標系。在x-y坐標系下，原點為O，對點P(x,y)，記OP=r，OP與x軸的夾角為α，顯然有：

點P(x,y)在xmd-ymd坐標系下的坐標P(xmd,ymd)：

設拉伸變換Sk1,k2(P(x,y))表示點P(x,y)在xmd-ymd坐標系下，沿主方向xmd擴大k1倍，沿垂直方向ymd擴大k2倍，也即變換后的點P′(x′,y′)=Sk1,k2(P(x,y))在xmd-ymd坐標系下的坐標為P′(k1xmd,k2ymd)，則點P′在x-y坐標系下的坐標P′(x′,y′)：

Fig.6 Stretching transformation圖6 拉伸變換

3.5 頻數直方圖的使用

頻數直方圖可以反映主方向和其垂直方向上數據點的分布情況。通過頻數直方圖，用戶可以直觀地感受到數據的一些內在信息，從而更好地進行聚類分析。

如圖7所示，右側的主方向欄中的主方向頻數直方圖中有兩個峰值，這說明主方向上有兩塊區域數據點比較密集，可能存在兩個類；左側的數據點的顏色標簽對應了數據的類別，可以看出大致有紅藍兩類，與頻數直方圖反應出的數據信息相一致。

Fig.7 Selected data and corresponding principal direction histogram and tangent direction histogram圖7 選中區域數據點的主方向頻數直方圖和垂直方向頻數直方圖

圖8能夠反映出直方圖組數的選取對判斷數據分布情況的影響。圖8是圖7中數據點在主方向上的頻數直方圖。對比組數k=10時得到的直方圖和組數k=20時得到的直方圖，可知組數k=20時的直方圖中的雙峰更為明顯；而當k=100時，由于分組過多，直方圖上更像是有3個類。如果直方圖的組數k選取不當，偏大或者偏小，都不能達到較好的輔助數據分析的目的。但是直方圖組數的選取并沒有一個通用的標準，需要根據具體情況、具體數據來決定。因此系統中設置了可以更改組數的滑動條，令用戶能夠根據實際情況對直方圖的組數進行調整，獲得較好的效果。

4 實驗與結果

4.1 人工合成數據集

第一組實驗采用了一個人工合成的數據集。該數據集共有492個數據點，7個分類，每個數據點有4個維度和1個標簽。數據集內包含了3組高維的平行線和一些隨機噪聲點。

在降維方法的選取上，分別選擇了MDS[21]方法和t-SNE[22]方法來進行實驗。

Fig.8 Different bin numbers cause different visual effects圖8 不同組數對頻數直方圖效果的影響

使用了MDS降維后得到的數據點如圖9所示，對中間的一塊直線區域進行探索。通過拉伸垂直方向的點點距離，可以清楚地看出所選區域內數據點的可分性有了顯著的提升，原本堆疊在一起的數據點大致分成了兩條直線，還有一些噪聲點。觀察這次實驗中主方向和垂直方向上的頻數直方圖，可以發現主方向的頻數直方圖上有4個峰值，垂直方向的頻數直方圖上僅有一個峰值。結合實際的數據標簽來看，頻數直方圖只能從某種程度上反映出有限的數據信息，并不能完全依賴于直方圖進行聚類，沿著主方向和垂直方向進行拉伸的操作更為有效。

使用了t-SNE降維后得到的數據點如圖10所示，對其中的一塊區域進行探索。從原始標記中可以看出，選中區域內除了噪聲（粉色）之外有兩個類。但是經過t-SNE的降維，噪聲點和數據點混合均勻，甚至兩個類的數據點均勻混合，頻數直方圖上的信息用途有限。利用拉伸方法進行調節后，可視化效果并沒有得到很明顯的改善。這說明了選取合適降維方法的重要性，也說明了提供若干降維方法供用戶選擇的合理性。

4.2 MNIST數據集

第二組實驗采用了MNIST[24]手寫數字數據集。由于原始數據集過大，考慮到實驗的需求，本文選取一個MNIST的子集來近似模擬在MNIST全局上的聚類過程，其中包含了1 797個數據點。使用t-SNE來可視化MNIST數據集可以得到非常好的可視化效果，但是由于需要迭代到收斂，t-SNE的運行速度較慢。針對t-SNE的運行速度較慢這一問題，有很多加速t-SNE的方法，如Barnes-Hut-SNE[26]和LargeVis[27]等。但是這些優化都是從算法層面進行時間開銷的優化，從而提升收斂速度。收斂之前計算出的中間信息是否有用？是否可能在收斂之前提前結束迭代，通過可視化的交互探索手段，達到同樣的聚類效果？實驗證明，減少40%的迭代次數，再通過沿主方向調整的方法，也可以得到較好的聚類結果。

Fig.9 Choosing MDS as initial dimension reduction method on artificial dataset圖9 使用MDS作為初始降維方法對人工合成數據集進行探索

Fig.10 Choosing t-SNE as initial dimension reduction method on artificial dataset圖10 使用t-SNE作為初始降維方法對人工合成數據集進行探索

圖11是在MNIST數據集上t-SNE迭代到收斂所得到的效果圖。經過實驗證明，這個過程大約需要迭代140次。以下實驗指出，只需要迭代80次，再加上適當的主方向拉伸操作，就能夠實現比較好的聚類效果。

首先讓t-SNE迭代80次得到一個初步的可視化結果。顯然，此時得到的圖12可分性相比圖11較為糟糕，只能在右圖中找到8個類。通過對兩塊數據密集的區域（4號區域和7號區域）利用主方向進行探索（見圖13和圖14），可以將兩個看似重疊的類分離開來，找到10個類。

Fig.11 Visualization result of applying t-SNE to MNIST dataset until convergence圖11 MNIST數據集利用t-SNE迭代到收斂的可視化結果

4.3 分析與討論

本文提出的交互式聚類方法的有效性主要體現在兩點：一是使用維數約簡對數據進行可視分析的有效性；二是利用交互式方法減輕投影重疊，提升聚類分析效率的有效性。

高維數據因為維數過多，各維度之間通常存在冗余，且數據點在高維空間內過于稀疏，難以挖掘數據的本質信息和結構。對高維數據進行維數約簡，不僅可以壓縮數據，去除數據中噪聲的影響，同時也可以盡可能地在低維空間保留數據在高維空間的一些結構和統計特性，從而比較好地提升數據的可分性，使得聚類分析能夠取得比較好的效果。

Fig.12 Visualization result of applying t-SNE to MNIST dataset(80 iteration times)圖12MNIST數據集用t-SNE迭代了80次后的可視化結果

Fig.13 ExploringArea 4 in Fig.12 with principal direction圖13 利用主方向對圖12中的區域4進行探索

Fig.14 ExploringArea 7 in Fig.12 with principal direction圖14 利用主方向對圖12中的區域7進行探索

采用可視化的方法對維數約簡后的數據在低維空間中進行展示，能夠讓用戶對數據的結構和分布有更為直觀的理解。用戶對數據的理解在交互式的探索中有著至關重要的作用。

投影重疊的問題一方面來自于選取的降維方法不當，低維空間的數據點不能有效地保持高維空間數據的結構性質和分布規律；另一方面來自于低維空間的點點距離不是均勻分布的，為了在有限的空間內可視化所有數據點，并且保持相對距離與高維空間相符，距離較近的數據點之間會產生視覺上的重疊，令用戶難以觀察數據的局部相對距離和局部性質，影響聚類分析的效果。

局部主方向能夠反映出局部數據的方向性，由于主方向具有最大可分性，在該方向上數據點的投影能夠盡可能地分開。在局部主方向上采用頻數直方圖來表征數據的分布，能一定程度上體現出數據的總體趨勢和統計規律。而采用沿局部主方向改變點點距離的交互手段，數據點移動的過程能夠讓用戶對數據的局部主方向有比較清晰的認識。拉伸點點距離能夠調節局部數據點距離之間的差異性，使得原本在視覺上堆疊的數據點被區分開來，令用戶對數據的局部結構和性質有比較深刻的了解，從而更好地輔助其進行聚類分析。交互式的探索方法能夠提升用戶在聚類分析任務中的興趣和參與度，充分利用視覺系統的聚類能力，提升聚類分析的效率以及聚類分析結果和算法的可解釋性。

4.4 局限與不足

本文的交互式聚類方法需要降維方法提供一個初始的可視化效果。圖15為在MNIST數據集上使用不同降維方法后的初始可視化效果，降維方法分別為 Isomap[28]、LLE[23]、Random Projection、Spectral Embedding[29]、LTSA[30]、MDS[21]、t-SNE[22]。不同的降維方法初始可視化效果差異較大，對后續交互式聚類會造成不同的影響。比如隨機投影的初始化效果較差，幾乎所有的數據點都均勻地混雜在一起，給用戶的局部數據點選取和后續的聚類分析都造成了比較大的困難。

5 用戶調研

本文采用了用戶調研的方法，邀請了11位參與者使用該系統進行聚類分析并進行一定的評估。采用t-SNE算法在MNIST數據集上迭代80次的結果作為初始的可視化效果。參與者們在此之前對該系統沒有任何的先驗知識。調研設置了3個有具體選項的問題和1次對系統的綜合評估采訪，詢問他們使用該系統進行聚類分析的體驗。

當問及系統對用戶進行聚類分析時的幫助時，有72.7%（8/11）的調查對象選擇了“有幫助”或“很有幫助”，另外3名調查對象則選擇了“中立”。3名選擇“中立”的參與者表示，他們隨意選取了3~5個數據點比較密集的區域，利用主方向的方法進行探索，但并沒有發現更多的類別或是有趣的離群點，因而認為該系統的作用比較有限。讓覺得系統“有幫助”和“很有幫助”的參與者對頻數直方圖和拉伸方法的幫助度進行滿分為5分的數值評價，頻數直方圖得分均值為3.250。方差為0.188；拉伸方法得分均值為3.625，方差為0.484（見圖16）。由此看來，拉伸方法相對更有效。在采訪中，參與者表達出了這樣的困惑：一開始先從哪個區域開始探索？探索到什么程度能夠中止？當潛在的可探索區域較多時，參與者表示并不是非常愿意對所有的區域進行探索。總之，盡管仍有需要改進之處，大部分參與者們認為該系統對于輔助聚類分析是有效的，并且認可了頻數直方圖和局部主方向的方法在可視化聚類分析中的重要性。

Fig.15 Initial visualization of MNIST using different dimension reduction methods圖15 在MNIST數據集上使用不同降維方法后的初始可視化效果

Fig.16 Comparison between stretching method and histogram method based on mean and standard deviation圖16 頻數直方圖和拉伸方法得分均值和方差比較

6 總結與展望

本文創新性地提出了一種基于局部主方向的交互式可視化聚類方法，幫助用戶進行聚類分析任務。同時提出了一個用于聚類分析的可視化交互系統。在系統中利用降維方法將數據投影到二維平面，然后對于用戶感興趣區域內的數據，提供主方向及其垂直方向上的頻數直方圖，讓用戶了解數據投影的分布情況。用戶可以通過調節主方向和垂直方向上的縮放比例參數，拉伸距離，使得數據點沿著主方向和垂直方向移動，減少數據堆疊的情況，增加數據點的可分性。利用本文系統在人工數據集和真實數據集上進行了多組實驗，獲得了較好的效果。并且通過用戶調研，證明了本文方法的有效性。

本文方法還存在一些局限性，這也是下一步工作中需要考慮解決的問題。首先是初始可視化結果對降維方法的依賴。一個不好的降維方法會帶來比較糟糕的用戶體驗和聚類結果，增加用戶進行聚類分析的難度。其次，數據探索區域的選取依靠用戶的先驗知識或是興趣愛好，沒有一個統一的標準；縮放的比例也沒有統一的大小，也需要依靠用戶的先驗知識或是多次嘗試。再者，根據用戶的反饋情況，系統缺乏對用戶的引導，需要添加對用戶的啟發性指導，幫助用戶開始和停止探索。

[1]Fahad A,Alshatri N,Tari Z,et al.A survey of clustering algorithms for big data:taxonomy and empirical analysis[J].IEEE Transactions on Emerging Topics in Computing,2014,2(3):267-279.

[2]Ng R T,Han Jiawei.CLARANS:a method for clustering objects for spatial data mining[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(5):1003-1016.

[3]Zhang Tian,Ramakrishnan R,Livny M.BIRCH:an efficient data clustering method for very large databases[C]//Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data,Montreal,Jun 4-6,1996.New York:ACM,1996:103-114.

[4]Guha S,Rastogi R,Shim K.CURE:an efficient clustering algorithm for large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data,Seattle,Jun 2-4,1998.New York:ACM,1998:73-84.

[5]Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining,Portland,Aug 2-4,1996.Menlo Park:AAAI,1996:226-231.

[6]Ankerst M,Breunig M M,Kriegel H P,et al.OPTICS:ordering points to identify the clustering structure[C]//Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data,Philadelphia,Jun 1-3,1999.New York:ACM,1999:49-60.

[7]Sheikholeslami G,Chatterjee S,Zhang Aidong.WaveCluster:a multi-resolution clustering approach for very large spatial databases[C]//Proceedings of the 24th International Conference on Very Large Data Bases,New York,Aug 24-27,1998.San Mateo:Morgan Kaufmann,1998:428-439.

[8]Wang Wei,Yang Jiong,Muntz R R.STING:a statistical information grid approach to spatial data mining[C]//Proceedings of the 23rd International Conference on Very Large Data Bases,Athens,Aug 25-29,1997.San Mateo:Morgan Kaufmann,1997:186-195.

[9]Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B Methodological,1977,39(1):1-38.

[10]Kohonen T.The self-organizing map[J].Neurocomputing,1998,21(1/3):1-6.

[11]Arnheim R.The Gestalt theory of expression[J].Psychological Review,1949,56(3):156-171.

[12]Woodruff A,Landay J A,Stonebraker M.Constant density visualizations of non-uniform distributions of data[C]//Proceedings of the 11th Annual ACM Symposium on User Interface Software and Technology,San Francisco,Nov 1-4,1998.New York:ACM,1998:19-28.

[13]Dang T N,Wilkinson L,Anand A.Stacking graphic elements to avoid over-plotting[J].IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1044-1052.

[14]Bachthaler S,Weiskopf D.Continuous scatterplots[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1428-1435.

[15]Janetzko H,Hao M C,Mittelst?dt S,et al.Enhancing scatter plots using ellipsoid pixel placement and shading[C]//Proceedings of the 46th Hawaii International Conference on System Sciences,Wailea,Jan 7-10,2013.Washington:IEEE Computer Society,2013:1522-1531.

[16]Yuan Xiaoru,Ren Donghao,Wang Zuchao,et al.Dimension projection matrix/tree:interactive subspace visual exploration and analysis of high dimensional data[J].IEEE Transactions on Visualization and Computer Graphics,2013,19(12):2625-2633.

[17]Chen Haidong,Chen Wei,Mei Honghui,et al.Visual abstraction and exploration of multi-class scatterplots[J].IEEE Transactions on Visualization and Computer Graphics,2014,20(12):1683-1692.

[18]Wei Liyi.Multi-class blue noise sampling[J].ACM Transactions on Graphics,2010,29(4):79.

[19]Zhang Junping,Wang Xiaodan,Krüger U,et al.Principal curve algorithms for partitioning high-dimensional data spaces[J].IEEE Transactions on Neural Networks,2011,22(3):367-380.

[20]Jolliffe I.Principal component analysis[M].New York:John Wiley&Sons,Inc,2002.

[21]Brandes U,Pich C.Eigensolver methods for progressive multidimensional scaling of large data[C]//LNCS 4372:Proceedings of the 14th International Symposium on Graph Drawing,Karlsruhe,Sep 18-20,2006.Berlin,Heidelberg:Springer,2006:42-53.

[22]van der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.

[23]Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.

[24]LeCun Y,Cortes C,Burges C J C.The MNIST database of handwritten digits[EB/OL].AT&T Labs.(2010-02)[2017-03-31].http://yann.lecun.com/exdb/mnist.

[25]Forina M,Aeberhard S,Leardi R.Wine data set[EB/OL].(1991-07-01)[2017-03-31].http://archive.ics.uci.edu/ml/datasets/Wine.

[26]van der Maaten L.Accelerating t-SNE using tree-based algorithms[J].Journal of Machine Learning Research,2014,15(1):3221-3245.

[27]Tang Jian,Liu Jingzhou,Zhang Ming,et al.Visualizing largescale and high-dimensional data[C]//Proceedings of the 25th International Conference on World Wide Web,Montreal,Apr 11-15,2016.New York:ACM,2016:287-297.

[28]Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.

[29]Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.

[30]Zhang Zhenyue,Zha Hongyuan.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J].SIAM Journal on Scientific Computing,2004,26(1):313-338.