李楊,郝志峰,謝光強,袁淦釗
(1.廣東工業(yè)大學(xué) 自動化學(xué)院,廣東廣州510006;2.廣東工業(yè)大學(xué)計算機學(xué)院,廣東廣州510006;3.華南理工大學(xué)計算機科學(xué)與工程學(xué)院,廣東廣州510006)
隨著信息化社會的全面到來,面向高維海量數(shù)據(jù)的應(yīng)用變得越來越普遍,因此,如何分析和使用這些數(shù)據(jù)是一個亟待解決的問題,鑒于人類對于海量高維數(shù)據(jù)的認(rèn)知能力有限,在知識發(fā)現(xiàn)、信息決策的過程中,多維數(shù)據(jù)可視化技術(shù)成為一種輔助人們理解與直觀地掌握數(shù)據(jù)特性的有效手段.多維可視化技術(shù)的目的是盡量反映多維信息及其各屬性之間的關(guān)系信息,幫助數(shù)據(jù)工程師準(zhǔn)確快速地發(fā)現(xiàn)數(shù)據(jù)集中隱藏的特征信息、關(guān)系信息、模式信息、趨勢信息及聚類信息等.
然而,在對海量數(shù)據(jù)進行可視化時,情況更為復(fù)雜,應(yīng)用傳統(tǒng)的數(shù)據(jù)可視化技術(shù)及流程時,往往會出現(xiàn)圖像疊加嚴(yán)重、可視化圖像質(zhì)量低、辨識性差等現(xiàn)實問題,數(shù)據(jù)聚合是解決該問題的一種有效方法,也就是在數(shù)據(jù)可視化之前先進行數(shù)據(jù)抽象.現(xiàn)有的數(shù)據(jù)聚合方法往往沒有為數(shù)據(jù)可視化進行專門的優(yōu)化和改進,更為重要的是,缺少針對可視化所作的數(shù)據(jù)聚合質(zhì)量度量,對數(shù)據(jù)聚合的質(zhì)量沒有量化和理論支撐,本文研究的質(zhì)量度量指標(biāo)驅(qū)動的數(shù)據(jù)聚合彌補了上述不足.
為了彌補人類視覺感知能力的不足,幫助人們理解多維數(shù)據(jù),研究人員提出了相當(dāng)數(shù)量的數(shù)據(jù)可視化方法,這些方法將多維數(shù)據(jù)通過降維轉(zhuǎn)換并映射到三維或者二維可視空間來實現(xiàn)多維信息的可視化.根據(jù)其可視化的原理不同可以劃分為基于幾何的技術(shù)、面向像素的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)、基于圖形的技術(shù)和基于降維映射的技術(shù)等[1-2].
在數(shù)據(jù)量較大時,為了提高數(shù)據(jù)可視化的圖像質(zhì)量,降低圖像疊加的問題,通常會對數(shù)據(jù)進行抽象,數(shù)據(jù)抽象的目的是在數(shù)據(jù)精簡的同時,保持原數(shù)據(jù)的各種特性,提高數(shù)據(jù)抽象后可視化的圖像質(zhì)量.抽樣和聚合是2種常用的數(shù)據(jù)抽象方法.Bertini等[3]提出了利用聚類聚合的方法在散點圖中自動降低圖像疊加;Johansson等[4]提出了基于距離變化的數(shù)據(jù)抽樣方法,并在屏幕空間對圖像質(zhì)量進行了度量.
質(zhì)量度量的研究由來已久,隨著數(shù)據(jù)可視化技術(shù)的發(fā)展,數(shù)據(jù)可視化中的質(zhì)量度量越來越引起學(xué)者們的注意,越來越多的成果發(fā)表在數(shù)據(jù)可視化領(lǐng)域的重要期刊和會議上,這些方法也極大地促進了數(shù)據(jù)可視化技術(shù)本身的發(fā)展.根據(jù)數(shù)據(jù)可視化度量指標(biāo)所實施的對象不同,現(xiàn)有的質(zhì)量度量方法可以被分成兩大類:實施于數(shù)據(jù)空間和圖像空間[5].在數(shù)據(jù)空間方面,Cui等[6]研究了在抽象和聚合2種不同的數(shù)據(jù)抽象方法下計算數(shù)據(jù)抽象質(zhì)量,權(quán)衡如何在數(shù)據(jù)精簡和數(shù)據(jù)損失方面取得平衡;在圖像空間方面,Tatu等[7]使用Hough變換對感興趣的散點圖進行分級,以提高可視化圖像質(zhì)量.但是,圖像空間的質(zhì)量度量存在著受限于某種單個數(shù)據(jù)可視化方法的缺點.
本文提出一種數(shù)據(jù)空間質(zhì)量度量驅(qū)動下的數(shù)據(jù)聚合方法均分K-means++,這一方法面向多維數(shù)據(jù),廣泛適用于大部分?jǐn)?shù)據(jù)可視化方法,在質(zhì)量度量指標(biāo)的驅(qū)動下進行多維數(shù)據(jù)的可視化.
K-means算法具有簡單、聚類速度快的優(yōu)點.在大量的實驗中發(fā)現(xiàn),在進行海量數(shù)據(jù)的聚合運算中,K-means算法具有以下缺點:
1)在聚合運算,特別是海量數(shù)據(jù)的聚合運算中,K值往往較大,這種情況下,傳統(tǒng)的K-means算法會出現(xiàn)迭代次數(shù)過大的情況,極大地影響了聚合速度.
2)傳統(tǒng)的K-means++算法[8]雖然改進了初始點的選擇,但仍然以最小化近鄰點距離之和為目的,往往會出現(xiàn)各個聚簇的點數(shù)分布極不均勻的情況,某些聚簇只有幾個點,某些聚簇則有成百上千個點.但是,在數(shù)據(jù)聚合中,往往希望聚合前的數(shù)據(jù)能在聚合后的各個中心點上均勻分布,使聚合后的數(shù)據(jù)更好地反映原數(shù)據(jù)的分布.
鑒于現(xiàn)有的K-means及其改進算法在數(shù)據(jù)聚合中存在的缺陷,本文提出了均分K-means++的數(shù)據(jù)聚合方法,仿真實驗證明,該算法大大減少了迭代次數(shù),在分布上與原數(shù)據(jù)更加吻合,從而更加適用于數(shù)據(jù)可視化中的數(shù)據(jù)聚合運算.
算法1 均分K-means
1)輸入 d 維空間[0,1]d的 n 個點 p1,p2,…,pn,隨機選擇 k 個初始點 C={c1,c2,…,ck}.
3)對于1≤j≤k,計算集合 Sj內(nèi)點之和 sum=∑i∈Sjpi和數(shù)目 num=|Sj|,cj=sum/num 為集合 Sj新的中心點.
4)重復(fù)2)~3),直至C不再變化或迭代次數(shù)達(dá)到上限.
算法2 均分K-means++
令D(x)表示一個數(shù)據(jù)點到離它最近的已經(jīng)選出的中心點的距離.則均分K-means++算法定義如下:
1)輸入 d 維空間[0,1]d的 n 個點 p1,p2,…,pn.
①均勻隨機地在X中選出第1個中心點.
③重復(fù)②,直至選出k個中心點.
2)繼續(xù)算法1的2)~4)步.
數(shù)據(jù)可視化中的質(zhì)量度量通?;谝韵履康?尋找感興趣的預(yù)測結(jié)果、降低圖像疊加、發(fā)現(xiàn)有意義的模式等.近年來,雖然數(shù)據(jù)可視化中的質(zhì)量度量研究發(fā)展很快,但很少有人將這些成果總結(jié),并指出它們之間的聯(lián)系,本文建立一個多維數(shù)據(jù)可視化質(zhì)量評價模型,用來量化數(shù)據(jù)可視化中的聚合數(shù)據(jù)質(zhì)量,從而驅(qū)動數(shù)據(jù)可視化圖像質(zhì)量的改善.
可視化質(zhì)量評價模型如圖1所示.圖中描述了質(zhì)量評價模型下的數(shù)據(jù)可視化過程,包括3個階段:
1)數(shù)據(jù)轉(zhuǎn)換(源數(shù)據(jù)→轉(zhuǎn)換后數(shù)據(jù)).數(shù)據(jù)轉(zhuǎn)換的主要目的是改變數(shù)據(jù)形式為更利于可視化的格式,例如對于一些高維數(shù)據(jù),需要進行特征選擇、投影等降維操作,對于海量數(shù)據(jù),常見的操作是聚合和采樣.
2)數(shù)據(jù)映射(轉(zhuǎn)換后數(shù)據(jù)→可視化結(jié)構(gòu)).數(shù)據(jù)映射是整個模型的核心部分,這一步將數(shù)據(jù)的每一維表現(xiàn)為可視化結(jié)構(gòu)中的可視特征.同樣的數(shù)據(jù)可能映射為多種不同的可視化結(jié)構(gòu),質(zhì)量評價指標(biāo)需要對這些過程進行評價.例如,不同的維序?qū)?yīng)不同的可視化結(jié)構(gòu),相應(yīng)的質(zhì)量度量評價也是不同的.
3)視圖轉(zhuǎn)換(可視化結(jié)構(gòu)→視圖).視圖轉(zhuǎn)換將可視化結(jié)構(gòu)翻譯為特定的圖像形式(如像素),這樣做的目的是為了突出圖像空間的作用,因為某些質(zhì)量評價指標(biāo)直接以可視化結(jié)構(gòu)所對應(yīng)的像素為計算對象,不過,相對于數(shù)據(jù)空間質(zhì)量評價而言,直接對圖像空間進行的質(zhì)量評價相對較少.

圖1 總體框架Fig.1 Overall framework
質(zhì)量評價模型可以幫助數(shù)據(jù)分析者選擇一個可靠的過程組合.通常在一種情況下會有一個或者多個解決方案供數(shù)據(jù)分析者選擇,整個選擇過程都是由質(zhì)量評價指標(biāo)驅(qū)動的,因為質(zhì)量評價指標(biāo)可以量化每個階段的數(shù)據(jù)或視圖質(zhì)量(向上箭頭),計算結(jié)果最終影響整個處理過程(向下箭頭).
根據(jù)數(shù)據(jù)可視化度量指標(biāo)所實施的對象不同,現(xiàn)有的質(zhì)量度量方法可以被分成兩大類:實施于數(shù)據(jù)空間或圖像空間.
1)數(shù)據(jù)空間.
在數(shù)據(jù)空間計算的度量指標(biāo)只使用可視化前后的數(shù)據(jù)進行計算,不涉及到任何視圖信息.
2)圖像空間.
面向圖像空間的度量指標(biāo)計算則繞過數(shù)據(jù),直接對輸出的圖像信息進行計算,這類方法通常需要輔助復(fù)雜的圖像處理方法.
1)聚類質(zhì)量.
聚類質(zhì)量指標(biāo)用于度量可視化后的數(shù)據(jù),保持分組信息的程度,對于明顯分組的數(shù)據(jù)是否比較容易識別[9].
2)相關(guān)性指標(biāo).
相關(guān)性指標(biāo)用于度量可視化后的數(shù)據(jù)保持原數(shù)據(jù)二維或多維之間相關(guān)性的程度.二維數(shù)據(jù)之間的Pearson相關(guān)性和多維數(shù)據(jù)之間的全局相關(guān)性都在該指標(biāo)考慮的范圍之內(nèi)[10].
3)離群點指標(biāo).
離群點指標(biāo)用于度量可視化后的數(shù)據(jù)保持那些與大部分其他數(shù)據(jù)明顯不同的數(shù)據(jù)(即離群點)的能力[11].
4)復(fù)雜模式指標(biāo).
Wilkinson等[12]提出一種度量發(fā)現(xiàn)復(fù)雜模式能力的指標(biāo),這些復(fù)雜模式不能在之前提出的分類中被發(fā)現(xiàn),如“某種針織質(zhì)地”、“某種身材指標(biāo)”等.
5)圖像質(zhì)量指標(biāo).
圖像質(zhì)量指標(biāo)不關(guān)心各種模式被保持的程度,而是度量可視化后的圖像質(zhì)量,例如圖形是否大量重疊等.
6)特征保持指標(biāo).
特征保持指標(biāo)度量可視化后的數(shù)據(jù)保持原數(shù)據(jù)特征的程度.這些特征包括原數(shù)據(jù)的分類信息[7,13]、可視化中的抽象數(shù)據(jù)相對于原數(shù)據(jù)而言的信息損失[3-4]等用戶感興趣的特征信息.
圖像空間中的質(zhì)量度量對具體的數(shù)據(jù)可視化方法敏感,因此,本文選擇的抽象數(shù)據(jù)級別(data abstraction level,DAL)、直方圖差值度量(histogram difference measure,HDM)、最近鄰距離度量(nearest neighbor measure,NNM)3個指標(biāo)是數(shù)據(jù)空間中的質(zhì)量度量指標(biāo),能夠較好地驗證算法2在聚類質(zhì)量、圖像質(zhì)量和特征保持指標(biāo)上的表現(xiàn).
1)DAL.
DAL是數(shù)據(jù)抽象級別的縮寫,用來表示數(shù)據(jù)抽象的程度,計算公式如式(1):

式中:Na表示抽象后的數(shù)據(jù)集大小,No表示原數(shù)據(jù)集的大小.
2)HDM.
HDM定義為抽象前后2個直方圖的標(biāo)準(zhǔn)差,取值范圍是[0,1],0表示2個直方圖所對應(yīng)的每一對桶都有其中一個是空的,1則表示2個直方圖所對應(yīng)的每一對桶都完全一致,用式(2)來表示2個直方圖第i個桶的差值:

式中:Poi是抽象前數(shù)據(jù)落入第i個桶的比例,Psi是抽象后數(shù)據(jù)落入第i個桶的比例,Pbi是2個桶的差值.

式中:Ph是2個直方圖的差值,N是直方圖中桶的數(shù)量.

如式(3)定義,HDM 是直方圖標(biāo)準(zhǔn)差,Ph,max是 Ph最大值.
對于n維數(shù)據(jù)集的HDM定義為n個一維HDM平均值.默認(rèn)的桶寬使用式(4)計算:

式中:S為某一維數(shù)據(jù)的標(biāo)準(zhǔn)差,Num為數(shù)據(jù)集的大小.
3)NNM.
NNM定義為每條記錄與其抽象后代表它的記錄之間的標(biāo)準(zhǔn)化距離平均值,計算公式如下:
①n維空間內(nèi)2條記錄U、V之間的歐氏距離為

②對抽象前數(shù)據(jù)集中的第i條記錄,計算它與抽象后數(shù)據(jù)集中每一條記錄之間的距離,選擇其中距離最小的值作為Di.

式中:Xi是抽象前數(shù)據(jù)集中的第i條記錄,Yj是抽象后數(shù)據(jù)集中的第j條記錄,A表示抽象后數(shù)據(jù)集的大小,Di代表第i條記錄的距離.
③)標(biāo)準(zhǔn)化所有最小距離的平均值為NNM表示抽象前數(shù)據(jù)集的大小.

在幾大類數(shù)據(jù)可視化方法中,基于幾何的技術(shù)、面向像素的技術(shù)、基于層次的技術(shù)和基于圖形的技術(shù)均適用于本文提出的方法.基于幾何技術(shù)的基本思想是以點、線等幾何畫法將多維數(shù)據(jù)展現(xiàn)在二維、三維空間,適合于維數(shù)高但數(shù)據(jù)量相對不多的數(shù)據(jù)集,其代表方法為平行坐標(biāo)法[14],其他方法還包括放射坐標(biāo)系[15]、散點圖矩陣[16]、Andrews 曲線法[17]等.面向像素的技術(shù)利用像素的顏色代表數(shù)據(jù)的值,空間被分割成多個子窗口,每個子窗口對應(yīng)多維數(shù)據(jù)中的一維,比較有代表性的方法包括VisDB[18]、圓形分段法[19]等.基于層次的技術(shù)可以對數(shù)據(jù)進行層次劃分,將數(shù)據(jù)以層次結(jié)構(gòu)的方式組織并以圖形表示出來,在不同層次上表示不同維度的元素值,適用于每一維數(shù)據(jù)之間具有層次關(guān)系的多維數(shù)據(jù).包括維堆[20]、嵌套坐標(biāo)系[21]等方法.基于圖形的技術(shù)利用圖形的大小、顏色等屬性表示數(shù)據(jù),代表方法包括多線圖、Survey Plot[22],這 2 種方法都是在平行坐標(biāo)法的基礎(chǔ)上發(fā)展而來的.
上述的數(shù)據(jù)可視化方法的共同點是其可視化圖像質(zhì)量容易受到數(shù)據(jù)集大小的影響,因此,在應(yīng)用本文提出的數(shù)據(jù)聚合方法時,既能夠提高可視化圖像質(zhì)量,又能保持原數(shù)據(jù)的大部分特性.限于篇幅,本文只展示了2種最具代表性的數(shù)據(jù)可視化方法:平行坐標(biāo)法和散點圖法.
文中涉及的算法實現(xiàn)編程環(huán)境為MATLAB 7.1,數(shù)據(jù)可視化工具為XmdvTool[23],實驗環(huán)境為Windows XP 3.6GHz,2.00GB,實驗中的所有數(shù)據(jù)都被規(guī)范化至[0,1]6,3個質(zhì)量評價指標(biāo)DAL、HDM、NNM的取值范圍均為[0,1].數(shù)據(jù)基本信息如表1所示.3.1 質(zhì)量度量驅(qū)動的平行坐標(biāo)圖聚合前后對比

表1 實驗數(shù)據(jù)信息Table 1 Experimental data
數(shù)據(jù)集DS1采用算法2分別以數(shù)據(jù)抽象級別DAL=0.07,0.04,0.02 時進行數(shù)據(jù)聚合.圖2 包含了數(shù)據(jù)聚合前后的平行坐標(biāo)圖,可以發(fā)現(xiàn),在DAL=1,即數(shù)據(jù)聚合前,數(shù)據(jù)疊加嚴(yán)重,難以辨識其中任何的數(shù)據(jù),而聚合后的數(shù)據(jù)不僅保持了較高的質(zhì)量度量指標(biāo)(如圖3所示),圖像質(zhì)量也有了明顯的提高.

圖2 不同DAL下DS1的平行坐標(biāo)圖Fig.2 Parallel coordinates of DS1at different DALS

圖3 不同DAL下DS1的質(zhì)量度量指標(biāo)Fig.3 Quality metrics of DS1at different DAL
圖4是數(shù)據(jù)集DS2用算法2進行數(shù)據(jù)聚合前(DAL=1)及聚合后(DAL 為0.02,0.04,0.07)的散點圖矩陣.不難發(fā)現(xiàn),在DAL=1時,各個數(shù)據(jù)點疊加嚴(yán)重,很難辨識其中的任何有用信息,也難以發(fā)現(xiàn)兩維屬性之間的關(guān)系,而聚合后的數(shù)據(jù)即使在DAL=0.02時,也能很容易地發(fā)現(xiàn)其中存在的屬性關(guān)聯(lián)信息.圖5展示了聚合后的DS2同樣保持了較高的質(zhì)量度量指標(biāo).當(dāng)數(shù)據(jù)維度較小時,聚合后的數(shù)據(jù)在散點圖上的表現(xiàn)更好.

圖4 不同DAL下DS2的散點圖Fig.4 Scatter plots of DS2at different DAL

圖5 不同DAL下DS2的質(zhì)量度量指標(biāo)Fig.5 Quality metrics of DS2at different DAL
質(zhì)量度量指標(biāo)驅(qū)動下的數(shù)據(jù)聚合加入了質(zhì)量量化指標(biāo),聚合數(shù)據(jù)的質(zhì)量可以被精確量化,可以幫助數(shù)據(jù)工程師在數(shù)據(jù)可視化的過程中根據(jù)實際需求調(diào)整度量指標(biāo)參數(shù),以獲取聚合數(shù)據(jù)質(zhì)量與可視化圖像質(zhì)量之間的平衡.本文提出了一種均分K-means++數(shù)據(jù)聚合算法,仿真實驗表明,與傳統(tǒng)的聚類算法相比,均分K-means++更適用于以提高數(shù)據(jù)可視化圖像質(zhì)量為目的的數(shù)據(jù)聚合.目前,均分K-means++數(shù)據(jù)聚合算法存在的問題是當(dāng)K增大到一定程度時,初始點的計算效率較低,下一步將研究如何在海量數(shù)據(jù)集上提高算法效率.
[1]孫揚,封孝生,唐九陽,等.多維可視化技術(shù)綜述[J].計算機科學(xué),2008,35(11):1-7.SUN Yang,F(xiàn)ENG Xiaosheng,TANG Jiuyang,et al.Survey on the research of multidimensional and multivariate data visualization[J].Computer Science,2008,35(11):1-7.
[2]KEIM D A,ANKERST M.Visual data mining and exploration of large databases[C]//PKDD.Freiburg,Germany,2001:104-109.
[3]BERTINI E,SANTUCCI G.Quality metrics for 2D scatterplot graphics:automatically reducing visual clutter[C]//Smart Graphics 4th International Symposium.Banff,Canada,2004:10-15.
[4]JOHANSSON J,COOPER M.A screen space quality method for data abstraction[J].Computer Graphics Forum,2008,27(3):1039-1046.
[5]BERTINI E,TATU A,KEIM D.Quality metrics in highdimensional data visualization:an overview and systematization[J].IEEE Trans on Visualization and Computer Graphics,2011,17(12):2203-2212.
[6]CUI Q,WARD M,RUNDENSTEINER E,et al.Measuring data abstraction quality in multiresolution visualizations[J].IEEE Trans on Visualization and Computer Graphics,2006,23(12):709-716.
[7]ALBUQUERQUE T A,EISEMANN G.Combining automated analysis and visualization techniques for effective exploration of high-dimensional data[C]//Proc IEEE Symp Visual Analytics Science and Technology.Atlantic City,USA,2009:59-66.
[8]ARTHUR D,VASSILVITSKII S.K-means++:the advantages of careful seeding[C]//Symposium on Discrete Algorithms.Philadelphia,USA,2007:1027-1035.
[9]FERDOSI B J,BERNOULLI J.Finding and visualizing relevant subspaces for clustering high-dimensional astronomical data using connected morphological operators[C]//IEEE Conf Visual Analytics Science and Technology.Salt Lake City,USA,2010:35-42.
[10]JOHANSSON S,JOHANSSON J.Interactive dimensionality reduction through user-defined combinations of quality metrics[J].IEEE Trans on Visualization and Computer Graphics,2009,15(6):993-1000.
[11]PENG W,WARD M O,RUNDENSTEINER E A.Clutter reduction in multi-dimensional data visualization using dimension reordering[C]//IEEE Symp Information Visualization.Austin,USA,2004:89-96.
[12]WILKINSON L,ANAND A,GROSSMAN R.Graph-theoretic scagnostics[C]//IEEE Symp Information Visualization.Chicago,USA,2005:157-164.
[13]SIPS M,NEUBERT B,LEWIS J P,et al.Selecting good views of high-dimensional data using class consistency[J].Computer Graphics Forum,2009,28(3):30-41.
[14]INSELBERG A.The plane with parallel coordinates[J].The Visual Computer,1985,1(2):69-91.
[15]HOFFMAN P E,GRINSTEIN G G,MARX K,et a1.DNA visual and analytic data mining[C]//IEEE Visualization Phoenix.Phoenix,USA,1997:437-441.
[16]MATRIX S.Scatter plot matrics[EB/OL].[2012-09-20].http://www.itl.nist.Gov/div898/hand book/eda/section3/eda33qb.html.
[17]ANDREWS D F.Plots of high-dimensional data[J].Biometrics,1972,28(1):125-136.
[18]KEIM D A,KRIEGEL H P.VisDB:database exploration using multidimensional visualization[J].Computer Graphics Applications,1994,14(5):40-49.
[19]HOFMAN P E.Table visualizations:a formal model and its applications[D].Lowell,USA:University of Massachusetts,1999:25.
[20]WARD M O,LEBLANC J,TIPNIS R.N-Land:a graphical tool for exploring n-dimensional data[C]//Computer Graphics International Conference.Melbourne,Australia,1994:1-14.
[21]FEINER S,BESHERS C.Worlds within worlds:metaphors for exploring n-dimensional virtual worlds[C]//ACM Proceedings Conference on User Interface Software Design.New York,USA,1990:76-83.
[22]LOHNINGER H.INSPECT,a program system to visualize and interpret chemical data[J].Chemometrics and Intelligent Laboratory Systems,1994,22(1):147-153.
[23]WARD M O.“Xmdvtool”[EB/OL].[2012-09-23].Xmdv Users Group.http://davis.wpi.edu/xmdv/datasets.html.