劉世彬 包雪峰 劉央瑞 劉興彥 張 健
摘要:本文研究了采用可視化技術將海量抽象的網站相關數據轉換成圖像信息,從而方便研究者對這些數據的理解和處理。
關鍵詞:網絡技術:信息可視化;海量數據
1引言
隨著網絡技術的發展。從海量數據發現有用信息是很困難的,這就需要采用一種技術幫助人們來研究這些數據,可視化技術便是一種很有效的方法。信息可視化可以定義為利用計算機幫助將抽象的不具有視覺形象的數據賦予視覺形象以便于人們理解和處理的一個過程。信息可視化技術就是將各類抽象的數據信息轉換成圖形信息,使研究者能真實地觀察他們對實際問題的模擬及處理結果,它是隨著計算機圖形學的成熟,高性能圖形工作站的普及以及人們運用計算機圖形表達各種信息的需要而發展起來的一門新興的高技術。
2信息可視化的處理過程
由于信息可視化是對不具有視覺形象的數據的可視化。它的原始信息本身是不具有圖形特征的,而且數據量是很大的,要直接從海量數據中發現有用的信息是十分困難的。因此需要將其進行抽象處理轉換成圖形信息,用直觀和清楚的方式顯示出來,使用戶能方便地使用這些數據。信息可視化技術把這些數據轉變成人的視覺可以感受到的圖像。這些圖像可以將大量的抽象數據有機地組織在一起,并形象生動地顯示數據所表示的內容及其之間的關系,從而提高了人們的洞察力。
可視化技術作用于科學研究的全過程。它從大量的原始數據中通過分析提取有效數據開始,經過各種轉換生成圖形映射,并完成繪制圖像的過程。最終顯示出所繪制的圖像。
3可視化的基本原則
WWW領域內的可視化有若干原則,主要包括布局、抽象、聚焦和交互性四個方面。
布局(Layout)——網絡信息可視化的最簡單的方法是這樣的:網站是一個圖形,有很多算法能畫出這樣的圖形來,選擇其中的一種或幾種并用它們畫出部分Web的圖形,這樣問題就解決了。但是這種方法并不適用。主要的原因是比例。圖形的繪制是一個成長的領域,有用的可視化表示法應該是用盡可能少的節點和邊組成的圖形,但是能產生這種表示法的一般技術是不存在的。布局要基于任務。如果可視化的主要目的是幫助用戶以一種有組織的方式記錄某瀏覽時間段的瀏覽過的軌跡,使用分級布局方式是一種有效的方法。在這一領域內很多原型采用的都是這種方式。
抽象(Abstraction)——在網絡信息可視化方面,抽象技術作用是非常顯著的,它可以將那些看上去很混亂的網絡進行處理,使復雜網絡趨于結構化。抽象原則通常是與聚類聯系在一起的,也就是說只有具有同樣特征或者同一類型的網頁才適用于抽象原則。例如:網絡導航生成器工具能按照結構特點或者是內容相關特性把節點分組,抽象成高級“簇”。分層和分類是提高可視化的最有效的方法之一,它在視覺上將各種類型的數據分成不同的層。在網絡信息可視化技術中,嵌套圖表的使用和動態地對可視化外觀進行部分強調和淡化技術是完成分層所需要的部分基礎。
聚焦(FOCUS)——聚焦有兩種方法,一種方法是選擇顯示與目前任務相關的信息;另一種方法是強調顯示的某些部分,同時以淡化方式保留其他部分以便提供相關的上下文聯系。這也就是促成魚眼和其他強調技術的思想。
交互性(Interaction)——用戶不僅能觀看到繪制的圖形。而且能對圖形進行一些主動的操作控制,這樣用戶獲得的信息會更多。在直接操作方面有很多方法可以使網絡可視化信息更豐富。
4兩種網絡技術中的信息可視化
綜合分析目前網絡技術中的信息可視化可以分為兩類:一類是基于網站結構的可視化技術;另一類是基于CUT的可視化技術。
4.1網站結構的可視化技術
基于網站結構的可視化技術可以對大型的網站進行可視化。由于大型網站結構復雜,涉及的網頁和鏈接成千上萬,要實現大型網站的可視化是非常困難的。必須采取適當的可視化技術才能較好地達到網站可視化預期的目的。目前比較通用的技術有錐形樹、雙曲線瀏覽器、NicheWorks等。
(1)錐形樹技術適合層次樹。它將所有節點顯示在一個虛擬的房間中,每個節點和它的孩子節點的布局呈錐形。為了讓用戶可以觀察到所有的數據,錐形是半透明的,而且層攻樹可以轉動。
(2)雙曲瀏覽器技術為了在有限的平面中顯示更多的節點,采用了廣角鏡的技術。節點的顯示空間根據它到焦點節點的距離而逐漸縮小。試驗結果表明它顯示的節點個數可以10倍于傳統的技術。用戶在觀察圖結構的時候,可以使用鼠標轉移焦點。
4.2基于CUT的可視化技術
基于CUT的可視化技術中的CUT是Content、Usage、Topology三個單詞的縮寫,Content指的是網頁內容,Usage指的是訪問日志,Topology指的是網站結構,所以基于CUT的可視技術就是基于網頁內容、訪問日志和網站結構的可視化技術。目前基于CUT的可視化技術在很多工具的設計中得到應用,比較典型的有:WebWiz、磁盤樹、WebPath等。
(1)WebWiz用二維方式直觀地把網站的結構和日志文件中的網站訪問情況顯示出來。但是它只針對網頁中的HTML文件及其相互間的超鏈接。用節點表示HTML文件。用邊表示超鏈接,把邊的顏色、寬度和節點的顏色、寬度作為參數可以由用戶來設置。它在顯示網站使用情況時,可以選擇特定時間段的訪問圖像,也可以重新“播放”整個訪問過程。
(2)磁盤樹技術采用了2d平面繪制網站的樹狀結構,整個網站繪制成圓盤狀,根節點在中心,其他節點分布在不同的同心圓上。半徑和節點到根的路徑的長短成正比。并且把時間作為第三維,使網站圓盤排列在時間軸上(Timetube)。它把屬于不同時間段的網站結構合并在一起,以不同的顏色標注頁面的狀態。邊的寬度、亮度和頁面的訪問頻率成正比。