孫海
(遼寧省科學技術情報研究所)
【摘要】人類對大量的數據,甚至海量信息的理解能力有限,這就需要計算機從各種角度對人腦的思維能力進行輸出,其中數據可視化技術可以幫助人們理解大量的數據信息,發現數據中隱含的規律,從而提高數據的使用效率。面對大數據深奧的面貌,如何才能讓大型數據集變得親切和易于理解,可視化無疑是最有效的途徑。對大數據背景下的數據可視化應用展開研究,將有助于我們發展和創新數據可視化技術。
【關鍵詞】大數據 Web 可視化
一、大數據時代的機遇
物聯網、云計算、移動互聯網、手機、平板電腦、PC 以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。隨著社交網絡的普及,使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
二、數據可視化技術及主要特點
數據可視化(Data Visual)技術是指運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它能夠提供多種同時進行數據分析的圖形方法,反映信息模式、數據關聯或趨勢,幫助決策者直觀地觀察和分析數據,實現人與數據之間直接的信息傳遞,從而發現隱含在數據中的規律。數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元元素來表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
三、基于Web的數據可視化的參考模型
(1)在服務器端生成描述數據的圖形,然后在客戶端實現圖形的顯示,客戶端用瀏覽器來顯示;(2)服務器端經過可視化映射后,輸出VRML(Virtual Reality Modeling Language,簡稱VRML)成Java 3D格式的3D模型,返回給客戶,客戶端利用支持VRML或Java 3D的瀏覽器來繪制和操縱3D模型,這種方式的交互局限于繪制階段;(3)客戶下載數據,在客戶端執行可視化流水線,利用Java Applet實現可視化計算,客戶還可以下載可視化軟件。雖然客戶端可以完全控制可視化過程,但對客戶端的硬件、軟件資源要求高,并且對大規模過程的控制。
模型2和模型3需要針對具體的應用編制Java繪圖程序,模型4采用了復雜的可視化計算在服務器端處理,避免了客戶端較高的資源要求,同時客戶端又能完成可視化結果的交互繪制,具有較好的交互性以及計算負荷分攤的優點,但同樣編制程序復雜。而模型1使用TeeChart Pro AetiveX控件,可以直接安裝在服務器端,在服務器端動態生成圖形文件(JPEG格式),然后將圖形傳回客戶端,在瀏覽器中顯示出來,方法可以適用于任何流行的客戶端瀏覽器。
四、大數據的Web數據可視化方法流程
1、發現問題
數據可視化都是為了解決某個問題的。所以,面對海量的數據,首先要思考如何針對領域問題合理抽取對應的數據。為創建信息可視化而提出問題時,我們應該盡可能地關注以數據為中心的問題。那些以“在哪里”、“什么時間”“有多少”或者“有多頻繁”開頭的問題通常是不錯的開始,這些問題使我們專注于在特定的參數集合內查找數據,因此更有可能找到適用于可視化的數據。
2、收集數據
數據的收集和整理則是數據可視化的重中之重。然而準確地找到所需要的數據是一個非常困難的任務。通常,最好從已經可用的數據著手并盡量找到一種方式來描繪它,而不是嘗試自己去收集數據。得到原始數據之后.則要著手于數據的解析、組織、分組或者修改,對數據進行再加工。
3、選擇一種可視化方式展現數據
在明確想要展現的內容后,就要綜合運用視覺元素的造型,色彩的選取,動態等賦予圖表更好的視覺體驗。數據可視化的過程要始終圍繞著數據可視化的核心目標:幫助讀者更好更準確的理解數據。web常見的的可視化有:地圖、時間軸、網絡圖、樹狀圖、矩陣圖、散點圖、氣泡圖、流程圖、折線圖、標簽云、數據表、雷達圖、熱力圖、平行坐標軸等等。
五、大數據的Web數據可視化展現方式
1、尺寸:這是最常用的可視化展現方式。當辨別兩個對象時,我們可以通過尺寸對比快速地區分它們。此外,使用尺寸可以加快理解兩組不熟悉的數字之間的區別。如百度統計,這個應用指在通過對網站流量的專業分析,幫助用戶不斷從網站流量數據中挖掘有價值的信息,指導網站運營。如這個網頁目錄的訪客數統計圖,采用了氣泡面積的可視化展現方式,通過氣泡尺寸面積對比,直觀的展現出各網頁目錄的訪客數多少。
2、色彩:色彩是展現大數據集的一種優秀方式,我們可以通過色彩識別出很多層次和色調。這一點使得色彩成為展現宏觀趨勢的必然選擇。運用色彩進行可視化創作時要特別注意的是要確保讀者能夠區分出在45%和55%的數據點。
3、位置:基于位置的展現方式就是把數據和某些類型的地圖關聯起來,或者把它和一個真實或虛擬地方相關的可視化元素進行關聯。
六、結論
數據可視化通過圖像、圖形技術對數據進行形象化處理,通過信息技術對數據進行準確、實時、自動化的高度透明的處理。在實際項目中,將大量的數據以圖形人的方式在Web頁面上展現出來,有助于分析數據,揭示數據內部規律。隨著計算機圖形學、多媒體技術、人機交互技術及各應用領域的需要,數據可視化將會有更加廣闊的發展空間。
參考文獻:
[1]Nathan Yau、向怡寧譯. 鮮活的數據—數據可視化指南 [M].人民郵電出版社,2012
[2]楊彥波、劉濱、祁明月. 信息可視化研究綜述 [J].河北科技大學學報,2014