



馬云曾經說過,“互聯網還沒搞清楚的時候,移動互聯來了;移動互聯還沒搞清楚的時候,大數據來了。”
大數據的應用其實早已滲透到人們生活中的方方面面:亞馬遜運用大數據為客戶推薦商品信息,阿里用大數據成立了小微金融服務集團,而谷歌更是計劃用大數據接管世界當下,很多行業都開始增加對大數據的需求。大數據時代不僅處理著海量的數據,同時也加工、傳播、分享它們。不知不覺中,數據可視化已經遍布我們生活的每一個角落,畢竟普通用戶往往更關心結果的展示。伴隨去年底百度地圖采用LBS定位春運的可視化大數據,就引起了學界對新聞創新和大數據可視化的熱議。
就拿我們手中的智能手機來說吧,它既是一款數據采集工具,同時也是一個多媒體的數據可視化展示平臺;現在的新聞播報也越來越多的用到數據圖表,動態演示且立體化的呈現報道內容;影視劇和電子游戲頻繁出現的數據可視化元素,無疑讓作品的科技與未來感更加豐滿;教育與科普方面則是數據可視化更大的應用領域,人們開始對單調保守的講述方式失去興趣,期待更加直觀、高效的信息呈現形式,數據可視化正好彌補了這項需求。在智能手機、平板電腦和車載電腦等平臺日漸普及的當下,新的交互手段將會成為數據可視化的趨勢。
接下來,我們就來探討一下大數據處理的最后一環:大數據可視化技術。
可視化設計 發現數據之美
數據可視化起源于1960年計算機圖形學,那時候人們使用計算機創建圖形圖表,可視化提取出來的數據,可以將數據的各種屬性和變量呈現出來。隨著計算機硬件的發展,人們創建更復雜規模更大的數字模型,于是乎發展了數據采集設備和數據保存設備,而此時也需要更高級的計算機圖形學技術及方法來創建這些規模龐大的數據集。隨著數據可視化平臺的拓展,應用領域的增加,表現形式的不斷變化,以及增加了諸如實時動態效果、用戶交互使用等,數據可視化像所有新興概念一樣邊界不斷擴大。
對于一個對大數據一竅不通的人來說,讓數據實現可視化無非是對使用者了解大數據最方便快捷的方法了,這樣一來,大數據可以更貼近用戶的使用習慣和使用需求,就像我們開車行駛在公路上,對于交通指示牌的各種標識代表的含義了如指掌,從而可以準確到達目的地一樣,在某種意義上大數據可視化也是這個道理。由此可見:恰當合適的標識可以在數據選擇路徑以及數據分析、信息傳遞的時候減小誤差,數據可視化還應有適當的交互性。他們必須設計良好、易于使用、易于理解、有意義、更容易被人接受。
我們熟悉的那些餅圖、直方圖、散點圖、柱狀圖等,可以說是最原始的統計圖表,它們是數據可視化的最基礎最常見的應用。作為一種統計學工具,可用于創建一條快速認識數據集的捷徑,并成為一種令人信服的溝通手段,并傳達存在于數據中的基本信息。所以我們可以在大量PPT、報表、方案中見到統計圖形。
但以上最原始統計圖表只能呈現基本的信息,面對復雜或大規模異型數據集,比如商業分析、財務報表、人口狀況分布、媒體效果反饋、用戶行為數據等,數據可視化面臨處理的狀況會復雜很多,可能要經歷包括數據采集、 數據分析、數據治理、數據管理、數據挖掘在內的一系列復雜數據處理,然后由設計師設計一種表現形式,是立體的、二維的、動態的、實時的還是允許交互的。最終由工程師創建對應的可視化算法及技術實現手段,包括建模方法、處理大規模數據的體系架構、交互技術、放大縮小方法等。動畫工程師考慮表面材質、動畫渲染方法等,交互設計師也會介入進行用戶交互行為模式的設計。所以一個數據可視化作品或項目的創建,需要多領域專業人士的協同工作才能取得成功。因此,數據的可視化在進行大數據的分析工作時應當被研究工作者加以重視并進一步提升。
可視化工具 為數據披上華麗的紗衣
大數據才剛剛開始出現,我們管理后端的方式也在不斷變化。我們需要強有力的工具通過使數據有意義的方式實現數據可視化,還有數據的可交互性;我們還需要跨學科的團隊,而不是單個數據科學家、設計師或數據分析員;我們更需要重新思考我們所知道的數據可視化,圖表和圖形還只能在一個或兩個維度上傳遞信息,那么他們怎樣才能與其他維度融合到一起深入挖掘大數據呢?此時就需要倚仗大數據可視化(BDV)工具,下面就來看看全球備受歡迎的的可視化工具都有哪些吧!
可視化案例 妙不可言的視覺沖擊
專注于網站流量的任何一家互聯網公司可能都聽過甚至用過“互聯網星系”,這是俄羅斯數據可視化設計師 Ruslan Enikeev 根據 2011 年底的數據,將 196 個國家的 35 萬個網站數據整合起來,并根據 200 多萬個網站鏈接將這些“星球”通過關系鏈聯系起來—— The Internet Map。每一個“星球”的大小根據其網站流量來決定,而“星球之間”的距離遠近則根據鏈接出現的頻率、強度和用戶跳轉時創建的鏈接。這是大數據挖掘可視化的一個經典案例。在這個互聯網的宇宙中,每一個大網站都是一個星球。你可以輸入國家查看這個“星系”里最大的“星球”,也可以直接輸入網站查看某一“星球的位置”。這些星球有恒星、行星,甚至衛星,每一個星球都有其特定的星系。當你放大到一定程度時,你能發現這些大大小小的“星球”之間神奇的關系,相當神奇!
在國外,許多大型企業、科研機構都會有相關部門進行數據可視化研究,如數字圖書館。媒體和政府機構也會對自己掌握的數據進行可視化分析,如犯罪地圖。在互聯網上,那些掌握了大量用戶活動信息、用戶關系網或語料庫的網站,比如digg,friendfeed,flickr或大型電子商務網站等,都有實驗性的可視化項目。可惜國內在這方面的商用或實驗項目幾乎還是空白。
數據可視化的開發和大部分項目開發一樣,也是根據需求來根據數據維度或屬性進行篩選,根據目的和用戶群選用表現方式。同一份數據可以可視化成多種看起來截然不同的形式。
有的可視化目標是為了觀測、跟蹤數據,所以就要強調實時性、變化、運算能力,可能就會生成一份不停變化、可讀性強的圖表;有的為了分析數據,所以要強調數據的呈現度、可能會生成一份可以檢索、交互式的圖表;有的為了發現數據之間的潛在關聯,可能會生成分布式的多維的圖表;有的為了幫助普通用戶或商業用戶快速理解數據的含義或變化,會利用漂亮的顏色、動畫創建生動、明了并具有吸引力的圖表;還有的圖表可以被用于教育、宣傳或政治,被制作成海報、課件,出現在街頭、廣告手持、雜志和集會上,這類圖表擁有強大的說服力,使用強烈的對比、置換等手段,可以創造出極具沖擊力的圖像。當然在國外許多媒體還會根據新聞主題或數據,雇用設計師來創建可視化圖表對新聞主題進行輔助。
曾經有一位專家指出,數據可視化目前還只是停留在理論層面,當然隨著技術的進步會不斷地變化,同時人類也在努力研發新的工具來更好地實現跨行業應用。其中,Google Maps的出現就完全顛覆了過去人們對在線地圖功能的認識。而Google發布的Maps API則讓所有的開發者都能在自己的網站中植入地圖功能。當然,還有今年春運央視與百度合作的交通可視化同樣也是很好的典型案例,可以讓人們更加深入的理解當今大數據可視化的現狀。
新的軟件和技術使我們能夠更深入的理解如此龐大的數據集。然而,我們要去真正采集和挖掘有價值的大數據,勢必要提高數據可視化的水平。那么我們究竟該如何進行可行性分析、深入了解并能全面直觀地表達信息呢?那就是我們必須將數據變得更通俗易懂。例如通常所說的數據可視化標識導向系統,包括文字的,如街頭的路標指引你到高速公路,還有象征的,如顏色、大小或位置的抽象元素傳達的信息。在某種意義上,恰當的視覺標識可以提供較短的路線,幫助選擇路線,成為通過數據分析傳遞信息的一種重要的工具。然而,要真正可行,數據可視化還要適時適當融入交互性元素。他們必須設計良好、易于使用、易于理解、有意義、更容易被人接受。
可視化工具
Excel
D3
Visual.ly
R
Gephi
Tableau
簡介
Excel作為一個入門級工具,Excel是快速分析數據的理想工具,也能創建供內部使用的數據圖,但Excel在顏色、線條和樣式上可選擇的范圍有限。
D3(Data Driven Documents)是支持SVG渲染的另一種JavaScript庫,能夠提供大量線性圖和條形圖之外的復雜圖表樣式,例如Voronoi圖、 樹形圖、圓形集群和單詞云等。
Visual.ly的主要定位是:“信息圖設計師的在線集市”,同時也提供了大量信息圖模板。
R作為用來分析大數據集的統計組件包,擁有強大的社區和組件庫,但R是一個相對復雜的開源工具。
Gephi是進行社交圖譜數據可視化分析的工具,不但能處理大規模數據集并生成漂亮的可視化圖形,還能對數據進行清洗和分類。
Tableau更適合企業和部門進行日常數據報表和數據可視化分析工作。產品涵蓋Tableau Desktop、Tableau Server以及Tableau Public。