崔 迪,郭小燕,陳 為
(1.寧波工程學院 電子與信息工程學院,浙江 寧波 315211; 2.計算機輔助設計與圖形學國家重點實驗室(浙江大學),杭州 310058;3.甘肅農業大學 信息科學技術學院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數據可視化的挑戰與最新進展
崔 迪1,2,郭小燕3*,陳 為2
(1.寧波工程學院 電子與信息工程學院,浙江 寧波 315211; 2.計算機輔助設計與圖形學國家重點實驗室(浙江大學),杭州 310058;3.甘肅農業大學 信息科學技術學院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數據的來臨增強了可視化的重要性。可視化分析挖掘人類對于信息的認知能力與優勢,將人、機有機融合,借助人機交互高效洞悉大數據背后的信息與規律,是大數據分析的重要方法。針對大數據數據量大、維度高、多來源、多形態等特點論述了大規模數據、流數據、非結構和異構數據的可視化方法。首先討論了大規模數據的可視化技術:1)采用分而治之的原則將大問題分解成較小的任務并采用并行處理的方式解決以提高處理的速度;2)通過聚合、采樣、多分辨表示的方法進行數據約簡;3)針對高維數據選擇若干個視圖,在多個角度下生成不同的可視化結果。然后針對監控型、疊加型兩類流數據探討了流數據的可視化過程。最后闡述了非結構化數據以及異構性數據的可視化技術。總之,可視化能夠克服計算機自動化分析方法的劣勢與不足,整合計算機的分析能力和人們對信息的感知能力,有效地洞悉大數據背后的信息與智慧,但其理論研究成果也非常有限,同時面臨著數據規模大、動態變化、維度高、多源異構等方面的挑戰,這些也逐漸成為今后的大數據可視化研究的熱點與方向。
大數據;可視化;挑戰;可視分析;進展
隨著互聯網、物聯網及云計算的興起,人類社會朝著數字化、信息化的方面發展,導致各種智能移動設備、傳感器、電子商務網站、社交網絡每時每刻都產生類型結構各異的巨量數據[1]。區別于傳統的數據,“容量大”“結構復雜”的“大數據”背后隱藏著知識與智慧,并為人類理解世界和社會提供了新的契機[2]。由于移動互聯網技術與信息獲取的不斷發展和逐漸成熟,真實世界和虛擬世界密不可分,信息的產生和流動瞬息萬變,不斷累積形成了大規模的物理信息空間(Cyber-Physical System, CPS),其中包含海量的信息數據,如視頻影像、三維時空、傳感器網絡、地理信息[3]、網絡日志、社交網絡[4]等。這些數據真實反映了現實世界和社會空間的運行演化過程,但往往淹沒在冗余龐雜的數據海洋之中。有效處理它們的挑戰不僅體現在數據容量大、維度高、多態、多源,更重要的是數據的動態獲取、數據關系異構和異質性、數據內容噪聲和矛盾等。只有通過深入分析才能發現新的知識,創造新的價值,通常數據分析的過程離不開機器與人的相互協作與互補。人類從外界獲得的信息約有80%以上來自于視覺系統[5-6],一圖勝千言,當大數據以直觀的可視化圖形方式展現時,利用人眼的感知能力可洞悉數據背后隱藏的信息,并可將其轉化為知識。
可視化是利用人眼感知能力和人腦智能,對數據進行交互的可視表達,以增強認知的一門學科[7],將難以直接顯示或不可見的數據映射為可感知的圖形、顏色、紋理、符號等,以提高數據識別效率并高效傳遞有用信息[8]。它的起源、發展、演變與人類文明的進展密切相關。在計算機發明之前,科學家采用繪畫的方式記錄觀測到的物理現象[9],統計學家采用圖表方式統計采樣數據[10],測繪學家采用地圖標記空間方位與屬性。進入計算機時代后,信息技術與人類政治、經濟、軍事、科研、生活進行不斷交叉整合催生了大數據的誕生,對于復雜的數據,人類利用高性能的計算機往往不能理解其含義,但借助圖形常常“一眼”就能識別。數據可視分析是大數據分析不可或缺的重要手段與工具,將人腦智能與機器智能相結合,將“只可意會,不可言傳”的人類知識和個性化經驗可視地融入到整個數據分析和推理決策過程中,使得數據的復雜度逐步降低到人腦和機器智能可處理的范圍。近年來國內外一些學者致力于不同領域的大數據可視化研究,并取得了相應的研究成果,Itoh等[11]對交通數據進行可視分析,Murthy等[12]對社交媒體數據進行可視分析,李偉等[13]對交通網絡客流大數據進行可視化研究,可視化逐漸成為大數據分析重要途徑,然而,這些研究并未深入地結合人機交互理論和技術,因此很難全面地支持可視分析的人機交互過程。大數據本身的新特點也對可視分析提出了更為迫切的需求與更加嚴峻的挑戰。
總體而言,當前對大數據可視分析在技術上得到了一些發展,但理論上尚未成熟。本文從大數據的3個重要特點:大規模[14]、快速變化[15]、非結構性和異構性三個方面,解析大數據可視化的特點和挑戰。
大數據可視化的研究將在整個大數據框架下展開,且呈現3個主要趨勢:
1)對象正從傳統的單一數據來源擴展到多來源、多尺度、多維度等廣泛數據。
大數據面臨數據規模大、數據變化快、數據類型多、價值密度低4個挑戰[16]。工業界和相關研究領域開始利用海量數據存儲和數據并行計算等技術,解決數據規模大、維度高等技術難題[17],促進了大數據可視化應用于更多研究領域。
2)用戶正從少數專家用戶擴展到廣泛的不特定群體。
在大數據時代和新媒體時代,分析理解數據的需求從傳統的科研人員和商業用戶延伸到社會化媒體和每位信息消費者。可視化的廣譜性和易用性使得在Web、移動端、互聯網及物聯網等新型環境下開發便于普通用戶使用操作、可擴展的可視化系統是大數據可視化的發展趨勢之一。
3)可視化和可視分析在大數據與數據科學的框架下進行。
可視化包含數據變換、數據呈現和數據交互[18]三個重要部分。從數據處理流程來看,可視化是數據中暴露給用戶并與數據打交道的接口,利用數據整合、數據挖掘[19]、數據搜索、多用戶協作[20]、知識管理、網絡傳輸[21]、Web化、移動化等面向大數據的可視化方法實現符合大數據特性的可視化和可視分析,并貫穿整個數據處理的生命周期。
大規模數據主要體現在多維度(multi-dimensional)、多變量(multi-variable)、多模態(multi-modal)、多趟(multi-run)、多模型(multi-model)。全方位顯示規模數據的細節是一個數據和計算密集型的問題。大規模計算集群(如分布式多核計算集群、GPU+CPU混合架構集群等)是處理大規模數據的基本技術。大規模數據的高清可視化需要高分辨率的顯示設備、大屏幕拼接系統,或者高精度的大屏幕投影拼接技術的支持,大規模數據的可視化方法主要有分而治之的并行計算、數據約簡、多視角數據交互三種方案。
2.1 分而治之的并行計算
對于大規模、流數據采用分而治之的原則采用并行計算的方式進行可視化是一種可行有效的方法[22-23]。對于一個大的問題,將其分成多個更小的問題,針對每個較小的問題采用并行處理的方式分別解決以提高處理的速度,再把小問題的處理結果組合起來,即得到原問題的解決方案,如圖1[24]所示,采用分而治之的原則解決大規模空間數據的可視化問題。

圖1 分而治之的并行可視化方法
2.2 數據的約簡
正文內容為提升大規模數據可視化效果,在保留數據信息、準確性的基礎上對數據進行必要的約簡是可視化的一項重要內容,數據約簡主要有3種方式[25]:
1)聚合。對于多維度數據,采用數據立方上鉆下取的方式,將部分維度轉換為統計數據(如均值、最大最小值等)以降低原始數據的維度。如圖2所示,利用NanoCubes等基于數據維度聚合和統計的大數據可視化查詢工具[26]在對46 GB的Twitter數據進行維度約簡,實現在筆記本電腦上進行流暢統計與可視化查詢。

圖2 基于預處理多維層次結構的NanoCubes方法
2)采樣。為在給定分辨率的視圖中實現預覽式可視化,需將高精度數據采樣為低分辨率,其難點在于如何從大規模數據中獲得符合原始數據的分布和特性,以保持原有數據的知識與信息。如圖3采用多類藍噪聲[27]方法對散點圖進行簡化采樣,保持點分布和多類之間的對比,可視展現了NBA球隊投籃信息。
3)多分辨率表示。采用層次結構重新組織規模數據,并結合多種用戶交互方法(如層次細節、聚焦+上下文)實現單一視角下的自適應分辨率選擇或多個視角的光滑切換,例如圖4展示了地圖可視化[28]。
2.3 多視角數據交互
針對高維規模數據,可選擇若干個視圖,在多個角度下生成不同的可視化結果[29],并對其管理、配準、分析等,如同對一個三維空間物體進行多視角攝影,生成一系列圖像,對該物體進行視覺理解、建模與分析。多視角數據交互的優點是將高維規模數據的維度約簡到低維(二維或三維)空間,降低用戶交互及分析可視化的復雜度,如圖5。

圖3 基于多類藍噪聲采樣的散點圖簡化法

圖4 美國沃爾瑪全國分布圖

圖5 采樣數值數據的多個視圖
時間是一個非常重要的維度和屬性。帶有時間屬性、隨著時間發生變化的數據稱為時變數據。在科學、工程、社會和經濟領域,每時每刻都在產生大量有序數據,在時間序列中,每個數據實例都可以看作某個事件,事件的時間可當成一個變量[30]。
流數據是一類典型的時變數據,數據以“連續數據流”的形式動態地出現。常見的流數據有:網絡數據(傳輸包、日志、警報等)、移動通信日志、金融數據(如股票交易)、傳感器網絡數據、高性能集群系統日志、社交數據等。近年來研究和使用流數據的可視化和分析成為研究熱點[31]。在電子商務(如阿里巴巴集團的安全風控業務)、實時監控、反恐安全、互聯網金融等領域對流數據研究與分析顯得尤為重要[32]。與傳統的數據處理方法相比,流數據的處理有以下特點[33]:
1)數據流的潛在尺寸無限;
2)需對在線到達的數據元素進行實時處理,否則數據價值可能隨時間而降低;
3)難以掌控數據元素的流入順序和到達數量,每次進入的數據順序不一定相同,且數量時多時少;
4)某個元素被處理后,或被丟棄,或被歸檔存儲;
5)對流數據的查詢異常現象以及相似類型較為耗時,人工檢測日志乏味且易出現錯誤。
流數據可視化并沒有固定的模型,通常按處理目的和方法的不同有不同的模型,參照Rajaraman等[31]對流數據處理方法,將流數據可視化分為兩個步驟:
1)數據流進入流處理器后,將大部分原始數據保存在歸檔數據庫中,將其他關鍵數據保存可視化來源數據庫中。
2)關鍵數據進入可視化處理器后經過可視映射和布局等可視化過程轉化為可視化輸出,最后呈現給用戶,并設計用戶模塊以實現可視布局的基本交互功能[34-35]、輸出內容的可視檢索功能[36]、自定義數據的定制功能[37-38]。
流數據可視化按功能可以分為兩種可視化類型:監控型與疊加型。監控型使用滑動窗口固定某個時間區間,轉化流數據為靜態數據,并以刷新方式更新數據,屬于局部分析。疊加型將新生數據可視映射到原歷史數據的可視化結果上,并以漸進方式更新。
1)監控型。
系統日志監控流數據反映一臺機器或一個計算集群的系統性能。分析大規模計算集群日志數據能夠監控和理解多維度數據的變化趨勢以及模式復雜等問題[39-40]。在工業界有Splunk、Loggly、Flume等多種系統日志監控工具;學術界則有類似的從實時的社交媒體數據等流數據中提取事件并可視化出來的CityBeat[41]、LeadLine[42]、Eventweet[43]。這些工具在系統底層插入腳本,獲得性能數據,再利用信息檢索工具或折線圖、條形圖等基本統計圖表得到系統性能的概要分析。如圖6[31]所示,針對云計算集群監控流數據分析的可視化系統對多源信息收集清理并建模。對這些數據采用多種方式(如時序圖、樹圖、平行坐標等)可視化,提供狀態監控、趨勢監測、異常報警定位等分析手段。

圖6 面向計算集群監控日志流數據的可視化系統
2)疊加型。
StreamIt[44]是在線新聞流的可視化工具,它結合動態力引導布局、自動話題建模技術展現了新聞的發展和演變。用戶可以對新聞事件進行動態聚類,細節探索以及新聞動態演變探索等交互操作,并按用戶感興趣的關鍵詞和話題對事件進行檢索,從而觀察熱門事件的爆發和演變。在StreamIt系統用戶通過自定義關鍵詞的權重對新聞進行重聚類和重布局,通過分配顏色對感興趣的關鍵詞所對應的事件進行追蹤。圖7中將2010年2月到8月的新聞事件進行了可視化,并聚為若干類。
數據量的持續增長和數據流中自帶的噪聲給疊加型數據可視化帶來了挑戰。如何幫助分析人員迅速定位并理解關鍵信息,是當下熱門的時序事件可視化研究的焦點。關于這個問題,EventFlow 給出了一種通過聚類、過濾、變換等方式簡化信息的方法,相關實驗證明該方法可以將大型數據集的視覺復雜度降低到80%以上[45]。

圖7 StreamIT系統概覽
除數據的容量、維度特性外,非結構性和數據源的異構性也影響數據的規模與復雜性。
4.1 非結構化數據
非結構化數據,如社交網站和自媒體數據、傳感器記錄、電子商務數據等,通常采用數據挖掘方法分析內在模式,并抽取結構化信息。典型的非結構化數據有文本數據、日志數據、時間戳等。文本數據可采用文本信息挖掘方法抽取特征,進而對抽取的文本特征進行設計和可視化。日志由網絡多用戶交互產生,如微博中的消息轉發回復日志、電子商務中的買賣家交易日志等。每筆交易日志包含的維度有賣家賬戶、買家賬號、賣家所在地、買家所在地、交易類目、交易數量、付款方式等。對日志數據進行可視分析的目的在于找出交易中的頻繁出現的商業模式,如促銷與虛假交易。分析交易日志數據常采用決策樹,需要關注用戶的總體時序行為趨勢、關系網絡結構、單個用戶的交互特征以及大量交互間的時序關聯和上下文關聯信息。VAET系統[46]提出了一個結合數據挖掘和非結構化數據可視化的可視分析方法。首先基于決策樹方法顯著度表征對特定用戶交易所感興趣的概率,再將計算得到的顯著度投影到時間顯著度圖中。分析師可對時間顯著度圖中所選的數據使用多層結構進行組織,進一步使用音符式可視化(如圖8)。
4.2 異構數據
同一個數據集中結構或屬性不同的數據稱為異構數據。存在多種不同類別的節點和連接的網絡為異構網絡,異構數據可視化的關鍵在于合理呈現不同屬性的數據。通用的異構數據可視化方法[47]將數據屬性自動地對應到相應的可視化屬性中,自動根據數據所具備的屬性找到最優的可視化方法和屬性與之間的匹配,用戶不需解決可視化與數據之間的對應關系問題。
異構數據通常可采用網絡結構進行表達。文獻[48]介紹了基本異構社交網絡的本體拓撲結構,表達了恐怖組織網絡中的九種不同類別的節點:恐怖組織、恐怖分子、國家和地區、組織分類、法律案件、恐怖攻擊、攻擊目標、手段和武器,但由于數據量大和復雜度高,將所有數據直接用網絡點線圖的方法可視化并不是非常有效(如圖9(a)),解決方法是從異構網絡提煉出本體拓撲結構(如圖9(b)),其中的節點為原網絡中的節點類別,而連接則為各個類別的節點之間可能存在的聯系。以這個拓撲結構作為可視分析的輔助導航,分析師可以選擇特定類別的節點和連接加入到可視化視圖中,達到過濾的效果。

圖8 海量在線電子商務交易日志的可視分析系統VAET

圖9 異構網絡的拓撲結構提取
數據的異構性大部分來自于不同的數據源獲取方式[49]。例如,手機用戶數據集中不僅包括了來自手機跟蹤軟件的點對點通話記錄、GPS位置數據和手機使用數據,也包括來自用戶問卷調查的手機用戶的個人信息。這些來自不同數據源的數據通常具有不同的數據模型、數據類型和命名方法等。除了在可視化視圖中將異構數據有效結合外,在數據可視化和分析之前對異構數據進行整合至關重要。數據整合為可視化模塊從眾多獨立和異構的數據源獲取數據提供了統一和透明的訪問接口,使得用戶可以不關心數據來源和結構進行自由的可視。例如谷歌公司的知識圖譜[50]、臉譜公司的OpenGraph[51]等項目的目的是整合與挖掘在線知識或人脈資源,為用戶提供快捷易用的查詢和分析功能。異構數據整合和可視化的代表性軟件有Palantir的Gotham模塊和IBM i2軟件。Palantir的核心要素是采用本體論建立萬事萬物的關聯,對應用領域相關的事務進行基于本體的建模、操作、管理、關聯、分析、推理和可視化。Palantir系統包括5大功能模塊:
1)算法引擎。支持各類數據變換算法,支持PB級數據的并行處理。
2)數據集成。支持異構、多源、非結構化數據的集成。
3)查詢、發現和分析。支持關聯、時序、地理空間、統計、行為、預測和網絡分析。
4)知識管理。支持對用戶獲得的知識的管理。
5)協同分析。支持異地、無網絡用戶、Web用戶的協同分析任務,共享消息、主體對象和分析結果。
可視化是大數據分析的重要方法,能夠有效地克服計算機自動化分析方法的劣勢與不足,整合計算機的分析能力和人們對信息的感知能力,利用認識理論、人機交互技術輔助人們直觀有效地洞悉大數據背后的信息、知識與智慧,強調人類感知與計算機系統的深度耦合。本文針對大數據數據量大、維度高、多來源、多形態等特點論述了大規模數據、流數據、非結構和異構數據的可視化方法。
當前,大數據可視化與可分析不斷受到國內外研究學得的重視,也出現了許多大數據可視化研究工作者與優秀的研究團隊,但理論研究成果也非常有限,同時面臨著如下挑戰:
1)數據尺度大,已超越單機、外存模型甚至小型計算集群處理能力的極限,而當前軟件和工具運行效率不高,需探索全新思路解決該問題;
2)在數據獲取與分析處理過程中,易產生數據質量問題,需特別關注數據的不確定性;
3)數據快速動態變化,常以流式數據形式存在,需尋找流數據的實時分析與可視化方法;
4)面臨復雜高維數據,當前的軟件系統以統計和基本分析為主,分析能力不足;
5)多源數據的類型和結構各異,已有方法在非結構化、異構數據方面支持不足,網絡數據可視化分析是推理求解異構數據內在關系的最重要方法。
以上5個方面是大數據可視化面臨的挑戰,同時也逐漸成為今后的大數據可視化研究的熱點與方向,相關科研人員將進一步開展深入細致的研究,有望在可視化分析與高效數據處理等問題上獲得更大突破。
References)
[1] 作磊,杜一,馬帥.大數據分析綜述[J].軟件學報,2014,25(9):1909-1930.(ZUO L, DU Y, MA S. Review on big data analysis [J]. Journal of Software, 2014,25(9): 1909-1930.)
[2] TONY H.第四范式:數據密集型科學發現[M].潘教峰,張曉林,譯.北京:科學出版社,2012:58-62.(TONY H. The Forth Paradigm: Data-Intensive Scientific Discovery [M]. PAN J F, ZHANG X L, translated. Beijing: Science Press, 2012: 58-62.)
[3] CORRELL M, HEER J. Surprise! Bayesian weighting for de-biasing thematic maps [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 651-660.
[4] KUSUMA P Y C, SUMPENO S, WIBAWA A D. Social media analysis of BPS data availability in economics using decision tree method [C]// ICITISEE 2016: Proceedings of the 1st International Conference on Information Technology, Information Systems and Electrical Engineering. Piscataway, NJ: IEEE, 2016: 148-153.
[5] 任磊.信息可視化中的交互技術研究[D].北京:中國科學院,2009:38-40.(REN L. Research on interaction techniques in information visualization [D]. Beijing: Chinese Academy of Sciences, 2009: 38-40.)
[6] CARD S K, MACKINLAY J D, SHNEIDERMAN B. Readings in Information Visualization: Using Vision to Think [M]. San Francisco: Morgan-Kaufmann Publishers, 1999: 1-712.
[7] MUNZNER T. Visualization analysis and design [J]. Wiley Interdisciplinary Reviews Computational Statistics, 2015, 2(4): 387-403.
[8] CHARLES D H, CHRIS J. The Visualization Handbook [M]. New York: Academic Press, 2004: 76-85.
[9] EDWARD R T. The Visual Display of Quantitative Information [M]. New York: Graphics Press, 1992: 98-100.
[10] LELAND W. The Grammar of Graphics[M]. Berlin: Springer, 2005: 25-28.
[11] ITOH M, YOKOYAMA D, TOYODA M, et al. Visual fusion of mega-city big data: an application to traffic and tweets data analysis of metro passengers [C]// Proceedings of the 2014 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2014: 431-440.
[12] MURTHY D, GROSS A, MCGARRY M. Visual social media and big data, interpreting instagram images posted on Twitter [J]. Digital Culture & Society, 2016, 2: 12-15.
[13] 李偉,周峰,朱煒,等.軌道交通網絡客流大數據可視化研究[J].中國鐵路,2015(2):94-98.(LI W, ZHOU F, ZHU W, et al. Visualization of large passenger flow data in rail transit network [J]. China Railways, 2015(2): 94-98.
[14] 陳為,張嵩,魯愛東.數據可視化的基本原理與方法[M].北京:科學出版社,2013:77-82.(CHEN W, ZHANG S, LU A D. The Basic Principle and Method of Data Visualization [M]. Beijing: Science Press, 2013: 77-82.
[15] KIM M, KANG K, PARK D, et al. TopicLens: efficient multi-level visual topic exploration of large-scale document collections [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 151-160.
[16] MANYIKA J, CHUI M. Big Data: The Next Frontier for Innovation, Competition, and Productivity [M]. San Francisco: McKinsey Global Institute, 2011: 92-95.
[17] IBM. What is big data? -Bringing big data to the enterprise [EB/OL]. [2016- 12- 10]. http://www- 01.ibm.com/software/data/bigdata.
[18] FENG M, DENG C, PECK E M, et al. HindSight: encouraging exploration through direct encoding of personal interaction history [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 351-360.
[19] HUANG T H, CHEN L B. Decision support for the QoS-aware 4G mobile networks through data mining [C]// Proceedings of the IEEE 5th Global Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2016: 1-2.
[20] LAW P M, WU W, ZHENG Y, et al. VisMatchmaker: cooperation of the user and the computer in centralized matching adjustment [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 231-240.
[21] TIAN J, ZHANG H, WU D, et al. Interference-aware cross-layer design for distributed video transmission in wireless networks [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(5): 978-991.
[22] GUHA S, HAFEN R, ROUNDS J, et al. Large complex data: divide and recombine (D&R) with RHIPE [J]. Stat, 2012, 1(1): 53-67.
[23] GUHA, S, KIDWELL P, HAFEN R P, et al. Visualization databases for the analysis of large complex datasets [J]. Journal of Machine Learning Research, 2009, 5: 193-200.
[24] VO H T, BRONSON J, SUMMA B, et al. Parallel visualization on large clusters using MapReduce [C]// Proceedings of the 2011 IEEE Symposium on Large Data Analysis and Visualization. Piscataway, NJ: IEEE, 2011: 81-88.
[25] LIU Z C, JIANG B Y, HEER J. Real-time visual querying of big data [J]. Computer Graphics Forum, 2013, 32(3): 421-430.
[26] LINS L, KLOSOWSKI J T, SCHEIDEGGER C. Nanocubes for real-time exploration of spatiotemporal datasets [J]. IEEE Transactions on Visualization & Computer Graphics, 2013, 19(12): 2456-2465.
[27] CHEN H D, CHEN W, MEI H H, et al. Visual abstraction and exploration of multi-class scatterplots [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1683-1692.
[28] Github Group. Walmart locations all hexed up [EB/OL]. [2016- 06- 12]. http://indiemaps.github.io/hexbin-js/tests/walmart.html.
[29] AL-DOHUKI S, WU Y, KAMW F, et al. SemanticTraj: a new approach to interacting with massive taxi trajectories [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 11-19.
[30] 陳為,沈則潛,陶煜波.數據可視化[M].北京:電子工業出版社,2013:302-305.(CHEN W, SHEN Z Q, TAO Y B. Data Visualization [M]. Beijing: Publishing House of Electronics Industry, 2013: 302-305.)
[31] RAJARAMAN A, LESKOVEC J. Mining of Massive Datasets [M]. London: Cambridge Uiversity Press, 2012: 109-112.
[32] ZIKOPOULOS P, EATON C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data [M]. London: McGraw-Hill Osborne Media, 2011: 126-135.
[33] KRSTAJIC M, KEIM D A. Visualization of streaming data: Observing change and context in information visualization techniques [C]// Proceedings of the 2013 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2013: 41-47.
[34] ALSAKRAN J, CHEN Y, ZHAO Y, et al. STREAMIT: dynamic visualization and interactive exploration of text streams [C]// Proceedings of the 2011 IEEE Pacific Visualization Symposium. Piscataway, NJ: IEEE, 2011: 131-138.
[35] VONG K, RASMEQUAN S, CHINNASARN K, et al. Empirical modelling for dynamic visualization of ICU patient data streams [C]// Proceedings of the 2015 IEEE Biomedical Engineering International Conference. Piscataway, NJ: IEEE, 2015: 1-5.
[36] WANG F, CHEN W, WU F, et al. A visual reasoning approach for data-driven transport assessment on urban roads [C]// Proceedings of the 2014 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2014: 103-112.
[37] DANG T N, ANAND A, WILKINSON L. TimeSeer: scagnostics for high-dimensional time series [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(3): 470-483.
[38] PALOMO C, GUO Z, SILVA C T, et al. Visually exploring transportation schedules [J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 170-179.
[39] TAN J, PAN X, KAVULYA S, et al. Mochi: visual log-analysis based tools for debugging Hadoop [C]// Proceedings of the 2009 ACM HotCloud Conference. New York: ACM, 2009: 99-103.
[40] KAVULYA S, TAN J, GANDHI R, et al. An analysis of traces from a production MapReduce cluster [C]// Proceedings of the 2010 IEEE/ACM International Conference on Cluster, Cloud and Grid Computing. Washington, DC: IEEE Computer Society, 2010: 94-103.
[41] XIA C, SCHWARTZ R, XIE K, et al. CityBeat: real-time social media visualization of hyper-local city data [C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 167-170.
[42] DOU W, WANG X, SKAU D, et al. Leadline: interactive visual analysis of text data through event identification and exploration [C]// Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2012: 93-102.
[43] ABDELHAQ H, SENGSTOCK C, GERTZ M. Eventweet: online localized event detection from Twitter [J]. Proceedings of the VLDB Endowment, 2013, 6(12): 1326-1329.
[44] ALSAKRAN J, CHEN Y, LUO D, et al. Real-time visualization of streaming text with a force-based dynamic system [J]. IEEE Computer Graphics & Applications, 2012, 32(1): 34-45
[45] MONROE M, LAN R, LEE H, et al. Temporal event sequence simplification [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2227-2236.
[46] XIE C, CHEN W, HUANG X X, et al. VAET: a visual analytics approach for E-transactions time-series [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1743-1751.
[47] CAMMARANO M, DONG X L, CHAN B, et al. Visualization of heterogeneous data [J]. IEEE Transactions on Visualization & Computer Graphics, 2007, 13(6): 1200-1207.
[48] SHEN Z, MA K L, ELIASSI-RAD T. Visual analysis of large heterogeneous social networks by semantic and structural abstraction [J]. IEEE Transactions on Visualization & Computer Graphics, 2006, 12(6): 1427-1439.
[49] 阮彤,王昊奮,陳為.大數據技術前沿[M].北京:電子工業出版社,2016:87-92.(RUAN T, WANG H F, CHEN W. Big Data Technology Frontier [M]. Beijing: Publishing House of Electronics Industry, 2016: 87-92.)
[50] NICHOLAS M. Google’s knowledge graph [EB/OL]. [2016- 04- 24]. http://wenku.baidu.com/link?url=4oUGek3uxnlt0ismi0AXMuH8rl9xY1tva7n7p_rLiCYC_vSFixqE2UfoFI7CpS1QwSPOEUZcDt2XXXx4pP1lyeqlfzhugYmKGjll5f82kie.
[51] ABHISHEK G. Object meta tags for facebook open graph protocol [EB/OL]. [2016- 06- 24]. https://thecustomizewindows.com/2013/06/object-meta-tags-for-facebook-open-graph-protocol.
This work is partially supported by the National Natural Science Foundation of China (61422211).
CUIDi, born in 1985, Ph. D. candidate, lecturer. Her research interests include big data analysis, intelligent information processing.
GUOXiaoyan, born in 1976, Ph. D., associate professor. Her research interest includes intelligent optimization algorithm.
CHENWei, born in 1976, Ph. D., professor. His research interest includes visualization.
Challengesandrecentprogressinbigdatavisualization
CUI Di1,2, GUO Xiaoyan3*, CHEN Wei2
(1.CollegeofElectronicandInformationEngineering,NingboUniversityofTechnology,NingboZhejiang315211,China;2.StateKeyLaboratoryofComputerAidedDesignandComputerGraphics(ZhejiangUniversity),HangzhouZhejiang310058,China;3.CollegeofInformationScienceandTechnology,GansuAgriculturalUniversity,LanzhouGansu730070,China)
The advent of big data era elicits the importance of visualization. As an import data analysis method, visual analytics explores the cognitive ability and advantages of human beings, integrates the abilities of human and computer, and gains insights into big data with human-computer interaction. In view of the characteristics of large amount of data, high dimension, multi-source and multi-form, the visualization method of large scale data was discussed firstly: 1) divide and rule principle was used to divide big problem into a number of smaller tasks, and parallel processing was used to improve the processing speed; 2) the means of aggregation, sampling and multi-resolution express were used to reduce data; 3) multi-view was used to present high dimensional data. Then, the visualization process of flow data was discussed for the two types of flow data, which were monitoring and superposition. Finally, the visualization of unstructured data and heterogeneous data was described. In a word, the visualization could make up for the disadvantages and shortcomings of computer automatic analysis, integrate computer analysis ability and human perception of information, and find the information and wisdom behind big data effectively. However, the research results of this theory are very limited, and it is faced with the challenge of large scale, dynamic change, high dimension and multi-source heterogeneity, which are becoming the hot spot and direction of large data visualization research in the future.
big data; visualization; challenge; visual analysis; progress
TP391.1
:A
2017- 01- 13;
:2017- 03- 10。
國家自然科學基金資助項目(61422211)。
崔迪(1985—),女,浙江寧波人,講師,博士研究生,CCF會員,主要研究方向:大數據分析、智能信息處理; 郭小燕(1976—),女,甘肅天水人,副教授,博士,CCF會員,主要研究方向:智能優化算法; 陳為(1976—),男,浙江杭州人,副教授,博士,CCF會員,主要研究方向:可視化。
1001- 9081(2017)07- 2044- 06
10.11772/j.issn.1001- 9081.2017.07.2044