






[編者按]數據是與自然資源一樣重要的戰略資源,大數據技術就是從數量巨大、結構復雜、類型眾多的數據中,快速獲得有價值信息的能力,它已成為學術界、企業界甚至各國政府關注的熱點。本講座將分3期對大數據進行討論:第1期介紹了大數據的提出、含義、特點,大數據和云計算的關系以及大數據典型應用;第2期介紹大數據獲取、存貯、搜索、分享、分析、可視化等方面的關鍵技術,并對當前熱點技術—可視化進行重點分析;第3期將探討數據流挖掘等實時數據分析技術,介紹大數據中非結構化數據處理和挖掘技術,并給出大數據發展面臨的挑戰與應用前景。
5 大數據生態系統
5.1 大數據生態系統
2011年6月,IBM架構師Stephen Watt在《Deriving new business insights with Big Data》文中對大數據生態系統進行了簡單描述,提出大數據生態系統實際上就是數據的生命周期,即數據采集、存儲、查找、分析和可視化的過程[1],見圖1。
在這樣的生態系統中,每個環節都存在著不同的商業需求,而需求的出現必然會導致創新的產生。所以,在每一個環節都有不少企業在深耕自己所在的領域,試圖通過新技術和新方法來實現新的商業模式。
5.2 大數據生態圖譜
隨著大數據生態系統的逐步形成,很多人在嘗試繪制和更新大數據生態系統圖譜,希望通過對大數據領域的公司、技術、產品進行細分,及時了解到大數據生態系統全貌。在眾多圖譜當中,比較有代表性的是美國On Grid Ventures公司Matt Turck等人于2012年10月繪制更新的大數據生態圖譜V2.0[2],如圖2所示。
盡管各個圖譜的分類方法、全面性、時效性、權威性各不相同,但我們仍可以觀察到:
(1)大數據領域的企業主要集中在數據集市、數據存儲(基礎設施)、數據分析、數據應用4個層面,其中數據應用層面又包含數據服務、數據檢索、商務智能,可視分析等。這正符合數據科學中對數據全生命周期管理的描述。此外,很多企業業務覆蓋大數據多個層面,有的企業甚至已經建立了完整的大數據棧,成為“大數據應用服務提供商”。
(2)在大數據領域,活躍著的除了IBM、ORACLE等眾多知名公司外,像Splunk、Tableau等專業大數據公司也及時跟上了大數據的浪潮,成功地獲得了投資者和業界的關注。
(3)開源軟件與大數據的結合迸發出驚人的顛覆性力量,更多廠商開始使用開源大數據工具,以支持其大數據業務。
大數據生態系統中覆蓋大量的技術和產品,其中一些在大數據技術發展道路中起到了巨大的推動作用。
(1)Hadoop
在大數據時代,Hadoop可以說是最耀眼的明星。憑借其開源和易用的特性,Hadoop不僅是大數據時代數據處理的首選,也是擁有海量數據處理需求的公司的標準配置。此外,許多商業創新也都圍繞Hadoop展開的,并在大數據時代占據一席之地,如Cloudera推出的軟件發布包可以幫助企業更方便地搭建以Hadoop為中心的數據管理平臺;MapR則將Hadoop的速度改造為原來的3倍;海量數據管理軟件商Platfora旨在提供一個更為友好且更具操作性的用戶界面,它可以兼容包括Cloudera和MapR等多種Hadoop版本,能夠大大降低使用Hadoop的門檻;而AsterData(已被TeraData收購)的核心技術SQL-to-MapReduce可將海量非結構化數據的處理技術和結構化數據的數據倉庫技術結合,以彌補傳統數據倉庫的公司所欠缺的高速處理海量非結構化數據的能力。
(2)NoSQL
與Hadoop密切相關的NoSQL也一直是大數據領域的熱點。NoSQL憑借其高性能和可擴展性等優勢,成為關系數據庫的強勁對手,在大數據時代占據一席之地。根據存儲模型和特征,NoSQL大致可分為列存儲、文檔存儲、key-value存儲、圖存儲、對象存儲、XML數據庫等類型,雖然也存在個別數據庫可被歸為多種類別的現象,其中,HBase、MongoDB、Cassandra、CouchDB、Neo4j、HyperTable等NoSQL已被相當多的企業和開發人員所熟知。
(3)NewSQL
無論NoSQL是被解釋為NoSQL,還是后來的Not Only SQL,其不支持結構化查詢語言 (SQL)語言的特性為開發人員帶來諸多不便。因此,為了同時滿足高性能和支持SQL兩個方面,NewSQL被設計出來。NewSQL作為全新的關系數據庫產品,或將關系模型的優勢發揮到分布式體系結構中,或將關系數據庫的性能提升到不必進行橫向擴展的程度,這使得NoSQL面臨前所未有的挑戰。典型的NewSQL有VoltDB、Marklogic、Xeround、NuoDB等。
(4)Data Marketplace
除了解決大數據處理、存儲問題之外,開放數據資源也在相當大程度上加速了大數據技術的發展。目前大部分的企業所面對的數據都是由內部系統或者交易記錄日志之類的東西所產生的,然而如果能夠獲得企業自己無法獲得,或者已經被處理過的外部數據,那么內外數據融合分析后產生的價值將不可估量。因此,能夠下載或者訪問數據集,自然而然也就成為了商業需求,甚至美國政府都推出了官方的數據集網站。
2009年5月,美國聯邦政府正式啟用了官方公共數據資源分享網站Data.gov,其數據內容涵蓋了所有美國聯邦政府行政部門在運營管理過程中采集、生產或轉換而來的、有潛在價值的、可供再次開發利用的數據集。Data.gov鼓勵個人開發者使用政府發布的數據集,開發出新穎的應用。值得一提的,該網站于近期正式對外發布了全新的“開源政府平臺”(OGPL),該平臺的代碼將會對全球的開發者開放。
在中國,數據堂(datatang.com)是目前最為專業的科研數據共享服務平臺,該平臺致力于為全球科研機構、企業及個人提供科研數據支持,其數據內容主要是科研數據集,同時也提供浮動車歷史數據、路況歷史數據和車牌數據等,用戶也可以上傳發布自己的數據。通過該平臺不僅使得中國的科研機構、企業、高校和個人之間可以充分共享數據,也促進各類科研數據價值的最大化。
在全球范圍的大數據熱潮中,對于大多數企業來說,大數據與自己有什么關系?如何快速直觀地理解和發現大數據中的價值?沒有足夠“大”數據的情況下如何才能在大數據時代獲益?雖然這些問題還沒有完美的答案,但許多企業已經進行了積極的嘗試,通過數據可視化嘗到了大數據的甜頭。
6 可視化和可視分析
在眾多描述大數據的詞語中,“金礦”、“油田”等的描述最為常見,這意味著人們開始意識到大數據中蘊含著豐富的價值。然而,巨大的數量、數據的固有復雜性及未知的分析目標都放大了任務的難度。如果能夠有一種簡單的方式對數據規律進行直觀展現,必將使大數據中的價值得到快速理解和發現,可視化就是這樣的方式。
6.1 數據可視化、信息可視化和可視
分析概述
可視化由來已久,1861年法國工程師Charles Joseph Minard繪制了《拿破侖征俄戰役圖》可以看作可視化領域的經典案例。到了18世紀后期數據圖形學誕生,抽象信息的視覺表達手段一直被人們用來揭示數據及其他隱匿模式的奧秘。隨著20世紀50年代計算機圖形學的出現,信息技術加速了可視化的演變。時至今日,可視化已經發展為數據可視化、科學可視化、信息可視化、可視分析這幾大方向。
數據可視化起源于20世紀50年代,其基本思想是將數據庫中每個數據項作為可視化圖形中單個元素,同時將數據的各個屬性值以多維數據的形式表示,通過從不同維度觀察數據而達到對數據深入洞察和分析的目的。
科學可視化是一個典型的交叉學科,源于1987年布魯斯·麥考梅克等人編寫的網絡文件系統(NFS)報告《Visualization in Scientific Computing》(意為“科學計算之中的可視化”)??茖W可視化主要是將具有幾何結構的三維數據轉換為圖像,應用領域涵蓋科學和工程的多個方面。
信息可視化也是一個跨學科領域,出現于20世紀90年代,旨在為許多應用領域之中大規模非數值型信息資源的視覺呈現提供支持,這些信息資源可能是軟件系統之中眾多的文件、大規模并行程序的日志蹤跡信息、網站內容等。與科學可視化相比,信息可視化側重于異質數據集,如非結構化文本當中的點。
可視分析則起源于2005年,它是一門通過交互可視界面來分析、推理和決策的科學,通過將可視化和數據處理分析方法結合,提高可視化質量的同時也為用戶提供更完整的大規模數據解決方案[3]。如今,針對可視分析的研究和應用逐步發展,已經覆蓋科學數據、社交網絡數據、電力等多個行業。
雖然在這幾大方向之間的邊界還未完全清晰,不過,其相互關系和區別可以總結如下:數據可視化外延不斷擴大,可以認為數據可視化包含科學可視化、信息可視化和可視分析;科學可視化處理的是那些具有天然幾何結構的數據;信息可視化處理的是異質的抽象的數據結構;可視分析則主要通過意會、推理、互動融合的方式來挖掘數據中的問題和原因。
可視化融合了問題的求解和藝術表現方式兩個方面,允許我們同時通過理性和感官方式來感受數據,那么怎樣才是成功的可視化?Noah lliinsky在《數據可視化之美》一書中提到[4],一個稱得上“美”的可視化,必須具備新穎、充實、高效和美觀4個關鍵要素。新穎性體現在必須從嶄新的視角觀察數據,傳統可視化展現方式(如柱形圖)雖易理解,但不夠新奇有趣,是不足以激發讀者新的理解的;充實性體現在可視化一定要為讀者提供獲取信息的途徑,從而向讀者傳遞信息甚至知識;高效性指成功的可視化須盡可能直截了當,而不允許展示太多與目標和主題無關的信息;美觀是指合理的圖形構建(坐標軸、布局、色彩、線條等)是實現可視化之美的必要因素。這四要素必須同時具備,否則不能對數據進行有意義地呈現。
6.2 可視化之美
美麗的可視化作品不同于傳統的可視化,它們能夠通過創造不同于慣例的圖形構建方式,揭示數據顯性和隱性的特征,使讀者在對可視化效果感到驚喜的同時收獲啟示。通過以下的一些案例我們可以充分體會到這一點。
(1)電信數據可視化——《都市移動族》
當今城市被通訊數據所充斥,每個打電話發短信的人都生成特定時間地點的數據包,然而這些數據中有何規律?2008年,法國faberNovel公司對巴黎國際音樂節和新年夜產生的手機數據進行監測和可視化,幫助法國電信運營商Orange建立《都市移動族Urban Mobs》(圖3)[5]。它不僅讓我們發現城市活動中豐富的一面,同時也使電信運營商在流量分析、業務推薦等方面獲得啟示。
(2)電信數據可視化——《活力日內瓦》
手機可以看作是實時記錄并上傳用戶地理位置信息的移動傳感器,2011年,瑞士日內瓦市政府與Interactive Things公司合作,將市民每天在日內瓦市的行動軌跡的手機GPS數據進行記錄,并制作城市生活(Ville Vivante) [6] 動態顯示瑞士電信每時每刻的數據流向。圖4展示的是晚上六點到午夜之間人們移動的軌跡。這種融合基于位置的服務(LBS)和電信數據的可視化方式不僅使政府和公眾對城市生活有了重新認識,同時也產生不可估量的經濟政治效益。
(3)智慧城市——《實時新加坡》
現代城市中每天都在產生海量的數據,如何才能讓政府和市民更快了解城市每時每刻的變化,幫助政府提高管理效能,為市民提供生活便利?2011年,美國麻省理工大學可感知實驗室為新加坡建立了“LIVESingapore”實時新加坡平臺[7](圖5),該平臺能夠為公眾提供實時的城市活動及環境信息。其中,“實時通訊”顯示新加坡語音通訊、短信及網絡使用情況,“等時地圖”實時呈現新加坡居民交通耗時情況;“雨天打車”結合降雨監測和出租車數據進行可視化,從而在雨天智能調配出租車;“城市熱島”將新加坡區域溫度與能源消耗的關系進行可視化。通過對城市生活、環境數據的可視化,可助力提高城市公共服務質量,改善市民生活,真正意義上實現智慧城市。
(4)北京大學PKUVIS微博可視分析工具
結合社會網絡分析中的概念和可視化的呈現方法,佐以統計和智能數據挖掘的方法,可以為海量復雜社會網絡提供快速、直觀和智能的分析和呈現方法[8]。2012年北京大學可視化與可視分析小組開發了支持可視化瀏覽和分析微博熱點事件的“PKUVIS微博可視分析工具”(圖6)[9]。該工具將一條條獨立的微博連接起來,通過直觀的視圖清晰地呈現出一個事件中微博轉發的過程,從而讓用戶能夠迅速地發現事件中的關鍵人物、關鍵微博、重要觀點,同時通過可視化的方式可以更好地分析新浪微博傳播脈絡以及事件的發生與發展的過程。
(5)電力大數據可視化
美國Space-Time是一家提供新一代地理空間和可視化解決方案的創業公司,2011年,Space-Time為美國加州獨立系統運營商設計了一套可以實時監控電力傳輸系統能源基礎設施的可視化軟件Space-Time Insight(圖7)[10],該可視化系統通過控制室中的一個80英寸的顯示屏,在地圖上實時展示長達25 000 km的輸電線路狀況,工作人員一旦發現一個地區出現了問題,就可以根據該地區問題的嚴重性和臨近地區的反應來做出決策。不僅簡化了日常運營復雜度,還在盡可能降低影響的情況下解決問題。這種大數據可視化實踐對中國的電力大數據分析展示乃至整個能源相關行業都具有巨大的參考價值。
6.3 開源可視化工具
如果讀者已經被以上可視化案例所吸引,并且愿意嘗試將企業數據進行可視化,那么開源的數據可視化編程語言和環境將會是不錯的選擇??梢暬I域中重要而常用的可視化編程語言和環境有Processing、Processing.js、R、D3、Impure、ParaView、Circos等,它們具備的一個共同特點就是為用戶提供了常見的專業可視化模版或圖形庫,用戶可以通過簡單調用即可很快實現可視化效果,此外,由于軟件的開源優勢,專業用戶可以根據其需求,對圖形源代碼進行定制修改。
在可見的未來,大數據可視化機遇挑戰并存[11],大數據可視化將越來越廣泛地為各領域所使用,也將引發新一輪的投資熱潮,而構建面向電子政務、電信、電力等特定行業大數據的可視分析工具是一個可以深入探索的重要發展方向。 (待續)
參考文獻
[1] Deriving new business insights with big data[EB/OL].
http://www.ibm.com/developerworks/library/os-bigdata
[2] Big data landscape v2.0[EB/OL].
http://www.ongridventures.com/2012/10/23/the-big-data-landscape/
[3] 俞宏峰. 大規??茖W可視化[J].中國計算機學會通訊,2012, 8(9): 29-37.
[4] STEELE J, ILIINSKY N. Beautiful visualization[M]. Sebastopol, CA,USA : O'Reilly Media, 2010.
[5] Urban Mobs[EB/OL]. http://www.urbanmobs.fr/en/
[6] Ville Vivante[EB/OL].http://www.villevivante.ch/
[7] LIVE Singapore[EB/OL].http://www.live-singapore.com.sg/
[8] 袁曉如,張昕,肖何等.可視化研究前沿及展望[J].科研信息化技術與應用,2011, 2(4):3-13.
[9] PKUVIS微博可視分析工具[EB/OL].http://vis.pku.edu.cn/weibova/weiboevents/
[10] Space-time insight[EB/OL]. http://www.spacetimeinsight.com/
[11] 黃伯仲,沈漢威,克里斯托弗·約翰遜等.超大規模數據可視分析十大挑戰[J].中國計算機學會通訊,2012, 8(9): 38-43.