陳小燕,干麗萍,郭文平
(臺州學院 數學與信息工程學院,浙江 臨海 317000)
隨著移動互聯網、物聯網、云計算等諸多新技術的發展,數據呈爆炸式增長。根據國際數據公司(International Data Corporation,IDC)在2012年發布的報告顯示,全球數字資源在2010年首次突破了ZB(Zettabyte, 1 ZB=240 GB)級別,進入ZB時代[1]。IDC在2017年發布的《數據時代2025》報告顯示2016年全球數據信息總量已達到16.1 ZB,并預測2025年將會升至163 ZB,是目前的10倍之多[2]。
大數據是一個寬泛的新概念,一般是指通過快速獲取、處理、分析以從中提取價值的海量、多樣化的交易數據、交互數據與傳感數據,其最終目標就是從復雜的數據集中發現新的模式與知識,挖掘得到有價值的新信息。大數據具有體量巨大(volume)、類型繁多(variety)、時效性高(velocity)以及價值密度低(value)的特征[3],這給大數據分析帶來極大的挑戰。隨著各行業和部門產生的數據量急劇增長,工業界和學術界共同努力,提出了各種數據分析方法,如數據挖掘、機器學習、智能算法、統計分析等,但這些方法對專業知識要求較高,普通用戶難以利用并從中挖掘數據信息。
人類對信息的吸收能力非常有限,而從外界獲得的信息約有80%以上來自于視覺系統[4]。當數據通過可視化工具以直觀的圖表形式展示,人們往往能一眼識別出圖形特征并轉化為有特殊含義的信息。大數據可視化工具為人類利用大數據提供了極大便利。
為更好地利用大數據,國外許多知名高校如麻省理工學院、斯坦福大學、卡耐基梅隆大學、佐治亞理工學院等將大數據可視化作為研究課題。麻省理工學院的研究團隊專門研究城市信息的可視化,出版刊物總計744篇并廣為引用。斯坦福大學正在進行的項目包括用于交互式可視化的新語言、理論模型、探索性分析工具和設計工具、評估可視化工作的感知實驗以及大規模文本分析、人口基因組學等領域的可視化分析系統。
國內也有不少高校成立了相關研究團隊,如北京大學可視化與可視分析研究組、浙江大學可視分析小組等。浙江大學可視化分析小組與國內外高校和科研機構廣泛合作,有DataV數據可視化組件庫、全球尺度三維數值大氣可視分析系統等多項成果。
除了學術研究機構以外,企業、媒體、個人、工作室等都積極參與數據可視化研究中,特別是新媒體,他們自發地開始相關嘗試,將數據通過敘事的方式展現給目標受眾。國內外相關研究團隊的官網及主要成果見表1。

表1 國內外主要的可視化研究團隊
IEEE VIS是可視化領域最具權威的國際性學術會議,由三大學術會議組成:IEEE Visual Analytics Science and Technology(VAST)、IEEE Information Visualization(InfoVis)和 IEEE Scientific Visualization(SciVis)。隨著數據可視化的研究成為大數據領域的研究熱點,越來越多的可視化會議在2018年召開,見表2。

表2 主要的數據可視化學術會議
隨著大數據可視化研究的進展,國內有不少學者撰寫了大數據可視化方面的綜述論文。文獻[5]分析支持大數據可視分析的基礎理論,包括支持分析過程的認知理論、信息可視化理論、人機交互與用戶界面理論,并在此基礎上討論面向大數據主流應用的信息可視化技術--面向文本、網絡(圖)、時空、多維的可視化技術。文獻[6]圍繞大數據分析的本質,對大數據可視化技術的內涵進行剖析,然后從人的視覺原理和可視化兩個角度對可視化分析技術原理進行綜述,最后介紹大數據可視化在新聞傳媒和態勢感知兩個領域的應用情況。文獻[7]總結生命科學研究領域中不同類型生物大數據的可視化研究進展,最后討論目前生物大數據可視化所面臨的挑戰并提出可能的解決方案。
數據可視化的實現一般依賴開源程序作為支柱。學術界的數據可視化大多基于R語言進行靜態繪圖,主要適用于統計學家。在商業環境中的可視化主要是面向普通大眾,因為具有交互性的Processing、D3.js等主流工具更適用于交互性數據展示,見表3。
開源工具在一定程度上推動了可視化的進步,許多工具都是在現有的基礎上進行改進和完善。以D3.js為例,其是由Mike Bostock和斯坦福可視化組的Jeff Heer制作的,而以此為基礎而開發的可視化工具舉不勝舉,如Data.js、RAWGraphs等。

表3 常用開源可視化工具
開源的可視化工具通常需要一定的編程能力,且在資源共享上有不便之處,往往不適合企業用于商業用途。有許多公司帶領團隊推出了商業性質的數據可視化工具,如Tableau、Excel、Splunk等,見表4,其中Excel是微軟推出的辦公軟件之一,可以快速瀏覽數據并創建可視化圖形,但由于樣式及顏色的限制,難以在專業刊物、網站等場合使用;而Tableau作為一個專業的可視化工具,模板豐富,操作簡單,上手容易,可以直接通過對數據的操縱完成可視化。

表4 常用商業可視化工具
數據可視化應用領域的廣泛性及數據可視化的普遍性,使得可視化工具側重領域、操作特性、受眾群體也各不相同。
在某個研究領域內,存在表現形式的差異性。例如,在地理分析方面,地理信息可視化有地圖(圖形)、多媒體、虛擬現實等多種表現內容,有二維、三維、多維動態等多種空間維數可視化效果。解決實際問題時,往往需要針對具體問題進行具體分析并選擇合適的可視化工具。
針對同一個數據集的可視化,也可能因為用戶的差異而有多種選擇。用戶一般分為普通大眾和專家學者。前者在進行可視化工作時更傾向于選擇操作簡易、入門門檻低的可視化工具,如一些由企業開發的商業工具Tableau等;而具有相關基礎的專家學者或具備一定能力的用戶,通常選擇一些開源的工具進行相關研究。
4.1.1 連接數據
Tableau對數據的導入和加載都是向導式的。Tableau支持連接到文件(包含Excel、文本文件、Access、JSON文件、PDF文件、空間文件、統計文件等)、服務器(包含Tableau Sever、Microsoft SQL Server、MySQL、Oracle、Amazon Redshift等)。單擊數據選項卡中的新建數據源功能,可以根據向導提示完成數據的連接。
4.1.2 可視化分析實例
表5中4個二維數據點集的單維度均值、最小二乘法回歸線方程、誤差的平方和、方差的回歸和、均方誤差的誤差和、相關系數等統計屬性均相同,因此,傳統的統計方法難以對它們直接進行區分并發現其數據模式。

表5 4個二維數據點集
利用Tableau,通過簡單的拖拽,將實際的數據分布情況用二維可視化呈現,觀察者可迅速地從圖1中發現數據中蘊含的不同模式和規律。

圖1 利用Tableau進行可視化分析
4.2.1 連接數據
Power BI Desktop可以連接到來自許多不同
源的數據。在主頁功能區中選擇“獲取數據”,可以選擇文件、數據庫、Azure、Online Services、其他五大類數據源。此外,Power BI Desktop還支持直接輸入數據。數據源以數據表形式呈現,該軟件提供了“查詢編輯器”幫助用戶進行數據的預處理。
4.2.2 可視化分析實例
以表6數據(第39次《中國互聯網絡發展狀況統計報告》)[8]為例,對內地各省網民人數情況進行可視化。完成數據源的連接之后,可以在字段窗格看到該表下的兩個字段“省份”與“網民數/萬人”。通過Power BI可以將網民的地理位置進行可視化,迅速發現我國的網民分布情況。
4.3.1 引用文件
D3.js是一個JavaScript函數庫,因此在使用時需要在html頁面中進行引用。D3的官方網站(http://d3js.org)下載d3.zip文件,解壓后可得d3.js、d3.min.js、LICENSE(版權許可證)文件,在開發調試時一般使用d3.js。
在index.html中引用d3.js,以d3文件夾所在目錄為index.html文件所在目錄的上一層目錄為例,代碼如下:

4.3.2 數據處理與繪制
以英語教學中的非謂語動詞知識點為例,制作思維導圖,主要步驟如下。

表6 2016年中國內地分省網民規模
(1)讀取與index.html文件同一目錄下的learn.json文件數據,主要代碼如下:

(2)綁定數據并處理,主要代碼如下:

(3)進行繪制,主要代碼如下:


4.3.3 結果分析
非謂語動詞思維導圖如圖2所示,使用D3.js,利用網頁編程,可將具有層次結構的文本數據以可視化圖表形式展出,使知識結構更加清晰。完成的網頁易于傳播,可以為學生提供在線復習資料,在實踐教學中有一定意義。
大數據可視化分析工具為人類分析大數據隱含的知識帶來便利。筆者從是否開源的角度,對大數據可視化工具進行了比較分析,并介紹了3個典型可視化工具的教學實例,從中發現,開源可視化工具需要用戶具備一定的編程基礎,如JavaScript基礎知識等,其易用性還需進一步提高。為了更好地利用大數據,還需要學術界和工業界合作,開發更多開源且適于普通用戶使用的可視化工具。

圖2 非謂語動詞思維導圖
[1]Gantz J, Reinsel D. The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east[J]. IDC Analyze the future, 2012(12): 1-16.
[2]Reinsel D, Gantz J, Rydning J. Data age 2025: The evolution of data to life-critical[EB/OL]. [2017-12-29]. https://www.seagate.com/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf.
[3]劉智慧, 張泉靈. 大數據技術研究綜述[J]. 浙江大學學報(工學版), 2014(6): 957-972.
[4]Ren L. Research on interaction techniques in information visualization[D]. Beijing: The Chinese Academy of Sciences, 2009.
[5]任磊, 杜一, 馬帥, 等. 大數據可視分析綜述[J]. 軟件學報, 2014, 25(9): 1909-1936.
[6]付長軍, 喬宏章. 大數據可視化技術探析[J]. 無線電通信技術, 2017(5): 1-5.
[7]周琳, 孔雷, 趙方慶. 生物大數據可視化的現狀及挑戰[J]. 科學通報, 2015(增刊1): 547-557.
[8]中央網絡安全和信息化領導小組辦公室 國家互聯網信息辦公室 中國互聯網絡信息中心. 中國互聯網絡發展狀況統計報告[EB/OL]. [2017-12-29]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/P020170123364672657408.pdf.