999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據可視化分析

2015-12-29 00:00:00陳明
計算機教育 2015年5期

摘要:人類利用形象思維獲取視覺符號中所蘊含的信息并發現規律,進而獲得科學發現。文章介紹科學可視化、信息可視化和數據可視化的內涵,闡述大數據可視化分析方法。

關鍵詞:大數據;可視化分析;并行計算

0 引 言

人類的創造性不僅取決于邏輯思維,還與形象思維密切相關。人類利用形象思維將數據映射為形象視覺符號,從中發現規律,進而獲得科學發現。期間,可視化關鍵技術對重大科學發現起到重要作用。在大數據時代,大數據可視化分析的研究與發展將為科學新發現創造新的手段和條件。

數據可視化于20世紀50年代出現,典型例子是利用計算機創造出了圖形圖表。1987年,布魯斯·麥考梅克等撰寫的《Visualization inScientific Computing》促進了可視化技術的發展,將科學計算中的可視化稱之為科學可視化。20世紀90年代初期,出現了信息可視化。目前將科學可視化與信息可視化都歸為數據可視化。

2 科學可視化

2.1 問題的提出

傳統的科學可視化技術已成功應用于各學科領域,但如果將其直接應用于大數據,將面臨實用性和有效性問題,這說明需要對科學可視化技術重新審視與深入研究。

2.2 分布式并行可視化算法

可擴展性是構造分布式并行算法的一項重要指標。傳統的科學可視化算法應用在小規模的計算機集群中,最多可以包括幾百個計算節點,而實際應用是要在數千甚至上萬個計算節點上運行。隨著數據規模的逐漸增大,算法的效率逐漸成為數據分析流程的瓶頸,設計新的分布并行可視化算法已經成為一個研究熱點。

2.2.1 并行圖像合成算法

傳統的并行圖像合成算法主要包括前分割算法、中間分割算法和后分割算法3種類型,前分割算法主要分為如下3步驟:

(I)將數據分割并分配到每個計算節點上;

(2)每個計算節點獨立繪制分配到的數據,在這一步,節點之間不需要數據交換:

(3)將計算節點各自繪制的圖形匯總,合成最終的完整圖形。

從上述步驟中可以看出,由于節點之間可能需要大量的數據交換,尤其是步驟(3)可能成為算法的瓶頸。解決這個問題的關鍵是減少計算節點之間的通信開銷,可以通過對數據進行劃分并在各計算節點間進行分配來實現。劃分和分配方案需要與數據的訪問一致,原則是計算節點只使用駐留本計算節點的數據進行跟蹤,從而減少數據交換。

2.2.2 并行顆粒跟蹤算法的研究

傳統的科學可視化研究對象主要集中在三維標量場數據。在科學大數據中,經常使用三維流場數據,其原因如下所述。

將二維的流場可視化方法直接應用在三維流的結構不可能都成功,每個顆粒雖然可以單獨跟蹤,但是可能出現在空間中的任何一個位置,這就需要計算節點之間通過通信交換顆粒。同時,當大量的顆粒在空間移動時,每個計算節點可能處理不同數量的顆粒,從而造成計算量嚴重失衡。解決這些問題的關鍵是減少計算節點之間的通信開銷,其基本思路同并行圖像合成算法。

2.2.3重要信息的提取與顯示技術

科學大數據可視化的另一個重要研究方向是如何從數據中快速有效地提取重要信息,并且用這些重要信息來指導可視化的生成。從可視化的角度來看,一方面需要可視化設計表達數據中特定信息的定義,通過人機交互工具,由用戶來調整參數,觀察和挖掘數據中的重要信息;另一方面需要根據用戶的反饋信息調整可視化,以更好地突顯重要信息,淡化非重要信息,方便用戶對重要信息及其背景的觀測。整個信息的提取過程是個典型的交互式可視分析過程。基于這一思想的兩個技術是流場可視化的層次流線束技術和用于標量數據的基于距離場的可視化技術。

2.2.4原位可視化

傳統的科學可視化采用科學計算后進行處理的模式。隨著計算機系統計算速度的提高,I/O速度與計算速度之間的差距增大。隨著計算規模越來越大,而相應生成的數據規模也越來越大,現有的存儲系統無法把所有的計算數據都保存下來。解決上述問題的常用方法是采用空間或者時間上的采樣方法,最后只保存部分數據,造成結果數據的丟失,不能保證高精度數值模擬。

原位可視化的基本思想是:

(1)將可視化與科學模擬集成在一起。在科學模擬的過程中,每個時間片的結果生成之后,可以立刻調用可視化模塊,直接與科學模擬程序集成。為了減少數據的冗余,可視化程序與科學模擬程序共享數據結構。

(2)由于數據的分割和分配優先滿足科學模擬的需求,可視化程序的工作分配有可能是不均衡的,需要重現可視化的工作量在各個計算節點上分配算法,減少數據傳輸。

(3)可視化程序的開銷不能太高,要保持集成系統的高效能,必須提高可視化程序的效率,其可擴展性必須與科學模擬一致,可以應用上萬個、上10萬個或更多的計算節點。

3 信息可視化

自18世紀后期數據圖形學誕生以來,抽象信息的視覺表達手段一直被用來揭示數據及其他隱匿模式的奧秘。20世紀90年代期間出現的圖形化界面則使得人們能夠直接與可視化信息進行交互,從而推動了信息可視化研究。信息可視化通過人類的視覺能力,來理解抽象信息的意思,從而加強人類的認知活動,達到能夠駕馭日益增多的數據的能力。

信息可視化是跨學科領域的大規模非數值型信息資源的視覺展現,能夠幫助人們理解和分析數據。信息可視化中的交互方法能夠實現用戶與數據的快速交互,更好地驗證假設和發現內在聯系。信息可視化技術提供了理解高維度、多層次、時空、動態、關系等復雜數據的手-段,與科學可視化相比,信息可視化更側重于抽象數據集,如對非結構化文本或者高維空間中不具有固有的二維或三維幾何結構的點的視覺展現。信息可視化適用于大規模非數字型信息資源的可視化表達。

信息可視化與科學可視化的不同之處是,信息可視化所要可視化的數據并不是某些數學模型的結果或者是大型數據集,而是具有自身因有結構的抽象數據。

科學可視化主要處理具有地理結構的數據,信息可視化主要處理像樹、圖形等抽象式的數據結構,可視化分析則主要挖掘數據背景的問題與原因。更進一步說,科學可視化技術是指空間數據的可視化技術,而信息可視化技術則是指非空間數據的可視化技術。

4 數據可視化

4.1 概念

數據可視化技術是指運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并利用數據分析和開發工具發現其中未知信息的交互處理的理論、方法和技術。

數據可視化不僅包括科學計算數據的可視化,而且包括工程數據和測量數據的可視化。數據可視化是對大型數據庫或數據倉庫中的數據的可視化,它是可視化技術在非空間數據領域的應用,不再局限于通過關系數據表來觀察和分析數據信息,還能以更直觀的方式看到數據及其結構關系。

4.2 數據可視化技術的特點

數據可視化技術能夠分析大量復雜和多維的數據,提供像人眼一樣的直覺的、交互的和反應靈敏的可視化環境。數據可視化技術的特點如下所述。

(1)交互性。用戶可以方便地以交互的方式管理和開發數據。 (2)多維性。對象或事件的數據具有多維變量或屬性,而數據可以按其每一維的值分類、排序、組合和顯示。

(3)可視性。數據可以用圖像、曲線、二維圖形、三維體和動畫來顯示,用戶可對其模式和相互關系進行可視化分析。

數據可視化已經出現了許多方法,主要有基于幾何技術、面向像素技術、圖標技術、層次技術、圖像技術和分布式技術等。

4.3 數據可視化技術的相關概念

(1)數據空間:是由n維屬性和m個元素組成的數據集所構成的多維信息空間。

(2)數據開發:指利用一定的算法和工具對數據進行定量的推演和計算。

(3)數據分析:指對多維數據進行切片、分塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據。

5 大數據可視化分析

5.1 概念

大數據可視化分析需要應用有效的數據管理方法。這也是創建混合環境的需要。在大數據環境下,人們利用各種技術分析數據,用形象直觀的方式展示結果,這樣能夠快速發現數據中蘊含的規律特征。

可視化分析關注人類感知與用戶交互的問題。大數據來自不同領域的模擬與觀察實測。大數據可視分析通常應用高性能計算機群、處理數據存儲與管理的高性能數據庫組件及云端服務器和提供人機交互界面的桌面計算機。

5.2 大數據可視化分析方法

5.2.1 原位交互分析技術

在進行可視化分析時,將在內存中的數據盡可能多地進行分析稱之為原位交互分析。對于超過PB量級以上的數據,將數據存儲于磁盤進行分析的后處理方式已不適合。與此相反,可視分析則在數據仍在內存中時就會做盡可能多的分析。這種方式能極大地減少I/O的開銷,并且可實現數據使用與磁盤讀取比例的最大化。然而應用原位交互分析也會出現下述問題:①由于人機交互減少,進而容易造成整體工作流中斷;②硬件執行單元不能高效地共享處理器,導致整體工作流中斷。

5.2.2數據存儲技術

大數據是云計算的延伸,云服務及其應用的出現影響了大數據存儲。流行的Apache Hadoop架構已經支持在公有云端存儲EB量級數據的應用。許多互聯網公司都已經開發出了基于Hadoop的EB量級的超大規模數據應用。一個基于云端的解決方案可能滿足不了EB量級數處理。一個主要的疑慮是每千兆字節的云存儲成本仍然顯著高于私有集群中的硬盤存儲成本。另一個問題是基于云的數據庫的訪問延時和輸出始終受限于云端通信網絡的帶寬。不是所有的云系統都支持分布式數據庫的ACID標準。對于Hadoop軟件的應用,這些需求必須在應用軟件層實現。

5.2.3 可視化分析算法

大數據的可視化算法不僅要考慮數據規模,而且要考慮視覺感知的高效算法。需要引入創新的視覺表現方法和用戶交互手段。更重要的是用戶的偏好必須與自動學習算法有機結合起來,這樣可視化的輸出具有高度適應性。可視化算法應擁有巨大的控制參數搜索空間,減少數據分析與探索的成本及降低難度,可以組織數據并且減少搜索空間。

5.2.4不確定性的量化

許多數據分析任務中引入數據亞采樣來應對實時性的要求,由此也帶來了更大的不確定性。數據中不確定性的來源對于決策和風險分析十分重要。隨著數據規模不斷增大,直接處理整個數據集的能力也受到了極大的限制。不確定性量化已經成為科學與工程領域的重要問題之一。不確定性的量化對未來的可視分析工具極端重要,新的可視化技術將提供一個不確定性的直觀視圖來幫助用戶了解風險,從而幫助用戶選擇正確的參數,減少產生誤導性結果。不確定性的量化將成為可視化分析任務的核心部分。

5.2.5并行計算

并行處理可以有效地減少可視計算所占用的時間,從而實現數據分析的實時交互。多核的計算體系結構的每個核所占有的內存也將減少,在系統內移動數據的代價也將提高。為了發掘并行計算的潛力,許多可視化分析算法需要完全地重新設計。在單個核心內存容量的限制之下,不僅需要有更大規模的并行,也需要設計新的數據模型,需要設計出既考慮數據大小又考慮視覺感知的高效算法,需要引入創新的視覺表現方法和用戶交互手段。

5.2.7領域資源庫、框架以及工具

由于缺少低廉的領域資源庫、框架和工具,基于高性能計算的可視化分析應用的快速研發受到了嚴重阻礙。如用戶界面、數據庫等領域對于可視分析系統的開發至關重要。在絕大部分的高性能計算平臺上,即使是最基本的軟件開發工具電很少見。目前為高性能計算平臺開發定制這樣的軟件,還是個耗時耗力的做法。

5.2.8用戶界面與交互設計

由于傳統的可視化分析算法的設汁通常沒有考慮可擴展性,所以許多算法的計算過于復雜或者不能輸出易理解的簡明結果;加之數據規模不斷地增長,以人為中心的用戶界面與交互設計面臨多層次性和高復雜性的困難;同時時算機自動處理系統對于需要人參與判斷的分析過程的性能不高,現有的技術不能更充分發揮人的認知能力。利用人機交互可以化解上述問題。為此,在大數據的可視化分析中,用戶界面與交互設計成為研究的熱點,主要應考慮下述問題:用戶驅動的數據簡化、可擴展性與多級層次、異構數據融合、交互查詢中的數據概要與分流、表示證據和不確定性、時變特征分析、設計與工程開發等一系列問題。

6 結語

原位交互分析技術、數據存儲技術、可視分析算法和用戶界面與交互設計等多種技術的運用,使得人們可以通過交互可視界面來對大數據進行分析、推理和決策,這種將數據通過可視化變成圖形的方法能更好地激發人的形象思維與想象力。

主站蜘蛛池模板: 三级视频中文字幕| 一区二区三区在线不卡免费| 亚洲高清免费在线观看| 精品一区二区三区中文字幕| 欧美97色| 白浆视频在线观看| 婷婷色狠狠干| а∨天堂一区中文字幕| 91偷拍一区| 国产a网站| 日本爱爱精品一区二区| 91亚瑟视频| 一本久道久久综合多人| 国产欧美日韩精品第二区| 在线观看国产精品一区| 亚洲福利片无码最新在线播放| 国产精品手机在线观看你懂的| 日本少妇又色又爽又高潮| 久久精品人妻中文视频| 日韩国产一区二区三区无码| 亚洲天堂自拍| 成人国产精品网站在线看| 欧美日韩激情| 亚洲视频一区在线| 97成人在线视频| 真实国产精品vr专区| 伊人中文网| 亚洲成a人在线观看| 欧美日一级片| 久久人妻xunleige无码| 国产成人亚洲无吗淙合青草| 999精品色在线观看| 91精品伊人久久大香线蕉| 欧美国产视频| 亚洲天堂视频在线播放| 波多野结衣视频一区二区| 久久频这里精品99香蕉久网址| 久久永久免费人妻精品| 国产微拍一区二区三区四区| 欧美日韩在线亚洲国产人| 亚洲AⅤ无码国产精品| 日韩毛片在线播放| 亚洲色图另类| 人妻91无码色偷偷色噜噜噜| 无码精油按摩潮喷在线播放| 国产在线精品99一区不卡| 亚洲欧美另类视频| 久青草免费在线视频| 国产成人久久综合一区| lhav亚洲精品| 精品国产香蕉在线播出| 中文字幕在线视频免费| 99性视频| 91免费在线看| 无码网站免费观看| 中国国产A一级毛片| 美女一级毛片无遮挡内谢| 免费人成视网站在线不卡| 91年精品国产福利线观看久久| 日本一区高清| 国产成人一区在线播放| 无码啪啪精品天堂浪潮av| 国产99久久亚洲综合精品西瓜tv| 国产视频大全| 国产97公开成人免费视频| 热伊人99re久久精品最新地| 2021亚洲精品不卡a| 欧美爱爱网| 亚洲精品无码高潮喷水A| 亚洲三级成人| 人妖无码第一页| 91无码人妻精品一区二区蜜桃| 欧美无遮挡国产欧美另类| 成人在线综合| 黄色网站不卡无码| 毛片久久久| 国产不卡在线看| 伊人精品成人久久综合| 亚洲资源站av无码网址| 日韩欧美国产另类| 激情网址在线观看| 亚洲中文字幕无码爆乳|