王佳 付榮 李明東 姜飛 李雪竹

摘 要:數據可視化能夠把數據中隱藏的規律和特征以圖形的方式呈現出來,使得用戶可以快速地、直觀地了解數據中的信息,多維數據可視化是對海量的多維數據進行分類是一項復雜的工作,本文提出了一種多維時空數據協同可視分析的方法。
關鍵詞:多維數據;可視化;關聯性
一、數據可視分析概述
(一)數據可視原理介紹。數據可視化綜合運用計算機圖形學、圖像處理、人機交互等技術,將原始數據變換為可識別的圖形符號、圖像、視頻或動畫,并以此呈現對用戶有價值的信息。用戶使用可視化交互工具進行數據分析,通過對可視化結果的感知獲取知識,并進一步提升為智慧。因此,數據可視化的終極目的是對事物規律的洞悉,即從數據中發現、決策、解釋、分析、探索和學習,而非所繪制的可視化結果本身。在數據可視化的工作中更關注數據和圖形,由此建立的數據可視化領域模型如圖1所示。
“數據可視分析”是指實時的、人機互動的、更加直觀的數據分析工具,讓人和機器進行真正的交流,給予企業真正的“大數據認知能力”。在大數據時代,可視化在數據的獲取、處理和分析階段都發揮著重要的作用。以大數據為基礎,以可視化和數據分析模型作為兩翼,共同為用戶創造價值,三者缺一不可,相輔相成。
(二)數據可視與數據挖掘之間的關聯。數據可視化與數據分析和數據挖掘的目標都是從數據獲得信息與知識,但方式有異。數據可視化將數據呈現為可以直觀感知的圖形圖像,用戶可以通過交互操作發現數據中隱藏的規律和特征;而數據分析和數據挖掘根據特定的模型,自動地獲取數據中隱藏的信息,并把最后的結果直接交給用戶,缺乏交互性。為了充分利用可視化技術,數據挖掘領域已提出了可視數據挖掘的方法,其核心是將數據挖掘的結果用可視化方法予以呈現
二、數據可視過程
(一)數據可視化的環節。學可視化和信息可視化均設計了可視化流程的參考體系結構模型,并被廣泛應用于數據可視化系統中。它描述了從數據空間到可視空間的映射,包含串行處理數據的各階段:數據分析、數據濾波、數據的可視映射和繪制。可視化模式:是指據展現形式的概括。數據可視化的首要任務是選擇合適的視覺編碼,采用何種視覺編碼由感知系統的特性、數據的屬性和任務目標等因素決定。在大數據時代,由于采集的數據量大而且數據具有動態性,這就要求可視化方法不僅能靜態展示還能夠高效地進行動態展示。
(二)多維時序數據趨勢性分析問題的描述。多維時序數據趨勢性分析的難點在于當數據量很龐大時,如何對大量客觀對象的變化趨勢進行同時展示,在有限的空間內如果對數據的各個屬性都進行展示則會導致圖形或圖像相互覆蓋的問題。假設每個對象在一個時間段內有一個數據記錄,共有n個時間段,可以得到時間和數據的二元組集合:
? ? ? ? ? ? ? ? ? ? ? ? (1)
si為ti時間段的數據值,i=1,2,… ,n。在此基礎上計算出每個對象在t1
到tn時間段內階段數據值的相關信息,數據結構如下:
(2)
(三)可視分析中數據降維設計。對于具有多維性和時序性的數據如果不能有效地進行投影,將使可視結果混亂,如交易數據。數據走勢圖可以讓用戶直觀的了解對象的數據走勢,通過時間和階段值二元組可以繪制出走勢圖。
(四)規程變化中性能趨勢預測。波動性反映對象的變化趨勢是否平穩,數據值是否存在較大波動;動力性反映對象的數據量是否具有較好的持續性以及數據值的增長是否比較強勁。通過這兩個指標用戶對觀察對象的前景有一個預期,可以提前做好預測和計劃。
三、多維數據流CCA跟蹤算法
(一)算法基本思路。TCCA建立在滑動窗口模型基礎上。根據滑動窗口模型,時間流逝過程中,窗框持續前滾,每步刪掉窗框內一條最早到達的記錄,同時新增一條當前時刻到達的新記錄。若窗框中的兩組數據都有相同的記錄數見而第一組數據的維數為p第二組數據的維數為W則第/時刻窗框中的記錄構成的矩陣表示如下:
(4)
(二)算法穩定性分析。實驗主要考察算法TCCA的穩定性,評估時用算法運行時間的標準差大小度量其穩定性。為求解算法TCCA的執行時間標準差,需多次重復執行算法。實驗在人工合成的數據集DSG上進行。算法執行過程中所產生的數據維數較低,而數據規模則為中小規模,確切地說,第一組數據是5維,第二組數據是8維,兩組數據的總容量皆為1100,而窗框長度固定為100。共進行了兩個實驗,第一個實驗在一次隨機產生的數據上觀察,結果如圖2所示;而第二個實驗則考察算法在重復15次產生的數據上的平均執行時間。
四、總結
提出的多維時空數據的多維屬性協同可視分析方法,該方法可以對多層次屬性的值分布及其相互關系進行分析;對隱藏在時空數據中的時序特征也設計了可視分析方法,利用MDS算法進行空間變換,把原始的多維時空數據按時間順序映射到時序坐標軸上,通過坐標軸空間的放縮增強用戶對數據的理解;為了解決平行坐標中大量曲線無法識別的問題,設計了層次聚類算法對數據按類別進行特征分析,以使用戶可以快速對大量數據的時空演變規律進行總體分析。
參考文獻:
[1] 張怡,熊朝陽,張加萬.多維數據的不確定性可視相關分析[J].計算機輔助設計與圖形學學報,2018,30(06):1089-1099.
[2] 不確定性數據管理技術研究綜述[J]. 徐震.中國新通信.2018(02)
[3] 王雄斌. 面向大規模多源傳感流數據的關聯在線檢測方法[D].北方工業大學,2017.
基金項目:2020年宿州學院虛擬仿真實驗教學項目(編號:szxy2020xnfz02);2021年國家級大學生創新創業訓練計劃項目(編號:202110379027);2020年安徽省教育廳高等學校省級質量工程項目(編號:2020szsfkc1004);2020年宿州學院校級質量工程項目(編號:szxy2020xxkc07);2020年宿州學院專創融合重點課程項目(編號:szxy2020zckc22)。