郭 亮
(贛南師范大學,江西 贛州 341000)
大數據是指融合多種來源,并以多元化的形式存在的龐大數據組,具有數據量大、增長速度快以及結構多樣的特點,大數據包含的數據信息具有時效性。通過對海量大數據的存儲、檢索、通信、處理等操作,能夠得到更加權威的研究結果,同時可以制定出有針對性的發展策略[1]。大數據涉及的領域逐漸向人們的日常生活靠近,能夠儲存人們的日常空間行為數據??臻g行為指的是人們在日常生活中發生的行為動作,包括空間移動行為、社交行為、語言行為等。長期研究發現大數據空間行為以數據的方式呈現不夠直觀,為解決該問題,相關學習提出要對空間行為大數據進行可視化處理,并以DAG圖的方式呈現用戶的空間行為。可視化技術執行過程需要使用代碼程序,由于用戶需求不同所以需要用戶自行開發,但并不意味著用戶要進行源代碼開發,而是在工作空間內上傳JAR包。
文獻[2]提出基于CiteSpace的大數據空間行為可視化技術,以時空知識圖譜及內容知識圖譜分析為主要研究方法,基于信息可視化軟件CiteSpace,對大數據空間行為進行可視化比較和分析,提出粒計算解決框架,分析了深度學習與粒計算的邏輯關系,提出深度學習本質上是多粒度計算,可以用深度學習引導在大數據處理中形成數據粒和功能粒的最優結構,討論了量子比特編碼與粒計算的關系,提出用量子比特編碼有可能降低大數據問題的規模和復雜度。但該方法僅能為大數據空間行為可視化技術提供理論知識,缺少實際應用。文獻[3]提出基于SuperMap的大數據空間行為可視化技術,以海量時空點數據為例,采用預處理可視化方案,設計并實現了一套高可擴展的分布式可視分析框架?;赟uperMap技術,還原空間行為,得到可視化結果。但該方法只能處理部分信息結構簡單的數據,對于結構復雜、冗余度高的數據無法進行準確的可視化處理。
由于大數據與空間行為都屬于瞬時行為,要求可視化技術要保證可視信息的實時性,為此需要在傳統可視化技術的基礎上對大數據空間行為可視化技術進行優化與改進。本研究引入粒計算方法,其基本單位為粒,是論域中的子集、類、簇以及元素通過功能標簽、不可區分性以及相似性和功能標簽而形成的集合。集合的一個子集、系統的一個模塊等都是粒。將粒計算的構建與分解原理應用到大數據空間行為的可視化技術中,能夠提升技術速度,實現可視化技術的優化。
大數據空間行為可視化技術的思想為:將大數據空間行為的數據信息通過數據挖掘、粒計算處理以及變換、編碼等過程轉換為圖像數據[4]。具體的設計過程如圖1所示。

圖1 空間行為可視化技術流程圖
空間行為數據一般采用矢量數據模型來表示,矢量數據模型由點線面三個基本元素單位組成,用來表示空間行為中的實體。
空間行為數據包括社交行為數據、邏輯語言行為數據和空間移動行為數據。挖掘空間行為數據的步驟為空間行為數據準備、數據挖掘、數據表述和數據評價四個階段[5],其過程如圖2所示。

圖2 數據挖掘一般步驟
在按照上圖步驟挖掘大數據空間行為數據的過程中,首先設定數據挖掘的最小支持度為s,最小置信度為C0,進而得到候選項集,如果該集合的支持度大于等于最小支持度,那么就稱之為頻繁項集[6]。對數據庫中的大數據進行掃描,直到不再產生新的候選項集為止。
按照上述數據挖掘步驟對社交行為數據進行挖掘,將社交數據、話題、命名實體及其關聯定義為層次語義模型,將每一條消息定義為一個節點,自然劃分話題不相同的消息,將劃分結果定義為:
∏={n:n∈VT}
(1)
式中n表示的是空間行為數據中的消息數據,VT為相同話題的消息集合。對劃分遍歷后得到的聚類圖用矩陣向量來表示,圖形表達式如式(2)所示。
AG=〈VT,ET〉
(2)
式中ET表示命名實體分類關系。按照相同的挖掘方法挖掘空間行為中的邏輯語言行為和空間移動行為大數據,聚類融合空間行為數據,輸出最終的挖掘結果,實現空間行為數據的挖掘。
基于粒計算進行空間行為數據的可視化處理,首先需要標準化數據格式,將不同的空間行為數據類型轉換成為統一的格式,設融合的大挖掘數據原始序列的表達式為
X(0)=(x(0)(1),x(0)(2),…,x(0)(n))
(3)
設D1為作用于x(0)的算子,X(0)經過算子D1作用后可以得到式(4)中的序列[7]
XD1=(x(0)(1)d1,x(0)(2)d1,…,x(0)(n)d1)
(4)
式中單位元素的計算公式為:

(5)
式中λ為加權變換算子系數,其取值為0<λ<1。由此建立加權變換方程如下
x(0)(k)+ax(1)(k)=b
(6)
式中,a為微分變量,其對應的微分方程可以表示為

(7)
式中,t代表微分作用系數,求解上述微分方程的響應函數,如式(8)所示

(8)
則挖掘原始數據的響應序列為

(9)
通過濾波處理、坐標變換、幾何變換、線性分割等步驟,借助粒計算中的粒構建和分解原理,從粒度空間優化和多粒度聯合計算兩個方面,實現粒計算的預處理[8]。具體的處理過程如圖3所示。

圖3 粒計算的空間行為數據可視化處理框架圖
2.2.1粒度空間優化
針對空間行為問題性質以及計算過程的約束條件,在問題大數據的多粒度表示空間中選擇合適的粒層。通過對空間行為推測出滿意解的粒度,再對本身的粒度進行求解。解的粒度與問題粒度之間的映射關系為MPS,問題的粒度比解的粒度更粗,從而得到特定粒度上的解。在大數據空間行為問題的求解過程中,所要計算出的空間行為可視化數據處于核實的粒度層次上,在這個過程中所處理的信息粒的粒度稱為計算粒度[9]。從解的粒度到計算粒度之間存在著映射關系,可以表示為MSC。根據MPS和MSC,能夠得到空間行為問題粒度與計算粒度存在的映射關系,用MPC表示,因此粒度空間優化就會轉換為求解MPC的過程,如圖4所示。

圖4 問題粒度到計算粒度的映射求解過程
按照圖中的映射求解流程,得出粒子空間的優化結果,并將空間行為大數據輸入到該粒度空間中。
2.2.2多粒度聯合計算
多粒度聯合計算是指將求解空間行為大數據的過程,依次分配到數據表示的多個粒度層中,從而形成多個子任務,協同每一個粒度層次上相對簡單的部分,以此完成復雜問題的求解[10]。圖5當中存在兩條模糊規則的推理系統,對每一個粒層中的功能計算其隸屬度等。

圖5 多層粒度的模糊推理計算示意圖
圖中Ai與Bi分別為多層粒度中的單位粒子,那么映射關系可以通過式(10)來計算。

(10)

ωi=μAi(x)×μBi(x),i=1,2
(11)
其中μ為計算模糊系數。根據若干較低層次的粒層,輸出高層次的計算結果,完成粒計算的可視化處理。
將大數據中的空間行為數據信息轉換為圖形的表示方式,首先要變換空間行為軌跡,此過程分為兩個步驟,分別為空間行為軌跡生成和軌跡變換[11]??臻g行為軌跡生成需要計算行為距離,同時判斷空間行為的方向。在進行距離與方向的計算時需要遍歷空間內的每一個節點,路徑的緩沖區相交得到空間行為集合L,那么其距離總長度也為L,其中每兩個節點之間的長度系數為κ,則空間行為的整體方向值計算公式如下
L=κ1α1+κ2α2+…+κnαn
(12)
其中每一個空間段的方向角為αn,計算得出方向角的值與距離長度值,最終得到空間行為軌跡變換結果。
將轉換完成的空間行為以對應的繪制圖像的形式輸出,圖像的繪制過程如圖6所示。

圖6 繪制過程流程圖
首先繪制變換數據的底圖信息,按照對應空間行為配置信息以及元素,實現大數據空間行為的可視化。接著按照空間行為的聚集程度,將數據全部繪制在畫布上,并使用不同的顏色來表示。對數據中的每一個粒子元素做一個緩沖區,緩沖區的像素值與到元素的距離成反比,也就是逐漸遞減,遞減函數可通過式(13)來計算

(13)
通過式(13)得出的每一個結果都包含著該像素的顏色信息,此時畫布中的所有像素都有不同的alpha值。將透明度轉換為色彩紙,根據alpha值的不同,將當前的alpha的值對應的RGB值賦予到像素[12]。
為檢測粒計算下的大數據空間行為可視化技術的有效性,需要設計仿真對可視化技術的結果進行分析。為了保證仿真變量的唯一性,在仿真過程中選擇相同的大數據空間行為數據作為仿真的仿真數據。通過搭建可視化技術應用的處理仿真平臺,對輸入的空間行為數據進行可視化技術處理,并對結果進行具體分析。
由于采集實際空間行為數據不可控因素較多,因此直接調用數據庫中的數據信息,并搭建仿真環境,在仿真環境下對空間行為信息進行可視化處理。
仿真環境主要由物理設備層、軟件環境層、業務邏輯層、服務層以及應用層五個部分組成。其中物理層能夠為整個可視化技術的物理硬件提供支持。在物理層上安裝服務器、CPU處理器以及存儲器等硬件設備。利用服務器強大的運算處理能力,為上層所有功能計算提供支持。軟件環境層,即為可視化技術處理層,提供可視化數據處理平臺最基本的軟件支持。而業務邏輯層、服務層及應用層,主要支持可視化技術的正常運行以及后期維護處理,保證空間行為可視化技術在仿真過程中可以正常使用。
為了凸顯設計出的粒計算下大數據空間行為可視化技術的有效性,在仿真中將傳統的可視化空間行為處理技術作為仿真對照。仿真中兩種可視化技術處理的仿真空間行為數據相同,以此保證仿真變量的唯一性。
將兩種空間行為可視化技術作為仿真環境中的軟件環境層,將相同的空間行為數據輸入到仿真環境當中。分別使用兩種技術對其進行可視化處理,在數據輸入時啟動時間計,直輸出空間行為可視化圖像后,計時結束。記錄計時器顯示的時間數據,該數據即為可視化技術處理所消耗的時間,對兩種技術的仿真結果進行對比分析。
路線創建過程如圖7所示。

圖7 大數據空間行為軌跡創建過程
設置像素點的圓半徑以及模糊度,使其攜帶新的顏色值,重新在畫布上繪制圖像,并將大數據空間行為的可視化繪制圖像輸出,輸出結果如圖8所示。

圖8 大數據空間行為可視化輸出結果圖
在上述實驗結果的基礎上,下面對提出方法的穩定性進行實驗驗證。將傳統方法作為實驗對照,隨著大數據空間行為挖掘時間的增加,輸出方法挖掘穩定性,實驗結果如下:

圖9 穩定性對比
圖9對比了兩種方法的應用穩定性,從該實驗結果中可以看出傳統方法的穩定性波動較大,最高波動達到±1.5%,該范圍的穩定性無法滿足實際應用要求。相比之下,研究方法的穩定性波動范圍±0.5%,說明該方法具有更好的穩定性,這大大增強了方法的應用性能。
除方法的穩定性之外,隨著待挖掘行為數量的增高,其可視化處理的時長也是衡量方法有效性的關鍵性參數。經過仿真過程,得出有關于空間行為可視化技術的執行時間結果,如表1所示。

表1 實驗對比結果
從表中的數據結果可以看出,傳統可視化技術的平均消耗時間為0.5秒/kB,而設計出的可視化技術的平均消耗時間僅為0.02秒/kB。隨著處理數據量的增加,兩種技術的可視化處理速度也在發生變化,當空間行為數據量達到1GB時,使用設計出的粒計算可視化技術相比于傳統的可視化技術可以節省大約873.8秒,且經過處理與計算發現,兩種可視化技術的處理準確率與輸出結果的質量相近。因此可以得出結論:當得出近似相同可視化處理結果時,使用粒計算可視化技術可以節省大量的處理時間。
通過分析使用粒計算處理大數據空間行為,研究大數據空間行為和粒計算領域的相關基礎,為實現空間行為的可視化處理,因此提出基于粒計算的大數據空間行為可視化技術,將實現的可視化技術應用到實際的研究工作當中,在保證可視化質量的前提下,可以節省大量的處理時間,希望這種基于粒子計算的大數據處理方式,可以對研究著提供一些有益的借鑒和幫助。