文/黃麗達
為了達到監測與數據挖掘的要求,人們在對數據采集時會面臨因設備故障等造成數據出現碎片,遺漏有效數據的問題,形成海量碎片化網絡。通常情況下,碎片化網絡大數據中的部分碎片數據為有效數據,在很大程度上會攜帶對數據分析和處理方面的關鍵信息。本文提出一種新的海量碎片化網絡大數據中有效數據快速提取方法。實驗結果表明,采用所提方法對海量碎片化網絡大數據中有效數據進行提取精度和效率均較高。
本節引入有效數據單元概念,假設海量碎片化網絡中共有m 條輸入數據流,數據流Si是通過部分數據單元q 構成的序列,用于描述已知數據單元取值集合。針對海量碎片化網絡,數據流Si對網絡的重要程度可用wi進行描述,數據流Si通過海量碎片化網絡中節點Mi進入網絡中。
假設數據單元di在數據流Sj中出現的次數用lij進行描述,則d'i 就是數據單元di在海量碎片化網絡中的加權頻數:
數據流Sj的加權頻數Nj可通過下式求出:
海量碎片化網絡大數據中數據流的總加權頻數可通過下式求出:

設置閾值 ,若 ,則di即為有效數據單元。經提取后,輸出所有在δ 值較高的情況下,數據單元估計加權頻數和實際值之間的誤差必須低于ε。
本節通過兩個過程實現海量碎片化網絡大數據中有效數據快速提取。
通過Hash 表完成對多個單數據流統計結果的處理。假設統計表中共有t 個Hash 函數,所有Hash 表的長度都是b。用TSk描述數據流Sk的統計表,通過TSk(i,j)對TSk中第i 行第j 列的統計值進行描述,本節通過建立的統計表給出有效數據提取方法,實現過程如下:
(1)針對所有新出現的數據,求出一次數據流的加權頻數;
(2)完成對新數據的k 次哈希計算,依據和計算結果相應的數據單元的統計值增加wk。
接著完成對各統計結果的綜合處理,獲取S 中數據單元的統計結果,詳細實現過程如下:
(1)產生空白表格;
(2)將k 個子孫統計表格對應單元累加至空白表的對應單元;
(3)綜合節點處理結果,在根節點獲取全部數據的統計結果,提取滿足有效數據要求的數據。
本節將計數器方法和遺傳方法作為對比,將有效數據提取精度作為衡量標準進行實驗測試。
假設通過數據提取方法獲取的輸出結果用Dout進行描述,實際符合條件的數據集合用Dreal進行描述,數據 的估計加權頻數用ei進行描述,數據 的實際加權頻數用ri進行描述,則有效數據提取精度計算公式為:

圖1描述的是采用本文方法、計數器方法和遺傳方法對有效數據進行提取的精度比較結果。
圖1可知,隨著數據量的逐漸增加,本文方法、計數器方法和遺傳方法的有效數據提取精度均趨于穩定,而本文方法精度曲線一直高于計數器方法和遺傳方法。

圖1:三種方法提取精度測試
本文提出一種新的海量碎片化網絡大數據中有效數據快速提取與恢復方法,通過Hash 表對海量碎片化網絡大數據中有效數據進行快速提取。實驗結果表明,所提方法精度和效率均較高。