徐 麗
(湖北工業(yè)大學(xué)計算機學(xué)院,湖北 武漢 430070)
互聯(lián)網(wǎng)大數(shù)據(jù)、云計算時代快速發(fā)展的今天,圖片、視頻等信息數(shù)據(jù)存儲量需求不斷增加,傳統(tǒng)單一的存儲方法已經(jīng)無法滿足存儲需求,而分布式大數(shù)據(jù)云存儲技術(shù)具有快速讀取、海量處理數(shù)據(jù)等特點,能夠快速有效的存儲數(shù)據(jù),被廣泛應(yīng)用于云計算中,同時研究學(xué)者們發(fā)現(xiàn),在云存儲數(shù)據(jù)的過程中,會產(chǎn)生部分冗余信息,影響大數(shù)據(jù)云存儲的效率[1]。
針對大數(shù)據(jù)云存儲問題,研究相關(guān)文獻較多,其中丁穗娟[2]首先對待處理數(shù)據(jù)進行并行特征劃分,并使用低負荷傳輸處理方式,降低存儲消耗能量,以此完成海量數(shù)據(jù)云存儲節(jié)能存儲方法,但是冗余數(shù)據(jù)問題還能沒有能到有效解決,并且該手段對設(shè)備要求較高,無法廣泛應(yīng)用在現(xiàn)實生活中。高晨[3]設(shè)計一種混合云架構(gòu)作為云媒資的分布式存儲平臺,同時為了提高可用性,利用個人私有云和第三方提供商為用戶提供能夠使的用云數(shù)據(jù)交換,加強存儲數(shù)據(jù)可挖掘功能使用資源交換戰(zhàn)略,完成多方面數(shù)據(jù)加密方式,有效提高存儲方法的安全性。可這樣卻提高了后續(xù)管理難度,并存在存儲效果較差等問題。
基于此,本文使用密度演化方式來數(shù)據(jù)數(shù)據(jù)存儲,密度演化是個體密度隨時間變化的過程,將密度演化方法應(yīng)用在大數(shù)據(jù)云存儲中可有效減少分布式儲存中冗余數(shù)據(jù),有效增強分布式大數(shù)據(jù)云存儲的準確率與存儲效率[4.5]。
研究分布式大數(shù)據(jù)云存儲方法,首先要分析隨機系統(tǒng)密度演化理論。通過獲取隨機系統(tǒng)狀態(tài)概率來確定函數(shù)的密度演化進展。常見性的隨機系統(tǒng)可以表示為
X=Gn(Xn,Θ,t)
(1)
式中:Xn表示為n維狀態(tài)向量;Gn表示為n維算子向量;Θ表示為聯(lián)合概率密度隨機向量;t表示為狀態(tài)響應(yīng)時間。從而獲得此方程的解析或數(shù)值解答。如果存在唯一解,式(1)應(yīng)轉(zhuǎn)換成式(2)
XI=HI(Θ,t),X=H(Θ,t)
(2)
式中:XI,HI分別表示為X,H的第I(I=1,2,…,n)個分量;H表示系統(tǒng)狀態(tài)為聯(lián)合概率密度隨機向量Θ的函數(shù)。
在{Θ=θ}時的條件概率密度函數(shù)表示為px|Θ(x,t|θ),θ表示為聯(lián)合概率密度閾值,x表示為隨機系統(tǒng)的數(shù)據(jù)節(jié)點。依據(jù)概率相容條件得出

(3)
由式(3)可知,在{Θ=θ}條件下,必有X=H(θ,t),換言之,在{Θ=θ}條件下,X=H(θ,t)以概率1成立,因而其互斥時間X≠H(θ,t)的概率(及其密度)必為0,可知
px|Θ(x,t|θ)=δ(px(x,t))
(4)
式中:δ表示為Dirac函數(shù),px(x,t)表示為狀態(tài)概率密度函數(shù)。根據(jù)條件概率公式,(X(t),Θ)的聯(lián)合概率密度函數(shù)見式(5)
pXΘ(x,θ,t)
=px|Θ(x,t|θ)pΘ(θ)δ(px(x,t)-H)pΘ(θ)X(t)
(5)
式中,X(t)表示概率密度為pXΘ的邊緣概率度函數(shù),pΘ(θ)表示為聯(lián)合概率密度函數(shù),由此可以得出狀態(tài)概率密度函數(shù)為

(6)
式中:ΩΘ表示為Θ的分布區(qū)域。
若將式(2)表示為一個由Θ到X的隨機向量變化,就可以由Θ的概率密度函數(shù)獲得X的概率密度函數(shù)。應(yīng)用復(fù)合函數(shù)的求導(dǎo)法對式(6)兩邊關(guān)于t求導(dǎo)。如式(7)所示
pXΘ(x,θ,t)=pΘ(θ)·[δ(x-H(θ,t))]
(7)
在復(fù)合函數(shù)微分法中,可用pXΘ(x,θ,t)表示在{Θ=θ}條件下復(fù)合函數(shù)的演化規(guī)律。據(jù)此,獲得廣義密度演化方程,即
pXΘ(x,θ,t)·δ+x-H(θ,t)=0
(8)
由式(5)得到演化初始條件為
pXΘ(x,θ,t)|t=0=δ(x-t)pΘ(θ)
(9)
演化邊界條件可定義為
pXΘ(x,θ,t)|x→±∞=0
(10)
將具有隨機參數(shù)的隨機系統(tǒng)為具有UI及初始條件的動力系統(tǒng),隨機參數(shù)引入狀態(tài)向量,構(gòu)造增廣隨機系統(tǒng),獲得聯(lián)合概率密度的偏微方程。在通常情況下,此方程求解相對較難,為使得一般隨機系統(tǒng)可以求解,建立一維廣義密度演化方程。從而得出隨機系統(tǒng)的狀態(tài)概率[6]。
獲取隨機系統(tǒng)狀態(tài)概率后,分析分布式大數(shù)據(jù)云儲存方法[7]。分布式系統(tǒng)采用連通的無向圖G=(V,E)描述,其中V表示為頂點集,E表示為邊集,所有節(jié)點都有同樣的傳輸半徑r,WSN網(wǎng)絡(luò)的變化量φ∈E。分布式大數(shù)據(jù)的云存儲過程會根據(jù)分碼的結(jié)構(gòu)形成一個包含m個向量組A={A1A2…Am},A∈V。且每個傳輸集Si滿足以下條件

(11)
為保證數(shù)據(jù)在任何一次傳輸過程中都不發(fā)生沖突干擾,需要對數(shù)據(jù)進行完整度檢測,其中,AJ描述包含J個已調(diào)節(jié)數(shù)據(jù)向量。構(gòu)建云動態(tài)數(shù)據(jù)采集模型,運用聯(lián)合特征信息增益提取方法。引入了一個云存儲管理因子Ts?(0,0.5),假設(shè)被處理云采集數(shù)據(jù)是可分類的。那么在采集數(shù)據(jù)集合S。當Ts?S,AJ?A條件成立時,大數(shù)據(jù)信息系統(tǒng)狀態(tài)相應(yīng)函數(shù)表達式見式(12)

(12)
式中:ai表示為大數(shù)據(jù)信息系統(tǒng)的個數(shù)。
根據(jù)通信理論中頻分復(fù)用理論,得到大數(shù)據(jù)頻率與行為關(guān)系,常用多普勒效用表示,多普勒頻移用公式描述為[8]

(13)
式中,yb表示通信接收端檢測到的發(fā)射頻率變化量;y0表示通信站發(fā)射端的載波頻率;z表示通信基站發(fā)射端的載波頻率;w表示傳輸功率[9]。
在此基礎(chǔ)上,構(gòu)建分布式云存儲基礎(chǔ)模型表示為

(14)
通過上述設(shè)計,得到分布式云存儲基礎(chǔ)模型,確保大數(shù)據(jù)傳輸存儲過程中每條數(shù)據(jù)能夠獨立存在。為提高分布式大數(shù)據(jù)存儲效率對冗余數(shù)據(jù)進行分類。
冗余數(shù)據(jù)會嚴重影響正常數(shù)據(jù)的存儲,因此需要對冗余數(shù)據(jù)分類處理。數(shù)據(jù)在搜集時會出現(xiàn)網(wǎng)絡(luò)遲延,因此采用局部特性分析方法,依據(jù)冗余數(shù)據(jù)的特性以及相鄰領(lǐng)域的數(shù)據(jù)特征值進行對比,以體現(xiàn)冗余數(shù)據(jù)的特征。密度演化的分布式大數(shù)據(jù)云存儲冗余數(shù)據(jù)分配流程圖見圖1。

圖1 冗余數(shù)據(jù)分配流程圖
采用最優(yōu)分類操作,把冗余數(shù)據(jù)分類問題轉(zhuǎn)變成最優(yōu)平面求解的問題

(15)
式中:R(β)表示第二次判別函數(shù),Z表示分類閾值,Zj以及Zk分別表示yj和yk兩個向量的分類閾值β描述為權(quán)重向量,p表示最大向量,yj·yk為兩個向量的標量積,βj描述的是yj向量的權(quán)重,βk描述的是yk向量的權(quán)重,最優(yōu)分類平面求解須滿足以下要求

(16)
假設(shè)分布式大數(shù)據(jù)云存儲中的冗余數(shù)據(jù)內(nèi)的特征產(chǎn)生為非線性轉(zhuǎn)換,那就要使用內(nèi)積L(yj,yk)替換最優(yōu)分類函數(shù)內(nèi)的標量積。最優(yōu)分類平面求解問題可以得出

(17)
式中,c′表示為分類別屬性;g(y)表示為最優(yōu)分類函數(shù)。該函數(shù)可以獲取密度演化分布式大數(shù)據(jù)云存儲中冗余數(shù)據(jù)片段,分類出冗余數(shù)據(jù)并將其濾除[10]。
在上述得出分布式云存儲基礎(chǔ)框架、實現(xiàn)冗余數(shù)據(jù)分配的基礎(chǔ)上,完成密度演化下大數(shù)據(jù)云存儲方法的實現(xiàn),傳統(tǒng)數(shù)據(jù)存儲算法采用能量譜密度函數(shù),但是該方法造成存儲系統(tǒng)中存在較多干擾數(shù)據(jù),存儲效率地下。對此本文構(gòu)建以數(shù)據(jù)特征壓縮與密度演化相結(jié)合的云存儲方法[11]。利用匹配濾波器檢測方法對大數(shù)據(jù)進行預(yù)處理,以特征預(yù)處理結(jié)果作為為輸出向量,減少冗余信息,同時為降低存儲成本,利用數(shù)據(jù)特征壓縮對數(shù)據(jù)進行信息降維融合,進行壓縮頻率普的聯(lián)合特征識別,讓其檢驗統(tǒng)計量見式(18)

(18)
式中,M表示為云存儲節(jié)點的采樣點數(shù)。其中局部性交叉項信息鏈描述為

(19)
式中,Cb為傳輸調(diào)度中產(chǎn)生的異常數(shù)據(jù)個數(shù);T為傳輸調(diào)度產(chǎn)生異常數(shù)據(jù)的時間。f(x)為大數(shù)據(jù)分布式頻譜感知的聚類中心,其公式可以表示為
f(x)=ωe-ωx
(20)
式中:ω表示為頻譜感知系數(shù),e表示為功率譜密度,頻譜感知節(jié)點u的競爭集的定義見式(21)

(21)
通過式(21)產(chǎn)生出的云滴分區(qū)區(qū)域,構(gòu)建模糊隸屬函數(shù),多源節(jié)點中形成新的映射

(22)
把文件塊和文件塊的標簽信息關(guān)聯(lián)到S-Table上。設(shè)計密度演化特這壓縮能量檢測器,如圖2所示。此時,節(jié)點發(fā)送數(shù)據(jù)融合中心的概率為

圖2 大數(shù)據(jù)特征壓縮能量檢測器

(23)
式中,?表示為中心數(shù)據(jù)集。
基于上訴二元假設(shè)模型,構(gòu)建的檢驗統(tǒng)計量且服從漸進的正態(tài)分布,通過能量檢測和判決,實現(xiàn)大數(shù)據(jù)的云存儲數(shù)據(jù)壓縮[12]。
與此同時通過構(gòu)建分布式數(shù)據(jù)集數(shù)實現(xiàn)大數(shù)據(jù)聚集,減少云存儲冗余數(shù)據(jù)。通過特征壓縮,得到大數(shù)據(jù)的分布式云存儲壓縮特征識別的虛警概率和檢測概率分別表示

(24)

(25)
式中,N表示大數(shù)據(jù)虛警的統(tǒng)計總合;Pfi表示接受信號的時段數(shù),Pdi表示大數(shù)據(jù)的配置參數(shù)。
將云存儲中的大數(shù)據(jù)特征核函數(shù)描述為

(26)
式中,z表示為云存儲中的數(shù)據(jù)集;τ表示為云存儲所需的時間。以動態(tài)頻譜接入的認知技術(shù)為基礎(chǔ),得到大數(shù)據(jù)的變化特征識別數(shù)學(xué)模型表示為

(27)
對于兩個標量時間序列y1和y2,其聯(lián)合概率函數(shù)為f(y1,y2),計算大數(shù)據(jù)簇內(nèi)的灰度相關(guān)特征,中心節(jié)點點增加功率來發(fā)送信標信息,將大數(shù)據(jù)庫的灰度相關(guān)特征切分為若干數(shù)據(jù)塊Chunk,由此實現(xiàn)了大數(shù)據(jù)分布式云存儲。
為驗證提出的大數(shù)據(jù)分布式云存儲方法的有效性,設(shè)計仿真。實驗采用MATLAB2011a版本作為仿真平臺,在該軟件中接入Hadoop云平臺,并在Hadoop云平臺上搭建分布式數(shù)據(jù)庫系統(tǒng)。在oracle數(shù)據(jù)庫內(nèi)選取100組數(shù)據(jù)作為實驗對象,每組數(shù)據(jù)包含25個數(shù)據(jù)節(jié)點,每個數(shù)據(jù)節(jié)點占據(jù)4個字節(jié),平均分布在200*200MB的分布式網(wǎng)絡(luò)中。
采用文獻[2]、文獻[3]方法作為實驗對照方法,使用相同實驗環(huán)境進行仿真。分別采用三種方法對冗余數(shù)據(jù)分類,得到冗余數(shù)據(jù)分類準確率對比結(jié)果如圖3所示。

圖3 冗余數(shù)據(jù)分配準確率對比圖
根據(jù)圖3可以看出中,采用文獻[2]方法對分布式大數(shù)據(jù)中的冗余數(shù)據(jù)分類,得到分類準確率平均值為78%,采用文獻[3]方法得到的分類準確率平均值為83%,準確率均較低。而采用本文方法得到的分類準確率平均值達到了98%,通過上述分析可知,本文方法能夠有效分類分布式大數(shù)據(jù)中存在的冗余數(shù)據(jù),節(jié)省存儲空間。
在此基礎(chǔ)上,驗證三種方法的耗能及耗時情況,對比結(jié)果如圖4、圖5所示:

圖4 分布式大數(shù)據(jù)云存儲耗時對比圖

圖5 分布式大數(shù)據(jù)云存儲耗能對比圖
通過圖4可知,在相同數(shù)量的分布式大數(shù)據(jù)中,采用文獻[2]方法存儲大數(shù)據(jù)的時間最長,其次為文獻[3]方法,本文方法耗時最小,在15s內(nèi)就能夠完成100組數(shù)據(jù)的存儲過程。
通過圖5可以看出,在同樣的實驗環(huán)境下,文獻[2]方法耗能為80Byte,文獻[3]方法耗能為85Byte,本文方法則耗能最低,為30Byte。綜合圖4、圖5能夠得出,采用本文方法存儲分布式大數(shù)據(jù)的耗時短、耗能低,有著較高的存儲效率。
日益增長的云存儲需求是現(xiàn)階段較難解決的問題,同時這也給社會提供了突破創(chuàng)新的路徑,通過密度演化能夠確定數(shù)據(jù)在存儲過程中存在的冗余信息,通過合理的分配手段,減低冗余部分對云存儲的印象,提升整體存儲效率。分布式存儲結(jié)果又可以幫助大數(shù)據(jù)完成冗余數(shù)據(jù)分配,最大程度的提升云存儲整體效率和精準度。在仿真中得出,本文所提方法能夠優(yōu)秀完成大數(shù)據(jù)存儲任務(wù),并且減低的冗余數(shù)據(jù)和提升數(shù)據(jù)分配精準度,為社會日益增長的大數(shù)據(jù)提供的長遠的存儲方法,適用于各個領(lǐng)域中,可廣泛運用在現(xiàn)實生活中。
同時,實驗證明本文方法雖然能夠減少冗余信息,提升了方法效率,但是卻不能夠完全的杜絕冗余數(shù)據(jù)的產(chǎn)生,那么接下來的研究方法就是如何通過使冗余降低至最小,甚至是可以忽略不計的程度,使得可以不計算冗余分配,由此減少方法步驟,在最大程度上提升方法的運行效率,以便更好的運行在現(xiàn)實環(huán)境中。