甯佐斌,陽廣元
(西南民族大學,四川 成都 610041)
諸如網絡搜索、電子郵件、微博共享以及視頻上傳等新數據,正以指數倍級別的速度迅速增長,如何便捷、穩定地完成數據存儲,日益成為各相關領域的熱點研究問題之一。當前存儲形式效率低、穩定性差,無法滿足越來越高的用戶需求,故高效智能、穩定安全的云存儲[1]形式應運而生,作為從云計算概念[2]引申、發展出來的新型策略,云存儲技術的核心理念是利用分布式系統、網絡以及集群等多項技術,集合分布在網絡里不同方位的多類型存儲設備,采用軟件管理手段令存儲設備共同完成業務訪問、數據存儲等任務。簡而言之,云存儲就是把用戶存儲的數據緩存在云端里,讓用戶能夠在云端任意存取數據,但實現的前提條件是將云端與用戶的聯網設備連接起來。
綜上所述,本文對非結構化大數據云存儲穩定性優化評定展開研究,通過最小化home節點與系統中所有節點的總距離差值,最小化非結構化大數據的存儲能量消耗,使云存儲系統運行更加平穩;優化云存儲系統中所有子區域的內部存儲,提升云存儲穩定性;利用粒度率控制數據彈性,降低存儲空間占用率,提升存儲穩定性與流暢度。
為優化非結構化大數據云存儲的穩定性,分別從并行處理與安全容錯兩個方面進行提升。
假設home節點的坐標方位為(x,y),在非結構化大數據云存儲系統中隨機選取一個節點,其二維坐標為(xi,yi),網絡分布圓形范圍的半徑是R,通過最小化home節點與系統中所有節點的總距離D(x,y)差值,來最小化非結構化大數據的存儲能量消耗,使云存儲系統運行更加平穩。則home節點與系統中所有節點的總距離D(x,y)表達式如下所示

(1)
將第i環的活動時間設定為ti,云存儲系統在該時段中把所有生成的大數據傳輸至第i環中的任意節點上,完成存儲操作。假定活動環以外Ci中存在任意節點n1與n2,當其中一個節點發現有數據需要存儲時,該節點將沿著系統中心與自身的連線軌跡,將大數據傳輸至當前活動環內,當數據包在活動環中與任意節點n3或者n4相遇后,云存儲操作才得以實現,數學描述如下列表達式

(2)

云存儲系統中大數據存儲位置的發生概率具有均等性,故大數據在ti時段中能夠被均勻儲存于活動環中的每個節點上。
根據環的大數據存儲協議,云存儲系統的節點狀態僅含有非活動與活動狀態,所以,可利用此狀態組成存儲能量消耗,不同消耗能量的計算方法描述如下:
1)若i-1,…,2,1環屬于活動狀態,環i將為活動狀態的環提供存儲與查詢信息,假定(t1+t2+…+ti-1)為環i輸送查詢與存儲信息所用的時間總和,那么,環i輸送信息過程中所消耗的能量計算公式如下所示

(3)
式中,Er為i環映射至活動環中的存儲與查詢軌跡,Es為非結構化大數據進行云存儲時的映射弧長。
2)下列表達式為環i屬于非活動狀態時的總消耗能量計算公式
Ei_inactive=Ei_1+Ei_3
(4)
式中,Ei_3為各節點的初始能量。
3)若環i為活動狀態,則云存儲消耗能量的計算公式如下所示

(5)
式中,Si為云存儲系統的平均密度,S為環寬度。
4)下列表達式為求解環i處于活動狀態下的整體消耗能量計算公式

(6)

(7)
將優化核心設定為上式得到的云存儲環活動時間,根據內部節點、邊界節點的編號順序,完成所有區域云存儲平衡函數的并行架構,表達式如下所示

(8)
式中,x1、xB分別是云存儲系統內部節點與邊界節點的相應位移,P1、PB分別為各節點對應的外部荷載矢量,kH、kIB、kBI以及kBB分別表示系統剛度矩陣[3]分塊矩陣則。
通過縮聚上式所有子區域,可并行去除云存儲系統內部的自由度[4],構建僅存有邊界自由度未知量的界面函數方程,如下所示

(9)

根據解得的節點邊界自由度,采用下列表達式完成云存儲系統中所有子區域的內部存儲優化,提升云存儲穩定性

(10)

依據非結構化大數據的存儲形式,制定以下約束條件,進一步優化云存儲系統的穩定性:
1)令整個數據存儲中的數據流動性呈透明狀態,即最終數據存儲節點不關注中間數據傳輸鏈路,將云特性賦予整個中間鏈路;
2)非結構化大數據網絡中沒有固定的控制中心,所以,只有經過數據庫檢索,才能完成數據調度時的傳輸與存儲;
3)當數據存儲的任意中繼節點[7]失效時,均可以通過剩余中繼節點接力完成數據存儲。
綜上所述,云存儲時的數據容錯性能可以有效提升其穩定性,云存儲容錯程度的表達式如下所示

(11)
式中,c為存儲數據量,fsent(t)為傳輸映射函數。
通過上式可以看出,關于非結構化大數據的云存儲傳輸鏈路,整體的存儲容錯系數有諸多影響因素。
在存儲節點接收存儲請求后,云存儲則表現為不間斷請求狀態,利用下列各式求取存儲梯度[8]與存儲強度[9]指數,若結果符合式(17),則完成數據存儲;否則,對下列各式展開迭代操作。假設Π(x)是非結構化大數據的利用概率,且利用概率期望值EΠ(x)與彈性期望值E[T(x)]互為倒數,則

(12)
式中,λ為服從指數。若得到的期望值是負數,則存儲擁塞與流程程度呈負相關,繼續進行存儲;若得到的是正數,控制存儲質量,通過調控數據粒度提升穩定性。
由于流暢度與期望值呈反函數關系,故利用粒度率p控制數據彈性,降低存儲空間占用率,提升存儲穩定性與流暢度,表達式如下所示

(13)
由上式設定當前存儲接入粒度率仍為p,則下一時刻的數據彈性應符合下列等式關系

(14)
非結構化大數據云存儲的點帶寬具有一定的限制性,存儲梯度能夠高效覆蓋數據彈性[10],因此,與隨機時刻Δt對應的覆蓋關系需符合下列等式關系

(15)
由上式推導出云存儲強度指數Δλ應滿足的等式

(16)
結合上列兩式,令大數據存儲梯度與彈性滿足下列表達式,完成數據云存儲與穩定性優化

(17)
為有效評定本文方法的優化效果,共設定三個實驗環境,基于不同環境的相同條件,將云存儲吞吐量、丟包率與平均占用率作為穩定性優化的評定指標,展開優化前與優化后的效果評定仿真。模擬環境的具體情況如下表1所示。

表1 模擬環境具體設定情況
上表1中的低優先級樣本權重與高優先級樣本權重分別呈1到2與3到5的均勻分布。
假設最后狀態概率ρm+N表示丟包率,則丟包率D與吞吐量γ的表達式分別如下所示:

(18)
γ=λ1(1-D)
(19)
根據狀態概率推導出下列平均占用率ν的表達式:

(20)
通過篩選處理10組實驗數據,得到在同一請求到達率下的均值。圖1所示為不同實驗環境下,基于吞吐量的本文方法優化前后效果。

圖1 基于環境1的優化前后吞吐量曲線圖
從圖1可以看出,當非結構化大數據的用戶初始優先級較低時,優化前后差異不太明顯,但由于對home節點與系統中所有節點的總距離差值做了最小化處理,所以,經本文方法優化后的云存儲吞吐量性能仍略有提升。
從圖2中曲線走勢可知,在吞吐量到達峰值前,優化前后無明顯差異,但當請求到達率增加至2400左右時,優化前后的吞吐量值開始出現差別,由于構建了不同活動狀態下的消耗能量計算形式,故優化后的吞吐量值始終處于較高位置,在請求到達率約為5600時,優化前吞吐量值呈下降趨勢,而優化后吞吐量值則在請求到達率是6300左右時才開始下降,且降幅相對平緩。
這話對何北來說還是比較有效的,何守四給了他一套房單住,他有條件跟老爸保持一定的空間距離,盡量不讓老爸惦記他,想起他,至于誰吃他老爸他不管,但他最怕最煩老爸數叨他。聽了何西這話,他決心保守這秘密了。可懷里揣著這么大的秘密不告訴個人,他有點寢食難安。所以,從醫院出來,他開車把何西在家門口放下,第一件事他就是給唐嬌打電話,把這事傳了出去,才踏實下來。

圖2 基于環境2的優化前后吞吐量曲線圖
根據圖3所示的優化前后吞吐量曲線圖,發現出現差異的請求到達率值并沒有發生太大變化,仍為2400左右,且優化前吞吐量的下降點仍是5600請求到達率,但降幅有明顯增加,而經過本文方法優化的吞吐量指標因并行架構了所有區域云存儲平衡函數,故在請求到達率約為7800時才呈現下降趨勢,且降幅相對平緩。這說明當初始優先級較高時,本文方法的吞吐量展現出了更強的優勢。

圖3 基于環境3的優化前后吞吐量曲線圖
基于不同環境的相同條件,優化前后的丟包率實驗結果分別如圖4所示。


圖4 優化前后丟包率實驗結果
從圖4(a)中的曲線走勢與吞吐量的初始優先級較低情況相似,優化前后無太大差異性,但因為縮聚了云存儲的所有子區域,去除了內部的自由度,經本文方法優化后的云存儲丟包率性能仍略有提升;根據圖4(b)所示,在丟包率突增前優化前后的丟包率均小于0.05,當請求到達率約為2400時,優化前丟包率增至0.05,并呈不斷上升趨勢,而在請求到達率約為5600時,經本文方法優化的丟包率才剛增加到0.05,盡管隨著請求到達率的增加,兩種趨勢均在升高,但優化后的丟包率一直低于優化前數值,且增幅比較緩慢;通過圖4(c)可知,在請求到達率為2400左右時,兩種丟包率數據均大于0.05,隨著請求到達率的不斷遞增,優化后丟包率一直高于優化前數據,這說明當初始優先級較高時,可以通過放棄丟包率指標來保證云存儲的穩定性。
在相同條件下的三個不同預設環境中,模擬優化前后的平均占用率性能,實驗結果如圖5所示。


圖5 優化前后平均占用率實驗結果
從圖5(a)中曲線走勢可知,初始優先級較低情況下的優化前后平均占用率差異較小,無明顯區別;根據圖5(b)可以看出,請求到達率2900為平均占用率指標的拐點,兩趨勢均呈線性增長趨勢,隨著請求到達率的繼續增長,優化前后的平均占用率逐漸拉開差距,后者因提升了大數據的云存儲容錯性能,故表現出顯著的優越性;通過圖5(c)能夠發現,該環境下的優化后平均占用率較環境2更低,在請求到達率還未到達2900時,優化后趨勢就已經趨于平穩,且始終大幅度低于優化前平均占用率。
社會信息量的暴漲令存儲量需求越來越高,這為云存儲發展提供了一定的契機,使其演變為最快被接受的云服務形式之一,用戶范圍也從最初的互聯網相關行業逐漸擴展至企業機構、個人用戶等多種領域,服務規模的與日俱增為云存儲系統的運營與維護帶來了諸多挑戰性問題,比如存儲費用、存儲安全性與穩定性等,因此,本文以非結構化大數據為背景,提出一種云存儲穩定性優化方法,并對其展開評定。由于個人水平與研究條件存在局限性,故本文方法還有許多地方有待改進,并將以下方面作為后期工作的研究方向與重點:并行處理優化方法中的集群主節點僅有一個,若主節點發生異常,則云存儲整個系統都將停止運行,故需要在所有節點上賦予主節點功能,并根據集群動態選取主節點;擴展穩定性優化切入點,積極探索可以進一步提升穩定性的其它方向;從非結構化大數據云存儲平臺向更多云存儲平臺延伸,并在真正的云存儲環境中進行實踐。