王瀟+康曉梅

摘 要:云計算技術(shù)為海量數(shù)據(jù)安全存儲、高效處理與傳輸提供有效支撐,但也因?yàn)榉植即鎯χ袛?shù)據(jù)管理及組織技術(shù)水平的限制,會引發(fā)大量的數(shù)據(jù)丟失或錯誤,致使數(shù)據(jù)失效問題頻發(fā)。針對此,文章以云計算分布存儲技術(shù)的基本構(gòu)成為切入點(diǎn),從多角度分析分布存儲技術(shù)問題,并就關(guān)鍵技術(shù)應(yīng)用進(jìn)行系統(tǒng)闡述。
關(guān)鍵詞:云計算;分布存儲技術(shù);服務(wù)器;交換機(jī)
云計算作為大量數(shù)據(jù)存儲、計算和處理的商業(yè)計算模型,其最大的優(yōu)勢是改變了本地計算的模式,轉(zhuǎn)而依賴互聯(lián)網(wǎng),其將多個普通機(jī)器和網(wǎng)絡(luò)設(shè)備構(gòu)建成為一個海量數(shù)據(jù)存儲的中心,從而為上層應(yīng)用和服務(wù)提供更為全面的數(shù)據(jù)處理、存儲服務(wù)。數(shù)據(jù)中心是云計算的核心構(gòu)成。因此,云計算環(huán)境下的分布存儲技術(shù)主要是對數(shù)據(jù)中心上的數(shù)據(jù)管理及組織技術(shù)的研究,但是該種技術(shù)自身水平有所限制,加之?dāng)?shù)據(jù)中心一般是由百萬級以上節(jié)點(diǎn)構(gòu)成,海量的數(shù)據(jù)存儲規(guī)??赡苓_(dá)到PB級,甚至是EB級別,很可能發(fā)生數(shù)據(jù)丟失或錯誤,數(shù)據(jù)失效問題已然成為云計算分布存儲技術(shù)應(yīng)用的主要難題。基于此,本文將就云計算分布存儲技術(shù)的基本構(gòu)成、現(xiàn)存問題及關(guān)鍵技術(shù)進(jìn)行細(xì)化分析,以為相關(guān)研究提供有效支撐。
1 云計算環(huán)境下數(shù)據(jù)分布存儲技術(shù)的基本構(gòu)成
1.1 以服務(wù)器為中心的結(jié)構(gòu)
以服務(wù)器為中心的結(jié)構(gòu),將負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)發(fā)的交換機(jī)和路由器去除,由服務(wù)器負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)發(fā)任務(wù)[1]。以服務(wù)器為中心的結(jié)構(gòu)和線路連接較為簡單,雖然存在較高的鏈路冗余,但省去了交換機(jī),可以規(guī)避樹形結(jié)構(gòu)中單點(diǎn)瓶頸問題[2],由此,服務(wù)器便可與網(wǎng)絡(luò)底層直接交互,上層應(yīng)用可以結(jié)合需求開發(fā)效率更高、可靠性更好的路由算法。然而,因?yàn)榉?wù)器要負(fù)責(zé)所有數(shù)據(jù)的轉(zhuǎn)發(fā),勢必會占用服務(wù)器的部分計算資源,增加服務(wù)器的負(fù)載壓力,從而極大地降低了服務(wù)器的運(yùn)行效率,而且,安裝在服務(wù)器上的網(wǎng)絡(luò)數(shù)據(jù)有限,通常情況下限定為兩個網(wǎng)卡,每個網(wǎng)絡(luò)配備6個端口,這就限制了數(shù)據(jù)中心上的節(jié)點(diǎn)數(shù)據(jù)規(guī)模,影響系統(tǒng)設(shè)備的數(shù)據(jù)存儲和處理性能。
1.2 以交換機(jī)為中心的結(jié)構(gòu)
以交換機(jī)為中心的結(jié)構(gòu),交換機(jī)承擔(dān)數(shù)據(jù)包的轉(zhuǎn)發(fā)任務(wù),數(shù)據(jù)的存儲及處理由服務(wù)器負(fù)責(zé),其以樹形結(jié)構(gòu)為主,但也存在鏈路寬帶有限、靈活性差、交換機(jī)資源浪費(fèi)嚴(yán)重、通信需求無法滿足等諸多問題。為此,目前多采用改進(jìn)的樹形結(jié)構(gòu),以微軟提出的VL2樹形結(jié)構(gòu)為例,其將傳統(tǒng)樹形結(jié)構(gòu)予以拓展,將核心層和聚合層的交換機(jī)連接形成Close網(wǎng)絡(luò)結(jié)構(gòu),避免了核心層交換機(jī)數(shù)量限制、海量數(shù)據(jù)轉(zhuǎn)發(fā)引發(fā)的寬帶瓶頸問題,拓?fù)浣Y(jié)構(gòu)如圖1所示。而且,其還選用扁平式的編址方式,將主機(jī)的定位與應(yīng)用地址通過名稱予以分離,系統(tǒng)運(yùn)行時,可以名稱的形式將服務(wù)與應(yīng)用部署在數(shù)據(jù)中心的任何位置,而真正的服務(wù)器IP地址則可利用映射方式得到,資源利用率得以提升[3],但也存在缺陷,各個機(jī)架交換機(jī)與聚合層交換機(jī)只有兩條10 Gig的上行端口,若應(yīng)用對吞吐率要求較嚴(yán)格,則鏈路寬帶性能瓶頸將隨著機(jī)架中主機(jī)數(shù)量的激增而重現(xiàn)。
2 云計算環(huán)境下數(shù)據(jù)分布存儲技術(shù)問題
2.1 容錯性問題
容錯性問題是分布存儲技術(shù)應(yīng)用最常見的問題,利用相關(guān)的磁盤陣列(Redundant Arrays of Independent Disks,RAID)技術(shù)、專業(yè)化的存儲裝置、高性能服務(wù)器等可以解決這一問題。但是隨著網(wǎng)絡(luò)數(shù)據(jù)的存儲量和處理量迅速增加,數(shù)據(jù)中心的存儲節(jié)點(diǎn)數(shù)急劇上升,又由于數(shù)據(jù)管理或組織技術(shù)水平的限制,可能導(dǎo)致數(shù)據(jù)丟失或數(shù)據(jù)錯誤問題頻發(fā),如若不能及時解決該種容錯性問題,不僅會降低數(shù)據(jù)分布存儲技術(shù)的應(yīng)用效率,還可能給用戶造成巨大經(jīng)濟(jì)損失,為此,容錯性問題的解決迫在眉睫,其是推進(jìn)云計算技術(shù)在多領(lǐng)域應(yīng)用和發(fā)展的基礎(chǔ)和條件。
2.2 可擴(kuò)展性問題
擴(kuò)展性是確保數(shù)據(jù)存儲和高效處理的必要前提,以往,擴(kuò)展性問題都是通過預(yù)留冗余磁盤來解決的,該種方法雖可在一定程度上提升磁盤容量空間,但尚無法應(yīng)對海量數(shù)據(jù)存儲的問題。根據(jù)調(diào)查研究,系統(tǒng)運(yùn)行中,因擴(kuò)展性造成的數(shù)據(jù)失效。已經(jīng)成為一種常態(tài),且在采集ER級數(shù)據(jù)時,每間隔6個小時,就會有一個磁盤發(fā)生數(shù)據(jù)丟失或失效問題,影響數(shù)據(jù)采集工作的正常運(yùn)行,降低了數(shù)據(jù)采集的準(zhǔn)確率,最終可能導(dǎo)致巨大的經(jīng)濟(jì)損失。針對此,在數(shù)據(jù)達(dá)到EB級或更高級別時,以磁盤冗余空間的預(yù)留方式并不能從根本上解決擴(kuò)展性問題,需要借助新的技術(shù)尋求解決方法。
2.3 成本控制問題
以往的數(shù)據(jù)分布存儲結(jié)構(gòu)下,數(shù)據(jù)規(guī)模和節(jié)點(diǎn)數(shù)量都較小,在對數(shù)據(jù)存儲、處理中,其能耗需求不高,多數(shù)設(shè)備無需進(jìn)行降溫或散射處理,而隨著云計算在海量信息存儲和處理中的深化應(yīng)用,分布存儲的數(shù)據(jù)規(guī)模增加,對于能耗的需求較高,且制冷設(shè)備的能耗應(yīng)該包含其中,在系統(tǒng)不間斷運(yùn)行狀態(tài)下,能耗成為數(shù)據(jù)中心存儲開銷中的關(guān)鍵內(nèi)容,根據(jù)美國的調(diào)查研究,2010—2017年,數(shù)據(jù)中心的能耗翻了幾倍,兩年間一臺服務(wù)器的能耗與硬件成本基本等同,如此,分布存儲技術(shù)的運(yùn)行成本將升高,而精準(zhǔn)計算EB級或更高級別數(shù)據(jù)可以有效降低能耗,控制數(shù)據(jù)中心的成本。
3 云計算環(huán)境下數(shù)據(jù)分布存儲技術(shù)
3.1 數(shù)據(jù)容錯技術(shù)
數(shù)據(jù)容錯技術(shù)是通過數(shù)據(jù)冗余的增加來完成的,如此即使在部分?jǐn)?shù)據(jù)出現(xiàn)丟失或失效時也能利用冗余數(shù)據(jù)的訪問滿足應(yīng)用需求,該冗余可顯著提升容錯性,但也消耗了大量的存儲資源,為此,在提升系統(tǒng)容錯性時,應(yīng)該最大限度利用存儲資源,以控制成本。容錯技術(shù)存在基于復(fù)制和基于糾刪碼兩種,基于復(fù)制的容錯技術(shù)可操作性強(qiáng)、部署簡單,但每個數(shù)據(jù)對象均需要配置數(shù)個大小等同的副本,會增加存儲空間,基于糾刪碼的容錯技術(shù)可將若干數(shù)據(jù)塊的信息融入較少的冗余信息中,降低了存儲空間,但需單獨(dú)進(jìn)行編碼和解碼操作以完成數(shù)據(jù)的讀寫操作[4],這將增加計算開銷,兩種容錯技術(shù)相比,基于復(fù)制的容錯技術(shù)可通過副本的下載完成修復(fù),而基于糾刪碼的容錯技術(shù)修復(fù)過程中需下載的數(shù)據(jù)比失效數(shù)據(jù)要大,修復(fù)成本較高。endprint
3.2 節(jié)能技術(shù)
云計算環(huán)境下分布存儲的數(shù)據(jù)中心規(guī)模巨大,增加了分布存儲的硬件設(shè)施、IT設(shè)備及制冷設(shè)備的電能消耗,能耗的增加不僅提升系統(tǒng)運(yùn)行成本,而且加劇了“溫室效應(yīng)”。數(shù)據(jù)分布存儲能耗在云計算中占據(jù)較大比例,尤其大規(guī)模數(shù)據(jù)中心上的存儲系統(tǒng)能耗更是占據(jù)整體能耗的30%~40%,目前常用的能耗模型為比例模型、兩端模型,兩者計算機(jī)能耗歸類為固定及可變能耗兩類,機(jī)械驅(qū)動、風(fēng)扇、二極管等為固定能耗,而隨CPU增加的運(yùn)行能耗為可變能耗,但兩端模型將計算機(jī)空閑時的能耗也計入系統(tǒng)能耗之中,精準(zhǔn)性更好,其發(fā)現(xiàn)計算機(jī)空閑狀態(tài)下的技術(shù)并不能去除無用能耗,而動態(tài)的機(jī)器啟動和掛起技術(shù)可通過動態(tài)控制的方法在無任務(wù)狀態(tài)下關(guān)閉節(jié)點(diǎn)上的部分組件,從而實(shí)現(xiàn)降低能耗的目的。
4 結(jié)語
云計算是利用網(wǎng)絡(luò)將集成海量數(shù)據(jù)的計算處理程序分解為相對小的子程序,而后再交由不同服務(wù)器構(gòu)成的數(shù)據(jù)中心進(jìn)行數(shù)據(jù)計算、處理和存儲,而分布存儲技術(shù)是支撐數(shù)據(jù)中心運(yùn)行的關(guān)鍵,其在應(yīng)用中面臨著數(shù)據(jù)管理及組織技術(shù)的局限性,致使數(shù)據(jù)失效問題頻發(fā),為此,提升擴(kuò)展性、容錯性,降低成本成為云計算環(huán)境下分布存儲技術(shù)應(yīng)用的主要目標(biāo)。本文將以此為基點(diǎn)就相關(guān)問題及關(guān)鍵技術(shù)進(jìn)行分析,以期為云分布存儲技術(shù)的數(shù)據(jù)中心結(jié)構(gòu)設(shè)計及數(shù)據(jù)存儲方式提供有效支撐。
[參考文獻(xiàn)]
[1]楊學(xué)林.云計算環(huán)境下三維海量激光掃描數(shù)據(jù)的分布存儲技術(shù)研究[J].激光雜志,2017(7):171-175.
[2]張玉梅.基于云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)探析[J].科技創(chuàng)新與應(yīng)用,2017(19):43-44.
[3]田洪亮,張勇,李超,等.云環(huán)境下數(shù)據(jù)庫機(jī)密性保護(hù)技術(shù)研究綜述[J].計算機(jī)學(xué)報,2017(10):2245-2270.
[4]程慶年.基于云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J].通訊世界,2017(3):71-72.
Abstract:Cloud computing technology provides effective support for mass data storage, efficient handling and transmission, however, because of the limitation of data management and organizational technology in distributed storage, it may lead to a lot of data missing or incorrect data, resulting in frequent failures. For this, this article takes the basic structure of cloud computing distributed storage technology as the starting point, analyzes distributed storage technology from multiple perspectives, and systematically expounded the application of key technologies.
Key words:cloud computing; distributed storage technology; servers; switchesendprint