999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Ceph的分布式異構存儲系統數據處理優化研究

2021-03-08 01:38:24陳曉丹龐雙龍曾德生邵翠
電子技術與軟件工程 2021年23期
關鍵詞:系統

陳曉丹 龐雙龍 曾德生 邵翠

(廣東創新科技職業學院 廣東省東莞市 523960)

近年來,互聯網行業逐漸產生了大量的數據,人們對于計算性能與存儲性能要求不斷提高。各界學者面臨著如何設計低成本的存儲系統應對數據爆炸問題。傳統的集中系統屬于常用的儲存數據的方法,只是單純的將計算與存儲集中在一起,受到CPU與存儲介質發展速度的限制,并不能滿足數據增長的速度,為此需要分散多臺主機,進而實現分布式計算與存儲。但隨著科學技術的不斷進步,Ceph分布式對象儲存系統得到了廣泛應用。數據大規模增長會導致生產環境中多個集群有先后順序或功能的需求,會造成存儲異構情況。異構環境下,數據放置問題成為了當前的研究熱點,數據放置策略的不同,可積極影響系統性能與集群的負載平衡。

Ceph作為分布式對象存儲的代表,擁有很多對象存儲的有點優點,如擴展性,小文件存儲,容易維護等,Ceph利用硬件水平擴展,應用分層組織方法,支持大規模數據存儲。以往的大部分文件分布式文件系統存儲時,應用分片方式對文件進行處理,而在實際存儲的時候則需優先處理文件分片,一般借助128M、256M切分。但在對小文件進行處理的時候很容易出現空間浪費的情況,而對象存儲則可對小文件存儲的問題予以有效處理。而且Ceph無需對多余數據層次結構進行維護,僅將重點放在數據本身即可。目前,有關Ceph的研究成果較多,國外有學者對不同大小的文件使用不同的模型進行優化,也有學者對數據進行遷移,實現可編程數據存儲系統,讓用戶按照自己的需求實現負載均衡。

1 Ceph的架構與讀寫流程

Ceph的應用目的就是提高負載均衡的效率,而當前所需解決的問題就是熱點節點高于其他節點負荷。但在實際應用中,Ceph會借助偽隨算法將數據的存儲分散在集群中的所有主機扇,另外,其具有可用性,即便發生故障,也不會影響數據完整性與可訪問性。Ceph的組件包括客戶端、元數據服務器、集群監視器、對象存儲集群。所謂客戶端,具體指的就是在生產實踐中,用戶無需直接讀寫對象,而Ceph可提供三種接口,為用戶集群操作提供一定便利(如圖1)。文件系統接口(CephFS)是利用RADOS作為底層存儲的文件系統,可以兼容POSIX接口,文件系統接口適用于各類Linux系統,而CephFS會分開存儲數據與元數據,一定程度提高了程序性能與可靠性。Ceph集群的內部,文件系統接口需要借助鏈接庫對RADOS進行訪問,而底層存儲集群則需設置不少于一個節點,進而對元數據服務進程進行部署。而塊設備接口,則提供了具有可擴展性的高性能內核模塊,可利用虛擬塊設備與海量數據存儲系統實現交互。對象網關接口所提供的接口兼容了Open Stack與Amazon S3,但因S3與Swift API共享命名空間,所以一般會選用同一API寫入數據,用另外的API檢索。元數據服務器是指,在應用文件系統接口訪問底層存儲時,應用其維護Ceph文件系統的命名空間。元數據服務器內所含元數據以及相數據會在對象存儲集群內存儲,因而可拓展性十分理想。元數據服務器在實際運行的過程中,借助內部動態子樹算法即可調整系統命名空間。而集群監視器經Paxos算法處理后,可對元信息Cluster Map加以維護,在和集群監視器通信的過程中,用戶即可對集群組件具體位置加以獲取,經CRUSH算法處理后可確定對象節點位置。通過網絡提供訪問,應用對象存儲設備的CPU與內存進行復制,進而實現負載均衡、監控、恢復故障等。

圖1:Ceph提供的訪問方式

在Ceph中主要含括了對對象分布、復制、遷移實施管理的分布式對象存儲服務,其在應用智能對象存儲設備,取締了傳統的存儲。各Ceph集群均含有大量OSD,且每個對象會隨意分配至一OSD。對于讀寫而言,客戶端首先與Ceph監視器通信,在獲取集群圖像后對集群整體配置、狀態等形成一定了解,并分割存儲數據,使得所有對象均具有ID,這個ID是Ceph存儲數據時需要的邏輯分區,結合數據訪問頻率特性創建相應數據,并在存儲設備中分開存放,對象ID下,Ceph分組,放置組通過在對象之上抽象出來一層,降低數據管理難度。Ceph存儲集群是一個整體系統,在處理大量并發請求時,不會影響集群整體的性能。

通常,存儲含括了數據存儲、元數據存儲兩部分。其中,元數據即數據信息、數據大小與存放位置等,也就是存儲數據的屬性。對于出啊同分布式系統,如果添加了新的數據,那么元數據也會隨之更新,但數據存儲的物理位置會被Master節點吸入后對具體數據進行存儲,此過程的數據量只有GB/TB級別被證明具有可行性,若存儲PB或EB級別的數據,則不應該應用上述方法。實際上,此種存儲方式面臨著單點故障問題,若Master節點出現故障,則會丟失元數據,致使所有數據丟失。為此,無論是對單一Master節點副本維護,亦或是對數據和元數據整體復制均需要保證容錯性,進而規避元數據丟失。在管理元數據的過程中,也能夠有效規避存儲系統出現瓶頸而影響系統的可用性。使用Ceph存儲、管理數據的時候一般會借助CRUSH算法,此算法是智能數據分布機制,在Ceph數據存儲機制中發揮了核心作用。長期以來,存儲系統對于中心節點的依賴性較高,而將元數據亦或是索引表存放于節點之上,即可實現管理存儲系統的目的。較之于傳統系統,Ceph在數據計算中會選擇CRUSH算法以確定數據位置,消除了存儲元數據的限制條件,在需要時執行CRUSH算法,可以快速應用此種方法進行查找。實際上,CRUSH算法屬于偽隨機算法,在多參數哈希算法的幫助下即可獲得映射關系的輸出結果,但受算法特殊性影響,對象與存儲設備間的映射關系并非顯式相關。而用戶則能夠對分布情況進行自定義,以及制定數據放置策略。

Map Reduce是編程模型,因而對于節點處理數據的計算量較大,結合拓撲結構可將節點細化成集群和網格兩種。其中,集群指的就是節點硬件配置類似的共享局域網,而網格指的則是節點硬件配置異構差異,分布于不同的位置,在對Map Reduce核心思想進行分析的過程中,可實現結構化數據、非結構化數據向鍵值對的轉化,然后對其進行合并,具有將數據本地化的優勢,且可減少通信開銷問題。Map Reduce在提交任務時,要對任務配置文件進行切分,之后將其拷貝到分布式存儲集群中,按照Map階段,Shuffle階段與Reduce階段對數據進行存儲。Map Reduce一般可在大規模離線批處理任務(科學計算、排序等)時運用,但一般在較高實時性要求的計算問題中并不適用。

2 基于Ceph改進結構的設計

2.1 災備問題

既有Ceph把全部存儲設備對象當做整體系統而對外提供服務,各PG能夠結合CRUSH Map內buket類型劃分,而主要級別包括主機、機架和機柜。生產實踐中,僅借助此機制很難對災備問題加以解決,僅可確保單集群內故障所致數據丟失,一旦集群整體出現故障,系統的可用性則無法得到保障。目前階段,很多企業在分布式系統內開始引入異地多活技術,與異地容災的方法比較,其更加復雜,且對數據的同步要求更高。在對分布式一致性算法使用的過程中,即可確保系統內的部分集群處于宕機狀態下,系統能夠在短時間內做出切換并對外提供服務。即便A地區有災害,B地區同樣可提供正常服務,且無需開展更多備份恢復工作,對容災問題加以解決。此外,還能夠使集群的部署成本減少,改進原本的Ceph架構可以解決無法解決的異地容災問題。

2.2 異構系統

目前階段,絕大部分互聯網的應用規模相對較大,即便是單一數據中心,其內部的設備也存在顯著不同。在此研究中,將地理位置故障域添加至Ceph,將原本的底層存儲根據地理位置進行了劃分,使得集群間的數據傳輸網絡在延遲方面存在一定差異,容易引起網絡異構問題。較之于低延遲網絡,高延遲網絡通信會降低傳輸速率,影響整個系統性能的現象。在此狀況下,下游任務應在上游任務完成后才可執行其傳輸功能,進而形成了網絡瓶頸。除去此項因素外,OSD的計算能力也影響整個系統的性能,究其原因,各OSD計算能力存在差異,所以執行同一任務的時間開銷也必然有所區別,那么根據數據本地化的特性,對其進行處理,若計算性能強的OSD上有更多數據,同一時段內,有更強的計算能力。一旦數據比較強性能機器總容量多的情況下,則要對集群負載均衡情況加以考慮。一般來講,負載均衡的目的就是盡可能規避一臺主機訪問節點發生阻塞,為此,需要將所有數據分配到的部分高性能設備進行綜合考量,以免造成網絡擁塞。

圖2:改進Ceph的數據分配機制

2.3 性能優化的分區機制

數據放置策略有很多挑戰,如何合理放置數據減少網絡傳輸,如果在異構環境下改進數據放置策略,將自身存儲能力發揮出來,如何提升系統總體容量等問題也隨之發生。為解決上述問題,此研究提出Ceph結構優化法以及分區機制下分配數據法,在Ceph中,數據會以對象的形式存儲到RADOS中,并借助CRUSH Map對用戶自定義防治規則加以獲取,通過對CRUSH算法的使用,可保證OSD上分配的數據更加均勻。在正常運行Map Reduce時,需要綜合考慮日志以及數據預測等因素,如果計算性能不理想很容易增加任務的堆積量,致使網絡傳輸流量明顯增加,因而應用此方式進行數據放置時,就會導致APP的執行時間超出預期時間。本文優化Ceph架構,有必要將假設條件添加其中,并對各集群內計算性能、存儲容量以及網絡延遲同構做出假定,才能在改進的架構下,提出面向性能優化的分區機制,對數據進行分析,充分滿足負載均衡的條件,將APP的執行時間最小化。

2.4 數據分配機制

首先,要將被處理的數據切分,每個對象的大小為64M,數據分配機制架構圖如2所示。

對象是參數調用哈希函數,通過兩次調用操作即可對對象集群ID、各集群內輸入CRUSH算法需要的PGID成功獲取。經兩次調試即可調用CRUSH算法,并將集群ID加入其中,作為輸入參數使用,以確保PGID分發到相對應集群當中,并對對象OSD位置予以獲取。

2.5 數據備份流程

數據備份主要目的就是保證發生意外下,不會造成丟失,對于整個系統的優劣評估來說具有重要意義。Ceph支持兩種方法的備份:

(1)使用糾刪碼;

(2)傳統多副本形式。

而副本之間需借助計算方法實現數據恢復的目的,而糾刪碼與多副本機制相比較,存儲空間顯著節省,優勢顯著。但糾刪碼在數據恢復計算的過程中,要對多余計算資源進行消耗。較之于傳統Ceph,糾刪碼也可在各集群內實現不同故障域級別隔離,且系統用戶能夠結合個性化需要選擇不同的隔離方式。在跨地域級別故障域隔離方面,則要將對象所在集群分區予以刪除,并作歸一處理,充分保證對象的副本位于不同地理位置的集群,提供了完善的故障域隔離級別,提高了系統的可用性。

3 優化數據分配問題的定義和算法

3.1 模型與問題定義

根據改進的Ceph架構并結合Map Reduce計算框架,分析問題的定義,主要從四個方面進行:系統模型:集群底層的存儲模型定義,存儲系統由多個集群組成,每個集群內部有許多對象存儲設備組成,對于每個集群內部來說,存儲設備的容量不同,而對于此研究的系統模型來講,集群的連接需借助異構網絡,在數據傳輸的過程中,開銷會跟隨網絡狀況的變化而發生改變。應用模型:本文在上層計算框架方面應用的是Map Reduce,所以專門針對Map Reduce的流程進行建模,Map Reduce的工作流程可細化成三個階段:

(1)Map階段;

(2)Shuffle階段;

(3)Reduce階段。

如果完成了某一Map任務,且集群節點處有閑置資源的情況下,Shuffle階段就會及時進行網絡傳輸。此研究中為針對Shuffle階段進行模型建造,就是對系統模型中所定義的網絡傳輸開銷予以直接使用,同時啟動空閑節點部位的Reduce任務,并對函數進行調用與復制即可對不同節點Map任務輸出予以獲取,若系統有剩余空閑資源,則Map階段與Reduce階段共同執行。負載均衡約束的閾值:由于Map Reduce具有特殊性,應用數據塊代表每個對象,在Map任務開始前,切分數據對象,而Ceph在存儲數據時會將數據切塊變成對象,基于此,應該規定每個對象的大小與數據塊的大小一致,給定負載均衡約束閾值,可以調整,而系統所有者可結合以網絡條件、硬件狀況等多種因素做出決定。若全部集群內最大負載與最小負載集群間差異低于閾值,即可認定存儲系統出現相對負載均衡狀態。問題的定義:問題輸入,給定一個對象集合、一個集群,在各OSD與不同集群執行同一任務時間的情況下,集群間網絡寬帶延時,而系統所有者定義負載均衡的約束閾值。對于問題輸出,具體含括了集群內對象分布狀況、任務最終執行時間。

3.2 混合整數線性規劃算法

對于分布式異構系統而言,任務調度的作用不容小覷。目前,在研究實踐中提出了各種各樣的算法,本文利用MILP算法解決上文提出的問題。需將約束添加至Map Reduce整個過程中,而添加的內容含括Map任務的開始、執行、拷貝時間,Reduce任務開始時間與執行時間,向對象存儲設備分配對象的過程中,將約束條件確定為系統負載狀況,而負載均衡標準就是閾值。在MILP算法中所設計的約束應分為兩個不同的部分。具體MILP算法的符號定義如表1。

表1:MILP算法的符號定義

任務約束:對分布計算框架Map Reduce的流程進行梳理,對于任意一個Map 任務i,Ami,on求和,結果1,

每個Reduce任務需要被分配到一個OSD上,

在Shuffle階段,每個Map任務的中間結果被復制到Reduce任務節點的開始時間需在相應的Map任務完成時間后,

給另外一個約束,Reduce任務只能在Shuffle階段所有中間結果的復制完成后,才開始,

下面的約束要有先行的假定條件,為了簡化問題,假設每個計算節點有一個槽,只執行一個任務,在同一個OSD上先后執行兩個Map任務不可重疊,,

在同一個OSD上先后執行的兩個Reduce任務不可重疊,,

分析這兩個公式屬于非線性形式,并不能適用于混合整數線性規劃模型,為了讓這些公式變成線性形式,需要轉換約束,所以用了四個變量:x,y,p,q輔助,進而實現非線性模型向線性模型的轉化。

若Map任務i開始時間+執行時間=Map任務j的開始時間,那么mstmi+meton-mstmj=0,由此可以得到以下公式,若兩個Map任務之間沒有重疊,也就是說若下面公式同時成立,且x,y相加等于1,

xmi,mj+ymi,mj=1

Reduce任務的轉換采用方法與Map任務的轉換類似,

pri,rj+qri,rj=1

上一個小節已給出了任務部分的約束公式,由于是特定計算框架,所以Map任務的數量可以代表對象的數量,對一個OSD上的所有Map任務求和可得到:

用以下公式表示某個集群的負載情況,假定OSD上分配到的數據量是相同的,需要相除的計算方式可得到集群的負載情況。

上述公式中的T未負載均衡約束閾值,擁有最大負載與最小負載集群的偏差,且每個集群的負載情況需滿足閾值。

基于上述兩類約束條件,給出整個模型的優化目標,在Map Reduce框架中,Reduce任務要等到Map任務全部完成后執行,

在得到優化目標后,將上述約束不等式作為輸入通過lingo或gurobi等優化軟件進行求解,得出任務執行時間。

3.3 基于遺傳算法改進的數據放置算法

若對象存儲設備,集群數量多,MILP算法時間復雜度高,則需要尋找相似算法,代替最優解。遺傳算法屬于一種啟發式的近似算法,最近幾年中,有很多人通過對遺傳算法的改進,來求解任務的調度問題,遺傳算法理論基礎上,本文提出了高效的改進算法也就是DPGA算法解決定義的問題模型。隨著科學技術的不斷發展,算法不斷更迭中,應用算法獲取的所有染色體各自的適應癥,每一個染色體都代表一種方案,根據不同數據設置方案即可。

4 結束語

本文對現有的分布存儲方案與分布式計算框架的發展現狀進行了簡要分析,針對Ceph的技術細節進行介紹,包括架構,讀寫流程以及CRUSH算法,分析不足之處,提出改進的新的分布式架構,提出算法與問題的定義,對系統和應用建模,在原有的數據分配中,添加了概率表,并在構建概率表的過程中,利用了異構環境,設備的計算能力與網絡差異特點,對所面臨的數據進行建模,隨后對Map Reduce進行約束,對系統內部的集群負載進行約束,進而利用該算法求得問題的最優解。

綜上所述,本文提出的架構與算法可有效解決存儲系統異構環境下面臨的數據分配問題,在災備策略上,安全性與可用性得到了提高,Ceph作為一種去中心化的分布式對象存儲系統,具有高可用性、可擴展性、可靠性。能夠使比如Map Reduce這樣的分布式計算框架運行在其上,性能良好,

本文通過對Ceph架構的改進,對數據放置方法的優化,同時,Ceph應用CRUSH算法分配數據,有效解決了系統內部集群的負載均衡問題。對于集群內部的節點同構問題,數據分配均勻問題,存儲設備計算能力之間的差異問題等都是影響整個系統性能的因素,不同的數據放置策略嚴重影響系統整體性能。我們在改變數據放置策略后,提供系統性能,充分考慮網絡異構性,以免造成網絡擁塞。另外,對于系統高可用性方面的驗證,還需要在未來的研究中對此問題建立模型分析,上述問題,今后的研究中會加以考慮。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 欧美成人怡春院在线激情| 日本免费a视频| 中文字幕 91| 国产高清无码第一十页在线观看| 青青草国产精品久久久久| 波多野结衣AV无码久久一区| 伊人久久福利中文字幕| 国产簧片免费在线播放| 欧美成人aⅴ| 欧美性天天| 欧美日韩精品在线播放| 久久99热这里只有精品免费看| 亚洲综合婷婷激情| 亚洲欧美不卡视频| 亚洲大学生视频在线播放| 国产69精品久久久久孕妇大杂乱| WWW丫丫国产成人精品| 欧美成一级| 亚洲成a人片| 亚洲福利一区二区三区| 免费A级毛片无码无遮挡| 妇女自拍偷自拍亚洲精品| 国产免费看久久久| 黄色三级网站免费| 亚洲an第二区国产精品| 人妻中文字幕无码久久一区| 成人欧美日韩| 欧美视频在线观看第一页| 性欧美在线| 波多野结衣爽到高潮漏水大喷| 久夜色精品国产噜噜| 91丝袜乱伦| 国产97视频在线| 久热re国产手机在线观看| 精品无码一区二区三区电影| 亚洲天堂免费| 久草视频福利在线观看| 国产女人在线视频| 不卡午夜视频| 自拍偷拍欧美日韩| 国产喷水视频| 国产精品私拍在线爆乳| 99视频精品在线观看| 国产精品无码作爱| 麻豆精品国产自产在线| 亚洲欧美另类中文字幕| 免费网站成人亚洲| 亚洲高清无在码在线无弹窗| 久久综合亚洲色一区二区三区| 波多野结衣一区二区三区四区视频| 最新国产精品鲁鲁免费视频| 国产精品毛片一区| 成人福利在线视频| 97精品国产高清久久久久蜜芽| 国产一区二区三区在线观看视频 | 被公侵犯人妻少妇一区二区三区| 中文天堂在线视频| 全午夜免费一级毛片| 狠狠综合久久久久综| 丁香婷婷激情网| 亚洲精品大秀视频| 无码中文字幕加勒比高清| 高清欧美性猛交XXXX黑人猛交 | 国产激情无码一区二区免费| 久久久久亚洲AV成人人电影软件| 精品无码人妻一区二区| 国产精品手机视频一区二区| 国产玖玖玖精品视频| 国产精品免费露脸视频| 久久99国产乱子伦精品免| 91视频青青草| 国产精品99久久久久久董美香| 亚洲五月激情网| 欧美日本在线| 免费一级无码在线网站 | 日韩欧美中文字幕一本| 免费看美女自慰的网站| 国产高清在线丝袜精品一区| 婷婷六月天激情| 日本欧美午夜| 免费无码一区二区| 久久婷婷国产综合尤物精品|