業務云平臺容災策略探討

2014-09-22 07:01:55譚志遠黃巍宮云平

移動通信 2014年12期

譚志遠+黃巍+宮云平

【摘要】云資源池集中承載業務平臺實現了資源共享，降低了投資，節省了維護成本，推進了平臺的集約化維護，但同時也帶來了新的安全隱患，所有風險都將集中在云資源池，一旦云資源池出現問題，將嚴重影響其所承載的所有業務平臺的安全。基于此，通過結合云計算技術特征及業務平臺容災的實際需求，從資源池的硬件層、虛擬化層、業務平臺層等多個維度探討了業務云平臺的整體容災策略。

【關鍵詞】云平臺容災策略高可用性數據保護災難恢復

1 引言

隨著云計算虛擬化技術的逐漸成熟，在電信行業有越來越多的新建業務平臺都將部署在云資源池上，并且部分傳統業務平臺也將陸續遷移到云資源池上。云資源池集中承載業務平臺可實現各平臺間的資源共享，但同時所有的風險都集中在云資源池，一旦云資源池出現問題，如云資源池的共享存儲癱瘓，將嚴重影響其所承載的業務平臺的安全。另外，通過資源共享統一承載業務平臺這種新的承載模式，傳統業務平臺的容災策略也需要適應這種新的變化做出相應的調整。

在此背景下，本文嘗試從多個維度來分析云資源池所承載業務平臺的整體容災策略。

2 業務云平臺容災策略

云平臺容災的目的是為了保障其所承載業務的連續性，而業務的連續性涉及到三個方面的要素，即：HA（High Availability，高可用性）、DP（Data Protection，數據保護）、DR（Disater Recovery，災難恢復）。

要實現容災，必然離不開資金的投入，根據云平臺的特點，要實現這三個要素所投入的資金或者說付出的代價是不一樣的。因此，在實際規劃或建設中，可以根據需要并結合業務平臺的重要程度，實現不同級別的容災（即通過容災要素的不同組合實現不同級別的容災），如圖1所示：

云平臺的高可用性（HA）是基礎，在此基礎上，對于一般性業務平臺實現數據保護（DP），對于重要的業務平臺為確保業務的連續性，實現災難恢復（DR）。因此，實際部署資源池（或選擇業務平臺所承載的資源池）時，可結合業務平臺的重要程度部署或選取具備HA、DP、DR等不同組合的資源池。

另外，各要素的實現對于云平臺以及所承載的業務平臺來說，涉及到不同的容災策略和措施。因此，本文探討的容災策略是根據上述三要素，分析各要素所涉及的內容，再根據具體的內容有針對性地探討容災策略和解決思路，如表1所示。

2.1 高可用性（HA）

為提高云平臺以及其所承載業務平臺的高可用性，可以在硬件層、虛擬化層、應用層等維度分別考慮實現高可用性。

（1）硬件層

對于云平臺所使用的硬件，主要包括：服務器、路由器、交換機、負載均衡器、防火墻、光纖交換機、網卡、電源等。

要確保硬件層面的高可用性，必須保障所有硬件設備的冗余配置。根據現網的實際情況，服務器、交換機、防火墻、路由器、負載均衡器、供電等都有冗余配置，而共享存儲由于投資成本的考慮，目前一個資源池只有一套共享存儲。因此從硬件層面來說，共享存儲是主要的隱患來源。但共享存儲一般都會配置雙控制器、雙電源模塊、多路徑訪問等，相對來說具備一定的冗余性。

服務器中要求都配置雙硬盤，在安裝虛擬化軟件前要求把磁盤進行鏡像管理（Raid10），對于共享存儲至少要采用Raid5以上的容災配置。

（2）虛擬化層

要實現虛擬化層的高可用性（HA），必須啟用虛擬化廠家所提供HA功能和DRS功能，并確保資源池內有足夠的資源供虛擬機運行，要求所有主機都連接同一個共享存儲，配置一個專用的心跳網絡。

為確保VMotion的正常運作，需同一個集群中各物理服務器的CPU型號兼容（最好是同一型號）；使用專用的網絡來遷移虛擬機，要求網絡帶寬至少為千兆，并且源和目標主機具有相同的網絡配置（包括網絡類型、網絡標簽）；要求虛擬機一定要位于共享存儲上，并且源和目標ESXi主機都能訪問到此共享存儲。

（3）應用層

在應用層，建議各業務平臺對于處理能力要求高的模塊，盡量設計為可負載均衡或分布式計算的模塊，這樣可以通過多虛擬機的部署提高平臺的處理能力及冗余能力。對于重要程度較高且不能通過多模塊部署成負載均衡方式的虛擬機，可類似傳統業務平臺一樣部署雙機。

可根據不同業務平臺的忙閑時特征，把可以實現錯峰填谷效果的業務平臺部署在同一個集群中，以提高資源的利用效率。為避免異常時的網絡沖擊，可針對各虛擬機根據業務量的估算，對出入帶寬進行控制。

可根據業務平臺的重要程度，部署在不同容災等級的云資源池中，而部署在云資源池中的業務平臺，在正式上線前務必經過安全掃描和加固。

2.2 數據保護（DP）

實現云資源池及其所承載業務平臺數據保護功能，基于目前的技術，可分別由虛擬化層、存儲系統層或應用層來實現數據保護，但從成本、備份效率等因素來考慮，可以利用現有虛擬化廠家或存儲廠家提供的備份解決方案。

（1）虛擬化層實現

可以利用虛擬化廠家所提供的備份技術，例如VMware公司的VDP或VDPA備份解決方案，VMware VDPA技術實現對虛擬機的備份，其支持重復數據刪除、增量、全量備份以及備份Schedule等。支持文件級別的恢復（虛擬機通過自服務門戶來恢復文件），可以用于用戶數據的錯誤刪除后的恢復，與快照相比有周期性的特點，且不影響性能，業務數據可恢復過去1個月甚至1年任意時間的文件。

（2）存儲系統實現

利用存儲設備廠家的相關備份解決方案，例如Symantec公司的NetBackup產品，Symantec公司在其NetBackup最新產品上專為VMware vSphere和Hyper-V虛擬化環境備份做了定制開發。NetBackup通過直接調用VMware的vStorage API實現與vCenter的集成，不需要在ESXi和虛擬機上部署任何腳本，也不需要安裝VCB組件，不需要Backup Proxy就可實現VMware vSphere環境下的虛擬機備份。或者可以使用EMC Awamar的備份解決方案。endprint

（3）應用層實現

數據保護由應用層實現，即由云平臺所承載業務平臺各自負責各自平臺的數據保護，類似于傳統業務平臺的處理。操作系統、數據庫等都按照傳統業務平臺備份思路進行數據備份和恢復。這種方式的優點是各業務平臺可根據需要自行定制適合自己的備份解決方案，但各業務平臺獨立規劃備份系統，會造成投資浪費、資源利用率低。

2.3 災難恢復（DR）

通過建立異地容災節點實現資源池的災難保護，在資金允許的情況下，生產節點和容災節點間可以通過大二層組網實現無需人工干預的自動化切換的容災解決方案。在建設成本不足時，可以對相對重要的業務平臺實現資源池異地容災，這種情況下生產節點和容災節點采用獨立組網的方式，可以通過路由方式或DNS（Domain Name System，域名系統）方式來實現主節點到容災節點的業務切換。

（1）大二層組網

生產節點與容災節點間通過大二層組網實現網絡互通，在虛擬化層實現虛擬機跨節點遷移，而在遷移過程中無需變更云平臺上承載業務平臺的IP地址，不影響外圍系統的正常通訊，從而保證業務的連續性。

基于VMware、EMC、Cisco的聯合解決方案如圖2所示，可以實現應用/虛擬機在數據中心之間遷移，即可以實現：虛擬機在2個節點間進行VMotion，基于EMC VPLEX本地聯合和跨數據中心聯合的虛擬存儲，OTV（Overlay Transport Virtualization，虛擬化中繼傳輸技術）無縫二層多站點擴展，LISP（Location-ID Separation Protocol，名址分離網絡協議）優化用戶到云的訪問路徑。

（2）獨立組網

兩個數據中心獨立組網，生產節點和容災節點存儲間數據采用準實時同步，當生產節點異常時，通過容災節點承載業務。例如，VMware Site Recovery Manager（SRM）是一個業務連續性和災難恢復解決方案，可實現一個站點（受保護站點）和另一個站點（恢復站點）之間vCenter虛擬機的恢復，其中存儲間可以配置使用第三方磁盤復制機制（基于陣列的復制）或VMware vSphere Replication，如圖3所示。

當生產節點和容災節點采用獨立組網的解決方案時，有兩種方式實現生產節點和容災節點的業務切換：一種是DNS方式，即所有在云平臺上承載的業務平臺對外通過DNS的方式互訪，當主節點出問題后，外圍系統訪問平臺時可無感知的切換到容災節點所承載的業務平臺處理（DNS與IP地址對應的關系應提前在相關系統做好數據，而業務平臺中各虛擬機使用內部IP地址，通過NAT映射的方式出公網）；另一種方式是修改路由的方式，通過在網絡設備上修改路由指向，切換到容災節點。當云平臺承載成百上千個業務平臺時，后者的可行性不大，后續維護工作量相當大。

3 結束語

云平臺的高可用性（HA）是容災的前提和基礎，在此基礎上實現一定的數據保護，對于特別重要、影響大的業務平臺建設容災資源池，即把重要程度非常高的業務平臺承載在具備HA、DP、DR等容災措施的資源池上，普通業務平臺具備HA和DP即可。

本文根據當前傳統業務平臺容災解決方案的現狀，結合多年來業務平臺運行的實際經驗及業務平臺各種故障發生的概率情況，探討了承載在云資源池上的業務平臺容災解決方案，并提出了根據平臺的重要程度采用不同級別的容災措施，希望能對云平臺相關維護人員或云資源池建設人員有所參考。

參考文獻：

[1] 譚志遠，宮云平，陳喜洲. 云計算給業務平臺的發展與運維帶來的機遇與挑戰[J]. 電信科學， 2011，27（10A）： 6-10.

[2] 許輝陽，李劼，羅霄翔. 面向業務的云計算IaaS研究[J]. 移動通信， 2011（9）： 20-25.

[3] 鄧孟城. 基于云計算IaaS的IT基礎架構建設方案探討[J]. 科技風， 2011（11）： 53.

[4] 余侃. 云計算時代的數據中心建設與發展[J]. 信息通信， 2011（6）： 100-102.

[5] 史凡，趙慧玲. 智能化云計算承載網特征和關鍵技術分析[J]. 中興通訊技術， 2012（4）： 32-33.★endprint

（3）應用層實現

2.3 災難恢復（DR）

（1）大二層組網

（2）獨立組網

3 結束語

參考文獻：

[1] 譚志遠，宮云平，陳喜洲. 云計算給業務平臺的發展與運維帶來的機遇與挑戰[J]. 電信科學， 2011，27（10A）： 6-10.

[2] 許輝陽，李劼，羅霄翔. 面向業務的云計算IaaS研究[J]. 移動通信， 2011（9）： 20-25.

[3] 鄧孟城. 基于云計算IaaS的IT基礎架構建設方案探討[J]. 科技風， 2011（11）： 53.

[4] 余侃. 云計算時代的數據中心建設與發展[J]. 信息通信， 2011（6）： 100-102.

[5] 史凡，趙慧玲. 智能化云計算承載網特征和關鍵技術分析[J]. 中興通訊技術， 2012（4）： 32-33.★endprint

（3）應用層實現

2.3 災難恢復（DR）

（1）大二層組網

（2）獨立組網

3 結束語

參考文獻：

[1] 譚志遠，宮云平，陳喜洲. 云計算給業務平臺的發展與運維帶來的機遇與挑戰[J]. 電信科學， 2011，27（10A）： 6-10.

[2] 許輝陽，李劼，羅霄翔. 面向業務的云計算IaaS研究[J]. 移動通信， 2011（9）： 20-25.

[3] 鄧孟城. 基于云計算IaaS的IT基礎架構建設方案探討[J]. 科技風， 2011（11）： 53.

[4] 余侃. 云計算時代的數據中心建設與發展[J]. 信息通信， 2011（6）： 100-102.

[5] 史凡，趙慧玲. 智能化云計算承載網特征和關鍵技術分析[J]. 中興通訊技術， 2012（4）： 32-33.★endprint