起容災,無論是IT管理員,還是
行業專家,各有各的說法。紛繁復雜的技術和理念,爭奇斗妍的方案和產品,讓人猶如霧里看花般,難辨優劣。對于需要容災的用戶而言,首先要搞清楚的,就是到底容災是什么?容災解決什么問題,具有什么價值,如何去選擇解決方案?而這,也是我們這個系列文章的出發點,看清容災,看清方案、成本和價值,讓選擇更加從容,方案更加專業。
中國用戶容災現狀
在本刊第七期“容災的前世今生”一文里,我們探討了什么是容災,容災的發展史。通過對容災發展史的縱觀,可以看到,整個容災技術是根據不同的需求,由各種不同的技術結合發展而來的,最后統一歸納成一體化的形態。容災要解決兩個問題,一是數據不丟失;二個應用不間斷。
經市場調查表明,中國有70%的數據容災用戶需求量,面臨著最基本的備份方案的困擾,比如備份時間過長,數據恢復不成功等,其中有80%的應用容災用戶需求量。但市場上提供的產品絕大部分都是有備份沒應用容災,或者有應用容災而沒備份,真正能夠同時解決備份和應用容災需求的一體化應用產品可遇而不可求。一直以來,傳統容災都是屬于高高在上的奢侈品,能夠用得起的用戶很少,在這么龐大的需求量里有90%的用戶因為成本不可控,而用不起傳統容災。比如幾年以前購買的服務器和備份軟件,因為系統更新換代,發現原有的技術方案已經不能滿足實際需求;又或者是當年的業務系統數據量小、負載低,用腳本備份就可以滿足需求,現在幾套系統并用,且全部實現無紙化,則顯得容災系統不能有效地跟上整個業務系統的建設步伐。
在這樣一個災難無處不在的IT環境里,用戶面臨著不知道如何選擇容災的困境,要么就是只有備份,沒有選擇容災,要么就是想用容災,但是買不起,這就是中國用戶的容災現狀。
容災建設三要素
想用容災,卻難以普及,為什么?
IT管理員決心要打造一套無懈可擊的容災系統,但市面上容災方案那么多,技術點那么多,而機房原來的投資又不想浪費,怎么辦?
我們先來看一下容災系統建設需要考慮的必備三要素:價值、成本和方案。首先,容災能創造什么樣的價值?IT系統建設有它自有不可違背的規律,企業組織架構建設有它必須遵循的規則,容災能夠為IT系統建設和組織架構建設帶來哪些價值,是需要考慮的最本質的要素之一;其次,容災需要投入多少成本,初始成本是多少,機會成本是多少,維護成本又是多少;最后,我們要選擇什么樣的方案才是真正的容災方案,有效果的容災系統應該是在性能、管理、技術指標RPO/RTO/DRO之間都能取得最佳平衡點。
能創造什么價值
(一)IT建設什么階段需要容災
當IT建設系統能創造價值的時候,容災的價值就會相應的凸顯出來。
萬事萬物都有其基本發展規律,IT信息化建設也不例外。從最初的基礎建設階段,包括PC、服務器、網絡等部署,到隨后的應用建設階段,包括OA、網站、CRM、ERP、專用的業務系統等應用,已經成功跨入了運維有效性建設階段,包括安全類、加速類、增強類系統、數據保護類等應用。在這個階段,需要大量的安全防護類產品和解決方案來保證復雜應用系統的運維有效性,同時也因為各類不可抗拒力意外事件的頻發,側面印證了IT運維有效性建設的多維度必要性。對于這個階段的用戶來說,容災系統的建設已經成為了一個必選項,而不是可選項。
從這里,我們可以看出為什么容災難普及的原因之一。即在信息落后的區域,對于沒有進入IT運維有效性建設階段的用戶來說,就沒有考慮容災系統建設對業務價值的必要;但是在信息比較發達的區域,他們更多的需要考慮容災系統建設對于公司組織機構的價值在哪里。
(二)容災對組織機構有何幫助
容災系統建設對組織機構的價值體現在哪里?
在信息化比較發達的區域,IT建設項目審批時會遇到“申請預算”這項工作。對于信息主管來說,要想部署容災方案,就得說服管理決策團隊、財務部門。上了容災,對整個組織機構有什么幫助?在這個說服過程中,需要有數據和管理方面的支撐。首先,部署了容災系統后,能保證數據不丟失和應用不間斷。其次,它還可以幫助企業建立管理職責,防范風險和事故等。相反,假設沒有容災系統,一旦發生災難,也許沒有明確的部門來承擔責任。至于如何承擔,怎么考核,都會因為這個容災系統的建立發生很大的變化。
如果現有的容災只是提供一個RTO、RPO值的保證,而沒有提供事先控制、事中跟蹤和事后分析的機制,就沒辦法跟企業的管理目標結合起來。這點類似我們的職能體系。如何把職能體系納入到考核體系里,如何把考核數據從考核系統中拿出來對職能體系進行評估,這也是容災系統需要改善的地方。目前,還沒有這樣的容災方案是可以證明與組織機構的管理目標有結合價值的。
所以,真正的容災方案不僅僅是需要服務于IT系統的建設,還需要服務于整個企業的管理,這也正是它對組織管理的價值所在。而現在能做到兼而顧之的容災方案寥寥無幾,這也是容災為何難普及的原因之一。
要花多少成本
(一)什么是傳統4S方案
容災方案一直都是以4S的方式來實現,即首先購買服務器(Server),接著安裝好操作系統(OS)和備份容災軟件(Backup Software),最后,如果還有其他的大數據量的存儲需求,還需要另外購買存儲硬件(Storage)來滿足數據存儲需求。這樣一種Server + OS + Software + Storage的傳統4S方案,無論從初始成本的投入來看,還是從后期的維護成本甚至機會成本來說,都是非常巨大的投入。對于廣大用戶來說,實在是一件門檻太高難以企及的事情。
(二)花什么樣的成本上容災
從傳統4S方案初始成本的投入情況看,每個環節和流程都需要單獨的購買產品組合成一個整體的方案來解決問題。比如傳統的雙機高可用方案,至少需要2個廠商的產品才能保證應用不間斷,即一家服務器廠商再加一家雙機軟件廠商;如果還需要保證數據不丟失,就得另外再部署VTL方案需要的備份軟件加虛擬帶庫,這樣至少需要3個廠商;增加磁盤鏡像方案,還得另外再購買其他廠商的產品;異地容災還得買其他廠商的產品等等,最終造成容災系統的建設需要一筆筆不斷投入的初始成本。
對于維護成本來說,因為一個個環節流程的單獨產品和系統配置,整體的維護成本投入也很高, 試想一下,一套容災系統的構建需要至少向2個廠商購買,在部署后的維護過程中,如果萬一哪個環節出了問題,需要向幾個廠商同時咨詢和交流,這樣無論是維護還是管理都需要多重成本的投入,對于用戶來說,是一件冗繁而且投入大的工作。
而在容災方案系統建設的另外一個角度來看,機會成本也是衡量的重要指標之一。所謂機會成本,就是我們避免了某一個事故發生,產生了多少成本。比如,傳統的雙機高可用方案只能單純的保障應用不間斷,不能保證數據不丟失,那么如果因為意外事件丟失數據所帶來的損失,就是傳統雙機高可用方案的機會成本損失。又比如,VTL備份方案雖然有了備份操作,但是因為技術漏洞,備份窗口間的數據的丟失機率很大。還有,通過磁盤鏡像來實現對數據的保護,本地的數據無憂了,但是政府又出了需要防自然災害的政策要求等。
從這里我們可以看出,對于傳統4S方案來說,容災系統建設成本投入的不可控風險是非常大的。到底需要花什么樣的成本上容災,沒有一個可系統規劃的流程和可系統衡量的參考。
選擇什么方案
(一)明確什么樣的容災需求
面臨各種類型的容災方案,到底該選哪個好呢?我們先來看一下容災方案建設首先有哪些具體的需求類別。
針對生產系統的應用系統和存儲系統部分,需要保證它們的高可用、高性能和高可靠,比較有效的辦法,就是通過集群和RAID技術來保證。若需要針對關鍵服務器的數據和應用系統提供保障,則可以通過復制和備份技術來保證應用系統的可用度和數據的安全性。倘若還需要針對關鍵應用服務器實現應用不間斷的實時保護效果,則需要再針對它進行異地的容災系統建設,保證應用不間斷。
面對這些五花八門的需求,到底要怎樣做,做到什么樣的程度才能保證數據和應用的安全?這是我們在進行容災方案選擇時需首要考慮的關鍵點之一。
(二)選擇什么樣的技術指標
在明確了容災方案的具體需求后,再來看看容災方案的建設又有哪些關鍵技術指標是需要權衡的。
在前面的篇章里我們已經了解到,針對非關鍵系統和關鍵系統,共有兩個指標,即非關鍵系統需要保障的是數據不丟失,關鍵系統需要保障的是數據不丟失加應用不間斷。其對應到容災方案就是:對于非關鍵系統數據,容災方案就可以滿足需求;對于關鍵系統則需要應用容災方案來滿足需求。數據容災方案只需要評估兩個技術指標即可:RPO和RTO。因為這兩個指標值能夠最直觀和客觀地反應出備份窗口和恢復數據量的大小。而對于應用容災方案來說,僅靠這兩個指標是不能精確定位出容災服務器的性能需求的,需要DRO,即容災性能指標。以容災備用系統與生產系統的性能比例,來評估容災服務器的配置情況。因此,從數據容災到應用容災,需要完整地滿足這三個技術指標,才是真正意義上的滿足。
除了這三個指標,還有非常關鍵的一點,就是整個規范流程的建立和落實。從最開始用戶環境的分析評估到容災目標設計,再到項目實施驗證和維護管理,每個環節必不可少,而且均需要有非常縝密的技術實施細節保證。由此可見,容災系統的建設不是一蹴而就的事,從事前到事中到事后,均有配套的嚴密的流程控制來支撐容災目標的實現。
面對這么多的技術指標,我們期盼有一套容災系統能針對不同應用滿足不同的技術指標,這樣才能讓傳統復雜的容災方案能夠得到最廣泛的普及。
(三)什么樣的管理和性能才好
多少年來,容災系統一直不變的追求是管理和性能。那么,到底什么樣的管理和性能才是最好的呢?
對于管理來說,首先它需要滿足的基本剛性需求,是能同時管理數據容災和應用容災,還可在本地容災和異地容災間自然延伸。其次,容災管理還有它需要滿足的高級需求,即能否管理不同技術指標的方案,能否管理不同應用的系統環境,能否對方案進行事先控制,能否對方案進行事中跟蹤,能否對方案進行事后分析。對于性能來說,能否對系統主機的性能影響更小,能否以更短的時間完成恢復,能否以更短的時間完成切換,能否使用更少的存儲空間。這些都是需要考慮到的性能要素。
但是,縱觀市面上的如此多的產品和解決方案,似乎還沒有遇到滿足這些管理和性能需求的集成方案。
傳統方案為何難以普及
一般來說,企業在最初只有數據定時備份需求,所選擇的方案是普通備份軟件加普通存儲設備, 應用系統故障后在幾小時間內恢復出數據即可,幾小時的數據丟失不會有任何影響。但隨著企業飛速發展,需要保護的數據量越來越大,備份時間越來越長,數據丟失容忍度從幾個小時降低到1個小時,這時的原有數據備份方案就無法支撐變化。當IT部門提出升級原有方案時,發現原有方案備份軟件功能受到限制,無法提供更高級功能,如果方案升級必須采購新的備份軟件產品,增加企業經濟成本以及管理員的學習成本,可以說整體投入入不敷出。
面對目前高速膨脹的文件和郵件數據量,以及日益復雜的應用系統,傳統容災方案均是通過擁有各種技術的不同產品來實現各個層次的保護。比如:針對數據不丟失,會有備份產品、快照產品;針對應用不間斷,會有CDP產品、雙機產品;針對海量數據,會有存儲產品。各種不同特性解決不同問題的產品進行方案組合,但這樣不斷組合后,方案就會面臨以下幾個難點:
首先,它是不能覆蓋需求層次的。因為總會面臨著另外一種需求難以滿足的困境,因而需要不斷的添加新的需求應用;其次,技術目標難以取舍。因為從最開始的需求滿足就是零散脫節的,所以在技術目標環節,也是處于魚與熊掌難以兼得的現狀;還有,無法更好的管理。因為組合方案本身的局限性,所以必然面臨著同一套系統中不同產品的管理問題,又因為不同產品有其自有的特性,所以各種單獨的問題或者因組合而產生的問題都會讓整體方案的管理面臨困境;最后,缺少性能支撐。雖然從磁帶到磁盤,再從磁盤到一體化,每次飛躍都帶來了階段性的性能跨越,卻并沒有真正將每次的跨越統一集成起來產品和方案,所以導致傳統容災方案一直以來缺少核心的性能支撐,不能滿足日益增長的性能需求。
萬變不離其宗。通過以上的分析,傳統容災為何難以普及的原因已經非常清晰。可以看到,因為傳統容災方案從價值到成本到方案的各種局限性,導致其讓人一直覺得高高在上。是不是能夠有一體化的產品和解決方案能夠打破這種仰望的局面和現狀,讓容災能夠全面普及,讓用不起容災的人能夠用得起容災,讓用容災的人能夠更好地用容災?請繼續關注本系列報道。
(作者單位:上海愛數軟件有限公司)