白巧花
摘要:在新的業務變化發展和信息化建設轉型時期,傳統的集中式建設模式在資源共享、靈活調配等方面的不足逐步凸顯,無法實現對資源的快速、持續供給,不能較好地適應未來業務的發展需要。基于此,結合當前主流的IT技術發展趨勢、實際的建設要求和存儲建設應實現的關鍵目標等,探索集中存儲高可用改造的實現和應用,為企業業務網集中存儲高可用改造提供參考。
關鍵詞:存儲高可用;架構改造;雙活
一、數據中心業務網存儲現狀分析
隨著近年來應用系統的不斷發展,集中式存儲系統較好地滿足了系統上線所需的空間資源,并針對少數業務連續性等級較高的應用系統實施了不同數據中心之間的數據實時復制,還通過磁帶備份等多種手段,有效增強了系統和數據的安全性。但業務網存儲系統也存在以下一些問題:
(一)數量多,均為單點,處在更新周期
業務網存儲系統以日立、華為品牌的高端磁盤陣列為核心設備,以及各品牌光纖交換機、NAS設備、磁帶庫、PC服務器等硬件設備和數據同異步復制管理、備份管理等軟件設備,涉及十余個品牌的中高端軟硬件設備,設備數量和種類多、相關廠商多;同時,各系統數據直接存放于磁盤陣列中,雖然都是高端存儲,但均為單點運行,存在單點故障隱患;最后,少數老舊集中存儲的磁盤陣列和光纖交換機等配套設備已使用多年,已經或即將EOS,正處在更新周期。
(二)無統一規劃,沒有根據業務重要性及需求劃分
此前數據中心存儲系統沒有統一的規劃,沒有一套根據應用分類分級和特點制定的存儲資源池建設標準。受系統上線時間要求、存儲容量及可擴容容量等多重因素限制,重要系統和非重要系統的數據“集中”存放于一臺或幾臺存儲中,沒有根據系統重要程度和性能需求進行區分。同時,新購存儲設備均采用公開招標,采購周期常,采購設備多樣,提高了管理和運維的復雜度。
(三)容量不足與空間利用率低并存
每年都有要新上線的系統,所需要的存儲空間較大,剩余存儲資源有限而只能通過不斷擴容解決容量不足的問題。與此同時,因無法準確預計未來空間的實際需要,當前存儲空間多采用靜態分配,而存儲空間一旦被分配后即無法收回,同時為滿足數據安全、可靠性(采用RAID技術)以及未來擴展的要求,很多系統都預分配大量容量,卻長期處于閑置狀態,實際利用率低(很多情況不足30%)[1]。
(四)軟硬件緊耦合
當前應用系統仍主要采用集中式架構,存儲層與數據庫層、中間件層及應用層等架構耦合度高,存儲軟件依賴于相應的存儲硬件,選擇范圍集中在少數幾個存儲廠商,不論是硬件層面的存儲擴容還是軟件層面的高可用改造、數據復制等均只能通過購買該原廠商的產品或服務來實施。
二、規劃目標和原則
(一)技術方向
傳統的集中式系統建設模式下,計算、存儲等資源根據不同應用各自建設,在有效支撐業務開展的同時也形成了資源專有化配置的特點。在新的業務變化發展和信息化建設轉型的時期,傳統的集中式建設模式在資源共享、靈活調配等方面的不足逐步凸顯,無法實現對資源的快速、持續供給,不能較好地適應未來業務的發展需要。實施架構轉型,存儲層面要結合自身業務特點和不同應用場景,結合現有的技術資源,做好技術架構研究,做好轉型規劃。通過架構改造與實施,實現系統快速交付、動態調整、彈性部署,提高IT資源共享效率,降低總體成本,保證業務連續性。
(二)規劃目標
通過對存儲系統的現狀進行詳細分析,結合當前主流的IT技術發展趨勢和實際的建設要求,存儲建設應實現的關鍵目標包括:
1.資源池規劃和建設
根據業務分類分級及特點,進行資源池的統一規劃,對存儲的實現方式,例如集中式、分布式等進行統籌考慮和規劃;統一資源池的標準,抽象資源池的服務能力。
2.統一規劃、分布部署
存儲架構及資源池建設按照“兩地三中心”進行整體規劃,單數據中心高可用、雙數據中心存儲部署以及未來的“兩地三中心”進行分步部署。
3.架構的延續性和擴展性
單數據中心內的高可用架構能擴展為雙數據中心內的存儲架構,進而從雙數據中心的存儲架構能擴展為“兩地三中心”或多中心架構。
4.完善的容災能力
存儲架構不僅具備解決物理故障的能力,包括設備級故障,還可以解決站點級故障。單數據中心高可用建設完成后,存儲架構具備設備級物理故障容災能力;雙數據中心存儲體系建設完成后,存儲架構具備站點級物理故障容災能力
5.架構先進性
結合數據中心基礎設施云建設,面向IaaS云平臺的存儲標準化設計,從傳統的“SACLE-UP”縱向擴展方式轉向“SCALE-OUT”橫向擴展,有能力通過資源池和架構擴展方式保持其先進性。
(三)實施原則
1.對系統影響小,平滑遷移
參考此前存儲規劃及各應用系統實際,結合系統業務連續性和重要程度以及現有設備的實際情況,統籌開展存儲系統規劃。通過詳細規劃設計,穩步地實施和測試,使得應用系統安全穩定地運行在此存儲平臺上。需要遷移的應用系統,應對應用系統的影響降至最低,同時需確保應用系統遷移前后數據的一致性、用戶訪問的一致性,應在遷移過程中保證其文件存儲位置、路徑、內容等不變,實現平滑遷移。
2.實現軟硬件松耦合
通過存儲虛擬化的方式將邏輯卷與硬件“解耦”,打破孤島之間的疆界,讓存儲資源能夠共享,數據能在各個存儲的硬件組件間自由流動。軟硬件逐漸“解耦”的過程,就是將同類硬件的不同細節部分隱藏起來,并與上層隔離開。這樣,上層就不必因為下層硬件的不同而修改,增加了可移植性和靈活性[2]。同時,管理方式應當簡單明了,根據標準化的運維流程,采用統一的IT自動化的運維工具,減輕運維人員的壓力,避免人為操作過程當中的失誤。
3. 根據業務重要性及需求實現分級分類
根據應用分類分級和特點制定的存儲資源池建設標準,根據系統的業務連續性等級進行分級分類。先規劃資源池和抽象資源池的能力,標準化資源申請流程,提高效率,降低管理和運維的復雜度。
4.擴展性好,適合未來發展需求
在“解耦”的基礎之上,才能進一步做資源的池化。因為池化就意味著資源不受硬件的限制,能被自由地分配、使用和調度。在數據中心內,能夠跨越異構的磁盤陣列,形成一個大的存儲資源池,統一管理和分配來自不同存儲廠商的存儲資源。具有較好的可擴展性,適應未來業務發展需求。
三、實施路線
(一)總體路線圖
綜合上述規劃目標和實施原則,結合存儲設施現狀,業務網存儲系統的建設可大體分為三個階段:
1.第一階段
根據規劃,第一階段的建設內容如下:
(1)根據系統的業務連續性等級進行分級分類,完成“中心內高可用、中心間容災”的存儲高可用架構改造;
(2)結合數據中心基礎設施云項目,通過存儲虛擬化網關構建一套更加靈活,可用性更高的存儲架構,支撐現有系統遷移和未來系統建設發展要求;
(3)結合基礎設施云項目的進展,研究制定存儲資源池標準,符合IaaS云平臺對存儲資源池的要求;
(4)逐步完善與IaaS云平臺標準化接口管理層的對接,完成單數據中心內存儲資源池服務能力的抽象。
2.第二階段
(1)根據各應用系統的實際,研究從單數據中心存儲高可用擴展為雙數據中心存儲體系;
(2)結合數據中心云基礎設施項目,完善IaaS云平臺的存儲資源池和豐富標準化接口,探索雙中心數據歸檔和備份機制建設;
(3)完善資源池服務能力的抽象,增加雙數據中心存儲資源的服務化。
3.第三階段
(1)探索存儲架構從雙數據中心雙活擴展為“兩地三中心”或多中心,實現數據級容災;
(2)進一步完善IaaS云平臺的存儲資源池和豐富標準化接口,增加具備異地容災的資源池;探索“兩地三中心”或多中心數據歸檔和備份機制建設;
(3)完善資源池服務能力的抽象,增加容災的服務化。
(二)實施效果
1.實施存儲高可用改造,能夠解決現有存儲系統中單點故障隱患,使業務連續性等級為三級和四級的應用系統達到或超過相應的時間要求,整個應用系統的可靠性顯著提升。
2.實施存儲高可用改造,能夠有效對接基礎設施云平臺的建設需求,初步探索實現了存儲資源的“池化”和“解耦”,有效提升了存儲設備的兼容性,提高了資源擴展能力。基于存儲虛擬化的動態存儲分配,能夠不斷整合存儲資源以及釋放閑置空間,而不需要預先分配專用的物理存儲,結合系統實際運行情況以及資源使用情況動態調整分配的虛擬存儲空間,減少預配置資源的浪費[1]。
3.實施存儲高可用改造,能進一步完善容災建設。在災備中心可通過數據復制的方式完善同城容災建設,實施相對簡單,容災能力較之前有大幅提升。
(三)實施風險
分別以日立、華為設備形成的存儲高可用方案,其實施對上層應用無影響,因分別以在用設備為基礎改造,也不存在多路徑軟件、OS軟件和相關硬件的兼容性問題,無需再進行兼容性測試和驗證等,實施復雜度較小,實施風險也較小。如在現有日立和華為存儲之間做異構高可用,通常有新購網關和存儲兩種方式。因現有存儲數量多且均為高端存儲,如采用網關的方式,由于網關的處理性能和可靠性較高端存儲有差距,可能會造成“小馬拉大車”;如采用高端存儲的方式,則容易固化于某存儲品牌,且存儲廠商也不建議兼容其他品牌存儲長期運行。此外,異構高端存儲的高可用,從規劃角度也不清晰,無大規模應用案例,實施復雜風險較高,還可能由軟件微碼升級等導致兼容性問題,不利于系統長期穩定運行。
四、技術細節及實施難點
(一)雙活原理
1.基于存儲設備的雙活
基于存儲設備的高可用,不同于存儲間的數據同步復制技術,存儲“雙活”要求兩臺存儲設備同時對同一個業務提供讀寫訪問的內容,當其中任何一個存儲設備故障時,業務的讀寫訪問不受影響。這種技術,要求兩臺存儲設備之間能夠實時地進行數據通訊,能夠采用分布式鎖機制避免寫邏輯錯誤,能夠通過第三方仲裁避免腦分裂。同時,能夠利用存儲設備對自身狀態的檢測進行故障隔離與恢復,使數據訪問總是處于良好運行狀態。
2.基于存儲網關的雙活
通過存儲虛擬化網關提供的分布式聯合能力,擴展了同步距離內兩個位置間的訪問能力。存儲虛擬化網關通過緩存一致性技術支持跨遠距離共享、訪問單個數據拷貝。實現主備主機同時訪問同一套卷的愿望[3]。
(二)數據遷移
存儲虛擬化改造對于應用服務器主機而言,相當于更換硬盤,因此必然涉及文件系統的變動。有些OS可以實現變更文件系統的同時不影響頂層的數據,例如基于LVM的AIX、HP-UX和Linux,而對于未使用LVM建立文件系統的Linux以及低版本的Windows server,就需要停止業務進行文件級遷移。對于Vmware虛擬化平臺,則可以通過Storage vmotion技術,利用一個臨時卷實現熱遷移。因此,需要根據應用系統的具體情況來設計具體的改造流程。
進行數據遷移時,不建議采用直接將原物理卷映射給存儲網關,封裝成虛擬卷后再映射給服務器主機的操作方式。一方面,映射過程中一旦發生誤操作將導致數據損壞,很不安全,另一方面,原先的LUN配置是為主機直連存儲而設計的劃分方案,不一定適用于存儲網關架構。因此,建議在保持原物理卷不變的基礎上,利用剩余空間和擴充的存儲資源組織虛擬卷,然后對業務系統進行逐個遷移。
(三)對數據備份方案和容災的影響
存儲虛擬化對于備份方案來講主要是滿足規劃時考慮存儲虛擬化平臺數據吞吐帶寬的規劃,虛擬化平臺通常采用集群橫向擴展方式,每增加一對虛擬化控制器,也就是橫向增加了處理能力、數據緩存和被管理存儲空間能力。對于容災而言有兩種改變:一種是采用虛擬化存儲平臺實現容災方案,這就需要刪除原有的存儲復制關系,并通過虛擬化存儲平臺重建容災架構,存在一定的工作量,優點是后期管理和切換方便;還有一種是保留原有容災架構,虛擬化存儲平臺采用影像模式,關閉寫緩存,修改工作量較小,但后期切換時步驟相對復雜。
(四)仲裁機制
在兩個存儲虛擬化網關群集相互失去聯系后,生效中的一致性組分離規則將定義哪個群集繼續操作以及哪個暫停I/O,但僅使用分離規則來控制哪個站點是優勝者時,優勝者仍可能會在出現故障站點,可能需要手動干預才能恢復仍正常運行的站點I/O。高端存儲和存儲虛擬化網關仲裁會動態地自動處理此類事件,建議在第三個數據中心設置仲裁[4]。
五、結語
本文通過對數據中心業務網存儲系統的現狀分析,結合當前主流的IT技術發展趨勢、現有的技術資源、自身業務特點、實際的建設要求和存儲建設應實現的關鍵目標等,探索集中存儲高可用改造的實現和應用。通過架構改造與實施,有效提升了存儲設備的兼容性,提高了資源擴展能力,保證了業務連續性,容災能力較之前有大幅提升,為企業業務網集中存儲高可用改造提供參考。
參考文獻
[1]董軍.數據中心網絡存儲管理發展趨勢探析[J].中國金融電腦,2014(8):63-65.
[2]韓吉義.數據資源存儲高可用建設研究與實踐[J],內蒙古林業調查設計,2021,44(3):75-78.
[3]馬強.鐵路客票系統異地災備中心方案設計[D].北京:中國鐵道科學研究院,2015.
[4]mob604756f19185.Exadata里裝了些什么?[EB/OL].[2021-04-24].https://blog.51cto.com/u_15127572/2728859.
作者單位:北京信息職業技術學院