李 濤
(成都規劃館,四川成都610094)
?
淺談保持業務連續性的計算機房整體搬遷
李 濤
(成都規劃館,四川成都610094)
常規大型計算機房搬遷是按照“整體設計、分步實施”原則,在有限時間內對計算機房設備進行分批搬遷。文章以信息化機房搬遷為例,按照“整體設計、網絡先行、業務平穩、一次性搬遷”的原則,利用虛擬化技術,探討如何在短時間內,在保證業務持續、正常運行的前提下,完成大型廣域網機房一次性在線搬遷。
計算機房搬遷; 虛擬化; 網絡改造; 計算機房建設
1.1 現狀介紹
信息化機房建成投運十余年,為某大型城市提供專業信息化服務,無備用系統,無備用網絡,生產數據無實時備份。機房線路雜亂、設備陳舊、資源利用率低。因業務需要,需在2日內對機房進行一次性整體搬遷,搬遷時需保持核心業務連續,新機房尚在建設中。機房詳情如下:
(1)涉及IT設備近百臺。
(2)4臺物理服務器搭建的VMWare ESX 4.0虛擬系統一套,10臺以上存儲搭建的FC SAN光存儲系統一套。
(3)物理服務器均采用單應用部署架構。
(4)4個不同運營商的相互物理隔離的網絡。
(5)業務辦公專網邏輯結構為B類二層以太網,網絡無冗余。
1.2 風險分析
計算機房搬遷涉及硬件設備、軟件系統和數據的遷移備份、網絡和系統環境優化、應用恢復等一系列系統性技術工作,搬遷過程有風險,風險分析詳見表1。
2.1 總體目標
2日內完成機房整體搬遷和優化改造,搬遷過程中保障核心業務系統的持續穩定運行。
(1)按照電子信息系統機房B級標準完成新機房基礎建設工作,建設新機房環境監控系統,規范運維管理,提高運維效率,降低維護成本。
(2)完成業務辦公專網骨干環+星型光纖網絡結構改造,割接11條光纖線路,改造為三層以太網業務辦公專網,劃分VLAN、安全域,配置訪問控制策略,提高網絡運行效率。
(3)完成核心業務系統和數據在線遷移,確保核心業務服務的連續性和數據完整性。
(4)在2日內完成硬件設備搬遷、上架、應用恢復等工作。
2.2 實施路線
在短期內完成搬遷,并控制風險,需提前做好工作規劃。搬遷工作實施路線見圖1。
2.2.1 調研分析
搬遷前對硬件、網絡和系統的配置信息、關聯信息和技術資料進行收集整理,繪制網絡拓撲圖、物理設備連接拓撲圖和業務系統邏輯關聯拓撲圖。將設備、系統、業務和網絡進行綜合關聯分析,在關注物理設備相互關聯的同時,更要注重業務系統、數據庫、安全系統之間的關聯關系,得出各項工作開展的順序,預判搬遷工作的重點和難點。
2.2.2 項目管理
機房搬遷是一個復雜的系統工程,需要科學的管理手段和各方面技術人員的配合,本次搬遷運用項目管理方法,成立項目組,項目負責人對搬遷全過程進行統籌協調、任務分配、質量和進度控制。項目組織結構見圖2。

圖1 搬遷工作實施路線

圖2 項目組織結構
2.2.3 方案設計與可行性論證
根據搬遷目標要求,結合調研分析結果,制定包含機房建設、網絡遷改、設備搬遷、數據保護、系統在線遷移等方面的詳細設計方案,并同步制定詳細的操作手冊和應急預案。技術方案和應急預案應組織行業專家進行可行性論證,根據專家意見逐步完善。
2.2.4 搬遷實施
根據搬遷詳細設計方案,按照操作手冊組織搬遷演練,通過演練驗證搬遷技術路線的合理性和可操作性,對方案進行進一步修正,搬遷時嚴格按最終方案設計的流程和技術要求分步實施。
2.2.5 恢復驗證
在正式遷移前、實施過程中和搬遷工作結束后分別執行恢復驗證。新機房建設、網絡改造和數據備份等工作需在設備搬遷前完成,系統在線遷移需在實施過程中進行驗證。搬遷結束后,還需對硬件、系統、網絡等進行整體上線恢復驗證,確認搬遷改造后各系統運行正常,對搬遷工作進行總結。
3.1 新機房建設
針對前期機房管理面臨的出入安全、遠程管理、動環監控、抗震防雷、綜合布線、動力系統等方面的問題,按照GB 50174-2008《電子信息系統機房設計規范》B級標準設計建造新機房,并對新機房進行防鼠、除塵等工作,確保滿足搬遷需求。
3.1.1 機房環境監控系統建設
利用新型傳感、計算機網絡、自動控制和通信技術建設機房環境監控系統,對機房門禁、空調、動力、溫濕度、漏水、設備遠程控制等進行智能集中監控管理,提高機房管理維護效率,實現機房無人值守管理。
(1)集中監控系統:可聯網集中監控機房系統、網絡、環境及配套設備的運行參數、工作狀態和報警信息。
(2)門禁控制子系統:對重要區域安裝門禁控制器進行人員進出的管理。
(3)視頻監控子系統:對重要區域安裝攝像機進行視頻圖像的監視及錄像。
(4)精密空調子系統:配置3臺15 kW/臺的精密空調,采用靜電地板下送風、上回風的方式建設機房空氣調節系統,機房溫度控制在18℃~23℃。
(5)消防聯動控制子系統:對機房內的消防火警信號進行監測,可與大樓消防控制系統進行聯動,觸發機房氣體滅火裝置。
(6)KVM子系統:為便于對服務器進行遠程集中管理和操作審計,部署KVM切換器及配套視頻審計系統,可對接入服務器進行聯網監控,并實現權限控制和視頻審計。
3.1.2 保溫隔熱系統
采用橡塑保溫棉對機房頂部、墻體和地面進行保溫隔熱處理,以降低機房能耗。施工過程中,同時對機房進行防塵處理。
3.1.3 動力系統
機房配電采用專用雙回路三相供電系統,配置專用配電箱,采用下走線方式布線,配備不間斷電源供電系統和具備自動和手動并網功能的滿足全部負荷需要的后備柴油發電機,并將動力系統的智能監控設備接入環境監控系統進行集中管理。
3.1.4 設備布局
30臺機柜分三列采用背對背和面對面布置,列與列之間間隔不小于1.5 m,每列兩頭設置不小于2 m的進出通道。同時規劃設備在機柜的擺放位置,考慮耗能、空間布局、設備關聯等因素,設備按照相同類型、相同網絡進行合理擺放。
3.1.5 綜合布線
選用6類屏蔽雙絞線纜和光纜,采用上走線方式的屏蔽布線系統和光纜布線系統,同強電線纜分離布線。在每列機柜配置2臺配線列頭柜,列頭柜內采用國標模塊化配線設備,易于后期擴展,信息點采用20 %的冗余配置,列頭柜間通過弱電橋架連通。
3.2 專網網絡改造
業務辦公骨干網絡采用星型純光鏈路組網方式構建B類二層單鏈路專用網絡,為15個分支機構和市局業務辦公提供信息化服務。通過新增光纖鏈路,以新機房為中心,共設置3個環路節點,基于OSPF路由協議構建城區骨干環+星型網絡。升級核心網關和防火墻等安全設備,對現有網絡進行分區分域設計,為服務器區、網絡出口、外聯和接入區域劃分安全域,配置訪問控制策略,劃分VLan。既同時實現千兆到桌面、萬兆上聯和鏈路冗余的功能要求,又能夠有效的保護網絡安全,易于網絡管理。業務系統在線遷移前須完成骨干環網改造,進行功能測試,確保新舊網絡能夠并網運行,搬遷結束后將光纖鏈路全部切割至新網絡。改造后的專網骨干環網和拓撲結構見圖3、圖4。

圖3 專網骨干環網

圖4 專網網絡拓撲結構
3.3 專網核心業務在線遷移
基于VMware vSphere虛擬化技術進行專網核心業務在線遷移。遷移前在新機房搭建VMware vSphere基礎架構,添加目標物理主機和共享存儲。使用VMware vCenter Converter將核心業務物理機轉換為虛擬機。利用VMware VMotion在線遷移技術,將正在運行的虛擬機在線遷移至目標虛擬主機,確保機房搬遷過程中核心業務服務連續。本次在線遷移虛擬機29個,遷移數據量約50 T。
3.3.1 VMware vSphere基礎架構搭建
確保新機房至老機房光纖網絡通暢,纖芯資源充足,在新機房搭建萬兆以太網絡和10 GB FC SAN存儲網絡,同老機房核心網絡和存儲網絡連通。升級原有虛擬系統,準備滿足配置和性能要求的服務器和存儲設備,在新機房部署VMware vSphere5.1虛擬系統,安裝配置ESXi Server和vCenter Server,規劃配置ESXi Server ip地址,配置VMware vNetwork Distributed Switch ,使虛擬機跨多個主機移動時使其保持網絡運行時狀態,將常用的物理網絡功能和控制策略擴展到虛擬網絡。根據需遷移的虛擬機數量和單個虛擬機數據量大小,劃分磁盤陣列LUN空間,并提前做好虛擬機數據存儲空間規劃。系統搭建時確保新老機房VMware vSphere基礎架構配置一致,驗證新機房vCenter Server對兩個虛擬環境中的ESXi主機、虛擬機和存儲系統的管理能力。
3.3.2 系統備份和應急回退機制
在老機房VMware vSphere架構中,通過vCenter Server刪除擬在線遷移的虛擬機的快照文件,對虛擬機進行克隆備份,并驗證其可用性,備份存儲空間在遷移工作完成后釋放。遷移過程中,備份系統在原虛擬平臺待機運行,當在線遷移失敗時,備份系統可通過網絡切換及時上線接管服務。
3.3.3 系統數據遷移
在老機房vCenter Server中添加新機房虛擬主機和共享存儲。基于vMotion和Storage vMotion在線遷移技術,讓虛擬機在正在運行的服務器和存儲之間進行零停機實時遷移。首先,VMware虛擬機的全部狀態信息被封裝在共享存儲上的一組文件中,VMware VMFS文件系統允許多臺ESXi主機同時訪問同一組虛擬機文件。當虛擬機自動遷移指令啟動時,虛擬機的動態內存和執行狀態在源ESXi主機和目標ESXi主機間通過高速網絡快速傳輸,整個過程對用戶來說是透明的,內存和狀態信息傳輸完畢,vMotion終止源虛擬機,并在目標ESXi主機上運行虛擬機。同時,虛擬機的網絡信息也被ESXi Server虛擬化,確保遷移后虛擬機的網絡身份、執行狀態和動態鏈接都能得到保留。vMotion遷移過程如圖5所示。
其次,VMware Storage vMotion利用磁盤快照、重做日志、父/子磁盤關系以及快照整合等核心技術,以完全透明的方式將虛擬機由原共享存儲重新定位到新機房共享存儲位置,同時實現零停機和連續的服務可用性。Storage vMotion架構如圖6所示。

圖5 vMotion遷移示意

圖6 Storage vMotion架構
3.3.4 測試驗證
系統、網絡和數據庫管理員共同測試驗證系統遷移后的可用性,對出現的問題啟動應急預案進行緊急修復。
3.4 設備搬遷
制定搬遷流程保證順利搬遷,搬遷的每項工作原則上不少于2人,以保證工作的準確性,搬遷詳細流程見圖7。
3.4.1 準備工作
設備在長時間運行關機后,會有一定的故障率,所以設備搬遷前要做好數據備份、連接端口標識、備品備件、網絡規劃等準備工作。搬遷前準備工作見表2。

表2 搬遷準備工作
3.4.2 設備關機搬運
設備應按正常關機規則進行關機操作,一般情況下,服務器應先停止服務再關機。關閉存儲系統順序:存儲控制器 →磁盤擴展柜→ SAN交換機。
關機后,所有設備放在指定區域進行清點、包裝,押運人員對運輸清單簽字確認并押運至目的機房。運輸過程中應避免震動過大給設備造成損害。

圖7 搬遷詳細流程
3.4.3 設備上架連接
設備運送至目標機房指定區域,根據設備安裝手冊、接線圖和標記信息,按照設備機架布局規劃進行上架安裝。
3.5 設備加電恢復
設備上架安裝完成后,系統管理員對照設備接線圖、設備標記信息,檢查確認設備安裝和連線是否正確,采取逐一加電的方式,觀察啟動過程是否出現錯誤,對開啟全過程進行詳細記錄,便于事后追溯,并對整個搬遷項目進行驗收。
設備加電應嚴格按照設備開機流程進行操作。加電恢復整體測試需要系統管理團隊、數據庫管理團隊、網絡管理團隊通力合作,根據恢復程序文檔,對終端、網絡、服務器、應用系統和數據庫進行逐級測試,如遇故障應按照應急預案,利用備品備件和備份數據進行及時恢復。
此次機房搬遷是對沒有備用系統和網絡的大型廣域網機房進行保持業務連續性的一次性整體遷移,同時,總結前期運維管理中的經驗和問題,在機房建設和運維管理方面也進行了積極探索,有以下幾點體會:
(1)科學的項目管理是搬遷成功的基礎保障。搬遷工作可以歸納為三分技術七分管理。成立項目組,各司其職,搬遷過程中,既可以保障資源的統一協調,又能做到分工明確,界限清楚,提高了協調效率,保障資源供給。
(2)虛擬化在線遷移技術保障業務服務連續。經過前期技術論證和在線演練,我們通過采用VMware虛擬化技術進行核心業務系統在線遷移,有效保障了核心業務的連續性,并提供高可用性和災難恢復的功能,同時提高了服務器和存儲的資源利用率。
(3)制定科學的搬遷技術方案。制定的搬遷方案應周密細致、切實可行,預測搬遷風險,做好應急預案。在搬遷前對搬遷方案進行可行性論證,按方案進行搬遷演練,檢驗應急預案是否全面可行。
(4)應用新技術對原有系統和機房環境進行改造。總結前期運維管理的經驗教訓,利用本次搬遷機會,對機房基礎設施和系統進行升級改造,建設機房環境監控系統,解決前期運維過程中發現的問題,提高運維效率,降低維護成本。
[1] 葉明, 張軍平, 顏衛榮, 等. 銀行數據中心搬遷的策略、方法與實踐[J].中國金融電腦, 2013(1): 65-70.
[2] 王紅峰, 武雙鵬. 機房在線搬遷的規劃與實施[J].中國金融電腦, 2009(8).
李濤(1982~),男,本科,工程師,主要從事信息網絡管理與技術工作。
TU976+.2
B
[定稿日期]2016-12-20