宋大治
(南京地鐵建設有限責任公司 江蘇省南京市 210017)
IDC 全球調查報告指出,2014年以來,全球因業務宕機或數據丟失導致的損失高達1.7 萬億美元。2017年5月12日勒索病毒事件的爆發再一次證實了信息數據安全問題不容樂觀。信息基礎硬件資源容易快速恢復或重新配置,一旦發生數據資產丟失將導致整個業務系統長時間不能恢復從而造成巨大的經濟損失或者嚴重的社會影響甚至危害國家安全。
面對軟、硬件故障和人為誤操作等諸多因素造成的信息數據丟失和業務中斷的風險,在信息安全規劃中需要加強數據災備體系的建設,確保在災難發生后快速恢復數據和應用以保障業務的連續性,將災難造成的損害降低到最小限度。
地鐵作為國家重要民生基礎建設工程。其綜合監控系統(ISCS)包含了電力監控系統(PSCADA)、環境與設備監控系統(BAS)、火災 自動報警系統(FAS)、站臺門系統(PSD)、列車自動監控系統(ATS)、廣播系統(PA)、視頻監控系統(CCTV)、乘客信息系統 (PIS)、門禁系統(ACS)等重要應用系統數據,其中大多數應用系統都被定為等保三級。
為保障信息系統的安全性,全自動運行的地鐵ISCS 系統建設規劃為雙控制中心,在主控中心與備份控制中心之間做了硬件和應用系統冗余,做到應用系統在線熱備。雙中心之間以專線雙鏈路作為網絡通訊保障。同時在安全保障系統上依據等保三級的要求配備了防火墻、入侵檢測、數據庫審計等網絡安全設備,建設了符合公安部要求的工控網絡安全體系。
網絡的安全性是相對的,在做好信息安全防控的情況下依然存在病毒感染、黑客入侵的風險或者人為誤刪除等邏輯錯誤。從應用安全層面考慮,數據是業務系統的核心要素,所以需要做好保護數據資產的底線思維,建設數據安全保障體系。
根據《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》及公安部《信息安全等級保護管理辦法》2.0 的相關要求,結合地鐵ISCS 系統設計的具體情況,首先需要將實時服務器、歷史服務器、接口服務器、網管服務器、應用服務器、工作站的操作系統及相關的軟件平臺中的數據庫等按照備份策略進行本地備份,當發生數據丟失時,可以快速有效的從本地數據備份服務其中恢復信息數據和業務系統。
地鐵運營的穩定性至關重要,各關鍵業務的信息系統要求7*24小時不間斷運行,為避免發生業務系統中斷的風險,在做好數據的安全保護工作基礎上,還需要進一步建設信息系統的容災和應急接管措施。對于關鍵信息基礎設施的不同信息系統應用,應根據所需達到的RPO(Recovery Point Objective)和RTO(RecoveryTime Objective)指標,確保生產服務器故障或是場地災害時,服務能夠及時切換到容災平臺上。
設計原則:
(1)可用性:災備數據需與生產數據保持一致性、完整性,目的是為了確保在災難發生時,備份數據可以提供應急恢復,確保恢復后數據的有效性、可用性。
(2)安全性:作為信息安全的最后一道防線,災備基礎設施、數據與數據中心基礎設施和數據需進行物理隔離。另外,災備數據傳輸過程中也應加密傳送,確保備份數據傳輸和存放的安全可靠,從而實現數據在災備存儲的過程中趨于零損耗。
(3)穩定性:災備系統平臺在設計、建設中需要首先考慮其本身的穩定性,只有自身足夠強健穩定才有可能確保數據備份和容災的持續穩定。
(4)全面性:在復雜的IT 網絡環境中存在各種操作系統平臺,平臺下可能還會安裝各類應用系統,如Oracle、SQL Server、MySQL、DB2、Sybase、達夢數據庫等。因此,災備系統平臺需要支持各種操作系統、數據庫和應用,確保與環境兼容的全面性。
(5)自動化:人工干預的方式實現的安全保護無法避免會出現漏、誤操作等情況,同時災備運維難以管理,因此應該實現運維自動化、安全保護自動化,具有日志記錄功能,異常情況時自動報警功能。
(6)實時性:關鍵信息基礎設施要求7*24 小時不間斷運行進行備份保護,需要針對關鍵信息系統進行實時備份保護,確保關鍵數據趨于零丟失。
(7)高性能:隨著應用的不斷發展,各種數據資產海量積累,而且數據的產生速度也越來越快,這就要求我們在設計備份系統時要考慮通道的帶寬和多種軟硬件技術性能的冗余。
(8)可擴展性:數據安全保障體系的設計不但要滿足當下業務的實際需要,還需適當考慮未來業務不斷擴展以及與新技術進行銜接和產品升級的可能,具備良好的升級發展空間,以充分適應未來信息安全建設的擴展,保護現有投資。
全自動運行系統的ISCS 雙控制中心分別配置容災備份一體機服務器,內置虛擬一體化容災平臺,利用磁盤級CDP (Continuous Data Protection)技術,實現I/O 級細粒度的實時備份,將備份窗口以及數據丟失的可能性降到最低。同時主控中心和備份控制中心的備份數據利用同步模塊在高帶寬通訊線路的保障下相互同步,進一步降低數據安全的風險性。
采用CDP 技術的內置虛擬化一對多應急接管方案可解決核心業務的連續性需求。同時還可以通過對備份數據執行直接掛載演練,找回指定時間節點的歷史數據,解決了因為數據的邏輯錯誤導致的數據丟失、刪除、篡改等問題,實現對信息系統進行多重保護。
3.1.1 方案拓撲圖
如圖1所示。

圖1:雙中心數據備份與恢復方案拓撲圖
3.1.2 方案說明
(1)主控中心機房和備份中心機房域網交換機中,各配置一套備份一體機,預置數據備份與恢復系統Web 管理端。
(2)在業務網交換機中,通過千兆網線連接內置虛擬化備份容災平臺一體機服務器,在應用服務器、實時服務器、接口服務器、歷史服務器、網管服務器等內預裝容災agency。
(3)一體機服務器將會主動識別到預裝了應用容災agency 的應用服務器。應用服務器以及生產服務器的系統盤以及數據存儲磁盤將根據管理員依據業務相應規則設定的具體數據備份所需執行的策略(卷級CDP 實時備份),將有關數據備至容災平臺內對應的容災接管虛擬機(包括生產機的操作系統文件和相應網絡策略配置等)。
(4)實時復制數據機制可以讓容災服務器虛擬機上的數據與目標服務器上的數據保持完全一致且真實可用,從而完成接管生產服務器上應用所必需的基本條件。容災服務器被設定為通過系統故障診斷功能模塊對服務器運行狀態進行自動檢測并依據檢查結果來判斷生產服務器的及時工作狀態,一旦生產服務器端出現業務故障時,會向管理員發出警報,并依據設定的規則由管理員手動或者自主執行容災服務器業務接管。
(5)一旦生產服務器修復正常后,利用數據的智能回遷機制把容災服務器中的歷史備份數據以及新生成的數據逆向同步到正常的生產服務器上,然后按預設方案,將所有應用服務逐一切換回相應的生產服務器。
(6)初始設置完成后,在主中心備份容災一體機和備份中心備份容災一體機的備份服務管理端中設置數據同步或異步功能模塊實現數據的鏡像同步。定時或實時鏡像同步部署完成后,即可完成應用服務器本地備份數據異地傳輸。
(7)數據備份與恢復系統數據同步模塊提供實時壓縮、斷點續傳、雙向傳輸功能,保證本地備份數據和異地備份數據一致,如此當本地機房出現重大損毀時,可以通過異地備份數據進行應急恢復。
災難恢復資源是為應對那些“概率小、風險高”的事件而準備的,平時基本上處于靜默備戰狀態,其目的就是為了在發生數據故障或者災難的時候,有一份安全的數據副本存在,可以用于數據的恢復或者災后重建。因此,備份容災數據的有效性就非常的關鍵。
通常情況下,本地容災平臺設置了災難自動演練機制。根據策略,在24 小時內會把近期產生的新數據備份快照鏡像加載到指定虛機,并且對源系統進行鏡像模擬。之后對相應的數據、文件、虛機系統服務等進行可靠性和完整性驗證。校驗內容包括:DataBase(MSSQL、Oracle)、WindowsService、EventLog、File、Exchange 等。針對災備演練形成制度,周期性的進行,每周、每月甚至是每季度進行一次并發送自動演練報告至管理員郵箱或手機。
(1)無驅CDP 保護:支持無驅CDP,生產機無需安裝任何內核型CDP 代理程序即可實現數據CDP 實時保護,代理程序不涉及操作系統底層內核的改動,以減小對生產機穩定性的影響。
(2)安全備份、可信恢復:采用軍密、商密、國密等高位加密技術對備份數據進行自動透明的加解密保護,并支持密碼驗證方式對災備保護的數據進行恢復操作。
(3)自動校驗:為確保備份數據與生產數據的一致性、完整性、可恢復性,提供備份數據的自動校驗機制。
(4)跨平臺兼容性:支持對個人電腦,各類服務器及小型機跨操作系統平臺的在線備份;支持主流操作系統(如: Linux、Unix、Windows 等) 以及各類虛擬化平臺(例如:VMware Hyper-V、ESX 等);支持My SQL、SQL Server、Oracle、DB2、Active Directory、 達 夢、Sybase、Exchange Server、Domino 等 多種數據庫;支持對各種數據庫、文件的CDP(Continuous Data Protection)實時熱備、定時熱備、手動備份;支持LanBase、LanFree 等多種備份方式。
(5)軟硬一體化配置:軟硬一體化配置,集備份軟件、操作系統、備份服務器、磁盤陣列于一體可大大降低方案集成成本及后續信息系統的運維服務成本;杜絕傳統集成方案中產生的產品不兼容、難擴展、售后服務不及時等一系列問題。
(6)集中管理平臺:Web 集中管理頁面,可對備份節點、備份客戶端、備份策略、備份數據、管理權限進行集中化設置管理;部署容易、操作簡便,擺脫對專業技術人員的依賴。
(7)數據應急恢復:數據丟失或損壞時,可提供災難應急恢復能力,快速恢復系統和數據;即便服務器硬件損壞,也可以通過異機恢復來實現信息系統的快速重構。
(8)本地異地雙重保護:支持一對一、一對多以及多對一等多種異地災備,支持本地及異地雙重保護和恢復;備份客戶端可在前置設備節點、后置設備節點之間切換;當本地數據中心發生數據丟失時,可以從前置設備的本地節點備份集恢復數據;當本地數據中心發生場地災難時,客戶端可切換至后置設備并從異地節點備份集恢復數據。
(9)海量數據增量備份:支持主機房磁盤格式和NAS 共享存儲下海量文件“日志增量備份”模式保護,不限制備份的文件數量,可高效地定位新產生或者被修改的文件并對其進行及時備份,無須每次增量備份時掃描所有文件;增量備份間隔可達分鐘級,從而大大提升備份效率。
(10)獨占文件備份。系統支持獨占和鎖定狀態下的文件備份保護(如:注冊表文件、系統文件),保證備份數據的完整性。
(11)虛擬化備份保護:系統支持集群環境下的VMware、Hyper-V、華為FusionSphere 等主流虛擬化平臺無代理備份保護模式,無需在虛機中安裝客戶端代理,也不需要尋找其它代理備份服務器安裝客戶端,通過Web 集中管控平臺就可直接為虛擬化系統添加備份保護任務。
(12)VMware 虛擬機掛載恢復:Vmware 虛擬機備份后,可以直接將備份的虛擬機通過掛載的方式瞬時恢復使用,虛擬機掛載后可自動開機和聯網;也可直接從備份虛擬機數據集中選擇需要恢復的目錄或文檔文件數據進行單文件細粒度恢復。不需要恢復整個虛擬機文件。
(13)應急接管:容災服務器可在指定的任意時間點上執行業務的應急接管。一旦生產服務器端出現業務故障,容災服務器會根據監測結果向管理員發出警報,并依據設定的規則由管理員手動或者自主執行容災服務器業務接管。保障核心業務運行不間斷。
(14)自動演練:容災服務器具有自動演練功能,以保障備份數據的可用及完整性。演練之后,根據預設的校驗規則生成數據演練和數據校驗報告發送到管理員的郵箱地址。
(15)數據掛載:容災數據可被直接掛載呈現,可以對掛載出來的數據執行讀、寫等操作;也可以根據實際需求選擇指定數據進行掛載,恢復特定時間點的歷史數據。
(16)數據回遷:當生產服務器被修復或更新后,可以啟動PE 將備份集中的歷史系統和數據(包含接管后產生的最新數據)回遷至修復更新的生產主服務器上。恢復生產服務器對外響應。
通過對地鐵ISCS 的數據災備建設,應用系統的數據資產得到安全、可靠、有效保護,且在極端情況下提供最關鍵的業務容災保障,最大程度上解決了數據安全隱患,在地鐵安全運行中起到了保駕護航的重要作用。