武沛哲
(中車財務公司,北京100078)
隨著運營商企業(yè)信息化進程的不斷深化,管理信息系統(tǒng)已經成為支撐企業(yè)業(yè)務運行的重要平臺,同時業(yè)務的發(fā)展也對管理信息系統(tǒng)的業(yè)務支撐能力和可靠運行的要求越來越高。隨著IT系統(tǒng)大集中建設模式的廣泛應用,也帶來故障點集中的風險問題,如自然災害、電網停電等不可控風險。因此,適時、合理的規(guī)劃和開展容災建設,成為確保信息化系統(tǒng)高可用的重要手段。
容災體系的建設是內部數據安全以及外部監(jiān)管的雙重需要,隨著財務公司不斷發(fā)展,業(yè)務日益擴大,對系統(tǒng)的依賴性也越來越強,為了防范地震、火災、水災等自然災害、電力中斷以及人為破壞而導致系統(tǒng)遭到嚴重損壞、失效的異常情況,將財務公司數據損失降至最低,必須建立容災備份體系;此外監(jiān)管機構(銀監(jiān)會、銀監(jiān)局)也一直在強調異地容災的重要性,對于財務公司行業(yè)雖不是強制執(zhí)行,但也是歷次工作檢查與工作評價的重點,而且監(jiān)管機構對異地容災工作的關注度也在逐年增長,由此可見異地容災備份體系是財務公司信息化安全的重要組成部分,也是保障財務公司在突發(fā)災難性事故時保持業(yè)務連續(xù)性的重要基石。
隨著國內各行業(yè)信息系統(tǒng)的快速發(fā)展,特別是銀行、證券、保險和政府等行業(yè)業(yè)務大集中速度的加快,也造成了風險的相對集中。一旦發(fā)生災難,將導致分支機構、營業(yè)網點陷入癱瘓狀態(tài),或造成企業(yè)以及客戶數據的丟失。
如何防范技術風險,確保數據安全和業(yè)務連續(xù)性,已成為企業(yè)急需面對的課題。國家相關部門借鑒國外的容災備份理念,對加強信息安全保障工作十分重視,先后出臺了多項有關信息安全保障措施。2005年4月,國信辦下發(fā)了《信息系統(tǒng)災難恢復指南》;2007年7月30日,《信息安全技術信息系統(tǒng)災難恢復規(guī)范》發(fā)布,并于2007年11月1日實施,成為國標。由此可見,信息系統(tǒng)安全和災難備份受到國家、社會、企業(yè)的高度重視,容災體系建設不僅僅是企業(yè)自身保持業(yè)務連續(xù)運作的需要,同時也是社會群體和政策法規(guī)的要求。國外備份行業(yè)的 知 名 企 業(yè) 如 Veritas、CA、Falconstor(飛 康 )、Bakbone、Commvault很快占據了國內容災備份市場的半壁江山,而傳統(tǒng)IT服務公司也通過并購、技術吸收等方式進行業(yè)務擴張。如IBM 的 TSM(Tivoli Storage Manager) 系列;HP的 DP(Data Protector)系列;EMC收購Legato以后推出的Network系列;Oracle自身推出的DataGuard、GoldenGate。面對眾多國外廠商的來勢洶洶,火星倉、CDR等一大批國產軟件在自主可控的國產化道路上披荊斬棘,終得市場一席之地。
隨著財務公司行業(yè)的逐年發(fā)展,異地容災越來越受到監(jiān)管機構和財務公司的重視,財務公司協(xié)會每年也會針對各財務公司異地容災做專項的調研,并有意在財務公司行業(yè)內部建立統(tǒng)一的容災中心,但由于涉及公司較多,項目復雜度過大,一直未能成形。銀監(jiān)局工作人員駐場檢查時多次提到數據場外存放并要求自行管理,所以財務公司成立自己的容災備份中心已是大勢所趨,相信不久的將來監(jiān)管機構一定會補充完善關于財務公司容災備份的相關規(guī)定。
目前大部分財務公司都采取的是本地備份的方式,并無異地或同城災備中心,少數有災備中心的財務公司也僅僅是做到了異地數據存放,極少數財務公司實現(xiàn)真正意義上的應用級災備,做到“零感知切換”。
通常一提及容災備份,企業(yè)大多只關注災備系統(tǒng),單純地依靠信息系統(tǒng)的災備來實現(xiàn)容災,而一套完備的容災備份體系不僅僅是一個災備系統(tǒng),它需要相應的軟、硬件設施,配套的管理制度,完善的應急預案,熟練的人才隊伍等等多方面要素,而且容災體系不僅僅包括信息系統(tǒng)層面,更多的是業(yè)務部門,業(yè)務部門要考慮在系統(tǒng)遭受災難性破壞后如何快速響應,如何保證業(yè)務的連續(xù)性,要探索出在信息系統(tǒng)無法運行時保證業(yè)務正常開展的工作方式,降低在極端情況下對系統(tǒng)的依賴性。通常的容災體系包括如下內容:
4.1.1 同城或異地災備中心
機房內需具備完整的網絡系統(tǒng),與主數據中心進行專線互聯(lián),保證備份數據傳輸,同時具備一條銀行專線鏈路和互聯(lián)網訪問鏈路,具備獨立承擔核心業(yè)務系統(tǒng)運行的能力。
4.1.2 容災備份及恢復系統(tǒng)
容災備份及恢復系統(tǒng)在平時進行異地數據備份,在需要啟用災備系統(tǒng)時,提供數據恢復和應急應用等服務。該系統(tǒng)包括備份服務器、容災備份恢復軟件、存儲設備、磁帶庫以及相關網絡設備(交換機、路由器等)。
4.1.3 應急組織架構
2008年2月發(fā)布的JR/T0044-2008《銀行業(yè)信息系統(tǒng)災難恢復管理規(guī)范》對災難恢復組織架構提出框架性要求,依據規(guī)范定義,財務公司系統(tǒng)災難恢復組織架構建議分三層:
①決策層
決策層由財務公司最高管理層組成,負責在信息系統(tǒng)應急及災難恢復過程中的重大決策和危機管理事宜。
②管理層
管理層由財務公司各部門負責人組成,負責在信息系統(tǒng)應急及災難恢復過程中具體組織、溝通和協(xié)調工作,并監(jiān)督各項工作的開展情況,及時向決策層匯報。
③執(zhí)行層
執(zhí)行層由財務公司各部門業(yè)務骨干組成,可分為技術恢復組、業(yè)務恢復組、后勤保障組,具體負責信息系統(tǒng)應急及災難恢復各項任務的實施和落實。
建議公司對關鍵人員或業(yè)務骨干進行梳理,并建立重要工作崗位的人員備份的機制。
4.1.4 系統(tǒng)恢復/重建策略及流程
結合公司災備系統(tǒng)的實際情況,災備系統(tǒng)的應急策略可分為以下3種,本地緊急恢復、本地雙機切換、異地切換。
①本地緊急恢復。本地緊急恢復適用于:應用系統(tǒng)軟件發(fā)生邏輯處理錯誤,或人為誤操作或破壞造成系統(tǒng)異常停機;其他使備用數據與生產數據均產生錯誤的情況。
②本地雙機切換。本地雙機切換適用于:由應用系統(tǒng)服務器及配套設備發(fā)生硬件故障而造成系統(tǒng)中斷的事件。
③異地切換。異地切換適用于:區(qū)域性的自然災害,影響到北京主數據中心的正常運行;區(qū)域性的人為災難,例如:戰(zhàn)爭、區(qū)域性停電、區(qū)域性疫病等,影響到北京主數據中心的正常運行;涉及主數據中心的大規(guī)模改造或遷移事件。
信息化部門從技術層面保障各類資源(如災備服務商、備用網絡線路、設備)到位,各業(yè)務線條所屬部門需要制定數據追補方案,以配合災備的技術切換工作,形成完整的信息系統(tǒng)災難恢復流程。
4.1.5 穩(wěn)定的災備運維團隊
異地災備中心需相應的維護人員,每日對系統(tǒng)進行巡檢,對異地備份進行監(jiān)控,定期對備份數據進行有效性測試,配合主數據中心進行容災演練,在真正需要啟用異地容災中心時,及時相應并承擔數據恢復和系統(tǒng)重建工作。
4.1.6 完整的規(guī)章制度
需對災備中心整體制定相應的管理制度,如機房安全管理制度、人員崗位管理制度等等。
4.1.7 完備的容災演練計劃
需制定容災演練計劃,按照預計方案進行容災演練。
災難數據備份的具體實現(xiàn),主要是通過數據復制技術來實現(xiàn)重要信息的多份、多地保存,目前主流的數據復制技術包括數據庫復制技術和存儲復制技術。
①數據庫復制技術
由數據庫廠商或者第三方開發(fā),基于數據庫日志或者數據流實現(xiàn)復制的技術。Oracle DataGuard是典型代表。
②存儲復制技術
以同步復制技術為基礎,通過磁盤陣列實現(xiàn)數據同步復制,從而保證產中心陣列與容災中心陣列的在線數據完全同步。其整體方案中也包含了同步快速恢復、快照等輔助技術,從而實現(xiàn)整個容災體系的要求。
在同城的容災方案中,基于磁盤陣列的同步復制方案,也是較為流行的一種。飛康 CDP、Symantec的 NetBackUp(Veritas)系列是該項技術的代表。
財務公司屬于非銀行金融機構,是企業(yè)的內部銀行,但又不同于商業(yè)銀行。由于無法加入人民銀行的支付清算系統(tǒng),財務公司的所有結算業(yè)務必須依托于銀行,實體資金都是依靠各個開戶行之間進行清算,財務公司的核心系統(tǒng)僅僅起到一個“賬簿”的作用,只有在與銀行互聯(lián)的前提下,財務公司才能實現(xiàn)支付結算和資金歸集業(yè)務。
在這種情況下,若想要災備中心在接管生產中心后還能正常運營,則災備中心也必須和開戶銀行進行互聯(lián),考慮到自然災害的范圍性特征,和財務公司災備中心互聯(lián)的最好也是銀行的災備中心,這樣才能保證發(fā)生地域性災害后銀行切換災備中心,財務公司也切換至災備中心,完全實現(xiàn)業(yè)務接管。目前大部分銀行的災備中心并不提供外部接入服務,而做到災備中心與銀行生產中心互聯(lián)已是當前最可行的方案。
在《企業(yè)集團財務公司管理辦法》中明確規(guī)定“財務公司為企業(yè)集團成員單位(以下簡稱成員單位)提供財務管理服務的非銀行金融機構”。
按照上述規(guī)定,財務公司是企業(yè)集團的內部銀行,吸收成員單位的對公存款,客戶范圍僅限定于集團內部,因此吸收存款的規(guī)模極其有限,系統(tǒng)的重要性以及對社會的影響性同商業(yè)銀行相比還是有一定距離的。
目前,財務公司規(guī)模都不大,多則百人左右,少則二三十人,而且大部分財務公司無獨立的信息科技部門,基本都是掛靠在綜合管理部的信息主管,有的甚至連專門的信息主管都沒有,人員配置大多數在1-3人,他們除了負責財務公司的信息化規(guī)劃建設外,還要承擔系統(tǒng)日常運維、機房日常運維、固定資產管理等等工作,還有甚者需兼職行政、安防等崗位。日常的基礎信息化運維工作已經忙得焦頭爛額,還得疲于面對各種自查、總結、報告,上報各類統(tǒng)計數據,還要承擔綜合管理的部分職責,很難再有精力再去進行管理工作。
財務公司對外提供服務,大致由三部分構成,外部接入網絡,核心業(yè)務系統(tǒng),銀企互聯(lián)網絡。
①外部接入網絡有專線和互聯(lián)網,實現(xiàn)外部用戶訪問系統(tǒng)。
②核心業(yè)務系統(tǒng)負責處理各類業(yè)務。
③銀企互聯(lián)網絡負責財務公司和銀行交互,完成各種支付、查詢指令,接入方式也分為專線和互聯(lián)網。
災備中心如果想和生產中心一樣能夠接管所有業(yè)務,就必須對上述三部分做災備,而上述①,③部分的災備線路使用費,即便在沒有使用時也要計費,所以經濟性較差,目前大部分財務公司所謂的應用級災備只是對第二部分進行災備,畢竟財務公司是要依靠銀行來進行結算的,僅對核心業(yè)務系統(tǒng)進行災備無法開展歸集、支付業(yè)務,最理想的情況是財務公司的災備系統(tǒng)能和銀行的災備系統(tǒng)進行對接,而實際中大部分銀行的災備系統(tǒng)不提供外部接入服務。
災備中心是整個容災體系中最核心的一個環(huán)節(jié),目前行業(yè)內比較推崇的是“兩地三中心”的建設模式,“兩地”指本地和異地,“三中心”指生產中心、同城災備中心和異地災備中心。
災備中心在建設過程中有兩種常見的建設方式,一種是自建災備中心,另一種是外包式托管災備中心。
自建災備中心指企業(yè)擁有災備中心的產權,災備中心的能源、安防、空調、環(huán)境監(jiān)控、軟硬件設施和人員等等都是自行管理。該方式的優(yōu)勢在于災備中心的所有資源都在自己掌控范圍之內,大大降低外部入侵風險,特別是人員風險,而且在項目部署時有很大的自主性和靈活性,但是該建設方式投資較大,特別是兩地三中心的模式下,需建立三個數據中心,涉及大量的工程建設工作,而且需要一支專業(yè)化較強的運維隊伍來支撐整個災備體系運轉,各企業(yè)需根據自身實際情況量力而行。
外包式托管災備中心,指企業(yè)通過租賃的方式獲得數據中心的長期使用權,對于數據中心基礎設施的運維工作全部由產權所有者承擔。目前,國內各大IDC服務商有著大量的數據中心資源,而且各數據中心之間均有專線相連,我們可以充分利用這些公共服務資源,來實現(xiàn)“兩地三中心”的建設模式,這樣不僅減少了數據中心的建設和維護成本,而且大大簡化了實施難度和建設周期。
面對財務公司信息科技人員不足、技術力量薄弱的現(xiàn)實情況,采用外包式托管災備中心的建設方式,是更加符合財務公司現(xiàn)實情況的一種選擇。
任何事物都需要辯證地去看待,通過外包托管的方式確實可以快速、便捷地實現(xiàn)我們的災備需求,但這把雙刃劍同時也帶來了一系列風險隱患。
在外包托管方式下我們的工作重點從技術層面轉向外包風險管理層面,如下風險點需重點防范:
①科技能力喪失:過度依賴外部資源導致失去科技控制及創(chuàng)新能力,影響業(yè)務創(chuàng)新與發(fā)展;
②業(yè)務中斷:支持業(yè)務運營的外包服務無法持續(xù)提供導致業(yè)務中斷;
③信息泄露:包含客戶信息、內部商業(yè)秘密在內的非公開數據被服務提供商非法獲得或泄露;
④服務水平下降:由于外包服務質量問題或內外部協(xié)作效率低下,使得銀行業(yè)金融機構信息科技服務水平下降。
我們在采用外包服務時必須堅守如下原則:以不妨礙核心能力建設、積極掌握關鍵技術為導向;保持外包風險、成本和效益的平衡;強調外包風險的事前控制,保持管控力度;根據外包管理及技術發(fā)展趨勢,持續(xù)改進外包策略和措施。
銀監(jiān)會下發(fā)的《商業(yè)銀行數據中心監(jiān)管指引》、《商業(yè)銀行信息科技風險管理指引》和《信息科技外包風險監(jiān)管指引》中都提到了對外包行為進行風險管控,相關條款很全面也很細致,但是對于僅有一兩名信息科技人員的財務公司而言,實際操作性不強,而且信息科技風險的監(jiān)管也沒有專門的人員,信息工作人員往往都是自己監(jiān)管自己,說出來很可笑,但這確實是目前行業(yè)的現(xiàn)狀。
在日常管理中我們可以采取一系列有效、可操作的措施:
①設置專職的信息科技風險管理崗位,獨立于日常的信息科技工作,全面把控信息科技風險。
②在選擇外包供應商時,需做好全面的盡職調查,從行業(yè)口碑、同行走訪、對方企業(yè)現(xiàn)場考察等多方面綜合研判,確保外包服務質量。
③按照“必須知道”和“最小授權”原則,嚴格控制外包服務商信息訪問的權限,要求外包服務商不得對外泄露所接觸的信息。
④嚴禁外包服務商登陸核心業(yè)務系統(tǒng)的生產環(huán)境,對生產環(huán)境的所有操作必須由財務公司在職的信息科技人員完成,同時要求外包服務商保留操作痕跡、記錄完整的日志,相關內容和保存期限應滿足事件分析、安全取證、獨立審計和監(jiān)督檢查需要。
⑤要求外包服務商每年至少開展一次信息安全風險評估并提交評估報告。
⑥要求外包服務商聘請外部機構定期對其進行安全審計并提交審計報告,督促其及時整改發(fā)現(xiàn)的問題。
⑦禁止外包服務商轉包并嚴格控制分包,保證外包服務水平。
⑧制定數據中心外包服務應急計劃,制訂供應商替換方案,以應對外包服務商破產、不可抗力或其他潛在問題導致服務中斷或服務水平下降的情形,支持數據中心連續(xù)、可靠運行。
⑨在外包服務協(xié)議條款中明確商業(yè)銀行和監(jiān)管機構有權對協(xié)議范圍內的服務活動進行監(jiān)督檢查,包括外包商的服務職能、責任、系統(tǒng)和設施等內容。
容災[1]體系建設是一個系統(tǒng)的、長期的、階段性的工作,根據不同的災備級別,所需的投資不同,回報也不同,建設進度必須符合財務公司信息化發(fā)展的程度,一定要做到從實際出發(fā),為實際服務,有實際效果。在建設過程中可大致分為三個階段,第一階段實現(xiàn)重要數據異地備份,必要時可臨時租用相關設備及線路恢復應用,可在7天內實現(xiàn)數據恢復,數據丟失小于等于7天;第二階段實現(xiàn)異地部署必要的主機、網絡設備以及銀行和互聯(lián)網鏈路,在3天內恢復數據同時恢復應用,數據丟失小于等于3天;第三階段實現(xiàn)生產系統(tǒng)、異地容災系統(tǒng)同步,10分鐘內恢復數據,實現(xiàn)數據極小丟失。
財務公司行業(yè)容災體系建設一定要從自身情況出發(fā),切記一哄而上、一步到位、重建設輕管理,到最后投入產出相距甚遠。容災體系需要與時俱進,不斷完善,不可能一步到位,需要廣大信息科技工作者在實際工作中逐步完善,追求卓越。