一、概述
國內(nèi)某銀行的核心業(yè)務(wù)系統(tǒng)部署在2臺IBM AS400服務(wù)器上,2007年上線,采用Vision OMS構(gòu)建基于數(shù)據(jù)庫日志復(fù)制技術(shù)的業(yè)務(wù)連續(xù)性方案。2011年啟動(dòng)災(zāi)備項(xiàng)目建設(shè),把核心拓?fù)浣Y(jié)構(gòu)擴(kuò)展為3個(gè)節(jié)點(diǎn)。在本地生產(chǎn)機(jī)房部署兩個(gè)節(jié)點(diǎn),在生產(chǎn)機(jī)發(fā)生異常的情況下切換到本地備機(jī);在遠(yuǎn)程災(zāi)備機(jī)房部署災(zāi)備機(jī),在生產(chǎn)機(jī)房發(fā)生停電、火災(zāi)等異常的情況下,外圍服務(wù)器連接到災(zāi)備機(jī)房保持銀行核心基本業(yè)務(wù)的順暢、持續(xù)運(yùn)行。
本文以該銀行的災(zāi)備項(xiàng)目為背景,對基于IBM AS400+ Vision OMS的業(yè)務(wù)連續(xù)性方案的設(shè)計(jì)、實(shí)施、驗(yàn)證等環(huán)節(jié)進(jìn)行展開。
二、基于OMS的核心業(yè)務(wù)拓?fù)浣Y(jié)構(gòu)
該銀行核心業(yè)務(wù)系統(tǒng)部署在3個(gè)節(jié)點(diǎn)上,生產(chǎn)機(jī)房2個(gè)節(jié)點(diǎn),災(zāi)備機(jī)房1個(gè)節(jié)點(diǎn)。該方案的典型特征為:(1)生產(chǎn)機(jī)房部署所有需要的外圍設(shè)備,承擔(dān)所有銀行業(yè)務(wù);而災(zāi)備機(jī)房受到空間的限制通常僅部署最核心的外圍支持系統(tǒng),僅能承擔(dān)少數(shù)核心銀行業(yè)務(wù)。(2)生產(chǎn)機(jī)房和災(zāi)備機(jī)房之間通常使用150MB的帶寬即可滿足OMS復(fù)制的需要。
三、OMS切換操作
高可用方案設(shè)計(jì)的目的就是要通過switch-over或者fail-over來實(shí)現(xiàn)業(yè)務(wù)連續(xù)運(yùn)行。根據(jù)切換場景的不,有兩種可能出現(xiàn)的場景:(1)計(jì)劃切換;(2)非計(jì)劃切換。計(jì)劃性切換,通常發(fā)生在以下場景中:(1)生產(chǎn)機(jī)硬件維護(hù),例如更換RAID卡電池,更換已經(jīng)損壞的冗余電源;(2)更換RAID5陣列發(fā)生損壞的硬盤等;(3)主機(jī)操作系統(tǒng),或重要軟件的升級;(4)安裝PTF。
計(jì)劃性切換也需要安排業(yè)務(wù)中斷,通常會(huì)安排在周末夜晚進(jìn)行,以便最大限度的減小對生產(chǎn)的影響。
非計(jì)劃切換則往往發(fā)生在主機(jī)發(fā)生異常故障,已經(jīng)無法負(fù)擔(dān)生產(chǎn)任務(wù)的情況下,切換到備份機(jī)繼續(xù)運(yùn)行業(yè)務(wù)的場景。非計(jì)劃切換發(fā)生的情況包括:(1)主機(jī)發(fā)生關(guān)鍵硬件故障;(2)生產(chǎn)機(jī)出現(xiàn)宕機(jī)等異常情況,業(yè)務(wù)性能降低嚴(yán)重影響業(yè)務(wù);(3)出現(xiàn)系統(tǒng)或數(shù)據(jù)庫異常,修復(fù)時(shí)間超過允許范圍。
切換是一個(gè)復(fù)雜的過程,除了完成數(shù)據(jù)庫對象的反向復(fù)制以外,還需要考慮到業(yè)務(wù)連續(xù)性的要求,外圍設(shè)備的連接等綜合的要求。通常的業(yè)務(wù)切換需要考慮以下環(huán)節(jié):(1)IP interface的切換;(2)Job Schedule Entry的設(shè)置;(3)User Profile的設(shè)置。
正常情況下,業(yè)務(wù)在生產(chǎn)機(jī)運(yùn)行,備份機(jī)和災(zāi)備機(jī)作為復(fù)制的目標(biāo)節(jié)點(diǎn)。
當(dāng)切換到備份機(jī)以后,GRPA復(fù)制鏈路執(zhí)行change role動(dòng)作,翻轉(zhuǎn)復(fù)制的方向;同時(shí)激活GRPC,實(shí)現(xiàn)從備份機(jī)到災(zāi)備機(jī)的數(shù)據(jù)復(fù)制;同時(shí)需要停止由生產(chǎn)到災(zāi)備的復(fù)制鏈路GRPB。
當(dāng)切換到災(zāi)備以后,GRPB復(fù)制鏈路反向,GRPC復(fù)制鏈路反向,停止GRPA復(fù)制鏈路。
非計(jì)劃切換:(1)進(jìn)入OMS400主菜單,在連接前選2并執(zhí)行切換,備份機(jī)狀態(tài)將從Normal Target改為SOURCE REVERSE。根據(jù)生產(chǎn)機(jī)宕機(jī)時(shí)備份機(jī)上的狀態(tài),該過程可能會(huì)比正常的切換慢。(2)在備份機(jī)上輸入:ADDLIBLE ODS400,回車。輸入INZODS,回車。(3)在備份機(jī)上輸入ODS400命令,進(jìn)入ODS主菜單。(4)選擇選項(xiàng)6(Change System Role),并輸入回車。(5)在備份機(jī)上激活生產(chǎn)用IP地址。方法為:CFGTCP;選1 Work with TCP/IP interface,回車;找到相關(guān)IP地址,在其前面選9,回車,在按安F5刷新,直到該地址變成ACTIVE。(6)這時(shí)備份機(jī)已經(jīng)接替生產(chǎn)機(jī)的工作,用戶可以用原有的IP地址訪問系統(tǒng),作業(yè)實(shí)際發(fā)生在備份機(jī)上。(7)修復(fù)生產(chǎn)機(jī)。在確保其生產(chǎn)用網(wǎng)線仍未連接交換機(jī)的前提下開機(jī)。在生產(chǎn)機(jī)終端上用QSECOFR登錄。(8)在生產(chǎn)機(jī)上,關(guān)閉生產(chǎn)用IP地址,方法是:CFGTCP;選1 Work with TCP/IP interface,回車;找到相關(guān)IP地址,在其前面選10 ( END ),回車,再按F5刷新,直到該地址變成INACTIVE。(9)在生產(chǎn)機(jī)上用QSECOFR登錄。(10)在生產(chǎn)機(jī)上確認(rèn)沒有其他終端連接時(shí),輸入命令OMS400并回車執(zhí)行,以進(jìn)入OMS400的主菜單。可以看到連接PRDBCK。其狀態(tài)是:SOURCE NORMAL。(11)在這個(gè)連接前選2并執(zhí)行。生產(chǎn)機(jī)將進(jìn)行切換,其狀態(tài)變成TARGET REVERSE。(12)在生產(chǎn)機(jī)上,輸入ODS400命令,進(jìn)入ODS主菜單。(13)選擇選項(xiàng)6(Change System Role),并輸入回車。(14)在備份機(jī)上輸入STROMS,并確認(rèn)OMS在備份機(jī)上已經(jīng)啟動(dòng)。(15)在生產(chǎn)機(jī)上輸入STROMS,并確認(rèn)OMS在生產(chǎn)機(jī)上已經(jīng)啟動(dòng)。(16)在備份機(jī)上輸入STRODS。(17)系統(tǒng)將用一段時(shí)間追同步。(18)重新連接生產(chǎn)機(jī)對外的網(wǎng)線。(19)激活生產(chǎn)機(jī)上的備份用IP地址。(20)這時(shí)兩臺機(jī)器的狀態(tài)類似于計(jì)劃切換后的狀態(tài)。用戶可以用生產(chǎn)用IP地址訪問系統(tǒng),但作業(yè)運(yùn)行在備份機(jī)上,生產(chǎn)機(jī)在追同步后將繼續(xù)備份原備份機(jī)上的數(shù)據(jù)。(21)等追同步后反向切換將兩系統(tǒng)的角色重置。
四、結(jié)束語
銀行投資搭建的基于OMS的高可用架構(gòu)就是為了在生產(chǎn)機(jī)無法繼續(xù)正常運(yùn)行的情況下把生產(chǎn)切換到運(yùn)行能力相當(dāng)?shù)膫浞輽C(jī)或?yàn)?zāi)備機(jī),保證銀行業(yè)務(wù)的連續(xù)運(yùn)行。每年進(jìn)行2到3次的計(jì)劃切換,一方面驗(yàn)證切換流程的正確性,一方面也加強(qiáng)運(yùn)維人員對切換流程的熟練程度。隨著我國經(jīng)濟(jì)的高速發(fā)展,即使是核心業(yè)務(wù)也要經(jīng)常發(fā)生變更,而這些變更是否會(huì)對切換造成影響,除了在理論上進(jìn)行驗(yàn)證,也必須通過切換實(shí)戰(zhàn)來進(jìn)行驗(yàn)證。