孔明軍++李芹++王瑜

摘 要:由于醫(yī)院業(yè)務(wù)的特殊性,任何人為或自然因素所導(dǎo)致的應(yīng)用或系統(tǒng)中斷或數(shù)據(jù)丟失,都會造成醫(yī)院巨大的經(jīng)濟(jì)損失。醫(yī)院需要一套完善的容災(zāi)保護(hù)方案來實現(xiàn)數(shù)據(jù)和應(yīng)用系統(tǒng)的雙活,當(dāng)出現(xiàn)任意一臺服務(wù)器、存儲的災(zāi)難性事件時都不會造成業(yè)務(wù)中斷,同時需要將應(yīng)用環(huán)境中的虛擬化平臺、數(shù)據(jù)庫、操作系統(tǒng)等進(jìn)行自動備份,從而達(dá)到保護(hù)數(shù)據(jù)、快速恢復(fù)業(yè)務(wù)系統(tǒng)的目的。該文以山東省泰安市中心醫(yī)院建設(shè)以虛擬化存儲網(wǎng)關(guān)為核心的雙活容災(zāi)備份系統(tǒng)為例,詳細(xì)介紹了可行的技術(shù)方案供同行實施時參考和交流。
關(guān)鍵詞:醫(yī)院信息雙活 容災(zāi)備份 存儲網(wǎng)關(guān)
中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)03(a)-0129-02
1 項目背景
山東省泰安市中心醫(yī)院是一家規(guī)模較大的三級甲等綜合性醫(yī)院,作為本地區(qū)醫(yī)療行業(yè)的龍頭單位,經(jīng)過多年來信息化的逐步發(fā)展和擴(kuò)充,建成了HIS、CIS系統(tǒng)、LIS系統(tǒng)、EMR系統(tǒng)、PACS系統(tǒng)等核心業(yè)務(wù)系統(tǒng),由這些系統(tǒng)構(gòu)成的整個醫(yī)院信息系統(tǒng)具有數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、事務(wù)并發(fā)多且實時的特點。在實施雙活容災(zāi)備份系統(tǒng)之前,HIS、CIS、EMR系統(tǒng)運行在MSCS雙機(jī)上,PACS系統(tǒng)運行在3臺DELL R920搭建的VMware5.5集群上,雙機(jī)和VMware集群后端掛接一臺EMC VNX5400存儲;LIS系統(tǒng)運行在另一套MSCS雙機(jī)上,病例翻拍、運維等其他系統(tǒng)運行在6臺服務(wù)器搭建的VMware虛擬化集群上,后端共用一臺HP EVA P6350存儲。改造前核心系統(tǒng)及數(shù)據(jù)存儲設(shè)備拓?fù)鋱D如圖1。
由拓?fù)鋱D可以看到,醫(yī)院各應(yīng)用系統(tǒng)的數(shù)據(jù)都保存在單存儲器上,依靠數(shù)據(jù)庫本身的備份機(jī)制進(jìn)行數(shù)據(jù)庫副本的冷備,存在極大的數(shù)據(jù)安全隱患,因此醫(yī)院通過多次規(guī)劃和論證,確立了建設(shè)雙活容災(zāi)備份體系的實施方案。
2 建設(shè)目標(biāo)
實現(xiàn)醫(yī)院信息系統(tǒng)雙活數(shù)據(jù)容災(zāi)備份, RPO與RTO趨向于零,支持任意時間點內(nèi)數(shù)據(jù)回滾(預(yù)防數(shù)據(jù)邏輯錯誤),徹底解決任何單點故障問題,當(dāng)設(shè)備或鏈路出現(xiàn)故障時做到自動切換,無需人工干預(yù),實現(xiàn)醫(yī)院信息系統(tǒng)業(yè)務(wù)不間斷、數(shù)據(jù)不丟失。
實現(xiàn)在兩個數(shù)據(jù)中心之間實時同步的保留兩份數(shù)據(jù),并且可以實現(xiàn)兩個數(shù)據(jù)中心的兩份同樣的數(shù)據(jù)都是活動的狀態(tài),即可讀可寫的;當(dāng)生產(chǎn)機(jī)房的存儲故障后,通過生產(chǎn)機(jī)房的主機(jī)(或者容災(zāi)機(jī)房的主機(jī))通過光纖鏈路訪問到容災(zāi)機(jī)房的數(shù)據(jù),整個過程無需人工操作,業(yè)務(wù)不受任何影響。容災(zāi)機(jī)房存儲出現(xiàn)故障時,反之亦然;原有HIS、LIS等系統(tǒng)雙機(jī)集群狀態(tài)保持不變,服務(wù)器分別放在兩個機(jī)房:生產(chǎn)機(jī)房的主機(jī)和容災(zāi)機(jī)房的主機(jī)同時對同一數(shù)據(jù)庫應(yīng)用進(jìn)行讀寫操作,而且生產(chǎn)機(jī)房訪問本機(jī)房的存儲上的數(shù)據(jù),容災(zāi)機(jī)房訪問容災(zāi)機(jī)房的數(shù)據(jù),通過緩存一致性技術(shù)保證數(shù)據(jù)的一致性。任何一個機(jī)房的主機(jī)、存儲發(fā)生故障的時候,應(yīng)用可以由另外一個機(jī)房繼續(xù)提供服務(wù),用戶不會有任何感覺;可以實現(xiàn)任何一個機(jī)房的任何一個部件失敗,包括:服務(wù)器、存儲、虛擬化網(wǎng)關(guān)、交換機(jī)甚至整個機(jī)房癱瘓,另外一個機(jī)房都可以無縫的接管所有工作,業(yè)務(wù)不會停、也不需要人為干預(yù);RPO與RTO趨向于零,支持任意時間點內(nèi)數(shù)據(jù)回滾(預(yù)防數(shù)據(jù)邏輯錯誤);實現(xiàn)對現(xiàn)有醫(yī)院信息系統(tǒng)乃至未來上線業(yè)務(wù)系統(tǒng)的數(shù)據(jù)、應(yīng)用等做整體的容災(zāi)備份。
3 技術(shù)方案
按照對系統(tǒng)的分析,考慮到整個系統(tǒng)安全架構(gòu),筆者經(jīng)過對比目前市場上多家相關(guān)軟硬件系統(tǒng)的優(yōu)缺點,選用了比較經(jīng)濟(jì)的國產(chǎn)虛擬化存儲網(wǎng)關(guān)產(chǎn)品進(jìn)行部署,設(shè)計出了醫(yī)院容災(zāi)的規(guī)劃方案,拓?fù)鋱D如圖2所示。
兩臺容災(zāi)網(wǎng)關(guān)通過與光纖交換機(jī)連接,以數(shù)據(jù)卷方式對外(應(yīng)用服務(wù)器)提供存儲服務(wù)。為了保護(hù)數(shù)據(jù)鏈路的可用性,使用兩臺光纖交換機(jī)構(gòu)建冗余鏈路。兩臺容災(zāi)網(wǎng)關(guān)之間通過光纖鏈接進(jìn)行數(shù)據(jù)鏡像同步。該方案的最大優(yōu)勢在于其對業(yè)務(wù)連續(xù)性的保護(hù)。生產(chǎn)數(shù)據(jù)從應(yīng)用服務(wù)器端寫入存儲網(wǎng)關(guān)容災(zāi)網(wǎng)關(guān)后,容災(zāi)網(wǎng)關(guān)之間將自動對數(shù)據(jù)進(jìn)行在線鏡像到另外一臺容災(zāi)網(wǎng)關(guān)中。當(dāng)存儲系統(tǒng)中任何一個環(huán)節(jié)(容災(zāi)網(wǎng)關(guān)或鏈路)出現(xiàn)故障時,存儲路徑將自動切換到另外一臺容災(zāi)網(wǎng)關(guān)上,存儲服務(wù)完全不受影響。應(yīng)用服務(wù)器上的業(yè)務(wù)將無縫地繼續(xù)運行,業(yè)務(wù)完全不會受到中斷。
3.1 主機(jī)層
目前HIS、CIS、EMR系統(tǒng)使用兩臺HP DL980服務(wù)器,一臺EMC VNX5400存儲,通過MSCS集群技術(shù)組成雙機(jī)主備集群;LIS系統(tǒng)使用兩臺HP DL388G9服務(wù)器,一臺HP P6350存儲,通過MSCS集群技術(shù)組成雙機(jī)主備集群。目前兩套雙機(jī)系統(tǒng)均采用共享存儲方式提高數(shù)據(jù)安全性和數(shù)據(jù)響應(yīng)速度。此次方案設(shè)計保留HIS、LIS等系統(tǒng)MSCS雙機(jī)集群,將HIS、LIS等系統(tǒng)備機(jī)遷移到容災(zāi)機(jī)房,如果主機(jī)房服務(wù)器故障,容災(zāi)機(jī)房系統(tǒng)備機(jī)自動接管應(yīng)用,無須人工干預(yù),HIS、LIS業(yè)務(wù)系統(tǒng)使用不會受到影響。
OA服務(wù)器、手術(shù)麻醉服務(wù)器、超聲服務(wù)器在內(nèi)的周邊業(yè)務(wù)系統(tǒng),目前通過6臺HP DL388服務(wù)器和一臺HP P6350存儲組建VMware虛擬化平臺,此次新增4臺HP388G9,并入原有的VMware虛擬化平臺中,兩個機(jī)房各放置5臺服務(wù)器,實現(xiàn)周邊業(yè)務(wù)系統(tǒng)主備機(jī)房一側(cè)設(shè)備或鏈路出現(xiàn)故障時,虛擬機(jī)業(yè)務(wù)自動遷移,業(yè)務(wù)系統(tǒng)使用不會受到影響。
3.2 網(wǎng)絡(luò)層
新的交換機(jī),存儲,服務(wù)器,存儲虛擬化網(wǎng)關(guān)上線業(yè)務(wù)切換交割,為減少現(xiàn)有HIS、LIS等業(yè)務(wù)系統(tǒng)的停機(jī)時間,此次對于現(xiàn)有的4臺光纖交換機(jī)不做位置的更改,新機(jī)房新購兩臺光纖交換機(jī),與原有機(jī)房的4臺光纖交換機(jī)三三級聯(lián),組成一個大的存儲SAN網(wǎng)絡(luò),任意光纖交換機(jī)故障或任意機(jī)房出現(xiàn)災(zāi)難性事件,主機(jī)訪問存儲均不受影響,業(yè)務(wù)系統(tǒng)使用不會受到影響。
3.3 存儲網(wǎng)關(guān)
在兩個機(jī)房中分別部署一臺存儲虛擬化網(wǎng)關(guān),在容災(zāi)機(jī)房中部署一臺與原核心存儲相同型號的EMC VNX5400高性能存儲,使用新增的EMC VNX5400存儲作為容災(zāi)機(jī)房HIS、LIS及虛擬化平臺的后端存儲,為前端虛擬化平臺及HIS、LIS等業(yè)務(wù)系統(tǒng)提供存儲數(shù)據(jù)存儲雙活服務(wù)。利用虛擬化網(wǎng)關(guān)將兩個機(jī)房的3臺存儲統(tǒng)一管理起來,建立虛擬的存儲池,通過虛擬鏡像卷技術(shù),保證數(shù)據(jù)在寫入主機(jī)房HP P6350或EMC VNX5400的時候同時寫入容災(zāi)機(jī)房的EMC VNX5400存儲中,可確保存儲數(shù)據(jù)保持時刻同步,并同時對外提供服務(wù),實現(xiàn)存儲雙活,滿足存儲高可用的特性,并且能提供雙活的負(fù)載均衡功能。如果遇到斷電、火災(zāi)或其它故障,導(dǎo)致生產(chǎn)機(jī)房存儲設(shè)備出現(xiàn)故障后,可立即由備用機(jī)房存儲設(shè)備來接管、繼續(xù)對外提供服務(wù),從而可以保證存儲出現(xiàn)物理故障時的業(yè)務(wù)連續(xù)性。
通過HIS、LIS雙機(jī)、服務(wù)器虛擬化軟件和存儲方面的配合,當(dāng)生產(chǎn)機(jī)房故障無法提供服務(wù)時,可由容災(zāi)機(jī)房自動接管業(yè)務(wù),對外提供服務(wù),保證業(yè)務(wù)不中斷和數(shù)據(jù)的連續(xù)性,實現(xiàn)雙活數(shù)據(jù)中心的功能。為預(yù)防邏輯錯誤,通過連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)實現(xiàn)存儲層的CDP保護(hù),不需要在主機(jī)層安裝任何軟件即可對存儲實現(xiàn)CDP保護(hù),若出現(xiàn)邏輯故障時,可將狀態(tài)恢復(fù)至14天的任意時間點數(shù)據(jù)。
3.4 后臺備份
新增一臺一體化的備份存儲機(jī),不改變現(xiàn)有網(wǎng)絡(luò)架構(gòu),分配私有IP地址,通過網(wǎng)絡(luò)(路由器、防火墻將地址與相應(yīng)服務(wù)端口放開)與需保護(hù)服務(wù)器互通即可。備份存儲機(jī)的客戶端會按照設(shè)置的備份策略,將重要數(shù)據(jù)源源不斷地同步到到內(nèi)置的備份存儲上,管理員可以在統(tǒng)一的備份恢復(fù)管理平臺上進(jìn)行物理環(huán)境和虛擬化環(huán)境的數(shù)據(jù)備份恢復(fù)任務(wù)管理和操作。
4 實施效果
通過服務(wù)器虛擬化集群、MSCS雙機(jī)集群軟件及虛擬化網(wǎng)關(guān)等實現(xiàn)核心業(yè)務(wù)系統(tǒng)的雙活,無論出現(xiàn)任何硬件、網(wǎng)絡(luò)、系統(tǒng)及軟件故障,抑或是任一機(jī)房發(fā)生斷電、火災(zāi)、地震等災(zāi)難時,均不會影響業(yè)務(wù)系統(tǒng)正常運行,無須人工介入干預(yù)。通過存儲層連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)實現(xiàn)存儲層的CDP保護(hù),實現(xiàn)14天內(nèi)任意時間點數(shù)據(jù)回滾,預(yù)防數(shù)據(jù)邏輯錯誤。通過備份一體機(jī)實現(xiàn)對現(xiàn)有醫(yī)院信息系統(tǒng)乃至未來系統(tǒng)數(shù)據(jù)的容災(zāi)備份。該方案可平滑升級兩地三中心方案,在雙活容災(zāi)的基礎(chǔ)上,后續(xù)只需很小的投資可建設(shè)該城市異地的第三容災(zāi)中心,為與該院將來新建的分院區(qū)做好了連接準(zhǔn)備。
參考文獻(xiàn)
[1] 史子靜.雙活數(shù)據(jù)中心的搭建[J].信息與電腦,2016(14):21-122.