周 瑜 吳雨哲
云南省普洱市人民醫(yī)院信息中心 云南 普洱 665000
醫(yī)院信息化的發(fā)展對(duì)醫(yī)院信息系統(tǒng)的服務(wù)能力提出了更高要求,提供7*24小時(shí)的高可用性服務(wù),避免業(yè)務(wù)中斷是醫(yī)院信息部門重點(diǎn)考慮的問題。為了應(yīng)對(duì)系統(tǒng)停機(jī)、業(yè)務(wù)中斷等風(fēng)險(xiǎn),多數(shù)醫(yī)院建設(shè)了,以數(shù)據(jù)復(fù)制技術(shù)為基礎(chǔ)的容災(zāi)數(shù)據(jù)中心,容災(zāi)數(shù)據(jù)中心架構(gòu)均以災(zāi)難情況下的站點(diǎn)整體切換為第一目標(biāo),這種技術(shù)強(qiáng)調(diào)災(zāi)難情況下的站點(diǎn)恢復(fù)能力,但往往由于底層數(shù)據(jù)復(fù)制配置、網(wǎng)絡(luò)環(huán)境、相互依存服務(wù)等方面的限制,無法順利實(shí)現(xiàn)單個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)或主機(jī)的透明切換和遷移。而雙活數(shù)據(jù)中心的特點(diǎn)是兩個(gè)數(shù)據(jù)中心都是在線運(yùn)行的,如果斷了一個(gè)數(shù)據(jù)中心,另外一個(gè)數(shù)據(jù)中心還是在正常運(yùn)行的,對(duì)用戶來說是不可感知的,業(yè)務(wù)幾乎不受影響。并且通過資源整合的雙活數(shù)據(jù)中心的服務(wù)能力是雙倍的。

圖一
目前醫(yī)院已上線HIS、EMR、LIS、PACS、病理系統(tǒng),HERP、護(hù)理信息系統(tǒng),OA、體檢系統(tǒng)、心電系統(tǒng),手術(shù)麻醉系統(tǒng)、重癥監(jiān)護(hù)系統(tǒng)、血液透析系統(tǒng)等共75個(gè)系統(tǒng)157個(gè)功能模塊,覆蓋了醫(yī)院百分之九十五以上的業(yè)務(wù)。
圖一為醫(yī)院的系統(tǒng)網(wǎng)絡(luò)服務(wù)架構(gòu)。核心A和核心B采用雙機(jī)冷備的工作形式,oracle服務(wù)器采用RAC實(shí)例集群服務(wù)模式,其他服務(wù)運(yùn)行在VMware虛擬化服務(wù)器上,存儲(chǔ)采用SAN加存儲(chǔ)陣列的形式。
此網(wǎng)絡(luò)架構(gòu)的服務(wù)模式有其本身的局限性:核心交換機(jī)出現(xiàn)故障時(shí)交換機(jī)的切換勢必會(huì)影響到醫(yī)院全部業(yè)務(wù)的使用,網(wǎng)絡(luò)服務(wù)承擔(dān)故障的風(fēng)險(xiǎn)率相對(duì)較低;存儲(chǔ)陣列雖然做了RAIDlevel,Oracle服務(wù)器和V Mware集群雖然做了虛擬化處理,但是他們?nèi)轂?zāi)能力是有限的。如果機(jī)房出現(xiàn)較大的基礎(chǔ)設(shè)施損壞,例如整個(gè)機(jī)房被毀,這樣全院的業(yè)務(wù)都無法得到保障。所以如何在最短的時(shí)間成本上,最完整地恢復(fù)系統(tǒng),保障醫(yī)院業(yè)務(wù) 正常運(yùn)行,降低數(shù)據(jù)丟失風(fēng)險(xiǎn),是雙活數(shù)據(jù)中心的目標(biāo)。
基于原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化與改造,設(shè)計(jì)新的網(wǎng)絡(luò)服務(wù)架構(gòu),應(yīng)用虛擬化,云計(jì)算,分布式網(wǎng)絡(luò)存儲(chǔ)等技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)雙活、業(yè)務(wù)雙活、存儲(chǔ)雙活的高性能、高可用的雙活數(shù)據(jù)中心。實(shí)現(xiàn)了服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)端到端冗余,最大程度的保障醫(yī)院業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。新的結(jié)構(gòu)圖如圖二所示。
3.1 網(wǎng)絡(luò)雙活 采用華為CSS(Cluster Switch System)集群交換系統(tǒng)技術(shù),將兩個(gè)中心的核心交換機(jī)通過網(wǎng)絡(luò)堆疊的方式進(jìn)行虛擬化管理,集群對(duì)外表現(xiàn)為一臺(tái)邏輯交換機(jī),控制平面合一,統(tǒng)一管理,集群內(nèi)核心A出現(xiàn)故障,核心B可以接管CSS的控制和轉(zhuǎn)發(fā),避免單點(diǎn)故障;兩臺(tái)設(shè)備間冗余備份,提高網(wǎng)絡(luò)服務(wù)的可靠性。CSS在簡化網(wǎng)絡(luò)、提升轉(zhuǎn)發(fā)性能的同時(shí)沒有帶來任何網(wǎng)絡(luò)功能的損失。物理交換機(jī)具有的所有功能,都在CSS系統(tǒng)下得到繼承,且性能還得到了放大。CSS擁有的這些特質(zhì),使它得到了越來越多的認(rèn)可和接受,并成為了部署簡單、高效網(wǎng)絡(luò)的首選方案。CSS模式如圖三所示

圖二
3.2 業(yè)務(wù)雙活 采用服務(wù)器虛擬化架構(gòu)解決方案,可以在兩個(gè)數(shù)據(jù)中心之間構(gòu)建一個(gè)計(jì)算資源池,每個(gè)數(shù)據(jù)中心分別部署6臺(tái)物理服務(wù)器,安裝Vmware虛擬化軟件,將兩個(gè)數(shù)據(jù)中心的12臺(tái)服務(wù)器配置成為一個(gè)Vmware HA集群,能夠支持多個(gè)醫(yī)院應(yīng)用系統(tǒng)的正常運(yùn)行,最有效的利用服務(wù)器資源,節(jié)省采購和運(yùn)維成本,降低管理復(fù)雜度。同時(shí)在構(gòu)建的Vmware HA集群中,任何一臺(tái)物理服務(wù)器發(fā)生故障發(fā)生故障,該服務(wù)器上的虛擬機(jī)會(huì)平滑遷移到其他的物理服務(wù)器上,保障了醫(yī)院業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。

圖三
對(duì)于最關(guān)鍵的HIS、EMR、PACS等業(yè)務(wù)系統(tǒng),采用物理機(jī)構(gòu)建Oracle RAC的方式,在兩個(gè)數(shù)據(jù)中心分別部署一臺(tái)服務(wù)器來運(yùn)行Oracle數(shù)據(jù)庫,配置兩個(gè)節(jié)RAC1和RAC2。實(shí)現(xiàn)跨數(shù)據(jù)中心的服務(wù)器集群,任何一臺(tái)Oracle數(shù)據(jù)庫服務(wù)器或數(shù)據(jù)中心發(fā)生故障,RAC節(jié)點(diǎn)會(huì)自動(dòng)飄移,客戶端不受影響能繼續(xù)訪問醫(yī)院的HIS、EMR、PACS等數(shù)據(jù)庫,確保醫(yī)院業(yè)務(wù)的穩(wěn)定運(yùn)行,實(shí)現(xiàn)業(yè)務(wù)連續(xù)性。
3.3 存儲(chǔ)雙活 一個(gè)完整的雙活數(shù)據(jù)中心要求業(yè)務(wù)、網(wǎng)絡(luò)、存儲(chǔ)所有層面實(shí)現(xiàn)雙活,其最核心部分是存儲(chǔ)雙活。存儲(chǔ)雙活通過存儲(chǔ)虛擬化技術(shù)實(shí)現(xiàn),存儲(chǔ)虛擬化技術(shù)通過輸入輸出重定向和存儲(chǔ)地址重編排來實(shí)現(xiàn)。存儲(chǔ)虛擬化可作為應(yīng)用服務(wù)與存儲(chǔ)設(shè)備之間的邏輯層,其主要任務(wù)是捕獲應(yīng)用程序 輸入輸出指令并重定向,對(duì)所有存儲(chǔ)空間統(tǒng)一編址,并在這一基本機(jī)制衍生其他高級(jí)功能。存儲(chǔ)雙活技術(shù)中的硬件解決方案在高可用、高性能、高擴(kuò)展性方面比軟件方案都更具優(yōu)勢,當(dāng)前業(yè)界具備相當(dāng)多的成熟案例。
在數(shù)據(jù)中心1和數(shù)據(jù)中心2各部署一臺(tái)OceanStor SNS2624交換機(jī),組成一個(gè)VIS集群,為兩數(shù)據(jù)中心主機(jī)業(yè)務(wù)同時(shí)提供讀寫服務(wù)。同時(shí),在數(shù)據(jù)中心1和數(shù)據(jù)中心2各部署一套華為Ocean Stor Dorado 5000 V3存儲(chǔ),部署為雙活模式,為兩數(shù)據(jù)中心業(yè)務(wù)主機(jī)同時(shí)提供讀寫服務(wù)。兩個(gè)數(shù)據(jù)中心的磁盤陣列都由VIS集群接管,利用VIS鏡像技術(shù)對(duì)兩中心的磁盤陣列做鏡像冗余配置,實(shí)現(xiàn)兩個(gè)數(shù)據(jù)中心存儲(chǔ)數(shù)據(jù)實(shí)時(shí)鏡像,互為冗余。任意數(shù)據(jù)中心故障,數(shù)據(jù)零丟失。結(jié)構(gòu)設(shè)計(jì)圖如圖四。

圖四
如圖四所示,兩個(gè)雙活的存儲(chǔ)整列間當(dāng)存儲(chǔ)鏈路出現(xiàn)故障時(shí),陣列已經(jīng)無法實(shí)時(shí)鏡像同步,此時(shí)只能由其中一套陣列繼續(xù)提供服務(wù)。為了保證數(shù)據(jù)一致性,在第三方站點(diǎn)布置一臺(tái)仲裁機(jī),通過仲裁機(jī)制決定由那套存儲(chǔ)繼續(xù)提供服務(wù)。
真正的雙活數(shù)據(jù)中心,要從上到下各個(gè)層面都要實(shí)現(xiàn)雙活,當(dāng)任何一個(gè)中心的單點(diǎn)如服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)出現(xiàn)問題時(shí)都能無縫的切換到另外一個(gè)中心。雙活數(shù)據(jù)中心隨著技術(shù)的進(jìn)步肯定會(huì)實(shí)現(xiàn)得更加完美,將來隨著云計(jì)算技術(shù)的廣泛運(yùn)用,有可能實(shí)現(xiàn)多活數(shù)據(jù)中心或者云數(shù)據(jù)中心,為各單位提供更高的資源利用率、更加完美的容災(zāi)方案以及更加動(dòng)態(tài)靈活的硬件擴(kuò)展。