劉麒麟
(湖北咸寧市中心醫院 咸寧 437100)
一種醫院數據容災備份系統的構建方案?
劉麒麟
(湖北咸寧市中心醫院 咸寧 437100)
針對部分醫院信息系統數據保護能力不強、系統易中斷的問題,分析了醫院數據容災備份系統的需求、構建原則和目標,提出了一種醫院數據容災備份系統的構建方案。該方案利用雙機房的容災環境,實現各種存儲資源的統一集中管理與數據與業務的統一保護,提高了數據的高可用性和業務的連續性,建立了較為完善的容災備份體系。
容災;醫院數據;存儲資源
隨著社會及公眾對醫療業務的服務要求不斷提高,管理水平和服務功能的強化及發展將對醫院辦公方式產生極大的推動作用,醫院的主要診療活動都依賴于信息系統的運行,現階段,國內醫院在信息化方面正在逐步發展,并形成了一定的規模,主要的信息系統包括醫院信息系統(Hospital Information System,HIS)、實驗室信息管理系統(Laboratory Information Management System,LIS)、醫學影像存檔與通訊系統(Picture Archiving and Communication System,PACS)、放射信息管理系統(Radiology Information System,RIS)、電子病歷(Electronic Medical Record,EMR)等,但是部分醫院還存在信息化系統種類眾多且相互隔離、數據保護能力不強、系統易中斷的問題。由于醫療行業的特殊性,醫院信息系統需要不間斷運行,對于系統的安全、穩定要求很高,因此為了保障醫院系統的高可用性,醫院迫切需要構建數據容災備份系統,確保發生存儲、服務器故障時能做到“業務不中斷,數據不丟失”。
容災備份系統可以分為數據級容災和應用級容災兩類[1~2]。其中數據級容災,是建立一個異地的數據備份系統,對本地核心數據進行遠程備份。數據級容災,實際上就是數據復制,其實現方式可以分為數據同步傳輸方式和數據異步傳輸方式。應用級容災,是數據級容災的基礎上,在異地建立一套完全相同的應用系統。該系統與本地系統功能相同、互為備份。建立異地備份應用系統不僅需要備份完全相同的數據,還需要構建主機、網絡、應用軟件、地址等資源,應用級容災技術包括負載均衡技術和集群技術。在災難備份與恢復行業國家標準《信息系統災難恢復規范》[3~4]中,將信息系統的災難恢復能力劃分為了6級,明確了災難恢復能力等級,在最高級(第6級)中要求實現遠程數據實時備份,實現零丟失,應用軟件可以實現實時無縫切換。
數據容災技術綜合了存儲、備份和傳輸技術[5~9]。很多國際知名IT公司推出了自己的數據容災系統和數據容災方案,Veritas公司采用Volume Replicator技術將數據以異步或者同步的方式復制到遠程系統[10],數據不需要通過專用傳輸線路,而直接通過網絡傳輸;IBM基于ESS企業存儲服務器和PPRC復制技術的數據容災方案[11],實現以存儲為基礎的、實時的、同步的、與應用無關的數據遠程鏡像功能。華中科技大學的曹強等[12]實現了一個基于統一存儲網的網絡文件備份系統,具備較高的數據備份傳輸率;四川大學的李濤等[13]實現了一種基于跨平臺、跨地域的容災系統,具有實時、可控、能調的容錯能力;西北工業大學的李戰懷等[14]實現了一個基于平臺的數據容災系統,通過在內核中嵌入遠程實時復制和災難恢復機制,使系統達到高可靠性和高可用性;西北工業大學的劉衛平[15]實現了一種網絡存儲中的數據容錯與容災系統,提出了一種基于日志的遠程異步數據復制協議ARPDL,提升了數據傳輸效率。
針對醫院信息系統數據高可靠要求的特殊性,本文提出了一種醫院數據容災系統構建方案,利用雙機房的業務級容災環境,實現各種存儲資源的統一集中管理,與數據和業務的統一保護,實現各種存儲資源的統一集中管理與數據和業務的統一保護,提高了數據的高可用性和業務的連續性,建立了較為完善的容災備份體系。
醫院的主要業務流程活動都依賴于信息系統的運行,針對醫療行業核心系統的重要性,核心信息系統需要不間斷運行,對于系統的安全、穩定要求很高,一旦由于系統硬件的功能失效,存儲介質的老化損壞,人為的錯誤操作,以及各種難以預料的外界因素導致數據意外丟失或損壞,那么將會對于醫院業務運作造成無法估量的影響。所以必須對數據存儲系統的完整性和可靠性給予高度重視,并提供一個完善的具有高可用性的存儲備份解決方案,以避免在各種極端情況下造成的重大損失。
現階段部分醫院架構主要存在以下問題:
1)系統恢復能力差。當核心系統發生軟件故障時,無法切換,核心系統不能連續運行,恢復系統需要花費很長時間;
2)數據保護能力弱。當應用系統或主機出現故障后,沒有辦法做到盡快及時的恢復,而且保存在存儲上的數據沒有很好的集中備份環境,當需要數據恢復時,不能做到及時有效的數據恢復及良好的數據保護。
可以采用容災備份技術來防止數據的丟失,保證系統的正常運行。隨著業務系統增加,數據量的增大,系統管理人員很難進行手工備份操作,不僅工作量大、且容易出錯、效率降低、難以管理備份效果;如幾個簡單的管理備份介質工作當對同一個數據庫的容量超過一盤磁帶的容量時,如果采用手動備份就變成了一個極其復雜,效率極低、風險很大的工作了。同時在系統中斷時能夠在最短的時間內恢復數據,最大程度減低業務中斷時間是最重要的。人工處理往往難以滿足這些要求。所以需要采用一套離線備份系統對業務數據進行保護,提高備份恢復的效率。
因此,需要建設一個集中統一的信息保護管理平臺,把分散業務系統整合到這個統一集中平臺上進行集中備份管理維護,并為相應系統改造打下基礎。
3.1 容災備份系統構建原則和目標
容災備份系統構建原則主要包括:
1)高度靈活性和可擴充性。業務系統直接支持日常業務的運營與開展,穩定、高效是核心業務系統的基本要求;
2)高可靠性與高可用性。充分考慮到系統運行設備、數據存儲及應用設計,能夠為系統提供零數據丟失、保障業務安全、不間斷的穩定運行,包括防范一定區域的應急風險。
容災備份構建目標主要包括:
1)構建業務連續性平臺。構建應用和數據級容災系統,實現各種存儲資源的統一集中管理,消除存儲單點故障,提高數據的高可用、支持業務連續性的實現,建立數據容災體系。同時,實現關鍵應用系統的主機高可用性,應用系統站點間自動切換,減少人工干預,實現應用系統的容災體系。將來可擴充至遠程數據實時復制,支持業務連續性的實現;
2)構建集中備份平臺。構建數據的統一備份恢復管理平臺,提供不同數據的不同保護級別,提高備份效率,提供長久數據保存與及時恢復。
3.2 容災備份系統構建方案
按照基本達到容災6級要求進行容災系統方案設計。
1)設計并構建系統容災架構
將核心業務系統的服務器和存儲設施,分別放置在兩個機房環境中,形成分開運行的主、備服務器雙機房環境,兩個機房之間通過光纖鏈路、光纖交換機,構成一個統一的SAN構架。當主機房中系統或主機故障發生時、甚至整個機房發生故障,核心系統可以在幾分鐘內無縫的切換到備用機房的服務器上,實現應用系統主服務器和備用服務器之間的快速自動切換,保障系統的核心應用可靠運行,提升應用的切換速度和可靠性,降低生產主機停機風險,滿足“業務不停頓”的要求,容災備份系統架構如圖1所示。

圖1 容災系統架構
2)設計并實現系統可靠存儲
容災系統的架構設計存儲機制包括同步機制和異步機制。同步機制是將本地數據同時完全復制到遠程,需要同步的數據同時要放在遠程響應完成,本地才會向應用響應結束,圖2描述了同步機制的基本過程。

圖2 同步機制響應過程
同步機制雖然可以保證數據的安全可靠,但是可能影響應用系統的連續性,因此,本方案采用基于異步機制的存儲方案。異步機制中,本地站點完成后直接返回給應用,不需要等待遠程站點完成復制過程,圖3描述了異步機制的基本過程。

圖3 異步機制響應過程
異步機制只需要寫操作得到本地存儲設備的執行完成確認,就可以執行下一個指令,保證了系統對存儲的快速響應,但本地與遠程之間數據存儲的異步執行,不能完全確保本地和遠程存儲設備的實時數據完全一致,因此異步機制的核心是寫操作的遠程傳播以及數據同步。
為了減少本地和遠程的通信開銷,并且保證本地和遠程的數據一致,采用一種批指令異步機制,其基本過程如圖4所示。

圖4 批指令異步機制響應過程
批指令包括控制信息區和指令信息區,數據結構如圖5所示。在本地存儲中,在一定周期T內接收到的指令組成一個批指令,并且利用時戳Stamp標識該批指令,N為批指令所包含的指令數量,用于確保批指令能夠完整接收。

圖5 批指令數據結構
其中,批指令形成過程如圖6所示。

圖6 批指令形成過程
遠程可根據批指令的時戳和指令數量確定是否完全接收該批指令,確保數據傳輸的高可靠性。在批指令形成過程中包含指令覆蓋判斷的過程,這是由于對同一個邏輯塊可能會存在重復寫兩個以上的指令,只需要將最后一個指令都傳遞到遠程,就可以滿足數據同步的要求,并且大量減少通信鏈路的數據傳輸量。
假設本地接收多個指令依次寫邏輯塊a1、c1、d1、e1、c2、b1、c3、f1、e2、d2、e3、b2、e4。該指令序列提交給本地主存儲執行,對b邏輯塊覆蓋了1次,對c邏輯塊覆蓋了2次,對d邏輯塊覆蓋了1次,對e邏輯塊覆蓋了 3次,與執行指令序列 a1、c3、d2、e4、b2、f1結果是相同的,指令信息傳遞量減少50%,指令序列的更新過程如圖7所示。

圖7 指令序列更新過程
本地和遠程存儲系統實行數據異步機制保持數據一致性,實現站點間數據的雙存儲實時存放,消除存儲單點故障,做到底層雙存儲保護,保障數據的高可靠性,避免軟件系統故障和硬件單獨故障,帶來的系統異常中斷風險,提高數據的高可用、支持業務連續性,滿足關鍵系統“業務不中斷,數據不丟失”的業務連續性運行需求。
本方案有如下特點:
1)優化了管理維護工作。通過集群管理界面,借助業務級容災技術,可以快速配置、測試和實施業務關聯性的集群架構,通過直觀的圖像界面管理,簡化了整個容災環境的維護管理工作;實現存儲在線管理,減少對業務系統的影響,所有的邏輯卷和文件系統操作都可以在應用不停機的狀態下完成,真正實現存儲供應對應用的透明。
2)保障了數據的高可靠性和業務的連續性。當生產存儲故障時,能夠保障系統不中斷、數據不丟失;當生產主機故障時,系統可自動或“一鍵式”半自動進行切換,相對人工切換,降低出錯概率和整體切換時間;盡量降低業務中斷,真正實現業務連續性。
3)增強了數據使用的靈活性和使用效率。支持將快照、復制映射到不同品牌的存儲陣列上,提高靈活性,實現生產數據查詢、測試、邏輯性錯誤恢復等用途,提高數據處理效率提升業務用途。
4)保障了存儲的可伸縮性和容災的可擴展性。無需進行系統結構的改動與調整,增加模塊即可靈活、方便實現容災擴展。
本文提出了一種醫院數據容災備份系統的構建方案,方案利用雙機房的容災環境,實現各種存儲資源的統一集中管理與數據和業務的統一保護,構建的系統能夠優化管理維護工作、保障數據的高可靠性和業務的連續性、增強數據使用的靈活性和使用效率,保障存儲的可伸縮性和容災的可擴展性,具備較為完善的容災備份體系,可應用于各類醫院信息系統容災備份改造工程中。
[1]王德軍,王麗娜.容災系統研究[J].計算機工程,2005,31(6):43-45.WANG Dejun,WANG Lina.Research of Disaster Tolerance System[J].Computer Engineering,2005,31(6):43-45.
[2]楊義先,姚文斌,陳釗.信息系統災備技術綜論[J].北京郵電大學學報,2010,33(2):1-6.YANG Yixian,YAO Wenbin,CHEN Zhao.Review of Disaster Backup and Recovery Technology of Information System[J].Journal of Beijing University of Posts and Telecommunications,2010,33(2):1-6.
[3]GB/T20988-2007.信息安全技術信息系統災難恢復規范[S].北京:中國標準出版社,2007:10-13.GB/T20988-2007.Information security technologyDisaster recovery specifications for information systems[S].Beijing:China Standards Press,2007:10-13.
[4]謝長生,韓德志,李懷陽,等.容災備份的等級和技術[J].中國計算機用戶,2003(18):30.XIE Changsheng,HAN Dezhi,LI Huaiyang.The Level and Technology of Disaster Recovery Backup[J].China Computer Users,2003(18):30.
[5]L.D.Stevens.The evolution of magnetic storage[J].IBM Journal of Research and Development,1981(25) :663-675.
[6]LUO Xinguo,ZHANG Jiangling.Study on a Network Storage System[J].Proceedings of International Symposium on Multidisciplines,China,1992:151-155
[7]G A.Gilbson,R.V Meter.Network Attached Storage Architecture[J].Communications of the ACM,2000,43(11):37-45.
[8]IBM Tech report.Trends in Storage Infrastructure,2002:23-34.
[9]IBM Corporation.A Disaster Recovery very Solution Selection Methodology[M].February 2004:56-58.
[10]Paul Massiglia.VERITAS Volume Replication and Oracle Databases[M].VERITEIS Corporation,2000:79-83.
[11]IBM Corporation.Method system and program for maintaining data consistency among updates across groups of storage areas using up-date times[M].United States Patent 6463501,2002:46-50.
[12]曹強.數據存儲系統的關鍵理論及性能分析[D].武漢:華中科技大學,2003:21-28.CAO Qiang.The Key Theory and Performance Analysis of Data Storage System[D].Wuhan:Huazhong University of Science and Technology,2003:21-28.
[13]廖竣揩.基于Internet的容災系統的設計與實現[D].成都:四川大學,2004:1-25.LIAO Junkai.Design and Implementation of Disaster Tolerant System Based on Internet[D].Chengdu:Sichuan University.2004:1-25.
[14]王彥龍.Linux平臺數據容災系統的研究與實現.[D].西安:西北工業大學,2005:10-35.WANG Yanlong.Research and Implementation of Data Disaster Tolerant System Based on Linux Platform[D].Xi'an:Northwestern Polytechnical University,2005:10-35.
[15]劉衛平.網絡存儲中的數據容錯與容災技術研究[D].西安:西北工業大學,2006:12-36.LIU Weiping.Research on Data Fault Tolerance and Disaster Recovery Technology in Network Storage[D].Xi'an:Northwestern Polytechnical University,2006:12-36.
A Scheme of Buiding Hospital Data Disaster Tolerant System
LIU Qilin
(Xianning Central Hospital,Xianning 437100)
Aiming at the problem that the data protection ability of some hospital information systems is not strong and the system is easy to be interrupted,this paper analyses the demand,the construction principle and the goal of hospital data disaster tolerant system firstly,then proposes a new construction scheme of hospital data disaster tolerant system.The scheme utilizes the disaster recovery environment of the double room to realize the unified management of the various storage resources and the unified protection of the data and the business,improves the high availability of the data and the continuity of the business,establishes a relatively perfect disaster tolerance system.
disaster-tolerant,hospital data,storage resources
TP309
10.3969/j.issn.1672-9722.2017.11.033
Class Number TP309
2017年5月21日,
2017年6月19日
劉麒麟,男,工程師,研究方向:計算機網絡與信息安全。