謝 君 李俊忠
(四川大學華西醫院信息中心/醫療信息化技術教育部工程研究中心 成都 610041) (四川省第二中醫醫院/四川省中醫藥科學院中醫研究所 成都610015)
師慶科
(四川大學華西醫院信息中心/醫療信息化技術教育部工程研究中心 成都 610041)
鄭小華 羅以強
(四川省衛生信息學會 成都 610015) (四川省第二中醫醫院/四川省中醫藥科學院中醫研究所 成都610015)
基于對業務系統數據的安全保護,當前大多數醫院已經建設災備系統,不同程度實現醫院重要業務數據的容災備份,以保障業務的高可用性。隨著醫院業務規模擴大、網絡安全形勢日益嚴峻,醫院在設施設備、機房管理、信息安全管理等方面對數據災備建設提出了更加嚴格的要求[1]。而云計算、持續數據保護技術的快速發展,網絡帶寬的提升,云計算服務模式的成熟,為醫院在云上進行災備建設(云災備)創造了條件。云災備基于云計算環境,利用云服務器作為災備機,將數據通過網絡通道從本地備份到云端并提供系統遷移、應用切換、應急接管等災備手段。其所需云計算能力、數據存儲量、網絡帶寬等指標均可以服務方式提供,按需分配[2]。四川省第二中醫醫院為提高災難恢復能力,規劃、探索云災備服務類項目,在原有以超融合平臺及相應備份系統形成的災備架構基礎上,增加部署云災備相關系統,實現對重要數據的異地保護,進一步提升業務數據高可用性。
四川省第二中醫醫院已建設有醫院信息系統(Hospital Information System,HIS),檢驗信息系統(Laboratory Information System,LIS),醫學影像存儲與傳輸系統(Picture Archiving and Communication System,PACS),電子病歷(Electronic Medical Record,EMR)等業務系統。HIS數據總量大約350GB,每年增量約20GB。當前已經對HIS進行本地容災備份,形成一定程度的高可用架構。
HIS等系統部署于超融合平臺,以多副本方式進行虛擬機數據冗余,實現基于硬件及虛擬機環境的高可用性[3]。當一個虛擬機系統崩潰時,其他虛擬機副本可將系統快速拉起,迅速恢復系統應用。然而當超融合平臺本身出現故障甚至完全崩潰時多副本機制無法發揮作用,虛擬機中的數據庫文件無法提取,必須借助超融合平臺外的容災機制進行業務恢復。
搭建DG服務器,以Oracle DataGuard方案實現與HIS服務器的實時同步[4]。該方式所備份數據為實時數據,當超融合平臺發生故障、無法啟動時可立即將服務器切換為應急HIS服務器并啟動HIS服務。但應用該方式同時存在一定弊端,一旦本地出現勒索病毒攻擊、備份數據庫文件被破壞時,該備份數據將無法使用,無法起到應急恢復作用。
由1臺備份一體機與HIS服務器定時交互,每2小時對數據進行1次增量備份,每天凌晨對數據進行1次全量備份。該方式可以說是前兩種方式的“兜底”防護手段。因一體機具有較強反入侵功能,且HIS、DG服務器文件被破壞后,一體機中的備份文件因安全性高不會被連帶破壞,具有院內數據在本地的堡壘作用。但該方式弊端較明顯,由于是定時模式,恢復時醫院將最多得到備份時間窗口為2小時的數據,無法恢復到當機時最新數據狀態。HIS涵蓋醫療、財務、藥品等重要信息,系統崩潰、數據丟失將導致全院醫療秩序混亂、業務無法運轉,甚至會造成不同程度的社會影響。為保障業務系統在因病毒攻擊、自然災害等原因受到破壞、業務中斷時,能快速恢復數據和業務運轉、確保醫療秩序,數據在異地實時容災備份建設顯得尤為重要[5]。
按照數據“異地異質”的災備要求,基于醫院現有災備建設現狀,結合醫院物理格局受限、無法建設專業備用機房的實際情況,考慮開展云災備建設。通過開通院內異地實時備份點、云端備份以加強災備能力,解決醫院本地發生災難時的數據恢復問題。
3.2.1 指標定義 恢復時間目標(Recovery Time Objective,RTO),即災難發生后從系統停機導致業務停頓開始,到系統恢復可以支持業務運營之時所需要的時間?;謴忘c目標(Recovery Point Objective,RPO),即發生意外災難事件時可能丟失的數據量[6]。
3.2.2 指標設定 HIS、LIS、PACS、EMR等系統作為醫院核心業務系統,一旦災難發生需保證數據零丟失,同時查找原因、迅速恢復,盡量縮短業務中斷時間。因此無論采用哪種災備方式,RPO應設計為接近于零,即能恢復至災難剛發生時的最新數據。而對于RTO,如果從增建的本地災備服務器中進行數據恢復,RTO為系統切換、服務啟動時間之和,要求在30分鐘以內。如果從云災備服務器中進行恢復,此時意味著發生了嚴重災難,院內機房及本地備份均不可用,RTO為數據合成、數據傳輸下載、系統啟動恢復等時間之和,要求在15小時以內。
要保證RPO接近于零的結果,需選擇連續數據保護(Continuous Data Protection,CDP)技術對數據予以采集傳輸。CDP是一種對數據在連續時間點進行保護的技術,其價值在于能在故障瞬間完成任何時間點的故障恢復,達到保證業務快速、連續的作用。這從根本上解決了傳統備份中低恢復能力和非精細時間策略的問題,理論上消除了備份窗口時間。并且與目前基于存儲復制的容災數據復制技術不同的是,CDP除了對災難導致的數據物理破壞提供保護外還能對邏輯錯誤導致的數據破壞提供保護。
3.4.1 云災備架構 在醫院遠程會診室專用弱電間設置本地備份服務器,云端設置云災備服務器,各服務器中安裝部署備份系統服務端。在源數據庫服務器上安裝CDP備份代理程序,利用CDP技術實時傳輸HIS數據,見圖1。

圖1 云災備架構
3.4.2 容災備份流程 備份代理程序從操作系統驅動層對數據庫文件夾進行監控,捕捉文件所有訪問操作,實時監控文件發生的一切變化,實時提取數據變化部分及變化發生時間戳后,通過內網傳輸至本地備份服務器,同時通過云災備專線傳輸至云災備服務器進行存儲[7]。
以假定本地機房所有備份文件不可用而必須從云端恢復,將數據及時恢復至指定時間點為前提來設計數據應急恢復流程。云災備數據恢復流程如下:首先,備份系統對云災備服務器中的備份進行數據合成,即解析備份數據并根據日志文件將其恢復至指定時間點。其次,將得到的恢復文件通過專線傳輸至本地災備服務器并導入數據庫。為減小帶寬壓力、縮短傳輸時間,對數據在傳輸前進行壓縮,傳輸后進行解壓。最后,進行系統啟動恢復,即將恢復后的數據庫文件在業務系統中導入并啟動系統,以保障業務系統繼續可用,見圖2。

圖2 恢復應急流程
3.6.1 架構及技術 對災備軟件要求采用瀏覽器/服務器(Browser/Server,B/S)架構,以Web訪問方式進行業務管理。采用CDP技術,以字節級復制方式對生產端數據進行連續數據保護,實時同步到災備服務器。對專線占用極低、不影響現有的業務系統運行。
3.6.2 功能實現 支持文件數據的增量、全量備份,支持自定義存儲周期[8]、備份時間,可在后臺自動運行無需人工干預,同時能有效防御勒索病毒的破壞。支持多種常用文件格式并通過壓縮方式傳輸數據,以減少帶寬占用量。
3.7.1 云計算服務模式 當前云計算服務模式正在快速發展,可將信息化項目所需基礎設施、平臺、軟件等以服務形式提供給需方,需方可采購整體服務,此類案例已較為普遍。云計算服務模式包括以下3類:一是軟件即服務(Software as a Service,SaaS),其將應用作為服務提供給客戶;二是平臺即服務(Platform as a Service, PaaS),其將開發、運行平臺作為服務提供給用戶;三是基礎設施即服務(Infrastructure as a Service,IaaS),其將網絡、虛擬機或者其他資源作為服務提供給用戶。
3.7.2 云服務購置方式 在該院云災備服務項目中,網絡資源、機房、服務器硬件等按照IaaS方式提供;備份軟件及部署運行按照SaaS方式提供;虛擬機、服務器操作系統等按照PaaS方式提供。云服務器操作系統采用虛擬化Linux系統以提高安全性、穩定性[9],保障備份任務7×24小時不間斷運行[10]。專線設計為帶寬50Mbps、上下行對稱的傳輸通道。云服務器部署及備份軟件安裝配置、運行維護以及相應專線、帶寬等由云服務商作為整體服務提供,醫院以租用形式購買。
4.1.1 災備時間指標隨帶寬變化測試結果 在當前系統數據量的條件下,經測試各RPO約等于0。在當前帶寬為50Mbps的條件下,經測試數據合成時間為3.5小時、數據傳輸下載時間為18.3小時、系統啟動恢復時間為0.5小時,此時RTO約22.3小時,見表1。

表1 災備時間指標隨帶寬變化測試結果
4.1.2 其他情況 如果只需以本地數據文件在遭受破壞最后一刻的實時備份來恢復數據,由于云災備服務器中已實時存儲全量最新數據,該數據與生產庫完全一致,無需數據合成過程,即數據合成時間為0,RTO將進一步縮短。例如,根據表1結果,50Mbps帶寬下,RTO將由原來的22.3小時變為18.8小時。100Mbps帶寬下,RTO將由原來的13.2小時變為9.7小時。
4.2.1 縮短RTO可以提升云服務配置 數據合成是備份系統在云服務器中的數據解析處理過程,數據合成時間與計算能力、內存等云服務器性能有較大關系。在數據量一定的情況下,性能越高合成時間越短。數據傳輸下載時間取決于帶寬,帶寬越大下載時間越短。因此縮短RTO可以提升云服務配置。
4.2.2 配置與成本之間需要做好平衡 配置越高成本越高。云災備是醫院數據保護的最后一道防線,醫院能容忍在多少時間內恢復數據并長期付出多少成本守住這一道防線,是一個值得思考的問題。數據的完整性、應用的連續性、恢復的及時性與成本之間需要做好平衡[11]。經對成本、預期RTO目標等因素綜合考慮,醫院將原設計的50Mbps擴容為100Mbps。
通過該項目實施, HIS生產庫數據實現異地實時備份,RPO約等于0,RTO為13.2小時,達到預期目標,業務系統容災能力得到進一步提升,業務恢復時間進一步縮短。
醫院不必一次性花費大量資金投入到基礎設施、系統及軟件采購上,只需支付每年的服務費用,節省大量成本。同時減少信息團隊備份系統相關硬件巡視、管理等基礎工作的負擔[12],將更多精力聚焦在備份管理工作上,從而減少軟硬件運維人力投入。將項目建設以服務方式進行交付,使得信息化建設進一步回歸服務本質。醫院只需要購買服務,按需響應、按需擴容,確保服務效果即可[13]。醫院在享受專業化服務的同時進一步提升災備效益。
本次建設由于為探索性建設,只對HIS、LIS數據進行云災備。隨著預期目標的達成、項目應用及管理的成熟,將進一步加大投入,擴大備份范圍,將PACS、EMR、體檢等業務系統納入云災備對象,以加強醫院業務系統的高可用性。
云災備建設實施1年多來系統總體表現平穩高效,專線網路穩定可靠,服務滿意度較高,實現基于云計算環境的核心系統數據異地災備,加強對醫院核心數據資產保護,達到最初的設計目標[14]。以購買服務方式進行云災備建設,按需分配、彈性擴容,在降本增效的同時有效提升醫院災難恢復能力,最大程度降低數據丟失風險,將數據保護的最后一道防線從機房筑到云端,是醫院災備建設的重要方式和新趨勢。