王新國,高文燕,張 霞,許 林
新型冠狀病毒肺炎(簡稱新冠肺炎)疫情的不斷蔓延對醫院信息化建設、數字化轉型提出了更高的要求,防控工作的常態化迫切需要人力、資金、防護物品等戰略資源的持續精準供應,做到科學防疫、精準防疫。建立統一信息集成系統、推動數據開放共享成為確保疫情防控工作落實到位的重要支撐;另一方面,在線問診、協同辦公、遠程醫療等各類應用信息系統數量、規模的持續擴大,各系統間的高度集成、耦合使得不同系統的軟硬件故障相互牽制與影響越來越多,潛在風險也不斷增加,對信息集成系統的運維管理帶來愈加嚴峻的挑戰[1,2]。在新冠肺炎疫情的常態化防控態勢下,為了能夠對各信息系統的運行狀態進行實時監控,對各類系統故障做到有源追溯、高效運營、閉環管理,并在第一時間采取有效措施,確保各信息系統業務的連續性,迫切需要一個智慧化集成運維監控平臺,將以技術、設備為導向的運維轉變為以服務、流程為導向的智慧運維[3],這也成為打贏此次疫情防控戰的關鍵環節。
隨著疫情防控態勢下互聯網+等各類智慧醫療業務的推進,智慧化醫院IT 構架不斷拓展,各業務系統運行需要依賴和調用的軟硬件資源種類和數量越來越多[4,5],系統運維面臨以下幾方面的挑戰。
1.1 煙囪式的信息資源配置模式使運維難度增加醫院信息系統多是分批分期建設,軟硬件設備雖是捆綁式增加,但各系統多是彼此獨立的煙囪式分布,這種離散式系統架構使故障定位與分析排除日益復雜;同時,業務系統迭代速度加快,升級更新頻繁,對運維管理和響應時間提出了更高要求。
軟件方面,除了內網中部署的傳統醫院信息管理系統、電子病歷系統、醫學影像系統、檢驗系統外,基于物聯網技術實現患者與醫務人員、醫療機構、醫療設備之間信息交互的系統也在大量增加,特別是疫情防控期間在線問診、遠程會診等各類應用信息系統數量、規模持續擴大,這些系統通常需要通過部署在醫院的前置機實現醫院內網數據與外網進行信息轉換、數據集成,醫療信息系統從醫院內部的局域網擴展到了互聯網網絡范圍。硬件方面,醫療業務系統的運行環境也從傳統的網絡設備、服務器、PC 機,擴展到虛擬機、云平臺、手機APP、微信平臺、智能終端等,還包括LED 顯示、分診呼叫、分屏顯示、公告視頻、監控宣教等顯示和語音設備,這些系統多采用大屏幕電視或液晶顯示器顯示隊列、監控宣教信息,它們與醫療業務系統的集成融合越來越緊密,但經常處于無人值守狀態,一旦出現問題會極大地影響患者就診體驗,加大了對整個醫療業務系統監管監控的要求和難度。
1.2 缺乏有效的運維流程應用眾多、系統分散、管理困難的運維現狀要求信息科工作人員定期對各業務系統進行巡檢,評估在用資源、系統性能、并消除故障隱患,特別是臨床醫療工作依賴的關鍵性業務系統更需要做到運行狀態的實時監控、及時報警或提示。傳統運維系統多側重于對網絡設備、服務器、數據庫的監控,對醫院的語音呼叫、顯示展示設備則只能通過人工定時巡檢監控系統的運行狀態,耗時耗力,且難以及時發現故障隱患。因此,智慧運維平臺要既能通過對運營平臺各組件的集中式管理實現業務運行環境的監控,又要能通過日志分析反饋系統運行狀態給運維人員,才能真正方便運維人員及時響應各類故障請求,提升運維效率。
筆者通過分析整合醫院業務運維需求設計開發了智慧運維平臺,主要包括兩個方面內容,一是綜合運用各類監控技術及顯示屏畫面分享技術拓展監控范圍,將硬件資源的監測信號通過多個展示屏集成顯示,通過對硬件資源的定時檢測和遠程桌面管理實現對業務運行環境的監控;二是通過開源ELK 系統實現集中式日志管理,將各業務系統日志定時收集、處理并產生分析報告,實現業務應用狀態的監控管理。智慧運維平臺通過一體化監控和智能化運維,將以技術、設備為導向的被動故障應對轉變為以服務、流程為導向的主動運維服務,使原來孤立分散的事務管理轉變為醫院范圍內統一的、標準化的流程管理,確保業務系統的可用性和連續性。
2.1 業務運行環境的運維監控(1)資源監控。是對各種網絡設備、各服務器硬件環境的監控,通過定時檢測服務器、網絡節點、網關等網絡設備的請求響應是否正常,以確認各網絡設備工作是否正常,發現異常,則消息提醒。(2)服務監控。是對 web服務、云平臺系統各項服務的監控,通過定時請求相關的服務是否能正常響應,發現異常,則消息提醒。(3)遠程桌面顯示管理。是對各業務系統的顯示設備進行監控,如手術麻醉系統的手術進度展示、排隊叫號系統的外屏顯示等。這些展示屏幕的監控無法通過網絡端口或日志系統實現,筆者選用低延遲、高幀速率屏幕共享VNC 服務器,通過多屏顯示及分屏技術,將重點業務系統的顯示屏信息集成到一臺或多臺顯示器組成的監控平臺實現遠程顯示桌面管理,通過自動比對發現系統異常情形。監控平臺僅使用一臺或多臺顯示終端就可以實現多個以至數十個系統或桌面的監控,集成度高,可定制性強,運行成本低,擴展性強,支持 vnc、rdp、http 協議,可捕捉桌面或獨立窗口系統的顯示界面,并支持進一步集成聲音、短信報警等多種提醒方式,達到預警閾值后及時通知運維技術人員。
目前該監控平臺集成了遠程會診系統、手術麻醉系統、省、市醫保自助機、排隊叫號、運維監測、數據庫、服務器時間、短信服務器等各業務系統顯示屏,如圖1 所示。值班人員可隨時監測各個系統的運行狀態,一旦發現異常可以迅速定位及時修復,有力保障了醫療業務工作的連續性。

圖1 運維中心監控平臺
2.2 業務應用狀態的運維監控應用狀態的監控是通過日志分析實現對各項業務應用的監控。所有業務系統運行所依賴的網絡設備、服務器、操作系統均通過日志分散地存儲在不同的機器上,如果依次登錄每臺機器去查閱日志,效率低下且難以進行分析和檢索。筆者使用開源的ELK(ElasticSearch、Logstash 和Kiabana) 系統構建了集中式日志平臺,通過Logstash 工具對所有網絡設備、服務器、應用系統的日志進行定期收集、過濾,匯總后存放到ElasticSearch 集群中,Kibana 工具則對 Logstash 和ElasticSearch 提供各類Web 界面格式的日志分析圖表報告,幫助運維人員匯總、分析和搜索重要數據,從而快速定位錯誤,提前預知風險。日志可分為系統日志、應用日志以及業務日志,系統日志給運維人員使用,應用日志給研發人員使用,業務日志給業務操作人員使用,通過對日志分析、統計分析、基線管理確定整個系統運行的正常指標范圍,當發現指標性能偏移正常許可范圍時,系統進行預警提示,提醒值班人員及時干預處理,解決可能存在的故障隱患。
智慧運維監控平臺強化主動監控,通過線上與線下相結合,實現7×24 h 自動巡檢,做到事前預警,所有故障提前感知、智能定位、智能解決,消除被動服務,快速排查問題根源,縮短處理時間,真正做到智能高效運維。通過智慧化集成運維監控平臺實現運維流程化、主動性管理以來,有效防止了計劃外停機故障的發生。通過建立一體化監控和智能化運維服務平臺,提高了IT 部門的工作效率和管理水平,提升了臨床、醫技科室在信息化使用方面的滿意度。
隨著智慧化醫院建設的飛速發展,疫情防控工作的常態化運行,醫院智慧運維的要求會越來越高,運維平臺還需要不斷完善,更加精細、人性化的后續功能仍在開發實施中。系統可改善之處主要包括運維流程改造[6,7]、運維部門的精細化管理[8,9]等,需要與應用部門進一步磨合并持續改進某些煩瑣流程,應用大數據分析技術對運維工作量按照不同顆粒度進行趨勢分析、輔助管理決策等,借助信息化建立更加有效的運維管理和評價機制,提高IT部門的工作效率和管理水平。