潘愈嘉 黃 捷
(貴港市人民醫(yī)院信息科 貴港 537100)
目前貴港市人民醫(yī)院年門(mén)診量突破100萬(wàn)人次,是本地區(qū)唯一一家綜合性三甲醫(yī)院,貴港市醫(yī)療、急救和臨床教學(xué)中心。部署各類(lèi)電腦終端超過(guò)2 000臺(tái),網(wǎng)絡(luò)設(shè)備100多臺(tái),服務(wù)器近百臺(tái),有10多臺(tái)服務(wù)器組建的虛擬化平臺(tái),數(shù)據(jù)庫(kù)近20個(gè),信息系統(tǒng)覆蓋醫(yī)院所有部門(mén)。當(dāng)前醫(yī)院都在加快構(gòu)建縱向貫通、橫向集成、共享共用、安全可靠的信息化綜合平臺(tái)。隨著信息資源的深度整合應(yīng)用,信息化技術(shù)已滲透到醫(yī)院管理與運(yùn)營(yíng)的方方面面,信息化環(huán)境良好、正常運(yùn)行已被視為保障生產(chǎn)正常進(jìn)行的首要條件。建立健全安全運(yùn)維保障體系,實(shí)現(xiàn)對(duì)中心機(jī)房、災(zāi)備機(jī)房以及業(yè)務(wù)、軟件、網(wǎng)絡(luò)、設(shè)備等資源的全方位、立體化、智能化運(yùn)維監(jiān)控已被列為醫(yī)院信息化工作的重要任務(wù)。
醫(yī)院通過(guò)對(duì)比研判后計(jì)劃建設(shè)智能化運(yùn)維監(jiān)控保障平臺(tái)。如業(yè)務(wù)、軟件、網(wǎng)絡(luò)、設(shè)備出現(xiàn)各種突發(fā)故障時(shí),信息科運(yùn)維人員必須快速找到并解決問(wèn)題,否則業(yè)務(wù)會(huì)受到影響,甚至產(chǎn)生嚴(yán)重后果。由于存在太多潛在的隨機(jī)因素會(huì)影響業(yè)務(wù)的可用性和性能,運(yùn)維人員通常不得不以“問(wèn)題驅(qū)動(dòng)”的方式來(lái)開(kāi)展工作,僅有的幾個(gè)運(yùn)維工具之間互不相通,消息無(wú)法主動(dòng)推送,完全依賴(lài)人工定時(shí)巡檢來(lái)發(fā)現(xiàn)隱患,在管理信息化的同時(shí)也被信息化所制約,很難確保整個(gè)信息化業(yè)務(wù)的服務(wù)等級(jí)或服務(wù)品質(zhì)。造成這一問(wèn)題的原因是對(duì)信息化實(shí)施監(jiān)控管理的方式滯后。因此推行智能化的信息化運(yùn)維保障平臺(tái)勢(shì)在必行,使信息科的工作從被動(dòng)過(guò)渡到主動(dòng)的監(jiān)控管理。
2.1.1 概述 基于Linux平臺(tái)開(kāi)發(fā),Linux服務(wù)器的安全性在驗(yàn)證、訪問(wèn)控制、記帳/日志、受控訪問(wèn)保護(hù)實(shí)體、加密支持等方面優(yōu)于Windows操作系統(tǒng)。應(yīng)用Node.js工具可快速方便地搭建響應(yīng)速度快、易于擴(kuò)展的網(wǎng)絡(luò)應(yīng)用,Node.js 使用事件驅(qū)動(dòng),非阻塞I/O模型實(shí)現(xiàn)輕量和高效,非常適合在分布式設(shè)備上運(yùn)行數(shù)據(jù)密集型的實(shí)時(shí)應(yīng)用。通過(guò)supervisor (Linux/Unix系統(tǒng)下的一個(gè)進(jìn)程管理工具)提供client/server服務(wù),它是 Linux/Unix 系統(tǒng)下的一個(gè)管理工具,可方便地監(jiān)聽(tīng)、啟動(dòng)、停止、重啟一個(gè)或多個(gè)進(jìn)程。使用supervisor管理的進(jìn)程,當(dāng)一個(gè)進(jìn)程意外被殺死,supervisor 監(jiān)聽(tīng)到后會(huì)自動(dòng)將其重啟,實(shí)現(xiàn)進(jìn)程自動(dòng)恢復(fù)功能,無(wú)需寫(xiě)shell腳本來(lái)控制。
2.1.2 數(shù)據(jù)、訪問(wèn)和傳輸安全性 在數(shù)據(jù)安全性方面應(yīng)遵循3個(gè)原則,即敏感信息盡量不用;如果要使用敏感信息,盡量通過(guò)只讀方式獲取,不對(duì)自身信息產(chǎn)生干擾;如果必須保存敏感信息(如數(shù)據(jù)庫(kù)、操作系統(tǒng)密碼等),則這些信息的錄入、保存都采用非明文加密方式。在訪問(wèn)安全性方面,主要體現(xiàn)在產(chǎn)品對(duì)任何訪問(wèn)都要求進(jìn)行認(rèn)證授權(quán)。對(duì)于非認(rèn)證授權(quán)用戶(hù)、客戶(hù)端或其他外界請(qǐng)求一律不予響應(yīng)。如個(gè)別終端獲取磁盤(pán)陣列信息需要安裝代理,應(yīng)對(duì)代理也做安全保護(hù),如果其他第3方應(yīng)用請(qǐng)求代理調(diào)用,則代理不予響應(yīng)。在傳輸安全性方面,平臺(tái)除路由類(lèi)信息外其他相關(guān)信息一律進(jìn)行加密傳輸。平臺(tái)主要依賴(lài)于操作系統(tǒng)內(nèi)置的軟件組件,且對(duì)系統(tǒng)版本無(wú)要求。除客戶(hù)通過(guò)配置手段開(kāi)放操作系統(tǒng)、數(shù)據(jù)庫(kù)的權(quán)限給平臺(tái)外,平臺(tái)不應(yīng)自行獲取任何信息。平臺(tái)通過(guò)簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)、Windows管理規(guī)范(Windows Management Instrumentation,WMI)、安全外殼協(xié)議(Secure Shell,SSH)、智能平臺(tái)管理接口(Intelligent Platform Management Interface,IPMI)等多項(xiàng)技術(shù)實(shí)現(xiàn)監(jiān)控功能。平臺(tái)代理端程序支持綠色、無(wú)依賴(lài)、無(wú)需重啟特征。
2.2.1 拓?fù)浣Y(jié)構(gòu)(圖1)

圖1 網(wǎng)絡(luò)拓?fù)?/p>
2.2.2 運(yùn)行機(jī)制 數(shù)據(jù)通過(guò) SNMP、WMI、SSH、IPMI、Syslog、SMI-S、Agent 等方式采集。監(jiān)控平臺(tái)通過(guò)多種方式不間斷主動(dòng)輪詢(xún)抓取被監(jiān)控終端和設(shè)備的監(jiān)控指標(biāo)信息。間隔時(shí)間為10分鐘(部分指標(biāo)項(xiàng)間隔時(shí)間較長(zhǎng))。監(jiān)控方式為串行。平臺(tái)根據(jù)設(shè)置的各項(xiàng)指標(biāo)閾值分析判斷運(yùn)行情況并進(jìn)行反饋。運(yùn)行機(jī)制,見(jiàn)圖2。

圖2 運(yùn)行機(jī)制
2.3.1 概述 基于業(yè)務(wù)、設(shè)備兩個(gè)最核心的監(jiān)控視角建立智能運(yùn)維平臺(tái)體系,建設(shè)以業(yè)務(wù)系統(tǒng)監(jiān)控為主線,集所有醫(yī)院IT生態(tài)環(huán)境為一體的多層次智能化的立體監(jiān)控平臺(tái)。平臺(tái)以故障事前預(yù)警、問(wèn)題快速定位為核心,在嚴(yán)重故障發(fā)生之前能發(fā)現(xiàn)大部分問(wèn)題。
2.3.2 業(yè)務(wù)監(jiān)控 指以業(yè)務(wù)監(jiān)控為主線,全面了解業(yè)務(wù)系統(tǒng)健康情況及快速定位業(yè)務(wù)故障。業(yè)務(wù)監(jiān)控包括業(yè)務(wù)拓?fù)鋱D、業(yè)務(wù)報(bào)警以及相關(guān)聯(lián)服務(wù)器各項(xiàng)狀態(tài)、運(yùn)維筆記、關(guān)聯(lián)文檔、運(yùn)維時(shí)間軸等的查看功能。業(yè)務(wù)拓?fù)鋱D是業(yè)務(wù)及其相關(guān)聯(lián)資源的一種展現(xiàn)方式,以圖形化方式展現(xiàn)該業(yè)務(wù)的體系結(jié)構(gòu),包括業(yè)務(wù)、服務(wù)器(或虛擬機(jī))、數(shù)據(jù)庫(kù)、中間件、帶外管理卡等多方面的關(guān)系圖。從業(yè)務(wù)報(bào)警中可以清晰看到該業(yè)務(wù)本身及所關(guān)聯(lián)的軟件、設(shè)備的所有報(bào)警和提醒信息。有報(bào)警的顯示紅色,提醒的顯示黃色。
2.3.3 業(yè)務(wù)層監(jiān)控項(xiàng) 包括應(yīng)用核心進(jìn)程監(jiān)控,應(yīng)用進(jìn)程是否存活,應(yīng)用進(jìn)程 CPU、內(nèi)存占用情況監(jiān)測(cè);應(yīng)用端口監(jiān)控,指定端口是否有效;統(tǒng)一資源定位地址(Uniform Resource Locator,URL)監(jiān)控,指定頁(yè)面是否有效;瀏覽器/服務(wù)器(Browser/Server,B/S)應(yīng)用可用性監(jiān)控; B/S 應(yīng)用模擬賬戶(hù)登錄判斷系統(tǒng)的可用性;文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)監(jiān)控,監(jiān)測(cè)目前 FTP 上傳和下載流量;Ping指定服務(wù)器情況,是否能連接到指定傳輸控制協(xié)議(Transmission Control Protocol,TCP)端口,市面上的運(yùn)維產(chǎn)品將監(jiān)控焦點(diǎn)放在IP網(wǎng)絡(luò)層,對(duì)于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)、中間件、虛擬化軟件的各項(xiàng)運(yùn)行指標(biāo)與其所支撐的業(yè)務(wù)系統(tǒng)相關(guān)聯(lián)。對(duì)于數(shù)據(jù)庫(kù)各指標(biāo)的深度監(jiān)控是目前急切需要的功能。
2.3.4 數(shù)據(jù)庫(kù) 以O(shè)racle為例,連通性監(jiān)測(cè),包括集群、表空間、數(shù)據(jù)庫(kù)阻塞、死鎖、作業(yè)、會(huì)話(huà)、輔助儲(chǔ)存管理器(Auxiliary Storagae Manager,ASM)、文件(Redo Log、Control Log、Archive log)、無(wú)效對(duì)象監(jiān)測(cè),恢復(fù)管理器(Reeovery Manager,RMAN)監(jiān)測(cè),告警日志監(jiān)測(cè)。
2.3.5 中間件 以信息服務(wù)器(Internet Information Server,IIS)為例,對(duì)指定的 IIS 服務(wù)基本信息以及應(yīng)用程序池站點(diǎn)、虛擬目錄、運(yùn)行狀態(tài)進(jìn)行監(jiān)控。
2.3.6 虛擬宿主機(jī)狀態(tài)監(jiān)控 虛擬宿主機(jī)網(wǎng)絡(luò)情況;CPU、內(nèi)存、硬盤(pán)使用率;當(dāng)前虛擬機(jī)實(shí)例、連接設(shè)備狀態(tài);虛擬機(jī)狀態(tài)監(jiān)控;虛擬機(jī)開(kāi)關(guān)狀態(tài)、網(wǎng)絡(luò)狀態(tài)、虛擬機(jī)性能、相關(guān)操作系統(tǒng)、應(yīng)用軟件狀態(tài)監(jiān)控。
2.3.7 設(shè)備監(jiān)控 包括網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)、機(jī)房動(dòng)環(huán)等。
2.3.8 網(wǎng)絡(luò)監(jiān)控 從網(wǎng)絡(luò)角度全面了解運(yùn)行情況及快速定位網(wǎng)絡(luò)異常。平臺(tái)提供網(wǎng)絡(luò)拓?fù)鋱D(及子拓?fù)?自動(dòng)生成、網(wǎng)絡(luò)通斷情況、流量分析、端口狀態(tài)、位置、運(yùn)維筆記、文檔及網(wǎng)絡(luò)設(shè)備配置信息自動(dòng)備份等功能。網(wǎng)絡(luò)監(jiān)控以 IP 地址為出發(fā)點(diǎn),提供網(wǎng)絡(luò)設(shè)備以及端到端的網(wǎng)絡(luò)流量分析。
2.3.9 其他設(shè)備監(jiān)控 從設(shè)備角度全面掌握設(shè)備(物理設(shè)備)運(yùn)行情況及快速定位設(shè)備故障。產(chǎn)品提供地圖、3D 機(jī)房建模、機(jī)柜及各種報(bào)警展示。設(shè)備基本信息包括資產(chǎn)號(hào)、歸屬、類(lèi)型、位置、狀態(tài)、責(zé)任人、供應(yīng)商、出保日期、文檔信息設(shè)備監(jiān)控清單;連通性監(jiān)測(cè),CPU 、內(nèi)存、硬盤(pán)使用率、RAID、端口流量監(jiān)控;通過(guò)帶外管理口(IPMI)監(jiān)控電源、風(fēng)扇等設(shè)備硬件;設(shè)備故障報(bào)警(硬件級(jí)、操作系統(tǒng)級(jí))。
2.4.1 以業(yè)務(wù)系統(tǒng)監(jiān)控為主線 將支撐業(yè)務(wù)系統(tǒng)的所有IT資源(含設(shè)備、網(wǎng)絡(luò)、軟件)進(jìn)行統(tǒng)一關(guān)聯(lián)監(jiān)控,在業(yè)務(wù)監(jiān)控視圖中可任意切換業(yè)務(wù)系統(tǒng),關(guān)注故障與性能情況,全面掌握所有業(yè)務(wù)系統(tǒng)健康情況。
2.4.2 主動(dòng)監(jiān)控 實(shí)現(xiàn)集中管理,部署集中監(jiān)控系統(tǒng),醫(yī)院整個(gè)IT生態(tài)的全面監(jiān)控,構(gòu)建統(tǒng)一智能監(jiān)控分析預(yù)警平臺(tái),主動(dòng)、及時(shí)地分析數(shù)據(jù),在事前發(fā)現(xiàn)問(wèn)題,給出處置建議。監(jiān)控平臺(tái)本身不直接處理發(fā)現(xiàn)的故障,不影響業(yè)務(wù)系統(tǒng)的正常運(yùn)行。
2.4.3 人與系統(tǒng)高度結(jié)合 基于在軟硬件上的上百個(gè)代理端或傳感器每隔幾分鐘進(jìn)行1次輪巡,運(yùn)維人員在電腦前隨時(shí)可以進(jìn)行業(yè)務(wù)巡檢(以業(yè)務(wù)視角進(jìn)行巡檢)、IPMI巡檢(關(guān)注設(shè)備硬件情況),隨時(shí)了解資源運(yùn)行情況。此外,運(yùn)維人員每天例行的值班巡檢也可通過(guò)系統(tǒng)的值班巡檢功能完成。按照巡檢制度新建巡檢任務(wù),實(shí)現(xiàn)業(yè)務(wù)、軟件、設(shè)備、網(wǎng)絡(luò)、動(dòng)環(huán)分別進(jìn)行的自動(dòng)巡檢,由運(yùn)維人員逐一核實(shí)報(bào)警信息,添加批注,同時(shí)支持生成制式的巡檢報(bào)告,歷次巡檢記錄有據(jù)可查。
2.4.4 運(yùn)行可視化管理 平臺(tái)提供運(yùn)行可視化展示功能,以業(yè)務(wù)拓?fù)洹⒕W(wǎng)絡(luò)拓?fù)洹C(jī)房三維可視化多角度展示IT資源運(yùn)行、性能情況等,使領(lǐng)導(dǎo)、管理者、技術(shù)人員能迅速掌握 IT 運(yùn)行狀態(tài)。
為實(shí)現(xiàn)故障消息實(shí)時(shí)推送功能,部署前置機(jī)后運(yùn)維監(jiān)控系統(tǒng)支持通過(guò)微信接收?qǐng)?bào)警信息和查看運(yùn)維監(jiān)控?cái)?shù)據(jù)。其中,監(jiān)控服務(wù)器部署在內(nèi)網(wǎng)區(qū),數(shù)據(jù)同步服務(wù)器部署在前置機(jī)區(qū)。監(jiān)控?cái)?shù)據(jù)從內(nèi)網(wǎng)經(jīng)過(guò)防火墻到達(dá)前置機(jī),然后再?gòu)那爸脵C(jī)發(fā)往云端。內(nèi)網(wǎng)服務(wù)器到前置機(jī)經(jīng)過(guò)一道防火墻,前置機(jī)到云端又經(jīng)過(guò)一道防火墻。數(shù)據(jù)流向,見(jiàn)圖3。

圖3 數(shù)據(jù)流向
首先在運(yùn)維監(jiān)控服務(wù)器生成數(shù)據(jù)并加密,然后基于傳輸層安全性(Transport Layer Security,TLS)的超文本傳輸協(xié)議安全(Hyper Text Transfer Protocol Secure,HTTPS)加密傳輸協(xié)議送至前置機(jī)。前置機(jī)通過(guò)二進(jìn)制硬編碼的 C++從阿里云獲取傳輸配置信息,再基于 TLS 的 HTTPS 加密傳輸協(xié)議將數(shù)據(jù)傳送至阿里云。整個(gè)傳輸過(guò)程經(jīng)過(guò)雙重加密,保證數(shù)據(jù)安全。
隨著對(duì)醫(yī)院信息系統(tǒng)的依賴(lài)度越來(lái)越高,對(duì)醫(yī)院信息部門(mén)的運(yùn)維能力要求也日益提高,信息部門(mén)能否將工作重點(diǎn)從事后補(bǔ)救向事前處置轉(zhuǎn)移將會(huì)影響整個(gè)信息系統(tǒng)的運(yùn)行效率和安全。本文提出使用智能化工具服務(wù)于醫(yī)院整個(gè)IT環(huán)境的全局運(yùn)維,通過(guò)對(duì)自身實(shí)踐的總結(jié)分析得出一些經(jīng)驗(yàn),以期為相關(guān)工作提供參考。