孟曉陽(yáng) 郭杰峰
(北京協(xié)和醫(yī)院信息管理處 北京 100730)
?
使用IT運(yùn)行監(jiān)控系統(tǒng)保障醫(yī)院信息系統(tǒng)的高可用性*
孟曉陽(yáng) 郭杰峰
(北京協(xié)和醫(yī)院信息管理處 北京 100730)
以一所三級(jí)甲等醫(yī)院的附屬院區(qū)為例,分析該院區(qū)信息系統(tǒng)對(duì)高可用性的需求,從機(jī)房環(huán)境、網(wǎng)絡(luò)、服務(wù)器和存儲(chǔ)設(shè)備、數(shù)據(jù)庫(kù)、客戶端、監(jiān)控與報(bào)警幾個(gè)方面,介紹信息系統(tǒng)運(yùn)行監(jiān)控系統(tǒng)的設(shè)計(jì)思路和應(yīng)用情況。
IT運(yùn)行監(jiān)控系統(tǒng);醫(yī)院信息系統(tǒng);高可用性
隨著醫(yī)院信息化建設(shè)逐年深入,應(yīng)用范圍越來(lái)越廣,配套的服務(wù)器網(wǎng)絡(luò)設(shè)備也越來(lái)越多。IT設(shè)備的快速增長(zhǎng),使信息系統(tǒng)的管理面臨很大的運(yùn)維壓力,傳統(tǒng)的人工巡檢排錯(cuò)的方式,已經(jīng)無(wú)法滿足業(yè)務(wù)系統(tǒng)高可用性的需求。有調(diào)查顯示,在近年來(lái)發(fā)生的醫(yī)院信息系統(tǒng)宕機(jī)事故中,因故障不能及時(shí)發(fā)現(xiàn)和排除而導(dǎo)致的UPS起火、空調(diào)宕機(jī)、數(shù)據(jù)庫(kù)崩潰等情況占據(jù)很大比例。醫(yī)院信息系統(tǒng)是一個(gè)數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、事務(wù)并發(fā)多的實(shí)時(shí)系統(tǒng),由于醫(yī)院業(yè)務(wù)的特殊性,任何人為或自然因素所導(dǎo)致的應(yīng)用或表現(xiàn)中斷,都會(huì)造成巨大的經(jīng)濟(jì)和名譽(yù)損失以及嚴(yán)重的法律后果。醫(yī)院信息化水平越高,對(duì)計(jì)算機(jī)系統(tǒng)的依賴程度越高,如何保障醫(yī)院信息系統(tǒng)應(yīng)用服務(wù)的高可用性以及數(shù)據(jù)安全,保證系統(tǒng)持續(xù)正常運(yùn)行是目前急需解決的一個(gè)重要問(wèn)題。在銀行、電信等行業(yè)的IT部門(mén)里,已有采用綜合網(wǎng)管、溫濕度監(jiān)控、智能儀表數(shù)據(jù)采集等對(duì)IT資產(chǎn)進(jìn)行一體化監(jiān)控的經(jīng)驗(yàn)。借助監(jiān)控工具自動(dòng)對(duì)IT基礎(chǔ)設(shè)施進(jìn)行數(shù)據(jù)采集、狀態(tài)監(jiān)控和性能分析是提高信息系統(tǒng)高可用性的有效手段。
本文所提到的應(yīng)用環(huán)境是一所三級(jí)甲等醫(yī)院的附屬院區(qū),具有獨(dú)立的機(jī)房、網(wǎng)絡(luò)和應(yīng)用系統(tǒng)。整個(gè)信息系統(tǒng)包括70余臺(tái)服務(wù)器和存儲(chǔ)設(shè)備、600多個(gè)網(wǎng)絡(luò)客戶端和近30個(gè)來(lái)自不同廠商的臨床應(yīng)用系統(tǒng),運(yùn)行環(huán)境復(fù)雜。負(fù)責(zé)日常運(yùn)維工作的工程師只有5人,分別負(fù)責(zé)機(jī)房網(wǎng)絡(luò)、服務(wù)器數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)和安全管理,還要承擔(dān)7×24小時(shí)的值班任務(wù),工作繁重。該院區(qū)主要服務(wù)于高端人群,雖然日常業(yè)務(wù)量不大,但掛號(hào)、就診、檢查、取藥各個(gè)環(huán)節(jié)均依賴信息系統(tǒng)支持,一旦信息系統(tǒng)故障,造成患者無(wú)法順利就醫(yī),將對(duì)醫(yī)院的經(jīng)濟(jì)和聲譽(yù)造成不利影響,所以對(duì)系統(tǒng)可用性有極高的要求。基于以上原因,設(shè)計(jì)實(shí)施一套IT運(yùn)行監(jiān)控系統(tǒng),幫助信息部門(mén)進(jìn)行運(yùn)維管理,從技術(shù)層面提高醫(yī)院信息系統(tǒng)的可用性是很有必要的。
3.1 概述
高可用性就是指IT服務(wù)可以最大限度地減小或掩蓋IT組件故障對(duì)服務(wù)用戶的影響[4]。用戶并不關(guān)心是否有IT故障,而只關(guān)心在其使用的節(jié)點(diǎn)信息系統(tǒng)是否可用;也就是說(shuō),保障信息系統(tǒng)的高可用性并不是完全避免IT組件本身的故障,但可以通過(guò)IT服務(wù)的手段,最大限度地減小故障對(duì)用戶的影響。醫(yī)院信息系統(tǒng)的運(yùn)行環(huán)境包括機(jī)房、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫(kù)、客戶端5部分,其關(guān)系,見(jiàn)圖1。圖1說(shuō)明了兩個(gè)問(wèn)題:(1)下層的運(yùn)行環(huán)境為上層的運(yùn)行環(huán)境提供支撐。(2)作為用戶界面的信息系統(tǒng)客戶端位于最上層。因此,當(dāng)下層的運(yùn)行環(huán)境出現(xiàn)問(wèn)題時(shí),將逐層向上產(chǎn)生影響,如能及時(shí)發(fā)現(xiàn)和處理,就可以消除隱患,從而避免事故隱患蔓延到用戶界面,減少造成業(yè)務(wù)中斷的幾率。

圖1 醫(yī)院信息系統(tǒng)運(yùn)行環(huán)境
3.2 機(jī)房環(huán)境
3.2.1 配電系統(tǒng) 配電系統(tǒng)包括市電供應(yīng)、不間斷電源和發(fā)電機(jī)3部分。對(duì)市電供應(yīng)應(yīng)監(jiān)控電能質(zhì)量,主要指標(biāo)包括開(kāi)關(guān)狀態(tài)、電流、電壓、有功功率、功率因數(shù)、諧波含量[2]。不間斷電源的主要監(jiān)控指標(biāo)為:監(jiān)控輸入和輸出功率、電壓、頻率、電流、功率因數(shù)、負(fù)荷率;電池輸入電壓、電流、容量;同步/不同步狀態(tài)、不間斷電源系統(tǒng)/旁路供電狀態(tài)、市電故障、不間斷電源系統(tǒng)故障;監(jiān)控蓄電池的電壓、阻抗和故障[2]。對(duì)發(fā)電機(jī)系統(tǒng)應(yīng)監(jiān)控油箱(罐)油位、柴油機(jī)轉(zhuǎn)速、輸出功率、頻率、電壓、功率因數(shù)[2]。
3.2.2 環(huán)境溫濕度 對(duì)空調(diào)系統(tǒng)應(yīng)監(jiān)控開(kāi)關(guān)、制冷、加熱、加濕、除濕的運(yùn)行狀態(tài);相對(duì)溫度、相對(duì)濕度、傳感器故障、壓縮機(jī)壓力、加濕器水位、風(fēng)量設(shè)置閥值,超出報(bào)警[2]。在空調(diào)、水管、窗戶等易產(chǎn)生水源泄露的部位,應(yīng)安裝漏水感應(yīng)裝置并監(jiān)控其狀態(tài)。對(duì)機(jī)房環(huán)境,應(yīng)監(jiān)控房間各區(qū)域以及機(jī)柜內(nèi)部的溫度、濕度數(shù)據(jù)以及變化趨勢(shì)。
3.2.3 消防系統(tǒng)監(jiān)控 應(yīng)監(jiān)控消防控制器、煙感探測(cè)器、溫感探測(cè)器等消防設(shè)備。機(jī)房?jī)?nèi)應(yīng)有氣體滅火設(shè)備并與消防系統(tǒng)聯(lián)動(dòng),當(dāng)有消防報(bào)警產(chǎn)生時(shí),及時(shí)采取相應(yīng)的控制措施,如開(kāi)啟門(mén)禁、切斷
電源、啟停相關(guān)設(shè)備等操作。
3.2.4 安防系統(tǒng)監(jiān)控 包括門(mén)禁系統(tǒng)、閉路監(jiān)控系統(tǒng)、入侵檢測(cè)系統(tǒng)等。通過(guò)門(mén)禁系統(tǒng)進(jìn)行人員出入控制,可采用讀卡或密碼方式進(jìn)行身份認(rèn)證,監(jiān)測(cè)門(mén)的開(kāi)關(guān)狀態(tài),記錄開(kāi)門(mén)的時(shí)間、卡號(hào),遠(yuǎn)程控制門(mén)的開(kāi)關(guān)。安裝半球攝像機(jī)監(jiān)視人員進(jìn)出以及設(shè)備狀況,采用數(shù)字硬盤(pán)錄像機(jī)保存數(shù)據(jù)。
3.3 網(wǎng)絡(luò)
3.3.1 網(wǎng)絡(luò)拓?fù)?網(wǎng)絡(luò)管理員可以直觀地查看網(wǎng)絡(luò)邏輯拓?fù)鋱D和網(wǎng)絡(luò)物理拓?fù)鋱D,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)的邏輯和物理問(wèn)題。拓?fù)鋱D通過(guò)使用不同的圖標(biāo)來(lái)表示不同網(wǎng)絡(luò)對(duì)象,用不同的顏色來(lái)表示不同的設(shè)備運(yùn)行狀況。通過(guò)網(wǎng)絡(luò)拓?fù)鋱D上數(shù)據(jù)和信息,管理員可以很及時(shí)地了解到網(wǎng)絡(luò)運(yùn)行健康情況。
3.3.2 故障管理 網(wǎng)絡(luò)故障通常會(huì)影響到特定的區(qū)域或信息節(jié)點(diǎn),當(dāng)用戶反映計(jì)算機(jī)訪問(wèn)相應(yīng)的業(yè)務(wù)緩慢或網(wǎng)絡(luò)中斷時(shí),網(wǎng)絡(luò)管理員一般需要從網(wǎng)絡(luò)的不同層次(如鏈路問(wèn)題、設(shè)備問(wèn)題、路由問(wèn)題和網(wǎng)絡(luò)擁塞情況)排查問(wèn)題。采用了運(yùn)行監(jiān)控系統(tǒng)可以通過(guò)定時(shí)輪詢和接收Trap兩種方式監(jiān)控設(shè)備運(yùn)行狀況,當(dāng)網(wǎng)絡(luò)設(shè)備中斷或流量超過(guò)閥值時(shí),可以通過(guò)短信、郵件、報(bào)警燈等多種方式將報(bào)警信息發(fā)送給網(wǎng)絡(luò)管理員,節(jié)省故障排查時(shí)間。
3.3.3 性能管理 在實(shí)時(shí)顯示網(wǎng)絡(luò)運(yùn)行狀況信息的同時(shí),運(yùn)行監(jiān)控系統(tǒng)可以將這些運(yùn)行數(shù)據(jù)(如設(shè)備CPU、內(nèi)存利用率,設(shè)備各端口出入流量、平均包長(zhǎng)及丟包、錯(cuò)包率等)記錄下來(lái),用于以后的數(shù)據(jù)分析。通過(guò)歷史曲線比對(duì)、TOPN數(shù)據(jù)分析等手段,可以了解設(shè)備的利用情況以及網(wǎng)絡(luò)性能的瓶頸。
3.3.4 安全管理 通過(guò)事先設(shè)置好的資產(chǎn)清單運(yùn)行監(jiān)控系統(tǒng)可判別哪些網(wǎng)絡(luò)終端設(shè)備是合法接入的。一旦有終端設(shè)備未經(jīng)允許接入網(wǎng)絡(luò),就可以進(jìn)行阻斷并報(bào)警,嚴(yán)格控制網(wǎng)絡(luò)邊界;也可結(jié)合各個(gè)廠商的接入訪問(wèn)控制阻止客戶端的非法接入,例如H3C的EAD和微軟的NAP方案。
3.4 服務(wù)器和存儲(chǔ)設(shè)備監(jiān)控
3.4.1 運(yùn)行監(jiān)控系統(tǒng) 對(duì)于一個(gè)龐大而復(fù)雜的醫(yī)院信息系統(tǒng)體系而言,如果不借助工具,進(jìn)行服務(wù)器巡檢將是很大的工作量。運(yùn)行監(jiān)控系統(tǒng)可以提供一個(gè)統(tǒng)一的界面,讓系統(tǒng)管理員一目了然地了解到各臺(tái)服務(wù)器的運(yùn)行狀況,而不用逐臺(tái)對(duì)服務(wù)器進(jìn)行巡檢。監(jiān)控服務(wù)器性能最主要的3個(gè)指標(biāo)是CPU利用率、內(nèi)存利用率和文件系統(tǒng)使用率。系統(tǒng)管理員應(yīng)經(jīng)常對(duì)以上指標(biāo)的歷史數(shù)據(jù)進(jìn)行分析,如有利用率過(guò)高的情況,應(yīng)分析應(yīng)用場(chǎng)景,及時(shí)處理。除此之外,日常運(yùn)維中還應(yīng)重點(diǎn)關(guān)注服務(wù)器的通斷狀況和網(wǎng)絡(luò)時(shí)延;如果操作系統(tǒng)日志中有異常信息應(yīng)進(jìn)行分析和處理;對(duì)于建有集群的服務(wù)器,還應(yīng)監(jiān)測(cè)集群服務(wù)地址、獲得接管地址、Cluster節(jié)點(diǎn)狀態(tài)等。
3.4.2 SNMP與MIB 和網(wǎng)絡(luò)設(shè)備一樣,絕大多數(shù)的存儲(chǔ)設(shè)備和磁帶庫(kù)都支持簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP),SNMP是應(yīng)用最為廣泛的TCP/IP協(xié)議,采用Server/ Client的模式,通過(guò)管理端與SNMP代理間的交互工作完成對(duì)設(shè)備的管理。管理信息庫(kù)(Management Information Base,MIB)包是設(shè)備廠商對(duì)設(shè)備信息的定義庫(kù),可以從設(shè)備代理商處獲取,MIB包以文本形式保存樹(shù)狀的代碼信息,每個(gè)分支代表一種類型的統(tǒng)計(jì)信息或狀態(tài)信息,通過(guò)SNMP代理可以響應(yīng)SNMP管理端關(guān)于MIB信息的各種查詢,如get, get-next, set等。被管設(shè)備還可以通過(guò)TRAP包的形式主動(dòng)向管理端發(fā)送緊急報(bào)警信息,從而實(shí)現(xiàn)對(duì)存儲(chǔ)設(shè)備和磁帶庫(kù)的監(jiān)控。
3.5 數(shù)據(jù)庫(kù)
維護(hù)數(shù)據(jù)可靠安全是保證信息系統(tǒng)高可用性的最終目的。進(jìn)行數(shù)據(jù)庫(kù)的調(diào)優(yōu)和管理數(shù)據(jù)備份是DBA的主要職責(zé)。對(duì)數(shù)據(jù)庫(kù)的監(jiān)控主要關(guān)注可用狀態(tài)、性能和空間容量3個(gè)方面。可用狀態(tài)是指被監(jiān)控的數(shù)據(jù)庫(kù)是否能正常訪問(wèn),特定進(jìn)程或服務(wù)是否狀態(tài)正常;性能指標(biāo)包括連接數(shù)是否過(guò)大、讀緩存命中率是否過(guò)低、寫(xiě)緩存命中率是否過(guò)低、死鎖數(shù)量是否過(guò)大、回滾數(shù)是否過(guò)高等;空間容量是指監(jiān)測(cè)表空間和數(shù)據(jù)文件的大小、狀態(tài)和使用率、數(shù)據(jù)庫(kù)碎片比率等。以O(shè)ralce數(shù)據(jù)庫(kù)為例,在實(shí)際工作中監(jiān)控了以下指標(biāo):(1) Session數(shù)。(2)后臺(tái)進(jìn)程狀態(tài)(SMON、PMON、DBWn、LGWR、CKPT等)。(3)PGA狀況(內(nèi)存爭(zhēng)用比、PGA使用率、PGA命中率)。(4) SGA狀況(Buffer Cache命中率、庫(kù)緩存命中率、數(shù)據(jù)字典命中率、共享池命中率、回滾段爭(zhēng)用比)。(5)表空間利用率、日志使用情況。
3.6 客戶端
雖然單點(diǎn)故障不會(huì)影響醫(yī)療業(yè)務(wù)的正常運(yùn)行,但對(duì)于重要的客戶端節(jié)點(diǎn),可以采用撥測(cè)的方式監(jiān)控其運(yùn)行狀態(tài)。如在實(shí)際工作中,筆者對(duì)遍布院區(qū)的導(dǎo)醫(yī)自助設(shè)備進(jìn)行了監(jiān)控。導(dǎo)醫(yī)自助設(shè)備是唯一直接給病人使用的信息系統(tǒng),但因處于公共區(qū)域,常處于無(wú)人管理狀態(tài)。通過(guò)運(yùn)行監(jiān)控平臺(tái)每10分鐘對(duì)終端設(shè)備進(jìn)行一次PING操作,結(jié)合遠(yuǎn)程桌面管理軟件進(jìn)行日常管理,取得了不錯(cuò)的效果。除此之外,客戶端作為IT資產(chǎn),分布于院區(qū)各個(gè)科室,不易管理。可以通過(guò)IT運(yùn)行監(jiān)控定期進(jìn)行撥測(cè),監(jiān)控其使用狀況,為資產(chǎn)清查提供輔助手段。
3.7 監(jiān)控與報(bào)警
在信息部門(mén)的辦公區(qū)設(shè)置監(jiān)控大屏,播放IT運(yùn)行監(jiān)控系統(tǒng)的運(yùn)維門(mén)戶視圖,集中顯示信息系統(tǒng)整體運(yùn)行狀況,包括IT資產(chǎn)統(tǒng)計(jì)、報(bào)警列表、機(jī)房環(huán)境監(jiān)控圖、服務(wù)器位置及拓?fù)洹⑷壕W(wǎng)絡(luò)拓?fù)洹?shù)據(jù)庫(kù)狀態(tài)、應(yīng)用系統(tǒng)定期作業(yè)執(zhí)行情況等。當(dāng)IT運(yùn)行監(jiān)控系統(tǒng)收到Snmp Trap報(bào)警信息或檢測(cè)到超過(guò)了預(yù)先設(shè)定的閥值時(shí),會(huì)通過(guò)短信模塊向管理員手機(jī)發(fā)送短信報(bào)警,同時(shí)監(jiān)控大廳的報(bào)警燈閃爍并蜂鳴報(bào)警,運(yùn)維門(mén)戶的拓?fù)鋱D上標(biāo)示出故障位置。故障等級(jí)設(shè)為3檔,正常、提醒和警告。系統(tǒng)通過(guò)撥測(cè)自檢,確保自身運(yùn)轉(zhuǎn)正常;當(dāng)發(fā)現(xiàn)異常數(shù)據(jù)但不影響系統(tǒng)正常使用時(shí)生成提示信息;當(dāng)判斷故障需要緊急處理時(shí)顯示為警告。
信息系統(tǒng)運(yùn)行監(jiān)控系統(tǒng)投入使用以來(lái),既減輕了信息中心運(yùn)維人員的巡檢壓力,又可實(shí)時(shí)全面地掌握信息系統(tǒng)各個(gè)環(huán)節(jié)的運(yùn)行狀況。在幾次硬件故障發(fā)生時(shí),均能及時(shí)報(bào)警,未造成進(jìn)一步的事故。通過(guò)對(duì)歷史數(shù)據(jù)分析,還可以再現(xiàn)事故發(fā)生的過(guò)程,排查類似隱患,避免同類情況再次發(fā)生。同時(shí)筆者也意識(shí)到,在IT運(yùn)維管理方面需要人防和技防并重,技術(shù)只是輔助手段,如果IT運(yùn)維人員責(zé)任心不強(qiáng),不能重視并及時(shí)處理報(bào)警,IT運(yùn)行監(jiān)控系統(tǒng)也不能發(fā)揮作用。另一方面,對(duì)報(bào)警參數(shù)的配置是一個(gè)動(dòng)態(tài)調(diào)整和完善的過(guò)程,需要在使用過(guò)程中,盡可能將所有軟硬件報(bào)警信息都納入其中,根據(jù)實(shí)際情況調(diào)整閾值,持續(xù)改進(jìn)。
1 孟曉陽(yáng).醫(yī)院機(jī)房改造四大建議[N].計(jì)算機(jī)世界,2011-04-18(32).
2 中華人民共和國(guó)住房和城鄉(xiāng)建設(shè)部.電子信息系統(tǒng)機(jī)房設(shè)計(jì)規(guī)范[M]. 北京:中國(guó)計(jì)劃出版社,2009.
3 全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì).信息安全技術(shù) 信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范[M].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2007.
4 TSO.ITIL V3 服務(wù)設(shè)計(jì)[M].英國(guó):英國(guó)商務(wù)部,2010.
5 孟曉陽(yáng).基于ITIL理念的醫(yī)院IT運(yùn)維模式改進(jìn)[J].中國(guó)衛(wèi)生質(zhì)量管理,2013,20(6):94-96.
6 沈碧飛.在醫(yī)院服務(wù)器虛擬化環(huán)境中構(gòu)建存儲(chǔ)性能測(cè)試平臺(tái)[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(2):34-38.
7 肖革新,周立平,王俊玲,等.基于三維模型的疾控?cái)?shù)據(jù)中心運(yùn)維管理體系建設(shè)與實(shí)踐[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(4):21-25.
8 肖革新,張燁,張睿,等.公共衛(wèi)生數(shù)據(jù)中心安全保障體系建設(shè)與思考[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(2):13-17.
9 肖革新,張睿,馬家奇.中國(guó)疾控中心IT運(yùn)維管理平臺(tái)設(shè)計(jì)思路[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(8):15-19.
10 張睿,楊永明,于萌,等.公共衛(wèi)生數(shù)據(jù)統(tǒng)一采集交換平臺(tái)[J].醫(yī)學(xué)信息學(xué)雜志, 2013,34(12):6-10.
Ensuring High Availability of Hospital Information System Using IT Operation Monitoring Syste
MENGXiao-yang,GUOJie-feng,
DepartmentofInformtion,PekingUnionMedicalCollegeHospital,Beijing100730,China
Taking the affiliated hospital area of a three level first-class hospital as an example, the paper analyzes the demands for high availability of the information system, introduces the design idea and application status of operation monitoring system from the aspects of computer room environment, network, server and storage device, database, client, monitoring and alarm, etc.
IT operation monitoring system; Hospital Information System (HIS); High availability
2014-09-25
孟曉陽(yáng),碩士,軟件工程師,發(fā)表論文10篇。
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)“數(shù)字化醫(yī)療醫(yī)院流程研究及應(yīng)用示范”(項(xiàng)目編號(hào):2012AA02A613)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.005