茹軍 徐浩
構(gòu)建智能化的機(jī)房運(yùn)維管理系統(tǒng),保障機(jī)房中的設(shè)備高可靠運(yùn)行,使機(jī)房運(yùn)維和管理在日常工作變被動(dòng)為主動(dòng),將出現(xiàn)的問題做到早發(fā)現(xiàn)、早解決,提前預(yù)警。
機(jī)房是政府機(jī)關(guān)企事業(yè)單位的數(shù)據(jù)核心和網(wǎng)絡(luò)安全重地,是數(shù)據(jù)中心的物理存放單元,一旦網(wǎng)絡(luò)等重要設(shè)備出現(xiàn)故障,會(huì)導(dǎo)致數(shù)據(jù)傳輸和存儲(chǔ)出現(xiàn)異常,嚴(yán)重的情況下,甚至?xí)?dǎo)致數(shù)據(jù)的丟失和一些關(guān)鍵設(shè)備報(bào)廢,產(chǎn)生不可估量的損失。這給機(jī)房及網(wǎng)絡(luò)運(yùn)維管理帶來巨大挑戰(zhàn),完全依靠傳統(tǒng)人工監(jiān)測、排查已不可行。如何構(gòu)建智能化的機(jī)房運(yùn)維管理系統(tǒng),保障機(jī)房中的設(shè)備高可靠運(yùn)行,使機(jī)房運(yùn)維和管理在日常工作變被動(dòng)為主動(dòng),將出現(xiàn)的問題做到早發(fā)現(xiàn)、早解決,提前預(yù)警,提高對網(wǎng)絡(luò)設(shè)備智能化監(jiān)控能力等方面值得深究。
建立3D機(jī)房運(yùn)維可視化系統(tǒng),實(shí)現(xiàn)自主運(yùn)維
調(diào)研發(fā)現(xiàn),目前機(jī)房日常運(yùn)維管理存在著幾個(gè)主要問題:一是無法實(shí)時(shí)掌握關(guān)鍵設(shè)備的運(yùn)行狀態(tài),導(dǎo)致出現(xiàn)網(wǎng)絡(luò)中斷、網(wǎng)絡(luò)服務(wù)停止等情況無法及時(shí)處理。二是機(jī)房管理工作不到位,容易產(chǎn)生人工誤操作造成機(jī)房設(shè)備損傷和損壞。三是機(jī)房管理存在安全隱患,可能出現(xiàn)因環(huán)境或人為破壞因素對機(jī)房設(shè)備產(chǎn)生破壞。四是管理工作繁瑣,沒有統(tǒng)一管理平臺(tái),管理人員不能有效地管理機(jī)房設(shè)備。
基于以上原因,建立一個(gè)直觀、高效的機(jī)房運(yùn)維管理系統(tǒng)變得非常迫切。因此,為探索機(jī)房的3D可視化智慧監(jiān)管,浙江省林業(yè)信息宣傳服務(wù)中心針對以上問題“開展3D機(jī)房運(yùn)維可視化系統(tǒng)”試點(diǎn)建設(shè),通過采用3D虛擬現(xiàn)實(shí)技術(shù),在三維環(huán)境中構(gòu)建機(jī)房環(huán)境、資源、設(shè)備和監(jiān)控管理信息的機(jī)房運(yùn)維可視化平臺(tái),實(shí)現(xiàn)對機(jī)房和各類設(shè)備的智能可視化管理。管理人員可一目了然地掌握設(shè)備的運(yùn)行狀態(tài)及當(dāng)前各項(xiàng)性能指標(biāo)、業(yè)務(wù)運(yùn)行狀況、資產(chǎn)使用情況、IP地址使用情況等信息,從而實(shí)現(xiàn)主動(dòng)式、自動(dòng)化、統(tǒng)一化的運(yùn)維工作方式,為機(jī)房智能化監(jiān)管的探索解決方案。
打造機(jī)房智能運(yùn)維系統(tǒng),提升智慧預(yù)警
打造機(jī)房智能運(yùn)維系統(tǒng),需要建立一體化監(jiān)控、統(tǒng)計(jì)報(bào)表、故障管理、評估優(yōu)化、大屏整合管理等五大系統(tǒng)。
監(jiān)控體系是整個(gè)機(jī)房運(yùn)維系統(tǒng)的核心。監(jiān)控系統(tǒng)能對其多個(gè)因子實(shí)現(xiàn)集中監(jiān)控和管理,實(shí)現(xiàn)24小時(shí)無人值守,節(jié)省人員財(cái)力。有告警時(shí)可以根據(jù)告警的不同級別,通過不同的顏色標(biāo)識(shí)告警的設(shè)備,在告警的設(shè)備上懸浮顯示告警圖標(biāo),并能查看具體的告警信息。同時(shí)可以實(shí)現(xiàn)短信、郵件等多種方式結(jié)合發(fā)送,保障運(yùn)維人員能夠?qū)崟r(shí)獲取異常信息,系統(tǒng)將會(huì)告警通知到對應(yīng)運(yùn)維人員,確保告警得到及時(shí)處理。
與以往人工巡檢相比,一體化監(jiān)控系統(tǒng)主要有兩大優(yōu)勢:其一是故障告警實(shí)時(shí)性提高。以往人工巡檢為每天4次,無法實(shí)現(xiàn)24小時(shí)不斷巡查,往往要在接到求助電話后才去排查,并花費(fèi)時(shí)間去查找故障位置。而通過監(jiān)控系統(tǒng),設(shè)置的輪詢時(shí)間為1分鐘,即當(dāng)設(shè)備、網(wǎng)絡(luò)出現(xiàn)故障后,最晚1分鐘就可以監(jiān)測到故障位置并短信報(bào)警。其二是故障檢測時(shí)間減少。以往用人工檢測的話,每個(gè)設(shè)備需要大約30秒,總共需要15分鐘左右。而通過監(jiān)控系統(tǒng)系統(tǒng)巡檢,只需要登錄設(shè)備狀態(tài)頁面,就能一眼看出設(shè)備總體狀況
統(tǒng)計(jì)報(bào)表體系提供了運(yùn)行狀態(tài)報(bào)表、流量報(bào)表、故障報(bào)表等內(nèi)容豐富的報(bào)表模板,可以從資產(chǎn)/資產(chǎn)組、性能指標(biāo)、時(shí)間段三個(gè)維度進(jìn)行選擇,生成自定義報(bào)表。報(bào)表以柱狀圖、餅狀圖、表格、趨勢曲線圖等形式展現(xiàn),并且可以pdf、word等文檔形式導(dǎo)出,為運(yùn)維管理工作總結(jié)、改進(jìn)決策、編寫報(bào)告,提供客觀、詳細(xì)、全面、可靠的數(shù)據(jù)支撐。
故障管理功能可以通過SNMP、NetFlow、WMI、SSH、Telnet、JDBC、API等協(xié)議,實(shí)現(xiàn)對主流廠商服務(wù)器、交換機(jī)、路由器等設(shè)備的關(guān)鍵指標(biāo)進(jìn)行365×24小時(shí)集中、統(tǒng)一監(jiān)控。監(jiān)控內(nèi)容包括:設(shè)備概覽(IP地址、接口總數(shù)、版本信息、響應(yīng)時(shí)間、系統(tǒng)可用性、CPU利用率、內(nèi)存使用率等),網(wǎng)絡(luò)狀況(上傳速率、下載速率、接口狀態(tài)),告警(告警統(tǒng)計(jì)、告警列表),日志(日志分析、日志查詢),TRAP等;
設(shè)備監(jiān)控功能可以對監(jiān)控對象的關(guān)鍵性能指標(biāo)的閾值進(jìn)行靈活設(shè)置,系統(tǒng)會(huì)將監(jiān)控到的性能數(shù)據(jù)與設(shè)定的閾值進(jìn)行對比分析,在第一時(shí)間內(nèi)將故障位置和故障詳情通知運(yùn)維管理人員,并記錄其相應(yīng)的告警事件,做到事件可追溯。運(yùn)維管理人員及時(shí)發(fā)現(xiàn)和分析設(shè)備故障,及時(shí)排除設(shè)備故障,幫助擺脫被動(dòng)式的運(yùn)維局面,保障機(jī)房運(yùn)維過程有據(jù)可依。
監(jiān)控平臺(tái)支持日志分析評估功能支持日志全文檢索和關(guān)鍵字檢索,可以根據(jù)指定時(shí)間范圍內(nèi),對日志內(nèi)容、日志級別進(jìn)行統(tǒng)計(jì)與分析。通過評估優(yōu)化體系使得運(yùn)維人員可以在定期的時(shí)間內(nèi)發(fā)現(xiàn)不足的地方,更好地優(yōu)化網(wǎng)絡(luò)配置。
大屏展示系統(tǒng)提供設(shè)備類型統(tǒng)計(jì)視圖、告警統(tǒng)計(jì)視圖、響應(yīng)時(shí)間視圖、流量排名視圖、TopN等綜合視圖,為運(yùn)維人員清晰、直觀地展現(xiàn)運(yùn)維數(shù)據(jù),快速了解設(shè)備的整體運(yùn)行狀態(tài),實(shí)現(xiàn)隨時(shí)瀏覽機(jī)房的日常情況。
構(gòu)建三維可視化管理體系,助力智慧監(jiān)管
以三維虛擬仿真的最佳形式實(shí)現(xiàn)對機(jī)房的真實(shí)展現(xiàn),體現(xiàn)其各類保障能力,實(shí)現(xiàn)基于三維環(huán)境對其運(yùn)行情況進(jìn)行實(shí)時(shí)監(jiān)控,構(gòu)建一個(gè)立體式、可視化的機(jī)房綜合管理系統(tǒng)。
機(jī)房環(huán)境可視化仿真。根據(jù)機(jī)房實(shí)際布局情況建立全三維的完整場景,包括機(jī)柜安裝布局?jǐn)[放情況、配線橋架的走向、靜電地板、玻璃隔斷、機(jī)房門及配電設(shè)備、空調(diào)設(shè)備、UPS、監(jiān)控設(shè)備環(huán)境等輔助設(shè)施布局?jǐn)[放情況都按照實(shí)際位置、品牌、樣式在系統(tǒng)中展示。
設(shè)備資產(chǎn)可視化管理。根據(jù)機(jī)房設(shè)備資產(chǎn)情況,進(jìn)行3D建模,實(shí)現(xiàn)在三維可視化環(huán)境中進(jìn)行設(shè)備上下架操作,運(yùn)維人員能夠像在真實(shí)機(jī)房對設(shè)備上架一樣,在三維可視化系統(tǒng)中預(yù)演設(shè)備上架過程,設(shè)備上架后,設(shè)備的型號(hào)、房間名、機(jī)柜、U高等基本信息能夠自動(dòng)關(guān)聯(lián),自動(dòng)賦予上架設(shè)備基本的屬性信息,實(shí)現(xiàn)設(shè)備資產(chǎn)上架、下架、遷移的自動(dòng)化管理。同時(shí),提供歷史跟蹤和查詢記錄,完善信息資產(chǎn)管理檔案。
機(jī)柜容量可視化展示。對機(jī)房的U位空間進(jìn)行以3D形式做可視化展示,用色彩分割展現(xiàn)不同容量范圍的機(jī)柜空間,并能對查看范圍內(nèi)的U位空間容量進(jìn)行統(tǒng)計(jì),顯示總空間、已用空間和使用率等指標(biāo)。
動(dòng)環(huán)情況可視化監(jiān)控。動(dòng)環(huán)監(jiān)控可實(shí)時(shí)監(jiān)控機(jī)房的精密空調(diào)、功耗、溫濕度等信息,在3D設(shè)備上展示精密監(jiān)控?cái)?shù)據(jù)和告警數(shù)據(jù),自動(dòng)統(tǒng)計(jì)機(jī)房總功耗容量,目前功耗狀況及剩余容量。管理員可依據(jù)監(jiān)控情況調(diào)整精密空調(diào)運(yùn)行方式,有效降低PUE值,推進(jìn)節(jié)能降耗。
配線走向可視化管控。配線走向可視化管控能夠管理各種網(wǎng)絡(luò)設(shè)備、服務(wù)器間的所有的配線關(guān)系。根據(jù)設(shè)備的跳線數(shù)據(jù)自動(dòng)通過算法繪制網(wǎng)絡(luò)三維鏈路,以動(dòng)態(tài)的三維效果呈現(xiàn)整條鏈路的連接情況,實(shí)現(xiàn)機(jī)房配線管理的可視化。該功能極大方便了運(yùn)維人員進(jìn)行網(wǎng)絡(luò)拓?fù)湔{(diào)整、網(wǎng)絡(luò)故障排查等工作。
機(jī)房虛擬漫游。機(jī)房虛擬漫游實(shí)現(xiàn)機(jī)房3D實(shí)景虛擬漫游,在三維場景中第一人稱視角瀏覽數(shù)據(jù)中心全貌,可以不用進(jìn)入機(jī)房就能夠?yàn)g覽其場景結(jié)構(gòu)布局,掌握設(shè)備信息。
在機(jī)房運(yùn)維管理過程中如何及時(shí)發(fā)現(xiàn)運(yùn)行風(fēng)險(xiǎn),是運(yùn)維管理工作關(guān)心的永恒話題。3D機(jī)房可視化系統(tǒng)可以提前發(fā)現(xiàn)問題,給出告警,并且準(zhǔn)確在三維場景中定位故障設(shè)備位置。通過完善的監(jiān)控系統(tǒng)可以大大避免很多故障,同時(shí)在事后故障分析中,3D機(jī)房可視化監(jiān)控系統(tǒng)的各種技術(shù)參數(shù)和記錄依然是可供分析的重要資料,通過對這些監(jiān)控記錄很可能可以找出故障的原因。
隨著信息化技術(shù)的不斷迭代更新,機(jī)房智能化監(jiān)控能力需不斷增強(qiáng),進(jìn)一步提升機(jī)房運(yùn)維管理水平,使運(yùn)維管理工作越來越完善。浙江省林業(yè)信息宣傳服務(wù)中心將基于現(xiàn)有調(diào)研及探索建設(shè)成果,繼續(xù)深入研究3D虛擬現(xiàn)實(shí)技術(shù)在智慧機(jī)房中的應(yīng)用,以智慧化機(jī)房安全監(jiān)管,切實(shí)推動(dòng)林業(yè)信息化、現(xiàn)代化、智能化進(jìn)程。
(作者單位:浙江省林業(yè)信息宣傳服務(wù)中心)