鄒娟娟
(解放軍新聞傳播中心,北京 100011)
目前,廣電行業(yè)各單位業(yè)務系統(tǒng)的運行維護依舊采用傳統(tǒng)人工運維的方式。各系統(tǒng)運行普遍處于孤島狀態(tài),被動發(fā)現故障的情況時有發(fā)生,系統(tǒng)運行的實時數據狀態(tài)無法監(jiān)控和共享。每個系統(tǒng)是由不同的設備廠商搭建,系統(tǒng)的架構也不一樣,并且設備類型也多、設備更新的年代也不一樣,所以在系統(tǒng)維護和問題定位上必然會產生效率低下的問題。而當系統(tǒng)出現問題時,通常的方法是根據故障現象,通過逐一排查解決故障點。這樣的方法會導致診斷耗時費力、無法提供詳實的決策數據、無法快速定位故障點,有時只是在治標不治本。為了解決以上各自為戰(zhàn)、難以管理、分析片面、疲于應付等問題,統(tǒng)一的運維監(jiān)測監(jiān)控平臺就顯得尤為重要。
統(tǒng)一智能監(jiān)測監(jiān)控系統(tǒng)的建設解決了目前各業(yè)務監(jiān)測系統(tǒng)獨立、數據分散、無法從全局的角度呈現全臺的運行狀態(tài),無法提供有效的故障定位和智能化故障自愈的監(jiān)控痛點,摒棄了“救火式”、人工盯防、低效率的運維模式。
統(tǒng)一智能監(jiān)測監(jiān)控系統(tǒng)整體采用積木式的模塊化設計,可以根據業(yè)務的需要進行橫向或縱向的擴容,軟件采用標準的B/S架構設計。系統(tǒng)以“運維實際需求”為原則設計,解決在運維管理中遇到的各種問題。
系統(tǒng)面向IT化設備及機房環(huán)境進行監(jiān)控,根據指定范圍,自動發(fā)現可被監(jiān)控的設備對象以及被監(jiān)控設備之間的鏈接關系,并形成系統(tǒng)拓撲。事件處理引擎和性能處理引擎分別接收告警信息和性能信息,進行分析,按相關的策略進行邏輯或運算處理,通過統(tǒng)一監(jiān)測監(jiān)控平臺及時進行發(fā)布和展示。
監(jiān)測監(jiān)控系統(tǒng)總體架構從下往上依次分為基礎資源層、數據采集層、匯聚存儲層、分析處理層、業(yè)務應用層、展示層、用戶層等七個層次,另外具備接口服務層,方便與第三方系統(tǒng)進行對接。
此體系架構可以實現針對不同監(jiān)管對象、不同數據的歸一化采集、處理、分析,便于各類事件、數據的過濾、合并、關聯(lián)定義、匯總,并對報警進行集中展現,為決策分析提供參考依據。
基礎資源層為被監(jiān)管對象,各類被監(jiān)測對象統(tǒng)稱為基礎資源。例如:各類視音頻信號(SDI、ST2110、TS、RF等)、IT設備、AV設備、通用軟件、業(yè)務軟件、機房環(huán)境等。

圖1 統(tǒng)一智能監(jiān)控系統(tǒng)架構設計
數據采集層針對系統(tǒng)所有納入監(jiān)管范圍的IT設備、信號等,部署不同的監(jiān)測采集器。在監(jiān)測信息指標數據采集時,被監(jiān)測設備需開放其標準化或私有化協(xié)議,支持數據指標的采集。對于視音頻處理設備,系統(tǒng)通過接口方式接收和適配專業(yè)設備廠商網管信息,完成告警和性能采集。
匯聚存儲層是對采集性能指標信息、告警數據、各種規(guī)則庫和數據庫的基礎配置等信息進行集中存儲,存儲的數據可以通過管理平臺進行查詢,同時供其他業(yè)務模塊進行調用,實現進一步的分析和處理。
分析處理層是依據不同監(jiān)管對象、不同規(guī)則策略,對各種事件、性能數據等進行分析、處理并輸出結果。既可對事件數據進行處理分析,并發(fā)出告警;也可對收集到的性能數據進行運算處理,提供用戶化的性能數據。
業(yè)務處理層是根據統(tǒng)一監(jiān)測監(jiān)控系統(tǒng)包含的不同監(jiān)管業(yè)務進行任務部署、規(guī)則配置等,實現基礎數據的配置管理和監(jiān)管業(yè)務的處理。
展示層可對系統(tǒng)告警、監(jiān)控信號、設備狀態(tài)等信息進行統(tǒng)一的展現。重要事件的告警信息還可通過多種形式通知運維人員。
用戶層是面向不同工作崗位,通過訂閱方式提供的個性化監(jiān)控數據服務。依據用戶權限和角色不同,實現功能區(qū)分。
2.2.1 監(jiān)控對象及范圍
監(jiān)測監(jiān)控范圍及對象主要有存儲、服務器、交換機、安全設備等核心業(yè)務機房的IT類設備;UPS、機房溫濕度、空調運行狀態(tài)、空調或水管下方積水、機柜溫濕度等機房動力及基礎環(huán)境;并在機房內合適的位置安裝視頻攝像機,監(jiān)控人員在機房的活動。
IT設備監(jiān)控對象包括機房中所有可進行監(jiān)控設備,包括服務器、存儲、交換機、安全設備、工作站等設備。
2.2.2 監(jiān)控功能實現方法
針對IT設備的監(jiān)控主要是對各個設備的性能指標、報警信息以及日志等數據實時采集和越界報警。本系統(tǒng)采用無代理、分布式部署的采集服務器進行響應數據的采集,采集任務和采集策略通過統(tǒng)一的管理平臺進行集中配置管理。
基礎環(huán)境監(jiān)控通過部署溫濕度傳感器對機房的溫濕度進行實時監(jiān)測;部署水浸傳感器,對可能產生漏水位置進行漏水監(jiān)測;機柜部署微環(huán)境傳感器,實現機柜微環(huán)境實時監(jiān)測,并將所有監(jiān)測結果上報至統(tǒng)一監(jiān)測監(jiān)控平臺。
視頻安防監(jiān)控是通過部署視頻攝像機對機房及重要位置進行7×24小時視頻監(jiān)控,并進行錄像。錄像文件長期存儲,通過管理系統(tǒng)可以實現錄像文件查找、回看及下載等。視頻監(jiān)控攝像機、錄像的管理通過統(tǒng)一監(jiān)測監(jiān)控平臺集中實現。
節(jié)目信號監(jiān)錄是對各種信號源內容實時監(jiān)測、監(jiān)看和7×24小時收錄,收錄文件存儲至磁盤陣列中,可以通過統(tǒng)一監(jiān)測監(jiān)控平臺進行錄像文件的查看、下載和收錄任務的管理等。
對業(yè)務機房的UPS狀態(tài)、空調運行狀態(tài)進行實時監(jiān)控,獲取性能指標和運行狀態(tài)信息上報至統(tǒng)一監(jiān)測監(jiān)控平臺。平臺可以設置報警開關和門限,一旦出現越界即產生報警,及時通知相關人員,防止重大播出事故的產生。同時可以借助3D可視化技術實現對機房動力環(huán)境、報警信息、資產管理等的三維可視化統(tǒng)一展現。
2.2.3 統(tǒng)一監(jiān)管平臺功能設計
統(tǒng)一監(jiān)管平臺具備豐富的功能,其中核心業(yè)務功能主要有:
告警管理是統(tǒng)一監(jiān)控平臺的核心功能,它將系統(tǒng)中產生的事件,按照一定的規(guī)則進行定級、分類等處理,最終生成告警信息,并及時通知系統(tǒng)運維人員。在平臺中,還可以隨時查詢歷史告警信息。
性能管理是通過多種協(xié)議、標準或接口等方式獲取包括服務器、存儲、網絡設備、中間件、數據庫、動力環(huán)境系統(tǒng)等的運行參數和性能指標參數并通過管理平臺進行展示或者報警。系統(tǒng)可以通過樹狀目錄的方式查詢任意一臺設備的性能實時指標或歷史性能指標,性能指標同餅圖、曲線圖、柱狀圖等多種圖標進行可視化展現,提高可讀性。
采集策略及門限管理是根據不同的采集對象和要求涉及不同的采集策略和報警的開關、閾值等。采集策略主要包括采集范圍、采集周期、采集指標等參數,報警門限支持按照每一個參數設置開關和門限,滿足個性化監(jiān)測要求。
3D可視化是借助面向瀏覽器的成熟3D圖形技術,實現對被監(jiān)控機房及所有管理對象的虛擬仿真,以完全3D模式構建整個新聞中心環(huán)境。可視化子系統(tǒng)通過系統(tǒng)接口與IT設備監(jiān)控子系統(tǒng)、動力環(huán)境監(jiān)控子系統(tǒng)、安防環(huán)境監(jiān)測子系統(tǒng)等其他監(jiān)測監(jiān)管子系統(tǒng)進行對接后,實現多個業(yè)務子系統(tǒng)的監(jiān)控數據、資源及報警信息的等可視化。其主要功能包括:
(1)環(huán)境可視化:實現對被監(jiān)控機房樓層、機房及內部設備位置、信息等的仿真可視化展示。
(2)資產可視化:實現可視化的資產配置管理、快速查詢等操作,支持與配置管理數據庫進行對接,實現資產數據的自動更新。
(3)容量可視化:容量可視化是對機房機柜空間、機柜功率、承重及機柜容量等進行可視化的查詢、統(tǒng)計和展現。
(4)監(jiān)控可視化:監(jiān)控可視化是將設備監(jiān)控、動環(huán)監(jiān)控等相關監(jiān)控產生的報警信息通過顏色閃爍方式在仿真的對象的機房、設備上進行顯示并可以進行查詢詳細報警信息。同時也支持對設備的性能指標進行實時查詢。
建設統(tǒng)一的智能監(jiān)測監(jiān)控系統(tǒng),可以實現各業(yè)務系統(tǒng)設備狀態(tài)和信號的監(jiān)控,將各后臺核心機房的IT設備、動力環(huán)境、業(yè)務流程等納入統(tǒng)一的管理。建立集中監(jiān)測展示和報警平臺,可以對業(yè)務系統(tǒng)和支撐系統(tǒng)集中進行監(jiān)測,及早、及時發(fā)現問題,消除系統(tǒng)管理盲點,提高整體業(yè)務運維能力、事件響應和問題處理能力,防止重大播出事故的產生。