姜濤
【摘 要】隨著IT業務的不斷發展,弱電工程對于網絡數據量的需求大幅提升。使得IT基礎架構的管理建設在弱電工程中占據越來越重要的位置。本項研究基于從業務視角管理IT出發,探尋弱電工程中IT子系統管理的拓展與延伸,為IT子系統的管理探索一種全新的視角。
【關鍵詞】IT基礎架構;IT業務;IT綜合管理
1 弱電工程中IT基礎架構管理的現狀
隨著弱電工程信息化的發展,人們對IT系統的安全運行要求越來越高。IT系統的平穩運行關系到弱電工程各個子系統的正常運行。為此,IT系統維護所需要的人員也越來越多,技術水平要求也越來越高。這就需要對IT環境和運行情況進行監控,將故障解決在萌芽之中。
當前弱電行業在IT子系統管理主要存在以下的難點:
(1)無法從業務角度發現IT業務的問題
由于IT業務的運行依賴于諸多IT資源,當業務出現異常后的逐一排查增加了處理時間和業務中斷造成的損失,降低了運維效率。
(2)缺少統一的報表及分析工具
目前數據統計依賴手動的方式,無法實現自動匯聚、抽取、分析數據。用戶無法通過報表進行決策分析,管理決策沒有數據依據。
(3)缺乏有效的IT資產管理手段
面對眾多的IT硬件資產,無法準確、有效的進行資產的配置項變更管理。
2 建立IT綜合管理平臺的探索
通過建立IT綜合業務監控管理平臺,用ITIL理論及實踐來指導、規范和提升弱電工程IT子系統信息化水平,為其建立高效IT監控與靈活服務管理平臺,形成一套規范的管理體系,解決實際運行維護問題,實現精細化管理,降低運營成本和操作風險,提高工作效率和服務品質。
3 構建基于業務視角的綜合管理平臺
3.1 邏輯架構設計
IT綜合管理平臺的邏輯架構設計可分為如下四層:
數據采集層:由各種協議適配器構成,向上層提供統一的接口訪問管理協議棧,獲取管理信息,并在初始發現時作為驅動模塊構建信息模型。
數據匯聚層:統一描述底層數據,組織管理信息庫。使得各個業務模塊面對統一的數據模型,方便對資源進行權限管理,使得面向事務的并發管理成為可能。
數據處理層:專注實現管理業務,不關心底層差異協議。響應前臺應用的請求,完成數據查詢,處理等功能。
數據展現層:從數據處理層得到數據在前臺界面顯示。
利用分布式總線實現各邏輯層之間的通信。模塊通過內部定義數據接口,進行交互式操作。
3.2 技術架構設計
IT綜合監控管理平臺的技術架構擁有以下幾方面的特性:
(1)符合信息行業標準和規范,采用層次化、模塊化的設計,各模塊采用松耦合設計,可部署于不同的服務器上;
(2)選用的產品或工具平臺均是業界成熟、穩定、主流的,對監控對象的影響達到最小;
(3)監控指標、策略均可通過配置界面進行增加和調整,無需修改源程序;
(4)按照統一工作平臺現有集成規范與統一工作平臺進行集成,按照運維管理系統的集成規范與其他子系統進行整合集成;
(5)用戶界面采用B/S架構,支持通用的瀏覽器,集成接口良好,支持通用標準,支持向大型監控顯示屏輸出顯示;
(6)支持國際標準協議,如HTTP、JMX、SNMP、JDBC、Telnet、WMI等。
3.3 平臺集成設計
管理邊界應為網絡內的所有IT網元元素,通過標準的監控協議及數據接口監控業務系統信息。與其他系統平臺的數據交互將通過數據接口及Web Service 的方式實現,監控系統在管理邊界上以主動推送事件為主。
3.4 平臺功能設計
3.4.1 業務健康分析指數的建立
以關鍵業務為中心,提供圖形化工具,根據實際環境,定義個性化模型,從業務角度對被監測資源進行關聯、重組,建立業務內部關系模型圖,幫助管理者搭建業務卡片視圖,準確判斷業務健康度、繁忙度、層級和告警等內容,客觀評估業務運行水平,為管理者提供準確、有價值的管理信息。管理者宏觀可掌握業務整體運行狀況,微觀可查詢底層資源運行狀況,提高故障定位準確性,保障業務穩定運行。
3.4.1.1 構建IT健康指數
該指數通過關鍵業務系統、關鍵資源的參數計算得來,包括業務的連續運行時間、故障恢復時間、告警信息、健康度、繁忙度等信息。綜合反應整體IT運維狀態,構建管理視角,快速定位環境弱點。
3.4.1.2 關鍵業務的健康度管理
指標由IT資源實時采集而得,包含業務系統可用性和性能狀態指標,記錄每天不同時間段的健康度指標,形成平均值,通過K線圖顯示
業務健康度監控指標項包含有:
(1)IT資源的連通性
(2)URL服務的狀態、響應時間、響應結果正確性
(3)數據庫的狀態、響應時間、響應結果正確性
3.4.1.3 關鍵業務監控
使用360度雷達掃描視圖,及時發現并了解關鍵業務的薄弱環節、運行狀況,并同步顯示到業務健康分析視圖之上,方便管理人員了解業務狀況,提前預知故障,及時采取措施。
3.4.1.4 關鍵業務建模
通過點擊進入告警控制臺,實時呈現所有的網絡、系統、應用、安全等告警信息,包含告警的時間、告警源、告警次數、告警類型、告警描述等,支持運維知識庫的創建和修改。并支持直接通過告警信息關聯到IT資源的詳細信息監測頁面。
3.4.1.5 關鍵業務的繁忙度
綜合管理平臺可以就業務繁忙程度進行建模管理,提供相應監控指標,支持查看歷史性繁忙度數據、對繁忙度指標進行權重比調整。endprint
3.4.1.6 關鍵業務的SLA指標建立
對業務系統的SLA指標進行考核需要重點考慮各資源間的權重比關系,通過選擇重要資源,用權重比計算方式,計算業務系統的健康度和繁忙度等指標。
3.4.2 綜合資源管理
弱電工程有大量資源,因此平臺要自動發現全網網絡設備,其次發現網絡中的安全設備,服務器,應用軟件及機房環境等,并能自動計算出設備之間的線路連接關系。通過網絡拓撲,提供準確數據,完成網絡管理。
3.4.2.1 資源的自動發現
平臺應全面支持SNMP 協議,能根據網絡規模、協議應用情況,有針對性的配置發現協議、并發進程、管理域和區域、屏蔽設備和網段等參數信息。
通過向導式拓撲資源發現功能,使用戶能夠快速了解平臺自動發現的各類設備的統計信息,實時觀測進程,掌握發現情況,減少管理復雜程度。
3.4.2.2 網絡故障監控
平臺應根據預先設定的參數,跟蹤網絡拓撲的變化,當網絡發生故障或拓撲發生變化時可迅速通過前臺拓撲反映,可展現設備故障、鏈路故障、網絡協議故障事件等。通過節點告警將故障進行展現,顯示在統一告警控制臺中。根據報警事件的重要級別、優先級等信息,可以直觀、快速地了解報警事件的緊要性。可設定報警過濾器和排列順序,重點關注重要的網絡報警事件。系統支持通過聲音、郵件、短信等方式提示及時告警,為用戶發現和處理事件提供數據信息支持。
3.4.2.3 網絡資源性能監控
平臺實時監測網絡設備、服務器的端口流量、丟包率、Ping延時、CPU利用率等運行參數,超過預設閥值時能在拓撲圖上據定義閥值以不同顏色、粗細顯示線路運行狀態,當鏈路出現異常自動告警。并提供歷史數據統計分析。
3.4.2.4 主機操作系統管理
平臺可實現對Windows、IBM AIX、Linux、等各種操作系統的主機的關鍵資源的自動監控,幫助管理員及時發現故障和故障隱患。
3.4.2.5 應用監控管理
系統能監控Oracle、SQL Server、J2EE、JBOSS、Mysql、DB2等應用,按照屬性分為數據庫工作狀態、表空間的利用情況、數據文件和數據設備的讀寫命中率等。可直接使用相關的監控參數和項目,也可支持自定義。
3.4.2.6 機房動力環境
平臺能集動力環境設備監控、安防報警系統、網絡監控系統于統一的平臺。可實現安防報警、供配電、UPS、空調、溫濕度監測等子系統的統一監控,提高系統可靠性,減輕用戶工作負擔。
3.4.3 故障及告警事件處理
平臺在事件發生時通過事件過濾、壓縮和根因分析等方式幫助管理人員定位故障,向相關人員發送報警,及時處理問題,提高工作效率。建立綜合告警通知機制,例如短信、郵件、移動終端、桌面即時通訊工具等;
4 構建綜合監控管理平臺的顯示意義
4.1 管理效益分析
從管理效益分析:
(1)減少系統事故發生,降低事故造成的影響和損失。
(2)通過管理工具及時獲悉資源狀態,處理潛在問題,提高工作效益。
(3)建立IT資源與業務的關系,提升項目的影響度。
(4)通過IT服務管理保障體系的建立實施,規范和評估第三方維護公司的工作質量。
4.2 經濟效益分析
從經濟效益分析:
(1)全面、及時發現問題,針對信息系統具體情況,制定相關解決方案,保證系統平穩運行,減少投資成本。
(2)使運維人員的時間和精力放在解決技術問題上,利用知識庫降低人員變動風險,減少聘請專業人員開支。
(3)降低事故發生的次數、減少不利影響帶來的損失,提高系統可用性、可靠性、運行效率,帶來間接的經濟效益。
【參考文獻】
[1](荷)博恩.基于ITIL的IT服務管理基礎篇.北京,清華大學出版社,2007.
[2](南非)布魯克斯.IT服務管理指標.北京,清華大學出版社,2008.
[3]黎連業.智能建筑弱電工程設計與實施.北京,中國電力出版社,2006.endprint