張政
摘要:在當前企事業單位對信息化建設投入不斷加大的背景下,不論是信息化程度深入發展導致的本地數據中心更加龐大,還是基于容災備份或業務系統自身分布式部署需求引起的異地多中心發展趨勢。都對信息化系統運維管理人員造成不同程度的困擾。針對這種情況,本文對大型數據中心內部各模塊的集中監控和異地分布式數據中心之間的集中監控管理進行了探討。
關鍵詞:大型 分布式 數據中心 集中 監控管理
中圖分類號:TP388.8 文獻標識碼:A 文章編號:1007-9416(2016)12-0114-01
現階段各企事業單位往往已對信息化高度重視,信息化建設的投入也不斷增加,在增強核心競爭力、有效降低成本、提高工作效率的同時信息化系統也變得愈加龐大,這種變化可以歸納為內部和外部兩方面的增長。
內部增長體現在信息化系統橫向和縱向擴展,橫向擴展主要是指新建的專業信息化系統,如某單位已有一套人力資源管理系統,因為效果良好計劃再上一套財務管理系統;縱向擴展則是對已有信息化系統功能模塊的不斷擴充,如已有的人力資源管理系統有組織規劃、招聘管理、培訓管理等模塊,計劃二期繼續擴展自助平臺和報表平臺等功能。外部增長主要體現在異地多數據中心的需求,如某些核心信息化系統無法接受數據丟失或業務中斷,就需要根據業務的重要程度建立不同級別的兩點或多點分布式異地容災系統;再如某些企事業單位組織機構分布廣泛,除總部外的分支機構設立在其他地市甚至其他省市,需要使用多點部署的分布式信息化系統。
信息化系統的這類變化必然導致作為其載體的數據中心也不斷向大型化、復雜化轉變,從本地單中心到異地分布式中心不斷擴張。這樣不但增加了企事業單位維護的成本,還加大了維護人員的管理難度,如何能夠對這類大型分布式數據中心進行有效的集中化監控管理就成為企事業單位亟待解決的問題。
1 大型數據中心內部集中監控管理
一般而言,單一大型數據中心內部主要可以分為機房環境、供配電系統、網絡設備、服務器硬件、虛擬化系統、存儲系統、操作系統、中間件和數據庫模塊。針對不同的模塊有不同的對接方式來實現數據采集,通過設立一個集中監控主機來實現數據中心內部不同模塊的統一監控。
1.1 機房環境
機房環境主要包括溫濕度、精密空調、空調防水和視頻監控等,溫濕度和空調防水通過監控探頭直接數據收集并記錄歷史數據;精密空調通過RS485卡利用modbus協議收集數據并對空調溫濕度設定、多級集群運行模式調整、遠程開關機等進行操作;視頻監控可通過攝像探頭直接進行圖像采集,也可利用專用視頻錄像機對圖像數據進行分級存儲并對攝像云臺進行各項參數調整。
1.2 供配電系統
機房供配電系統主要包括UPS、電池、輸入輸出配電柜等,整個系統的數據采集可以通過對UPS的通信來完成,UPS對外接口通常有RS232接口、AS400接口、SNMP接口和USB接口,通過接口提供的SNMP、UPS-link等協議能夠實現對供配電系統歷史狀況進行記錄,分析UPS、電池、各路供電線路電流電壓狀態,并對UPS設備進行遠程配置。
1.3 網絡設備
數據中心網絡設備主要包含路由器、交換機、防火墻、入侵檢測、流量控制、負載均衡等設備,通常這類設備都支持SNMP,通過SNMP可以統一進行資源使用率、端口狀態、設備配置等方面的監控,對中心整體網絡拓撲、設備互聯狀態、配置屬性、實時告警、歷史告警、設備實體關系等進行展示。
1.4 服務器硬件
因操作系統功能的不斷強大,服務器硬件的監控在日常運維管理中經常會被忽視,但不可否認的是服務器硬件監控還是有一些無法替代的作用。如x86平臺利用IPMI標準接入服務器硬件,可以對服務器內部主板溫度、風扇轉速、本地硬盤RAID狀態進行監控,便于提前預判問題,同時還可以展現控制臺界面,對服務器設備進行冷啟動等遠程操作。
1.5 虛擬化系統
隨著虛擬化技術在數據中心內部的廣泛使用,針對虛擬化系統的運維管理也變得愈加重要。市場上主流的虛擬化系統都有相應的監控API提供,利用這些接口可以開發不同類別的監控功能,集中監控虛擬主機和虛擬機的健康狀況和性能,有效規劃容量,合理為虛擬設備分配資源。
1.6 存儲系統
使用SNMP、Cli、SNIA's、SMI-S和廠商指定規則自動發現存儲設備、監控諸如RAID、磁帶庫、磁帶驅動器、光纖交換機等存儲設備。顯示設備及其互連拓撲圖,顯示鏈路名、源和目標用不同顏色表示設備并對互連的狀態和流量利用趨勢深入分析,幫助管理人員定位存儲系統性能瓶頸。
1.7 操作系統
目前對操作系統的監控已經較為成熟,不論是Windows、Linux還是AIX、HP-UX等UNIX系統都支持非常完備監控方式,如Agent、SNMP等方式。SNMP方式的優勢在于不用在監控的操作系統系統商額外安裝代理程序,不會對業務系統產生影響,對主機資源的占用也較低。通過SNMP方式同樣能對CPU、磁盤使內存使用量、使用率,網卡連接、流量,特定進程狀態等進行監測,并可對相應指標設定相應閥值及時報警。
1.8 中間件
中間件主要包括交易中間件(TPM)、應用服務器(WAS)、消息中間件(MOM)、數據訪問中間件(UDA)、安全中間件等。主流的Java中間件主要通過JMX技術進行監控,實現請求數量、請求狀態、響應時間、部署應用狀態等參數實時監控和歷史數據分析。
1.9 數據庫
數據庫主要通過建立只讀用戶,通過查詢系統表相應字段,對數據庫的用戶連接數、執行等待時間、表空間、死鎖、查詢命中率、緩沖池等多種數據庫性能參數進行監控告警,并自動記錄導致異常運行或資源消耗很大的SQL語句以便開發人員對優化升級應用程序。
2 分布式數據中心之間的集中監控管理
分布式數據中心的集中監控管理的工作主要體現在監控數據的傳輸整合上,而數據的傳輸取決與分布式數據中心之間的連接方式。如果中心之間采用的是專線連接則可以讓各數據中心內部的集中監控主機通過普通的路由交換協議傳輸數據;如果中心之間是通過公網連接則需要在內部的集中監控主機之外設置邊緣服務器,放置于防火墻構建的DMZ,專用于中心之間的數據傳輸。如果需在公網傳輸的數據安全等級較高,還可以考慮在傳輸和接收之間進行加解密操作。
基礎的大型分布式數據中心集中監控,可以選擇一個有人職守數據中心作為集中監控主中心,設置主中心內的集中監控主機為整體集成監控主機,除收集本中心內各模塊的監控數據外,還用于接受其他中心監控主機傳來的數據進行統一管理;也可在監控主中心內獨立設置集成監控主機,只接收本中心和其他中心集中監控主機傳來的數據進行統一管理,形成集中監控至集成監控的兩級數據收集模式。若集中監控對于企事業單位的重要程度較高,還可選擇多個有條件的數據中心設立多個集成監控主機,分別收集,集中管理,處理結果根據重要程度在各集成監控主機之間進行同步或異步的數據復制。
3 結語
隨著企事業單位信息化建設的不斷深入,承載信息化系統的數據中心規模也不斷增長,本文所討論的集中監控管理方案既能將大型數據中心內部涉及的大多數模塊進行集中監控處理,又能對各數據中心的數據進行集成監控管理。這種方式有利于數據中心運維管理人員提前發現預判隱患,及時定位處理故障,同時還能存儲歷史數據用于后期的分析學習,降低了運維管理人員工作強度,大幅提高工作效率,能夠為企事業單位節約數據中心整體維護成本,同時為后期擴展至基于移動終端的集中監控管理奠定基礎。
參考文獻
[1]李錫紅,吳建德,何湘寧.UPS監控技術綜述[J].通信電源技術,2003,02:18-20.
[2]薛斌,房敬敬,劉昊.機房精密空調環境監控模塊設計與實現[J].軟件研發與應用,2015,11:27-32.
[3]張佚.IPMI技術在服務器管理中的應用[J].上江蘇通信,2009,12:55-57
[4]吳一鳴,田永濤.南寧供電局J2EE應用服務中間件監控系統的設計與實現[J].電信科學,2013,11:131-133.
[5]戴聲,肖建明,王波.大規模數據中心監控數據并發處理[J].計算機與數字工程,2014,12:157-162.