

摘? 要:隨著信息化系統在企業各項業務中的深入應用,對運行業務的服務器、網絡設備、數據庫、中間件這些軟硬件設備的連續性運行的要求也日益提高。對企業來說,每分鐘的業務中斷都可能意味著經濟的損失。本文就企業的IT設備總量、設備類型,探討如何更好地用監控措施實現管理提升。
關鍵詞:監控;運維管理;智能化
中圖分類號:TP311.52? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)22-0025-03
Abstract:With the in-depth use of information system in various business of enterprises,the requirement for continuous operation of servers,network devices,databases,middleware and other software and hardware devices running business is also increasing. Every minute of business disruption can mean economic losses for enterprises. In this paper,the total amount of IT equipment and equipment types of enterprises are discussed,and how to better use monitoring measures to improve management.
Keywords:monitoring;operation and maintenance management;intellectualization
0? 引? 言
在現在社會企業當中,IT部門承受很大的運維壓力。每個運維人員通常要管理百臺以上設備,完全依靠人工巡檢,登錄每個設備查看狀態,忙碌程度可想而知。更重要的是,人工巡檢間隔周期長,無法及時發現問題,通常是用戶先發現業務出現問題,運維人員收到報告再進行處理。出現問題以后,故障定位有可能需要十幾分鐘、半小時,甚至更長時間。運維人員每天辛苦工作,可是得不到其他部門的認可,反而因為不斷出現的問題和解決問題的低效而被抱怨。
北京基業共創科技發展有限公司2015年引入了美信監控易軟件,目的是建設一個能滿足“集中監控、主動預警、快速定位、隨時管理”的現代化運維管理系統,并實現對北京本部和其他區域的統一監控、統一管理,全面提高工作效率。
1? 系統介紹
1.1? 面向運維管理需要的設計理念
監控易設計思想源于人工智能學習的方式,訓練機器通過模仿去學習管理人員的操作方式,從而實現對整個系統的智能化監管掌控。在操作上需要將其安裝到電腦系統主機當中,采用主動或被動的輪詢方式,對平臺上的信息以及多方位的數據進行收集,之后再通過實時傳輸將數據傳給控制中心進行處理,從而完成報告和報警功能。
監控易在設計上采用了簡易化的方式,以用戶為主導,以系統為人服務作為基礎理念,實現了用戶的輕松操作,并能完成多人遠程維護管理的任務。在平臺管理當中,只需要動動手,就能輕松實現系統設置,對模塊進行添加、刪除等操作。
監控易把對IT基礎架構和業務的管理、運維流程管理、可視化展現、移動運維有機結合在一起,既向管理層可視化展示IT業務運行的監控數據,又從IT基礎架構層來分析IT業務系統的運行性能,同時為運維人員提供有針對性的預警和告警信息,既降低了故障發生率,縮短了故障定位時間,又給用戶的IT規劃和發展提供了支撐數據。
如圖1所示,對IT基礎架構的監控主要從三個方面來進行立體展示:
(1)采集層:采集路由器、交換機、防火墻、操作系統、數據庫、中間件、存儲、云平臺,以及動環設備、物聯網設備等的狀態信息;
(2)監控層:統一對各類設備采集的監控狀態進行處理,進行狀態判斷,實現告警和故障定位功能,以及提供IT業務監控和運維流程管理。如果要對IT業務進行數據監控,那么必須先從基礎架構進行,對整體的數據分析進行處理,這樣才能夠得出有效的數據信息。此外就是通過模擬的方式,通過模擬用戶的操作流程獲得數據信息。后者更傾向于標準化采集與二次開發,需要對業務進行特定查詢返回結果,模擬訪問登錄業務等,但整體上都能符合專業業務系統的監控;
(3)展現層:包括統一登錄門戶、大屏展示、視圖和報表,以及APP移動運維功能。
1.2? 先進的技術架構
使用C語言開發底層從而確保單臺服務器在監控眾多管理對象時仍能高效運行,采用自主研發的方式掌握核心技術,讓架構能夠達到1~2分鐘進行一次輪詢,重要指標能夠在5秒內完成一次輪詢。自主開發的數據庫是專門針對運維大量數據頻繁寫入的需求設計的,數據寫入可達百億條,上萬設備的監控也可以長期穩定運行,并且原始數據可以保留一年以上。
對分布式架構可以實現靈活支持。無論內網、公有云、私有云都可以實現分布式監控、集中管理。并且集中管理消耗網絡資源很少,1000個設備上傳狀態和告警數據,帶寬占用≤10kb/s。
1.3? 全面深度的監控
深度監控可以分為以下幾個方面,IT應用業務、操作系統層、基礎網絡層。詳細內容則包括了自定義監控、網絡設備監控、Web服務監控、Web Server監控、中間件監控、服務器監控、數據庫監控,此外還能夠進行物聯網監控、動環監控等。由此能夠提供一個平臺替換多個平臺的監控工作,極大地提升了工作的效率,降低了企業人力資源的消耗。
1.4? 智能化事件告警機制
用戶可以自行根據需求設置智能化事件告警管理機制,在故障發生之后或者是即將發生時發送警報給管理工程師,這樣就能夠讓管理人員實時了解系統發生的問題,找到事故的原因進行及時處理。管理機制分為故障診斷工具、故障響應機制、事件日志管理機制、告警智能管理機制、組依靠告警機制等部分。
1.5? 強大的報表展示門戶
監控易在報表方面能夠提供具有直觀形式的視圖管理,如業務組視圖、監測點視圖、管理對象視圖、樹形配置視圖等。報表的形式主要分為歷史分析報表、流量報表、趨勢報表、實時報表等等,系統提供了豐富的管理視圖與報表,能夠極大地滿足用戶的需求。
1.6? VISIO應用拓撲圖
系統管理人員可以自身需求為出發點,發布VISIO拓撲圖導美信軟件,然后通過應用拓撲圖實時了解系統運行狀況,并進行系統迅速定位故障排查。
1.7? 完善的基礎平臺設計
這方面主要有開放式API接口、任務計劃、安全性設計(詳細)、用戶權限分級管理體系等。
1.8? 大型IT網絡的分布式監控
監控軟件的設計需采用三級架構設計,將模塊功能分為界面表示層、統一接口層、檢測服務底層。卓越的架構設計能夠確保對大型IT網絡采用分布式監控的方式實現集中管理。
2? 系統實施
我單位從實際應用的角度著手應用了Windows服務器監控、Unix/Linux服務器監控、數據庫監控(Sqlserver和Oracle)、中間件監控(Tomcat、Weblogic等)、防火墻監控。上述都是常規監控,因此并不做詳述。
2.1? 多網點地圖
對我單位的全國各個網點進行統一地圖展示。總部大屏能看到全國的設備狀態。點擊進入各個省市,可以看到該省市的設備狀態。
這提供了直觀的管理視圖,可以對全國各個機構狀態進行統一管理。我們的高級技術專家可以在北京總部為各個分支機構的技術人員提供指導,解決故障問題。同時,也可以看到各個分支機構IT設備運行的整體狀況,對各地IT部門的工作進行整體評估。
2.2? 網閘隔離區域的集中管理的實現方法
網閘也就是安全隔離網閘,由硬件與軟件共同組成。網閘在硬件上主要是由內部外部處理單元、內部處理單元、隔離安全數據交換單元構成。
連接方式上采用“2+1”的主機架構方式,隔離網閘采用SU-Gap安全隔離技術,就能夠創造出一個內外網物理斷開的環境。
監控易實現對網閘隔離區域的集中監控,架構如圖2所示。其優點是在符合安全規范的情況下實現了整體的集中化管理。
2.3? 日志安全性監測方法與優點
Windows日志監測。通過對Windows日志進行監控,根據自己的用戶習慣設置過濾條件,能夠選擇出不需要的內容,將其過濾掉后就能得到需要的。
Unix/Linux日志監測。通過腳本的方式對此類日志進行監測管理,無論事件日志如何變化,都能夠提供匹配查詢的方式,查詢到自己需要的日志信息。
不間斷掃描服務器系統日志能及時發現黑客行為,為系統信息安全提供有力保障,如若系統出現問題或安全事件日志,都能夠被監測到并進行告警,維護工程師只需要根據告警的時間信息就能對系統進行修復安檢,這種高效的快速排查方式能將故障影響降到最低。我單位原先采用的釘釘辦公平臺,系統部署采用的是美信開放API接口,能夠很好地實現與釘釘辦公平臺接口的對接。
3? 監控效果
3.1? 部署前
3.1.1? 被動管理
運維人員在用戶提出問題后充當救火隊員,內部用戶業務和公司對外業務受到影響,造成經濟損失,每個月都會出現某項業務中斷半小時以上的狀況,用戶對IT部門也充滿抱怨。
3.1.2? 故障解決低效
解決故障主要的時間花費在逐項檢查、故障定位。
3.1.3? 人員效率低
IT人員每天要在機房和各個網點忙于重復性高且繁重的巡檢工作,沒有時間對IT業務做出其他貢獻。一些高級技術人員也要分散在各地解決當地的故障問題。
3.1.4? IT決策缺乏合理性
網絡帶寬出現問題、業務性能出現問題時,通常只能通過增加帶寬、增加硬件配置等IT資源來解決。解決后一段時間,問題往往重復出現。
3.2? 部署后
3.2.1? 主動式管理
IT部門能提前發現問題,防患于未然,甚至可以根據系統提供的業務性能分析設備歷史數據,提前布局,優化IT整體性能。一年中,只出現幾次網絡故障引起的業務中斷,并且都在十分鐘內解決,IT部門工作得到各部門好評。
3.2.2? 故障解決快速
系統中一鍵即可快速進行故障定位,并可看到業務線中所有出現問題的設備。故障平均解決時間比原來縮短了2/3。
3.2.3? 人員效率提高
監控易系統自動完成設備巡檢工作,及時、準確。IT人員只需關注收到的告警,即可保證業務不出現問題。使用APP移動運維,更是可以隨時隨地查看設備和業務的狀態,不用枯守機房。IT人員可以將精力放在更有價值的工作上。高級技術人員在北京總部就可以指導各地解決問題。
3.2.4? IT決策更有針對性
可以確知問題根源,進行有針對性的調整,用最少的成本獲得業務性能、網絡性能的穩定提升。
4? 結? 論
現如今企業IT設備類型普遍增加,選擇北京基業共創科技發展有限公司自主研發的監控系統,能夠極大地提升系統運維水平,監控易實現了運維情況可視化、問題發現及時化、故障分析智能化,能使每個運維人員都成為數據專家,為各企業數據安全提供了更全面的安全保障。
參考文獻:
[1] 史振霞,趙鵬飛.應用智能監控技術,提升“云”環境運維管理水平 [J].甘肅科技縱橫,2017,46(3):11-13.
[2] 石國偉.信息運維系統的設計與實現 [D].西安:西安電子科技大學,2010.
[3] 徐謙.淺議效能監察在促進企業管理提升中的作用 [J].中國建材,2013(4):88-90.
[4] 陶克艷.以提升管理效率為目標的流程績效監控體系研究與實踐 [J].東方企業文化,2015(19):43-44.
作者簡介:楊汝民(1968.12-),男,漢族,山西渾源人,高級工程師,本科,學士學位,研究方向:ITIL運維最佳實踐。