肖海琴
[摘 要] 隨著集群引進節點數量和存儲容量的增加,運維難度逐漸增加,需要人數也會增加,如果運維人員想構建一套自己的監控系統環境,Zabbix將會是最佳的選擇。如果是開發,想基于開源軟件開發一套屬于自己的監控系統,Zabbix也是比較好的選擇。通過Zabbix連續監控軟件在大慶高性能集群應用上的介紹,可自動地監控集群系統節點的性能和故障,達到快速處理和解決問題,減少運維成本。
[關鍵詞] Zabbix;集群;應用
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 077
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)03- 0139- 01
1 引 言
地震處理并行集群系統,主要是由高性能IO節點、管理節點、計算節點、高速網絡及光纖存儲、集群存儲等集成起來的并行機系統。隨著地震生產任務的逐年增加,服務器節點數量也隨之增多,而整個處理系統長期以來缺乏一個實時監控工具,因沒有故障監控和故障定位功能,給故障診斷造成困難。
其實作為集群系統運維工程師所關心的是日常工作的主要內容,通過哪些手段可以保證服務器的正常運行。比如:檢查服務器性能、連接數量、DB的相關情況等等。因此通過研究開發集群監控軟件,對系統管理人員,能做到發現問題、預知問題、及時處理問題,對于提高系統管理和維護效率,有著非常重要的意義。
2 Zabbix集群監控軟件的主要功能及特點
Zabbix是一個企業級的開源分布式監控解決方案,具備常見的商業監控軟件所具備的功能。可監控系統運行性能的技術指標,包括CPU利用率、內存的使用、磁盤的使用、網絡的狀況、端口的監視、日志的監視等,支持自動發現網絡設備和服務器,支持分布式,能集中展示、管理分布式的監控點,擴展性強,Server提供通用接口,可以自己開發完善各類監控,依照監控系統長期收集的各項綜合信息,及用戶實際應用的反饋信息,弄清系統瓶頸真正所在,為系統運行環境的優化提供寶貴的資料。其意義在于讓系統步入一個良性的循環軌道,實現集群的負載平衡,提高整體運行效率,所以集群監控軟件在生產中具有非常重要的作用。
3 Zabbix集群監控軟件的優劣勢
3.1 優點
(1)開源,無軟件成本投入;(2)Server對設備性能要求低;(3)支持設備多;(4)支持分布式集中管理;(5)開放式接口,擴展性強。
3.2 缺點
(1)全英文,界面不友好;(2)無廠家支持,出現問題解決比較麻煩。
4 Zabbix配置使用及安裝部署
4.1 配置使用過程
通過本地瀏覽器訪問http://ServerIP/zabbix來開始配置和使用Zabbix。
使用Zabbix進行監控之前,要理解Zabbix監控的流程。
4.2 一次完整的監控流程簡單描述
Host Groups(設備組)->Hosts(設備)->Applications(監控項組)->Items(監控項)->Triggers(觸發器)->Actions(告警動作)->Medias(告警方式)->User Groups(用戶組)->Users(用戶)
4.3 安裝部署
Server:mgt2
客戶端:node001-node240
Zabbix監控實例如圖1所示。
5 結 語
開發的Zabbix監控系統已經部署到HP、IBM集群的偏移節點,并實現對偏移作業實時連續監控,通過直觀的監控信息,可及時發現問題,并為系統性能優化提供有效幫助,提高了系統管理和維護水平。
主要參考文獻
[1]吳兆松.Zabbix 企業級分布式監控系統[M].北京:機械工業出版社,2014.
[2]高俊峰.高性能Linux服務器構建實戰:運維監控、性能調優與集群應用[M].北京:機械工業出版社,2012.