李靜


摘要:實際生產環境中,有大量的服務器,交換機,防火墻需要及時關注其日志的信息,便于運維人員及時根據日志查找故障原因。本文以ELK為實現平臺搭建了一套日志分布式監控系統。本系統對公司的網絡設備進行日志實時監控,使管理員能夠隨時掌握系統日志信息,能及時收集網絡硬件及應用軟件的日志信息,展示分析,'并告警。
【關鍵詞】ELK 日志分析系統 網絡
1 背景介紹
河鋼集團承綱公司的局域網到目前為止包括四級網絡辦公系統,三級計量系統,生產信息采集網絡,能源網絡,視頻及門禁網絡,整個網絡擁有交換機,路由器,防火墻等網絡設備300多臺,小型機及服務器50多臺,主機及終端設備2000多臺。隨著網絡規模的不斷擴大,網絡及主機,數據庫的故障也時有發生。
在遇到設備故障時,如何有效的利用設備的日志信息快速查找故障原因,成為網絡運維人員急需解決的問題,日志監控和分析在保障業務穩定運行時,起到了很重要的作用,不過一般情況下日志都分散在各個生產服務器,且維護或開發人員無法登陸生產服務器,這時候就需要一個集中式的日志收集裝置,對日志中的關鍵字進行監控,觸發異常時進行報警,方便維護或開發人員查看相關日志進行故障排查。ELK正好能夠滿足這種需求。
2 ELK系統架構及主要功能
ELK由三部分組成elasticsearch、logstash、kibana,Elasticsearch:是一個近似實時的搜索平臺,它可以以很快的速度處理大數據。它是日志分布式存儲/搜索工具,原生支持集群功能,可以將指定時問的日志生成一個索引,加快日志查詢和訪問。
Logstash:日志收集工具,可以從本地磁盤,網絡服務(自己監聽端口,接受用戶日志),消息隊列中收集各種各樣的日志,然后進行過濾分析,并將日志輸出到Elasticsearch中。
Kibana:可視化日志Web展示工具,對Elasticsearch中存儲的日志進行展示,還可以生成炫麗的儀表盤。
流程簡圖如圖1。
簡單的講,就是通過Logstash收集各種各樣的日志,將其輸出到Elasticsearch中,這里可以把Elasticsearch理解為一個非關系型數據庫,最后利用Kibana對存儲在Elasticsearch中的日志進行幾乎實時的展示。
3 在承鋼局域網生產環境中的應用
3.1 目前實現了Elasticsearch集群狀態下對網絡硬件設備方面的日志采集分析監控
主要包括:通過udp協議和syslog插件集中采集四級網絡設備思科和華為交換機日志信息采集、展示、分析和告警;利用nxlog對門崗wmdows主機和咋zabbix服務器Linux主機日志的展示、分析:深信服防火墻和思科防火墻日志采集、展示、分析。以及惠普打印機日志采集,展示。圖2是日志分析的圖形化展示級分析,以交換機日志為例。
圖2是采集到的CISCO交換機日志的信息,可以看到每個時段日志的數量柱狀圖,以及日志的詳細信息,通過過濾相關的字段查找需要查看的日志,綜合分析判斷日志中存在的各種問題,便于快速定位故障原因。
3.2 實現了各種應用軟件程序日志的實時監控
主要包括:集中采集設備管理平臺應用程序http,11S,tomcat日志的信息分析、展示、分析;集中采集三級oracle服務器數據庫相關日志信息,分析并利用kibana圖形化展示、分析。
3.3 ELK日志系統的管理和優化
使用DSL對日志進行數據的基本查詢,filter查詢,組合查詢,利用正則表達式對日志各個字段進行篩選。各種插件如Filebeat工具、Packetbeat工具、Topbeat工具、Logstash-filter-csv插件的使用。ELK系統的優化。通過調整ELK的各項配置參數,保證系統在大數據量的日志吞吐下穩定可靠運行。包括ES集群的備份與恢復;ELK內存分配優化:ELK數據索引定期清理:ELK配置參數優化。
4 結束語
ELK日志監控系統在公司內網中的成功應用,為網絡運維人員判斷故障提供了很好到幫助,提高的故障分析能力和響應速度,接下來還需要對ELK日志分析系統進一步深入的研究,使其更好的為生產服務。
參考文獻
[1]饒琛琳.ELK Stack權威指南[M].北京:機械工業出版社,2015.
[2]褚瓦金(Anton A,Chuvakin).日志管理與分析權威指南[M].北京:電子工業出版社.2014.endprint