蘇健 張進猛 李冀東



摘要:私有云服務器在大中型企業中的應用越來越廣泛,服務器數量隨著應用擴展越來越多,給運維監控帶來了巨大挑戰,為了解決服務器運維監控問題,提高運維率,提高系統的高可用性,方便運維人員操作,該文設計實現了基于移動端的服務器運行監控系統,包括系統架構、系統功能,并對其系統構成模塊和系統實現進行了介紹。
關鍵詞:運行監控系統;服務器;數據庫;監控指標;可視化
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)33-0014-03
1背景
隨著信息產業的進步,大中型企事業單位的信息化建設程度不斷加深,私有云服務集群在大中型企業中的應用越來越廣泛。私有云平臺是一系列物理服務器通過管理軟件虛擬成若干臺服務器池。虛擬的應用服務器數量可能多達上百臺,而且根據應用的擴展還可以不斷擴充,這就引發對大量主機、數據庫、應用系統進行綜合監控的需求,當管理員面對越來越多的服務器及其應用的時候,用人工方式對數據進行分析處理變得越來越不現實。為了及時發現陸能瓶頸,保證整體系統的高可用性,保證其高性能運行,企業系統運維部門面臨著巨大挑戰。因此,必須有一套合理的服務器監控管理方案。
目前傳統的服務器監控系統不能實現移動化監控管理,使用監控系統的用戶難以走出監控機房,而且沒有集成網頁防篡改功能,不能隨時隨地利用手機等移動設備查看系統服務器的各項運行指標和應用系統的運行狀況,一旦應用系統出現運行故障還需要運維人員到機房現場處理?;谝陨媳尘氨疚慕o出了基于移動設備的服務器運行監控系統設計方案和系統實現。
2系統架構設計
由于私有云集群系統涉及的服務器眾多,要支撐上百個節點的服務器與應用的運行,傳統的網絡管理和監控面臨巨大挑戰,所以監控系統首先需要有一個好的架構,實現自動的監控和管理,這樣可以大大減少運維人員的工作和降低維護成本。隨著國內4G網絡的成熟、支持wifi的智能移動終端價格持續下降,解決以上問題的網絡和設備條件已經成熟。
系統在架構上由移動終端、調度服務器、預警服務器、代理服務器、數據庫、監控服務器、真正為用戶提供具體服務的應用節點服務器集群和應用數據庫節點服務器集群組成,系統架構見圖1。移動終端負責監控數據展示。調度服務器用來分析監控數據提供給移動終端展示、對于超出設定閾值負載的服務器調用告警服務器發出告警、向代理服務器發送故障管理與恢復指令功能。數據庫存放所有的監控數據。監控服務器負責監控所管轄各節點服務器的實時陸能和綜合狀況,并按設定參數實時采集各應用節點和應用數據庫節點的各種監控數據并存人監控數據庫。
本方案做到了與平臺無關而且能夠實時通過移動設備實現遠程移動監控,由于移動監控是通過互聯網連通,而所有的應用服務器和數據庫服務器都是內網部署,為了系統安全性考慮,方案中設置了前置代理服務器,代理服務器負責實時分析監控數據,再把分析結果實時傳輸給調度服務器,調度服務器把監控結果推到監控移動端和告警服務器。
3系統功能
為了能夠及時有效地對越來越多的服務器及其應用監控數據進行分析處理,監控系統主要包含了以下幾方面的功能:
系統管理功能,包括系統參數設置、維護被監控的服務器節點等。
應能夠及時發現硬件故障并報警提示。
能保障系統的正常運行。
能夠對系統關鍵資源的使用情況進行監測,超出預先設置的閾值參數主動向管理員發送告警信息間。
能夠處理應用服務器的突發故障,保障應用的高可用性。
能夠監控應用數據庫服務器的運行狀態。
能夠對應用系統關鍵頁面進行防篡改監控,防止不法黑客的攻擊。
具體功能見圖2:
4系統實現
系統分為監控調度模塊,監控數據采集模塊,網頁數據比較模塊,報警模塊,故障處理模塊,監控展示模塊六個部分。如圖3所示:
4.1監控調度模塊
監控調度模塊按照系統預設頻率讀取數據庫中的監控數據,根據系統設置的參數標準判斷各項指標是否異常及異常級別。系統運行指標項包括應用系統運行情況,應用數據庫運行情況,硬盤使用率情況,CPU占用率情況,內存使用率情況,網絡帶寬使用情況,網頁篡改情況等等。如果出現異常系統通過綜合分析,根據預先設定的告警級別決定是否將調度指令發送給告警服務器。具體監控指標項及告警級別見表1:
4.2監控數據采集模塊
應用系統運行情況數據采集模塊根據數據庫中設置的應用節點服務器網址,使用系統預設頻率讀取應用服務器的監控頁面,如果網站能正常打開,說明該應用節點運行正常,然后調用網頁數據比較模塊采集首頁是否被篡改數據。
應用數據庫運行情況數據采集根據應用數據庫節點ip地址定時向目標數據庫發送“select I from dual”語句測試返回情況,如果能返回結果說明該數據庫節點運行正常,否則該節點數據庫異常。
網絡帶寬使用情況監控服務器定時調用網絡流控設備接口返回當前帶寬使用情況。
監控數據采集模塊將所有這些監控信息存人監控數據庫,為代理服務器分析整個私有云的服務運行及性能狀況提供數據基礎。
4.3網頁數據比較模塊
網頁數據比較模塊是在打開網站首頁獲取到網頁數據后,將當前獲取的網站首頁數據與預先保存的網站首頁標準數據內容、大小、更新日期比較,如果一致說明首頁沒有發生篡改,否則有被篡改嫌疑。
系統實現過程是通過編寫defense.sh腳本,該腳本定時調用執行網頁數據比較程序,比較程序主動抓取應用節點頁面的數據項和數據庫預存的數據項做比較,然后通過分析做出監控結果,如果發現網頁內容異常,比較程序根據數據庫預存數據自動恢復網站首頁內容。
4.4報警模塊
報警模塊可以通過電子郵件、手機短信二種方式將網站異常信息發送給預設系統運維人員。保證運維人員能第一時間獲得告警信息,及時進行緊急處理,以最大限度地減少損失。
電子郵件的發送使用TldSMTP控件,只要設置好參數,導人消息內容就可以了。
手機短信將各種報警預編譯成每種告警模板,當出現告警時,調度服務器直接將相關參數傳遞給短信服務器,短信服務器通過短信接口進行短信發送。
4.5故障處理模塊
在系統出現緊急宕機時,調度服務器調用告警模塊發出告警信息,系統運維人員收到告警通知后,第一時間通過手機可以向調度服務器發送故障處理指令,調度服務器再通過代理服務器向故障節點監控服務器發送指令,監控服務器負責執行管理指令,包括服務器重啟,網絡鏈路切換等故障處理指令。
4.6監控展示模塊
各種監控結果都能在移動設備上可視化查看,結果展示層使用java創建Web應用程序,以html5網頁形式呈現功能界面,系統管理員可以查看各集群總體狀態以及監控服務器主機性能指標、網絡和數據庫狀態。集群服務器狀態監控大屏查看頁面見圖4。
網絡監控頁面見圖5。
本監控系統服務器端采用tomcat作為中間件發布平臺,監控數據庫是oracle,展示前端利用Echars結合JSP與JavaScript技術實現。
5結束語
本系統已經在中國郵政網絡學院系統成功應用,運行一年以來,接收到各種系統警告40余次,給運維人員提前介入系統運維提供了寶貴時間,減少了由于系統問題導致的整個應用系統的停機時間,給故障排除和準確定位提供了依據,提高了系統的運維效率,大大提高了中國郵政網絡學院系統的可靠性和可用性,經過上線以來的運行顯示,該系統運行穩定,且滿足了設計要求,達到了預期效果。接下來將不斷根據實際監控需求對系統進行升級完善。