湯劍 胡洪新
摘要:描述信息化基礎平臺性能下降的原因,提出使用資源及應用狀態集中監控、事件處理狀態跟蹤、安全漏洞更新統一管理等方法來提升平臺性能
關健詞:統一管控;事件跟蹤;數據中心;安全
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)31-0269-02
信息化是實現業務高效運行的重要手段,細化到具體業務就對應著一個個信息化的應用,信息化基礎平臺的計算性能及系統運行穩定性直接影響到應用的可用性,應用的是否可用決定業務的可持續性,保障信息化基礎平臺的性能是線上業務流暢運行的基礎必要條件。
1問題現狀
實際使用中經常因缺少高效的問題修復與安全保障支持,基礎平臺常發生整體性能下降的現象,常見的主要原因包括:
1.1應用的全面可用性監控信息不完整,故障發生的歷史情況無法跟蹤
隨著信息化的不斷推進,每年建設的應用數量在逐年增加,應用的使用頻率直接和業務期直接相關,有些應用使用量、使用面較廣,每天都有很多人在訪問使用,有些應用使用的頻率較低,一年中只有在業務期的時候使用,應用的質量直接由設計應用的工程技術人員的水平決定,雖然應用在上線前已經做了很多測試工作,但這并不能保證應用運行時完全穩定可靠,一些設計較差的應用在遇到一些意外故障時,可能會大量消耗計算資源,較小范圍影響可能涉及相關應用故障,若數據層面的讀寫鎖故障可能會影響數據庫系統,進行影響整個平臺的性能下降。缺乏全面的監控信息與故障歷史記錄會降低問題處理效率,例如一個關聯多個應用的接口故障了,首先的現象是某一應用不可用,排除問題并不能快速定位到故障源頭,導致相關應用相續出現故障,偶發性還會引起平臺整體性能下降,若不能及時找到問題源并修復,給使用者的體驗是應用反應慢、基礎平臺性能的不行。
1.2故障事件修復響應不及時,故障問題修復處理的歷史情況缺乏關聯性記錄
故障的修復時間直接影響到用戶的使用體驗,若每次都是現場發揮臨陣出招去修復問題,一半以上的情況會耽誤修復的最佳時間,同時發生了多個問題丟個現場工程師,現場人員一般是按照問題的順序一個個的處理,但現在業務系統之間都有相互關聯性,有時出現故障的應用并非問題源頭,該問題可能是由其他應用故障后關聯引起的,這時非常需要借助歷史問題處理情況作為有效參考,通過借鑒歷史問題處理情況可以有效協助問題源定位,縮短事件處理的時間。再有事件處理任務被分配到具體人員后,經過分析后發現需要多方協同處理,在協同處理過程中常會出現溝通內容有偏差及問題響應不及時,因工程人員同時負責的工作任務一般較多,時間久了難免會出現信息記錄模糊或任務遺忘的情況,不能及時有效跟蹤、隔離、修復故障可能引起連鎖反應,進行影響應用的用戶使用體驗及意外降低整體平臺性能。
1.3漏洞問題或安全問題的響應及安全防護調整變更效率低
信息化系統一般是應用軟件,與應用軟件相關聯的包括中間件、操作系統、數據庫等,這一系列軟件中的任意一個被曝出現漏洞問題都會影響整體的運行穩定性與安全性,最基礎的方法是發現一個,對比資產清單逐個修復,操作是人工實施的為主,人工操作難免會出現遺漏,隨著計算資源與應用的資源的不斷擴大,修復的工作量在越來越大,出現遺漏的量一定會隨之增加,沒有有效的事件處理記錄及處理復查審核,很難保證每次的漏洞修復已經全面完成了,加強人工處理復查則工作量大、效率低。
2改進方法
經過分析以上問題同時兼顧安全管理的需求,設計使用統一管理平臺的概念來改善問題,主要包括資源及應用信息全面監控、問題修復全流程跟蹤、漏洞安全問題批量處理。
2.1資源及應用統一監測管理
資源狀態監測主要包括基礎存儲設施、計算設備、網絡設備等資源的狀態監控,這些資源的狀態直接決定信息化基礎平臺的工作狀態。存儲設施一般來自不同廠商,提供的接口以SNMP協議為主,監控主要采集設備報警狀態、設備性能狀態、磁盤占用比例等,采集報警狀態用于及時獲取磁盤故障、控制器故障等信息,并及時向廠商報修,避免了問題進一步擴大及減少人工巡檢工作量,采集設備性能狀態用于資源動態調整參考,基礎平臺一般同時有多套不同品牌的存儲設備,每套存儲上存儲著不同批次的應用,隨著應用業務期的來臨部分應用的業務量有上升,關聯存儲設備的讀寫數據量也會隨之增加,當讀寫量到達一定程度存儲性能會下降,參照采集的存儲集性能狀態信息,及時將應用業務或虛機遷移到負載較輕的虛機,進而提升平臺服務性能。網絡設備的監控采集使用SNMP協議,主要采集設備的性能狀態及流量信息,采集的數據用于監控網絡的整體健康狀態及異常流量發現,通過發現網絡設備負載及流量的異常變化,及時做好異常應急處理準備,較多情況是網絡或應用被攻擊了。計算資源方面主要采集計算設備的CPU、內存、磁盤、網絡使用量及報警信息,通過收集報警信息及時在計算設備發生故障的第一時間進行報修,計算資源一般包括多個不同架構技術的軟硬件設備,通過統一的信息收集與分析可以及時發現那個計算資源的計算負載量比較大、哪個計算資源的網絡流量比較大、哪個計算資源長期工作在高負荷狀態下,通過這些信息的定期匯總與歷史數據分析,及時在維護期內進行應用資源配置調整,進行提升整體平臺的性能負載狀態。
應用的統一監控管理分成主機狀態信息監控及應用狀態信息監控二部分,主機狀態信息的監控使用SNMP及客戶端信息采集相結合的方式,SNMP協議提供的主機監控項一般包括CPU、內存、磁盤空余空間、網絡流量等標準信息的收集,有些情況下需要依據主機部署的應用監控應用對應的端口狀態、關鍵文件變動、目錄內容的變化等,使用SNMP協議一般無法完成該功能,需要使用對應的客戶端軟件來完成信息收集與傳送,通過以上信息的收集實現主機性能的監測與及時調整。應用狀態信息的監控一般采集用無客戶端模式,在管理平臺上使用HTTP監測或TCP監測插件來監控應用服務狀態是否可用,在管理平臺對監控的應用依據業務邏輯進行關聯性配置與描述,當應用問題發生時依據業務關聯性描述應用狀態能較精確的發現問題的源頭,進而保障了整體平臺性能提升。
2.2事件處理全面跟蹤
依據基礎的計算資源池、主機資源、應用信息、網絡IP資源建立基礎資源庫,依據常用事件處理規則建立事件庫,事件庫包括事件標識號、事件發生時間、報警人、狀態描述、故障應用、事件受理人、關聯應用、關系資源、處理過程描述、處理完成時間,依據基礎資源庫、事件庫按照事件的處理流程及處理過程生成事件處理流程庫,通過事件處理流程庫留存問題處理過程中所有工程技術信息,便于后期工程人員參考,同時通過事件跟蹤機制協助工程人員進行進度控制,所有事件的處理效率得到提升,從側面提升了平臺的性能。
2.3安全漏洞問題批量響應
漏洞問題是網絡安全重點關注的問題,一些操作系統、應用的安全漏洞常會導致特權泄漏及信息被盜問題,考慮到一些漏洞問題的緊迫性,通過防護與打補丁同行的模式來保障安全,實現方式是在主機部署IPS及軟補丁防護客戶端,在控制中心配置定期進行系統及應用漏洞檢測并自動啟用漏洞防護軟補丁策略,遇緊急情況通過平臺發起實時檢測與策略下發,主機層面通過前期部署的監控客戶端實現遠程補丁更新,通過防與補共進的方式有效避免安全問題擴散,為平臺性能的提升做好安全保障。
3總結
通過資源及應用狀態監控、事件處理狀態跟蹤、安全漏洞更新的統一管理,平臺的性能有所改善、應用的使用體驗得到了提升。在大部分主要功能完成部署及使用磨合一段時間后,相對于前期基礎平臺及應用軟件的故障時間縮短了靠近一半,主要借助于應用故障的及時預警,通過事件處理的全面跟蹤管理及廣泛應用狀態監控,事件處理的效率得到了提升,事件問題源頭的誤判率減少了很多,在安全漏洞方面,部署統一的IPS及軟補丁防護系統后,安全漏洞的處理效率得到了明顯提升,因漏洞引發的安全事件大量減少,安全的及時有效保障、業務應用的快速修復協同避免計算資源的額外浪費及性能下降,助力平臺整體性能的提升。
在實際實施及使用過程中發現還有很多問題,如應用資源的監控細化程度還不夠,有時應用服務未掛起但應用已不工作,應用狀態監控的有效性及顆粒度還需繼續細化,事件處理的跟蹤信息及流程還不夠完善,需要繼續完善事件要素、改善信息記錄流程等,這些都是經后需要繼續改進與研究的方向。