吳尚 王萍 胡聰 徐敏 宋曉波 金國俊
摘 要:隨著電力信息化的發展,電網企業數據庫運維管理模式由手動式運維向自動化、標準化、規范化運維轉變。文章通過數據庫自動化工具的研究和應用,及時掌握數據庫的運行狀態,保障數據庫的良好穩定運行,找出數據庫的異狀及發現隱患,以便及時采取對策。
關鍵詞:數據庫;自動化;運維工具
隨著國網公司信息化建設步伐的加快,國網公司生產、經營和管理活動對信息系統愈加依賴,信息系統運行的可靠性和業務連續性越發重要,也為數據庫運維工作帶來了新的挑戰,對運維人員也提出了更高的要求。為了更好地滿足一線數據庫運維工作要求,需要對運維技術進行優化。開展對數據庫自動化工具的研究和應用,對日常運維工作的開展有很大促進和提升,首先能夠提高運維效率,降低運維成本;其次能夠減少對人員的依賴,實現知識積累;再次促進體系建設,支撐運維標準化。
1 電網企業數據庫自動化工具建設背景
當前,國家電網公司信息化持續深化,數據庫種類和數量不斷增加,IT架構復雜性增長始終快于人員增長,熟悉業務的數據庫運維人員積累緩慢,資源不足問題一直存在,運維人員疲于應付巡檢和故障檢修,因此對于數據庫運維管理來說是一個巨大挑戰,具體體現在以下4個方面:(1)從現有故障分析來看,80%的業務可用性和性能問題與應用和數據結構相關,且影響全局的應用類問題大部分體現在數據庫層面。(2)70%的故障是業務系統使用者首先發現的,存在監測盲點,缺少主動預警和事件分析機制。(3)IT持續建設,數據庫種類和數量不斷增加;運維人員疲于應付巡檢和故障檢修,對疑難問題處置和技術研究程度不夠。(4)運維自動化低導致在運維過程中獲取大量雜亂信息及警報時,運維人員無法快速定位問題根源,降低了運維服務速度和服務質量。
2 數據庫自動化工具
2.1 設計理念
針對電網企業數據庫的特點,通過擁有原廠商認證專業人員的專業知識,按照標準定點、定期地對信息系統數據庫及相關軟硬件做深度巡檢工作,及時掌握數據庫的運行狀態,保障數據庫的良好穩定運行,找出數據庫的異狀或發現隱患,以便及時采取對策,將故障消滅在萌芽狀態。通過對信息系統進行預防性檢查并提出消除隱患的措施,達到其防患于未然的目的。
2.2 具體方法和做法
2.2.1 數據庫深度巡檢
依據數據庫運維實際需求,對數據庫按既定的深度巡檢指標和頻率進行巡檢,出具巡檢報告。
數據庫硬件深度巡檢內容包括查看設備外觀及故障指示燈(整體和各部件);HMC管理平臺:針對連接了HMC的設備,通過HMC查看硬件狀態及日志(Service Focal Point);VPD信息收集。
操作系統深度巡檢內容包括分區資源及操作系統信息收集,分區硬件資源、系統版本等;CPU和內存檢查;網絡通信檢查;邏輯卷檢查;文件系統檢查;內存交換區檢查;Dump設備檢查;啟動日志檢查;系統日志檢查;錯誤日志檢查;硬件診斷(diag);數據備份檢查;系統性能檢查;用戶登錄檢查;補丁程序及微碼檢查。
存儲深度巡檢內容包括存儲冗余檢查;存儲配置合理性檢查;設備運行情況檢查;日志分析;關鍵指標檢查;存儲是否存在熱點檢查;安全防護檢查與分析;存儲監控和管理檢查與分析。
雙機環境深度巡檢內容包括雙機軟件部署情況(HA Patch版本);雙機環境狀態檢查;雙機軟件部署驗證(verify)。
數據庫深度巡檢內容包括Oracle后臺進程檢查與分析;文件系統使用率檢查與分析;監聽狀態檢查;監聽日志大小檢查與分析;CPU使用率檢查與分析;內存交換區使用率檢查;數據庫日志檢查與分析;數據庫實例狀態檢查;數據庫控制文件檢查;數據庫日志文件檢查與分析;數據庫數據文件檢查與分析;數據庫后臺作業檢查與分析;數據庫無效對象檢查與分析;DBA角色用戶檢查。
OGG巡檢包括巡檢列表包括主機IP、OGG安裝路徑、進程類型、狀態、延遲時間、檢查點時長、巡檢時間。
2.2.2 數據庫運行狀態預警數據庫深度巡檢
數據庫性能監測包括監測列表列出監測數據庫清單;監測內容包括數據庫名稱、版本、IP地址、告警(嚴重、警告、一般)、性能(平均事務響應時間、DBtime)、工作負載、主機(CPU使用率、內存使用率和磁盤繁忙度)、創建時間。平均事務響應時間是對該指標進行橫向和縱向對比趨勢分析;DBtime對該指標進行橫向和縱向對比趨勢分析;CPU使用率是對該指標進行橫向和縱向對比趨勢分析;內存使用率是對該指標進行橫向和縱向對比趨勢分析;磁盤繁忙度是對該指標進行橫向和縱向對比趨勢分析;工作負載是查看該負載的等待事件,通過乙方的數據庫技術工具可以查詢到是哪條SQL引起,并能查詢該SQL執行計劃情況。
查詢AWR報告信息,包括數據庫名稱、IP、實例名、報告名稱、報告生成時間、報告生成人等。生成的查詢報告對AWR根據選擇的數據庫節點和時間進行生成。
基線管理是根據指標和日期建立數據庫技術基線,便于日后運維過程中可以進行性能的比對分析。
2.2.3 數據庫日志診斷
數據庫日志分析能夠通過數據庫技術工具直接關聯到相應的Trace文件,由實施工程師對告警日志、CRS日志、監聽日志和ASM日志能根據錯誤關鍵字分析診斷,快速提取并展示詳細錯誤信息。能根據時間段導出alert,trace,CRS,監聽日志。
2.2.4 數據庫行為分析
數據庫行為分析能夠追溯數據庫的登錄操作、連接操作、DDL操作等操作信息,定位異動行為。
DDL審計能夠對Create,Truncate,Alter,Drop,Grant,Revoke等數據庫操作進行監控,及時發現異常行為。
3 應用成效
目前,運維的重要性在不斷地被人們所認識,根據行業統計,在IT費用中大約有3/4用于系統運維和維護開發。這也意味著,系統在開發結束并投入運營后,所要花費的成本比例高達75%。因此,提升日常運維作業的自動化水平,不僅可以有效提高運維效率,同時可以釋放大量被日常運維所占用的資源,實現資源的再增值。
通過數據庫自動化工具的研究和應用,國網公司對于數據庫隱患排查和計劃檢修效率將大幅提升,大大提升了國網公司的運維質量和網絡運行水平。對于數據庫運維人員來說,可以減少大量非工作時間應急搶修,縮小故障檢測與定位時間,提高運維效率;對于用戶而言,可以減小信息系統故障帶來的損失;對于業務應用客戶來說,在提高國家、地方、企業網絡化、信息化發展的科學性的同時,還能夠提高單位和個人工作和生活的質量,促進和諧社會的建設。
3.1 經濟效益
數據庫自動化工具符合國網公司對運維工作標準化、規范化開展的宏觀要求,也符合公司各單位合理調配服務資源、專業化隊伍、降低成本的實際需求。
自動化運維工具與傳統運維方式相比,將帶來工作效率的提升、運維成本的降低以及運維服務質量的提升。通過自動巡檢、故障定位和故障處理所形成的運維服務閉環,變被動服務為主動服務,從手動運維轉為自動運維,提升運維管理自動化水平,同時提高客戶服務的滿意度。
數據庫自動化運維工具對于運維工作所帶來的收益,主要體現在:(1)通過諸如自動化巡檢、自動化配置、自動化處理等模塊,從運維工作規范性、故障平均處理時間、故障平均響應時間、客戶滿意度等方面提升管理水平,提高運維服務質量,提升服務效率。(2)節約運維人員成本。變被動服務為主動服務,從手動運維轉為自動運維,將原本人工巡檢的工作通過平臺的自動巡檢和自動定位來完成,節省人力合時間成本。(3)提升故障處理效率。通過自動巡檢、故障定位和故障處理所形成的運維服務閉環,達到運維問題早發現、早解決的目標,降低因為故障的延誤而帶來的經濟損失。
3.2 管理效益
數據庫自動化運維工具應用后,提高信息運維服務的技術含量,加強信息化自動化支撐手段是解放人力資源、優化調配的重要推手。有效降低信息管理的運行維護成本,提高信息調度反應速度與準確度,提高信息通信網絡資源利用率,提升通信運行管理水平和效率的目的,實現信息通信管理方式向科學化、信息化、精細化轉變。
大幅提高國網公司運維管理的先進程度,有助于提升國網公司信息通信管理和技術水平。使得運維的基礎性工作有了統一與規范,通過不同工作方法的嘗試和制度的制定,使運維工作逐步實現了向標準化管理轉變,其服務質量得到了大幅度的提升,在增強了用戶的感知度的同時,也極大地提升了運維服務的效率,隨著運維平臺的逐步使用,根據需求不斷地進行維持與優化后,將為后續的平臺的發展打下良好的基礎。
3.3 社會效益
數據庫運維管理工具的應用,可以提高運維工作的效率和對外提供服務的能力,有效改善運維人員問題定位和解決速度,最終提高數據庫運維服務能力和服務質量。
4 結語
通過本課題的研究,其成果將應用到運維日常工作中,實現運維作業的內容透明化、工作自動化、流程規范化,從而帶來多方面的效益,為運維作業標準化建設更好地開展奠定堅實的基礎。
數據庫自動化工具以圍繞高效開展運維工作為出發點,摒棄傳統的以建設監控平臺為目的的運檢思路,改變傳統的信息運維工作模式,提升技術手段,促進運維工作從被動變為主動,從手動變為自動,將日常瑣碎、繁多和分散的運維工作進行高效、集中、可視和自動化管理,并提升運檢人員工作效率,支撐各類信息系統的安全運行,為數據庫運行提供便捷、高效、安全的技術保障。通過建設運維自動化工具,實現包括業務流程自動化、日常巡檢自動化、故障快速定位與自動處理、數據自動備份、可視化展現等功能。