(三峽人壽保險股份有限公司,重慶 401121)
數據是任何商業生命的根源,也是企業生存與發展的重要資源。隨著社會的快速發展,傳統數據庫運維管理負載居高不下,以救火式運維為主,一旦發生故障容易導致數據丟失或損壞將給企業造成嚴重的損失[1]。為此,有必要對數據庫運維體系進行改進與優化。本文以壽險公司所使用的Oracle數據庫運維監控體系為例,論述了新時期數據庫運維管理系統的構建策略。
數據庫監控分為實例監控、schema監控、告警三部分。實例監控主要是針對參數、組件(redo、undo、control file)、表空間、會話、TOP SQL、阻塞、日志等對象。Schema監控主要是對權限、對象進行監控,對象主要是指索引、分區表、大字段。通過對數據庫監控采集的數據進行匯總分析,可輸出性能、容量趨勢報告。
通過備份一體機實現對數據庫信息的備份管理。備份一體機具有數據零丟失、數據備份高安全性、不對生產系統有影響、支持任意時間點的數據恢復、提供數據云級保護等優點。通過對重做日志進行備份實現公司日常數據保護,可讓數據庫得到秒級保護。在重做日志數據備份過程中每次只獲取增量數據即可。針對壽險公司需要24×7的數據保護需求,數據庫備份一體機主要針對源生產數據庫的保護,只需一次全備份,后續只需同步歸檔日志與REDO日志增量,從而明顯降低了備份對生產系統的影響。備份一體機可識別內部Oracle數據庫塊格式,因而可支持深度數據驗證。當備份數據與重做塊被發送到備份一體機與自我復制時均會進行自動驗證。磁盤上的備份塊也會定期驗證,從而保證恢復操作始終恢復有效數據。
備份一體機可分為本地備份一體機和遠程備份一體機。本地備份一體機上的備份可以輕松、快捷、安全地復制到遠程備份一體機中,以防站點中斷和區域性災難等問題。例如,數據可以復制到遠程備份一體機。遠程備份一體機可以是物理機或運行在云環境的虛擬機。復制過程僅復制更改的塊,從而極大地減少了WAN網絡占用。如果本地備份一體機不可用,可以直接從遠程備份一體機運行恢復操作,而不需要在本地暫存數據。
容災、災備管理包括容災一體化監控、一鍵容災自動切換、一鍵災備自動恢復功能。針對容災、災備提供了自動化管理能力,可以極大的提升業務連續性。
(1)數據容災一體化監控。主要分為數據中心容災拓撲、鏈路監控、容災延遲監控三部分。數據中心容災拓撲包括跨數據中心容災拓撲、節點數據庫容災拓撲。鏈路監控主要涉及到鏈路的可用性與傳輸流量。容災延遲監控可分析延遲時長與延遲原因。
(2)一鍵數據庫容災切換。一鍵數據庫容災切換可在需要時一鍵實現主備庫的快速切換,可避免手動進行主備庫切換過程中的誤操作以提升業務連續性。
(3)一鍵數據庫災備恢復。一鍵數據庫災備恢復支持指定時間點數據恢復、全庫數據庫恢復以滿足不同的場景需要。
(4)告警。對相關參數設置閾值,參數值達到或超過閾值時,自動通過短信、郵件、微信的方式對相關人員發出告警。
SQL審核主要包括上線SQL審核、上線測試SQL審核、生產運維SQL審核、工單系統四部分。上線SQL審核通過手動上傳數據信息,由平臺自動審核SQL語法、執行計劃、運行消耗等內容。上線測試SQL審核可自動捕獲相關信息,并自動進行審核。生產運維SQL審核可自動捕獲TOP Sql,并自動完成審核工作。通過上述審核可預判執行風險與問題,對發現問題SQL語句自動發起工單提交開發代表,由工單系統對這些缺陷工單進行處理。
數據庫安全管理是數據庫運維管理中的重要組成部分,通過保護數據庫系統、數據庫服務器以及數據庫中的數據、相關網絡連接,防止數據庫系統及其數據遭到泄露、篡改或破壞,從而確保數據庫的正常運行[2]。為統一管理,考慮將數據庫安全管理整合到統一的數據庫自動化運維管理平臺,實現統一調度與管理。首先,由管理平臺自動對數據庫漏洞進行掃描,然后對數據庫進行安全管理,包括數據加密、數據屏蔽、數據脫敏、訪問審計等措施。構建數據庫防火墻,進一步確保數據庫的運行安全。在數據庫自動化運維管理平臺中引入云技術,具備自動化部署功能,可實現一鍵數據庫安裝與一鍵數據恢復。對漏洞自行掃描,補丁可一鍵下載與安裝,讓數據庫運維管理更加簡單、便捷、智能化。

圖1 壽險公司數據庫自動化運維管理平臺體系
總之,對于壽險公司來說,如何管理好龐大的數據庫信息對公司的經營發展有著重要的意義,一旦數據信息丟失或損壞將直接給公司造成嚴重的經濟損失。為此,必須加強對數據庫日常運維管理,引入先進的軟件技術提高數據庫的日常運維水平,確保數據庫能夠正常運行,這樣才能為壽險公司的可持續發展做好堅實的保障。