溫 超
(國網信息通信有限公司,北京 100031)
2006年國家電網公司開始實施SG186工程,經過幾年的研究、開發、運行與更新換代,目前國家電網公司信息系統己經具有相當的規模。隨著業務的不斷增長,系統數量的不斷增加,國家電網公司的信息系統運維也變得復雜,同時運維人員的工作量也呈倍數增長。運維項目多、運維管理亂、人力成本高,因此雖然擁有專業的運維團隊,同樣面臨很大的困難。由于這是一個隨著信息技術的深入應用而產生的新課題,這方面的知識積累和應用技術還剛剛起步,因此研究如何進行有效的信息系統運維管理,具有廣闊的發展前景和很大的現實意義。
隨著運維管理問題的出現,國家電網公司已經制定了一系列的運維管理辦法,采用了一些運維管理工具來解決這一問題,但當前的信息系統運維管理還不是很成熟,還存在一些不足。
現有的信息系統運維服務大多都是做“損壞-維修”服務,而這種直接的服務方式不能避免事故損失,成本很高,效率低下。信息系統運維如果以主動、預防的方法將提升效率、性能和可用性,通過自動化平臺統一對信息系統運維進行管理,則能夠節省大量的成本并提高管理效率。
隨著虛擬化、云計算和分布式計算等技術不斷應用,IT基礎架構正日益復雜。這些解決方案可以幫助用戶的業務按指數增長,但同時要求系統管理員投入更多的精力。而目前運維管理依賴的依然是多頭管理策略,針對不同需求而分別部署單點工具,容易造成管理混亂,使信息系統運維人員的工作量呈倍數增長,人力成本攀升。針對現存問題,有必要將電力信息系統中運維相關的獨立的設備和系統集成一個有機的信息系統運維自動化平臺[1]。
信息系統運維自動化平臺的整體設計采用B/S架構,縱向分為技術操作層、管理調度層、決策指揮層,功能結構如圖1所示。

圖1 信息系統運維自動化平臺功能結構
技術操作層通過各種技術手段和工具對電力信息系統中各種網絡設備、安全設備、重要服務器、數據庫和重要應用以及數字資產的狀態、傳播進行監控,確保電力信息系統處于可監控狀況。運維調度層通過專業的運維人員對電力信息系統運行中產生的各種信息進行分析處理,并在其專業知識的支撐下對通過技術操作層對信息系統進行查看和維護,確保信息系統的正常運行。決策指揮層通過對信息系統運行中產生的數據進行深度挖掘、提煉和宏觀分析,從更高層次上查看整個電力信息系統的運行狀態,協助決策者依據電力信息系統中各類系統運行狀況并作出正確決策。
設備管理以企業經營目標為依據,通過設備信息管理、設備監測、風險評估、設備維護、統計報表等措施,對設備的全過程進行的科學管理,即實行從設備的規劃工作起直至報廢的整個過程的管理。
設備信息管理:實現各類設備信息的集中管理,具體包括設備庫、設備履歷、設備關聯視圖、服務響應模型、備件庫、儀器儀表庫等管理。
設備監測:對設備運行狀態進行24 h監控,及時發現異常情況,并進行配置策略優化;當監控到系統出現異常情況時,及時向客戶提供告警服務,將最新的異常信息和補救方法通知客戶,在威脅還未造成重大傷害或擴展時,及時采取措施進行消除。
風險評估:實現中心設備運行風險評估與安全管理體系管理功能,包括運行分析、設備風險評估、SMS管理、決策支持等功能。
設備維護:實現設備日常維護、維修的等級與管理功能,具體包括設備維護、維修、備件檢測、儀器儀表測試、更新改造以及履歷管理等。
統計報表:實現運行報表與專業報表統計功能,包括運行日報、功能報表、運行統計、干擾報表等功能。
業務監控子系統實現對操作系統、數據庫、中間件、WEB應用、應用系統的狀態進行實時監控,并且通過實時流量分析、訪問控制等功能有效、多方位地進行網絡信息系統的運行安全監控和優化,全面提高企業網絡使用價值。對發現的安全問題可快速抑制,降低信息系統出現安全事件的幾率,減少系統遭受的損失并增強信息系統抵御攻擊的能力。
服務監控。對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理,實時獲取這些應用的運行狀態,增強分析、預警功能,保障業務應用的正常運行。
流量分析。提供了實時流量采集、分析和展現功能,支持實時流量數據自動刷新,并提供IP地址、應用、通道、帶寬等各種實時流量圖表,讓用戶可以全面掌控網絡帶寬的使用情況,使得網絡運行狀況、應用情況、帶寬使用情況等狀況實現完全可視化,同時可以對出現的異常流量進行及時預警與處理。
訪問控制。系統能夠勾勒企業終端接入的安全基線,屏蔽一切不安全的設備和人員接入網絡,規范用戶接入網絡的行為。對于未安裝終端代理軟件或已安裝終端代理軟件但不符合安全策略要求(防病毒軟件、病毒特征庫升級、補丁、系統安全設置、違規軟件等)的終端設備,能夠禁止其訪問網絡,或進行網絡VLAN隔離。
數字資產管理子系統主要關注電力信息系統中數字資產在網絡中的創建、使用、傳播、銷毀,關注數字資源、網絡資源的使用情況,利用桌面終端控制軟件以及證書和權限管理,做到對每個數字資源訪問人員的身份明確、權限最小,訪問可溯,不容許超越權限的非法接入和非法訪問。數字資產管理子系統以權限為中心,以證書為憑據,以訪問控制為手段,以桌面終端軟件為依托,圍繞文檔安全管理為核心,實現電力信息系統的數字資產的安全,保障信息系統中的數據安全。
證書管理。管理電力信息系統的證書的頒布、變更和取消等生命周期狀態。證書的管理主要圍繞證書的發放為核心,涉及證書從生命周期開始到生命周期結束的各個環節,對應于證書的申請、審核、下載、更新、注銷等各個具體的流程。
權限管理。管理證書對應的在電力信息系統的權限,授予證書對應最小權限,是子系統的核心。系統管理員可以根據系統設置的安全規則或者安全策略為不同用戶分配不同權限。用戶可以申請加密權限、文檔授權權限、文檔解密權限、修改密碼權限、離線使用權限。
安全文檔管理。采用“驅動級透明動態加解密技術”對指定類型的文件進行實時、強制、透明的加解密。并能對文檔進行細分化的權限設置,確保加密信息在特定授權范圍內進行指定操作。
訪問控制:利用802.1x和動態安全網卡等技術控制非法用戶的非法接入,只容許接入用戶在指定權限內訪問合法的數字資源,并記錄用戶的訪問過程。
安全運維支撐子系統依托強大的知識庫支撐體系從技術和管理的角度對安全脆弱性進行收集、分析、管理以及跟蹤,并對整個安全運維人員、流程和結果進行管理,然后采用主動防御技術,為整個安全運維提供技術支撐。
安全運維流程管理。安全脆弱性運維流程管理是對安全運維工作人員、工作內容、工作步驟、工作信息的統一管理,和工作流管理以及人員管理模塊協同工作。
電子值班。實現各級部門的電子化值班登記與信息通報功能,具體包括排班、巡視、匯報、交接班等基本功能。包括故障管理、無線電管理、停機管理等核心業務管理功能,包括專項活動、安全整頓等動態業務管理功能。
安全應急響應。實現事件驅動的統一告警管理,用戶可對重要資源設置閾值,并定義事件的優先級。系統同時提供聯動策略引擎,使得用戶可以根據管理需求定制管理策略,當某類告警事件發生時,能夠在第一時間由系統自動執行特定的安全管理操作。
脆弱性收集。安全脆弱性收集通過多種渠道多種方式盡量全面的收集資產的安全脆弱性,收集渠道包括:漏洞掃描結果、檢查程序和腳本結果、人工檢查和問卷調查結果、第三方系統脆弱性結果。
脆弱性分析與統計。對收集上來的安全脆弱性根據內置的定性定量分析矩陣進行脆弱性的分類識別,針對脆弱性的各種條件的統計分析,并根據用戶的需要輸出用戶比較感興趣的信息,報表輸出的格式支持 XML、HTML、RTF、EXCEL 等格式。
安全工具管理。安全工具管理主要是管理收集脆弱性的檢查程序和腳本,這些安全工具為脆弱性的收集提供了途徑。
知識管理。建立中心知識庫,實現對各類運維知識進行分類、點評、審核功能,實現基于全文檢索的知識庫查詢功能,實現對考試、論文及技術資料的知識化管理。
為了對整個電力信息網絡的狀態全感知,各種網絡設備、安全設備服務器和應用系統應該通過日志或者事件的方式向安全運維服務綜合管理平臺報告自身的各種狀態變化或者異常情況。安全審計子系統將對電力信息系統中的運維原始數據進行全存儲、并提供多維度的原始日志分析和查詢功能,以便安全管理人員全面的分析評估安全信息,掌握安全狀態,調整所執行的安全策略。
原始事件日志審計。鑒于系統設備數量大,產生的信息多,基于監控的分析原理,信息安全綜合監控管理系統對所獲取的原始數據需依據安全策略進行過濾和歸并后進行分析處理以實現對安全狀態的實時知曉。原始日志審計子模塊將對原始數據進行全存儲、并提供多維度的原始日志分析和查詢功能,以便安全管理人員全面的分析評估安全信息,掌握安全狀態,調整所執行的安全策略。
該模塊通過各種收集手段獲取網絡中各個網絡設備、安全設備、操作系統以及各應用系統的日志信息,使得不同設備之間的日志信息能夠在同一個平臺上進行審計,同時客戶也能在同一個界面上查看各個不同設備的日志審計信息。
操作記錄審計。綜合利用身份認證技術、訪問控制技術、操作審計技術、高可用性技術和集群技術,結合SOX、COBIT、ITIL等相關法案及ISO17799、國家等級化保護等IT內控相關標準,實現對“人(操作者)”在“服務器集群等重要資源(操作對象)”上的“操作行為(操作內容)”的集中管理、集中審計。
安全決策子系統基于一系列的評估指標(攻擊頻率、攻擊嚴重程度、攻擊目標、鏈路流量、端口流量、風險級別等),結合網元信息及服務、主機本身的重要性,從應用、服務、主機及網絡系統4個層次感知系統的安全狀態,結合外部的安全情報信息,提供宏觀的安全態勢演化曲線。同時,建立自適應的閾值設定模型,實現危險狀態警報閾值的自適應調整,并依據設定的閾值,對系統的危險安全狀態產生警報,并為用戶提供安全事件解決建議。
安全預警功能。在信息系統安全態勢感知分析的基礎上為防護體系提供決策依據,為應急響應體系提供預測。安全預警根據安全態勢的分析結果建立自適應的閾值設定模型,實現危險狀態警報閾值的自適應調整,并依據設定的閾值對系統的危險級別達到一定程度的安全狀態產生警報,并定期輸出安全態勢評估報告,有效幫助相關領導掌控信息系統自身和外圍的安全態勢,更準確、高效的進行安全決策。
安全策略管理。在安全態勢感知的基礎上根據ISO27001系列國際標針對電力信息系統安全管理體系擬定電力信息系統及業務專網的安全總體策略,并提供統一管理安全策略,負責策略生成、策略下發、策略解析以及策略有效性、一致性驗證等功能。提供安全策略生成、編輯、檢索功能,能根據條件或與任務關聯向下級系統進行發布。系統提供安全策略的有效性驗證功能。
信息系統運維自動化平臺提供貫穿整個IT基礎架構的,全面、清晰的可視界面,既給運維工程師一個整體的管理視圖,又為其提供了深入分析單獨的系統或系統組的能力。通過運維管理自動化解決方案取代用戶目前使用的多個管理工具,降低了管理的復雜性。通過主動、自動的運維方式,幫助運維工程師減少在重復性工作上投入的時間,提升整體工作效率與效果。