孫永梅 王紅民
摘 要:信息系統是信息化的基礎和重要內容,在信息化快速發展的今天,各類信息系統(本文重點描述非涉密信息系統)應運而生。為了使系統處于良好運行狀態,充分發揮其工作效能,就必須要加強系統的運行維護管理(以下簡稱運維),在實際運維過程中要借助大數據的工具和思路,制定科學合理的運維計劃和應急預案,提高信息系統的運維效率和質量。
關鍵詞:信息 系統大數據 系統維護
中圖分類號:TN913 文獻標識碼:A 文章編號:1674-098X(2017)06(a)-0164-02
1 運維對象
提到運維,必須首先明確運維對象,一是基礎設施,包括機房(含有配電、UPS、溫濕度控制、門禁等);二是服務器、小型機、磁盤陣列等承載信息系統運行的硬件設備;三是防火墻、防毒墻、WAF(應用防火墻)、網閘、負載均衡、IPS、抗DDOS攻擊、APM(應用性能管理系統)、日志服務器、網管軟件、備份系統等安全設備;四是操作系統、虛擬化軟件、數據庫軟件、網絡版防病毒軟件等基礎環境軟件;五是互聯網或與互聯網邏輯隔離的專線網絡(如國家電子政務外網或行業轉線網);六是信息系統軟件及軟件在運行中產生的數據;七是信息系統的主管者、系統管理員、系統維護人員及系統用戶,及其終端設備;八是系統的應急預案、巡檢及故障處理優化記錄等知識庫資料文檔。
2 運維數據
根據運維對象的分類歸納,運維數據包括七大類。
2.1 基礎設施數據
機房的承重參數、環境溫濕度、機房空調和UPS的功率及UPS延時時間和斷電后溫度上升速度和上限、進出機房的門禁記錄和攝像記錄等。
2.2 硬件設備數據
設備的配置參數(含CPU、內存、硬盤、電源及功率等)、設備上線日期、資產記錄、保修期和維修記錄、位于機柜內的具體位置、承載的實際系統清單以及設備巡檢記錄及外觀報警記錄等。
2.3 安全設備數據
安全設備的部署方式、啟用功能、安全策略、安全設備的各項日志、數據流量、黑白名單等。
2.4 基礎軟件數據
各類基礎軟件的版本、補丁及升級記錄、虛擬化軟件和防病毒軟件有效期限、系統的登陸日志、安全事件日志等。
2.5 網絡數據
互聯網或專線網絡專線號、域名解析、系統備案信息、帶寬、上聯下聯設備、系統整體網絡拓撲結構圖等。
2.6 信息系統軟件及數據
信息系統的軟件版本、歷史版本和升級記錄、系統數據及各個時點的系統備份數據。系統設計的用戶數、在線規模人數、并發訪問量以及系統數據的日均增量等。
2.7 信息系統的主管者、系統管理員、系統維護人員及系統用戶等數據
信息系統的主管者、系統管理員、系統維護人員及用戶清單(含姓名職務聯系方式等),系統上線時間和升級記錄、系統各相關干系人調閱數據、維護系統的申請和審批處理記錄等。系統性能的峰值指標、峰值時段、閑值指標、閑值時段等。
2.8 系統知識庫數據
各項運維管理制度、系統的應急預案和應急演練記錄、巡檢及故障處理優化記錄等知識庫資料文檔數據。
綜上所述,運維數據包羅萬象,既有關系型的數據庫數據,又有非關系型的文件、圖片、影像等數據。運維數據量可謂海量。另外,各類運維數據之間又相互關聯、相互影響、相互制約,摸清各類運維數據之間的關系對于提高運維效率和質量至關重要。比如:硬件設備的配置參數(如服務器的CPU、內存)、基礎軟件(如數據庫的索引建立和優化)的優化參數、網絡的帶寬及網管軟件的帶寬分配和安全設備的安全策略以及信息系統軟件自身效率處理等4大因素決定了信息系統的性能指標(系統設計的用戶數、在線規模人數、并發訪問量)。再比如:服務器硬盤故障燈告警,做了raid5的磁盤仍然可以保持正常運維,軟件方面不會有任何故障提示,但是如果不及時更換故障硬盤,將為系統數據丟失埋下巨大的安全隱患。
3 大數據運維
3.1 統一安全管控平臺
從客戶實際環境出發,對全網的安全設備、網絡設備、主機設備、數據庫及應用系統的日志、事件信息進行集中收集和管理,結合客戶最關注的信息安全痛點問題,通過強大的關聯分析引擎制定關聯規則,實時對客戶現網環境進行監控和分析,對網絡異常情況、系統脆弱性、黑客入侵、違規操作等安全事件實時報警,并通過友好的展示界面進行展示,使得不同層次的管理人員都能從平臺中查看到自己最關注的安全信息。平臺由據采集層、分析處理層、安全展現層及及其對外接口組成。
數據采集層:主要對各類安全資源、對象的安全事件、安全配置、安全漏洞、資產信息等數據進行采集,此類信息一般通過Syslog、SNMP Trap、File(FTP或SFTP)、ODBC、XML等標準協議。
分析處理層:主要是對系統采集到的各種設備的信息進行存儲和分析處理。包括信息的過濾、歸并、關聯分析,從海量日志中分析潛在的安全問題,產生安全告警,結合資產價值和脆弱性進行綜合風險分析。
安全呈現層:對采集分析數據進行統一呈現,提供相應的Portal登陸查看、操作界面,實現資產管理、報表管理、系統管理、安全告警管理、脆弱性管理、風險管理、知識庫管理、運維管理等。并對不同的管理人員提供不同的展示界面,系統管理人員最多點擊三次操作就可以定位到安全事件的根源。
外部接口層:提供與支撐系統、專業安全系統的外部接口。
3.2 綜合網管軟件
網管軟件不能僅停留在設備管理層面,它應該能進一步深入的對服務器和應用系統進行監測和管理。采用友好的使用界面,這樣就可以遠程協同維護和管理,實現分布式大規模網絡的集中層級管理。現在流行的一類網管軟件,采用非代理模式,這樣就避免了傳統的“Agent”模式的繁瑣和重復性勞動,而且便于實施和后期維護,極大地節省了工作時間和工作繁雜度。網管軟件必須做到對網絡中每個關鍵應用的監測和管理。這樣,管理人員可以迅速對其應用系統、服務器或設備進行定位,檢測各關鍵應用信息系統運行是否正常。
先進的網管軟件還能提供美觀的網絡應用拓撲圖,對應用系統的流程進行逐步監測,當系統異常時,通過顏色變化及時定位和提示應用系統故障。另外,主動式的網管系統是發展方向。網管系統本身具有強大的預故障處理功能,并且能夠自動進行故障恢復,盡一切的可能把故障發生的可能性降至了最低。好的網管系統應該讓網管員忘記了這套系統在網絡中的管理。
針對海量的運維數據,既要利用現代化、可視化的大數據工具,又要充分發揮系統開發者、維護者的經驗智慧,從海量、繁雜的數據中挖掘出相互關聯的規律和影響制約關系。對于制定科學的運維計劃、設備及軟件更新計劃、應急預案等極有針對性和科學性,是縮短系統故障時間、提高運維效率和質量的必要保證。
參考文獻
[1] 李大偉,劉飛飛,李薇薇.信息系統運行維護的八大意識[J].中國信息界,2011(3):51-52.
[2] 李培林.對信息系統運行維護管理的探討[J].機械工業信息與網絡,2013(10):54.
[3] 田雨.信息系統運行維護管理模式探討[J].中小企業管理與科技旬刊,2015(9):227.