劉 秀,李囈瑾,張 敏,陳 超
(云南電網(wǎng)有限責(zé)任公司,云南 昆明 650000)
近年來,互聯(lián)網(wǎng)發(fā)生很大的變化,隨著系統(tǒng)的深入和完善,對計算機硬件、軟件系統(tǒng)的運行維護,已經(jīng)成為各行各業(yè)普遍關(guān)注和不堪重負的問題,大量的網(wǎng)絡(luò)設(shè)備、服務(wù)器、中間件、業(yè)務(wù)系統(tǒng)等讓運維人員難以應(yīng)對,因此,建立信息系統(tǒng)運維服務(wù)體系迫在眉睫。
按要求開展巡檢工作,檢查各功能模塊能否正常訪問,包括典型操作響應(yīng)時間、系統(tǒng)病毒定期查殺、口令安全情況、日志審計分析、關(guān)鍵進程及資源消耗分析、隊列等,并編制系統(tǒng)運行狀態(tài)巡視檢查記錄。
2.1.1 應(yīng)用系統(tǒng)健康度檢查
按要求開展巡檢工作;典型操作響應(yīng);系統(tǒng)功能健康度檢查;后臺異常進程檢查;系統(tǒng)日志分析;關(guān)鍵進程及資源消耗分析;系統(tǒng)缺陷的發(fā)現(xiàn)及報告;編制系統(tǒng)運行狀態(tài)巡視檢查記錄。
2.1.2 應(yīng)用系統(tǒng)安全巡檢
按要求開展巡檢工作;系統(tǒng)口令安全情況;系統(tǒng)用戶權(quán)限分配情況;系統(tǒng)漏洞檢查;系統(tǒng)病毒查殺;編制系統(tǒng)運行狀態(tài)巡視檢查記錄(見表1)。

表1 系統(tǒng)深度巡檢

中創(chuàng)應(yīng)用服務(wù)器版本 InforSuite AS 9.1 JDK版本 SUN (build 1.7) 可以升級到最新版內(nèi)存JVM內(nèi)存設(shè)置 在InforSuite AS控制臺檢查 建議>=2G安全性密碼安全 如果使用默認密碼,建議立即修改密碼InforSuite AS備份 # zip/tar 建議打包備份服務(wù)設(shè)置控制臺運行狀態(tài) 在InforSuite AS控制臺檢查正在運行表示正常,其他不正常server運行狀態(tài) 在InforSuite AS控制臺檢查正在運行表示正常,其他不正常JDBC連接池狀態(tài) 在InforSuite AS控制臺檢查 能ping通表示正常JDBC連接數(shù) 在InforSuite AS控制臺檢查依業(yè)務(wù)量而定,建議最小32,最大100 Server的線程數(shù)設(shè)置 在InforSuite AS控制臺檢查依業(yè)務(wù)量而定,建議最小64,最大128 Accept Backlog的設(shè)置 在InforSuite AS控制臺檢查 建議≥256日志保留策略 在logging.propeties文件中檢查 建議≤40個文件應(yīng)用程序運行狀態(tài) 在InforSuite AS控制臺檢查應(yīng)用包處于啟用狀態(tài)表示正常,其他不正常應(yīng)用檢查登錄應(yīng)用系統(tǒng)測試 IP/NWYJ如果應(yīng)用可以登錄,且響應(yīng)速度正常,則表示應(yīng)用OK InforSuite AS日志分析 分析系統(tǒng)的nohup日志觀察日志中是否有SEVERE、Error、OutOfMemoryError
通過對系統(tǒng)進行操作,以滿足業(yè)務(wù)運行的需要而進行的常規(guī)的操作動作;也包括在授權(quán)和被監(jiān)控狀態(tài)下的對系統(tǒng)運行的業(yè)務(wù)進程和數(shù)據(jù)進行修改。
2.2.1 常規(guī)主動操作
系統(tǒng)自身運行日記的備份,定期清理;定期檢查系統(tǒng)(包括系統(tǒng)附帶組件)服務(wù)狀態(tài),并定期啟停系統(tǒng)(包括系統(tǒng)附帶組件)服務(wù)以釋放資源;按要求,到指定地點現(xiàn)場解決系統(tǒng)應(yīng)用問題。
2.2.2 常規(guī)響應(yīng)操作
建立或終止系統(tǒng)會話連接;系統(tǒng)作業(yè)提交;簡單故障處理;提供系統(tǒng)初步需求、功能分析服務(wù);簡單業(yè)務(wù)流程的調(diào)整設(shè)計及實施;根據(jù)系統(tǒng)管理員提供的數(shù)據(jù)庫腳本提取數(shù)據(jù);業(yè)務(wù)問題、系統(tǒng)優(yōu)化等系統(tǒng)問題的支持服務(wù);按要求完成指定的周報報表、KPI報表等目前系統(tǒng)前臺無法滿足需求需人工后臺操作的數(shù)據(jù)處理工作。
2.2.3 跨系統(tǒng)協(xié)同工作
(1)安排處理跨系統(tǒng)協(xié)同運維工作,如:其他系統(tǒng)發(fā)生代碼變更、故障、缺陷等影響本系統(tǒng)時,需要服務(wù)方提供相關(guān)運行分析、代碼修改、缺陷排查、故障處理等相關(guān)服務(wù)。日常協(xié)同監(jiān)控,對協(xié)同問題的分析定位并提供相應(yīng)的分析報告。
(2)按照要求完成業(yè)務(wù)檢查,如用戶登錄率、工單流轉(zhuǎn)率、各個模塊信息錄入率、每個模塊的工作評分,以及下個階段的建議。
定期統(tǒng)計業(yè)務(wù)應(yīng)用系統(tǒng)的故障與告警、日志及各項運行數(shù)據(jù),定期提交系統(tǒng)運行分析報告。
收集業(yè)務(wù)運行指標(biāo)數(shù)據(jù)并開展業(yè)務(wù)運行情況分析;收集系統(tǒng)性能指標(biāo)數(shù)據(jù)并開展系統(tǒng)性能情況分析;收集系統(tǒng)日志并開展系統(tǒng)日志情況分析;收集系統(tǒng)接口狀態(tài)數(shù)據(jù)并開展系統(tǒng)接口狀態(tài)分析;收集定期內(nèi)系統(tǒng)發(fā)生故障或存在的缺陷情況并開展系統(tǒng)故障及解決情況分析;系統(tǒng)高風(fēng)險期預(yù)警報告,系統(tǒng)漏洞與安全預(yù)警報告。
在“迎峰度假”期間,提供至少1位系統(tǒng)業(yè)務(wù)支持人員駐場進行值守工作和7×24小時的系統(tǒng)業(yè)務(wù)電話支持工作,業(yè)務(wù)支持人員應(yīng)能夠應(yīng)對系統(tǒng)應(yīng)急處置、應(yīng)急報表業(yè)務(wù)操作的各類業(yè)務(wù)解決方案的能力,確保業(yè)務(wù)系統(tǒng)在“迎峰度假”期間穩(wěn)定運行。
在應(yīng)急保障時期(特殊時期保供電、防風(fēng)防汛應(yīng)急保障或其他應(yīng)急場景)提供至少1位系統(tǒng)技術(shù)支持人員駐場進行值守工作和7×24小時的系統(tǒng)技術(shù)電話支持工作,技術(shù)支持人員應(yīng)能夠應(yīng)對系統(tǒng)故障處理,提供處理緊急問題的各類技術(shù)解決方案的能力,確保業(yè)務(wù)系統(tǒng)在應(yīng)急保障期間穩(wěn)定運行。
(1)系統(tǒng)重大故障處理技術(shù)支持工作。在系統(tǒng)發(fā)生故障時應(yīng)提供技術(shù)服務(wù)支持,按要求進行及時處理,并保證有至少1名人員到故障現(xiàn)場進行處理,確保應(yīng)急指揮平臺穩(wěn)定運行,對突發(fā)問題及時進行處理。
(2)配合開展系統(tǒng)應(yīng)急演練工作。按要求提供系統(tǒng)的應(yīng)急演練的技術(shù)協(xié)助工作,包括協(xié)助搭建應(yīng)急演練測試環(huán)境,編制應(yīng)急處理預(yù)案并定期更新,以保證應(yīng)急處理符合實際情況需要。
負責(zé)受理用戶報障、告警、巡檢發(fā)現(xiàn)的信息系統(tǒng)故障,開展系統(tǒng)故障定位、原因分析、故障排除,并提交解決方案和優(yōu)化建議。
服務(wù)請求分析、系統(tǒng)告警信息分析、巡視發(fā)現(xiàn)的系統(tǒng)故障分析;快速故障恢復(fù);故障定位和初步確定解決方案;按照要求一個工作日內(nèi)編制故障分析報告,提出系統(tǒng)優(yōu)化建議;編制系統(tǒng)故障整改技術(shù)方案;故障解決(主備切換、集群節(jié)點啟停等運行方式切換);對系統(tǒng)的安全漏洞進行整改加固。
根據(jù)系統(tǒng)運行狀態(tài)、缺陷和故障解決情況,提出對系統(tǒng)優(yōu)化的建議,制定實施方案,并加以實施,達到優(yōu)化應(yīng)用系統(tǒng)的目的。
一是性能調(diào)優(yōu)設(shè)計工作;二是定期對系統(tǒng)運行狀態(tài)和系統(tǒng)運行存在的風(fēng)險進行分析并提出優(yōu)化和整改建議,編制相應(yīng)系統(tǒng)性能優(yōu)化和系統(tǒng)風(fēng)險整改的分析報告,全過程跟蹤相應(yīng)的問題點并處理對系統(tǒng)性能存在的問題,編制系統(tǒng)性能調(diào)優(yōu)技術(shù)方案或作業(yè)計劃;三是對系統(tǒng)性能存在的問題進行分析,編制系統(tǒng)性能調(diào)優(yōu)技術(shù)方案或作業(yè)計劃;四是性能調(diào)優(yōu)測試工作;五是系統(tǒng)性能調(diào)優(yōu)發(fā)布和版本管理工作;六是數(shù)據(jù)庫數(shù)據(jù)優(yōu)化維護工作;七是中創(chuàng)中間件優(yōu)化運維工作;八是技術(shù)性文檔的完善和更新工作。
除了數(shù)據(jù)庫的技術(shù)維護外,按需開展數(shù)據(jù)處理及日常工作技術(shù)支持、業(yè)務(wù)數(shù)據(jù)資源維護、業(yè)務(wù)數(shù)據(jù)應(yīng)用維護管理、業(yè)務(wù)數(shù)據(jù)質(zhì)量維護管理工作。
2.7.1 數(shù)據(jù)處理及日常工作技術(shù)支持
一是開展后臺業(yè)務(wù)數(shù)據(jù)操作或數(shù)據(jù)處理的技術(shù)支持;二是核查業(yè)務(wù)數(shù)據(jù)的問題,包括業(yè)務(wù)數(shù)據(jù)模型、業(yè)務(wù)元數(shù)據(jù)解釋、業(yè)務(wù)應(yīng)用模塊,提供數(shù)據(jù)字典;三是為業(yè)務(wù)系統(tǒng)用戶提出的數(shù)據(jù)狀況、數(shù)據(jù)處理問題提供及時的技術(shù)支持。
2.7.2 業(yè)務(wù)數(shù)據(jù)資源維護管理
一是檢查分析數(shù)據(jù)資源運行狀態(tài),包括用戶、庫表變更情況、ETL流程調(diào)度情況、數(shù)據(jù)量變化情況等內(nèi)容;二是開展數(shù)據(jù)庫數(shù)據(jù)的批量校驗、導(dǎo)入;三是編制數(shù)據(jù)資源維護的實施技術(shù)方案、作業(yè)計劃;四是新數(shù)據(jù)資源管理數(shù)據(jù)接口設(shè)計調(diào)整工作;五是數(shù)據(jù)資源的抽取、校驗及核查實施工作;六是維護業(yè)務(wù)系統(tǒng)數(shù)據(jù)字典,包括更新、變更、發(fā)布;七是開展業(yè)務(wù)數(shù)據(jù)資源的抽取工作,根據(jù)技術(shù)方案、作業(yè)計劃進行數(shù)據(jù)資源抽取。
2.7.3 業(yè)務(wù)數(shù)據(jù)應(yīng)用維護管理
編制業(yè)務(wù)系統(tǒng)運行、指標(biāo)簡報;維護業(yè)務(wù)系統(tǒng)內(nèi)部報表數(shù)據(jù)及計算邏輯;協(xié)助編制系統(tǒng)業(yè)務(wù)數(shù)據(jù)應(yīng)用技術(shù)方案、作業(yè)計劃,提供數(shù)據(jù)解釋、數(shù)據(jù)現(xiàn)狀分析及應(yīng)用技術(shù)方案可行性分析;協(xié)助開展業(yè)務(wù)數(shù)據(jù)應(yīng)用需求分析、設(shè)計、調(diào)整工作;開展系統(tǒng)業(yè)務(wù)數(shù)據(jù)應(yīng)用發(fā)布和版本管理工作;實施系統(tǒng)業(yè)務(wù)數(shù)據(jù)應(yīng)用操作作業(yè)工作。
2.7.4 組織機構(gòu)調(diào)整的業(yè)務(wù)數(shù)據(jù)調(diào)整技術(shù)支持
在系統(tǒng)運行過程中,需求方因組織部門變更需要調(diào)整系統(tǒng)數(shù)據(jù),如:業(yè)務(wù)流程、組織及業(yè)務(wù)數(shù)據(jù)等數(shù)據(jù)的調(diào)整。初步分析業(yè)務(wù)流程、組織及業(yè)務(wù)數(shù)據(jù)(歷史單據(jù)、在途單據(jù))調(diào)整需求;編制系統(tǒng)業(yè)務(wù)流程、組織及業(yè)務(wù)數(shù)據(jù)(歷史單據(jù)、在途單據(jù))調(diào)整技術(shù)方案或作業(yè)計劃;業(yè)務(wù)流程、組織及業(yè)務(wù)數(shù)據(jù)(歷史單據(jù)、在途單據(jù))調(diào)整涉及、實施、測試工作;制定版本發(fā)布計劃和版本管理工作。
對于信息系統(tǒng),在維護、部署、管理等方面經(jīng)常發(fā)生故障而導(dǎo)致業(yè)務(wù)終端,嚴重影響系統(tǒng)的正常運轉(zhuǎn),只有建立信息系統(tǒng)的運維服務(wù)體系,才能根據(jù)各項業(yè)務(wù)進行統(tǒng)籌安排,降低故障發(fā)生率減少損失[1]。