崔學毅
(北京鐵路局 信息技術所,石家莊 050000)
方法與應用
信息系統應急預案編制及其演練
崔學毅
(北京鐵路局 信息技術所,石家莊 050000)
信息系統應急預案在編制中應充分注意應急預案、專項應急預案和現場處置方案3者的關聯關系;所形成的應急預案應充分考慮應用和設備的內在關系,同時需要通過不斷地模擬和近似實戰的演練加以完善和優化;特別指出,應急預案不是一本孤立的文案,更需要將其納入日常運行維護工作的范圍,注重應急處置的判斷過程,重視技術升級優化和應急處置后的恢復工作。
應急預案;編制;演練
信息系統應急預案不但要針對某個信息系統及其數據本身,還應包括支撐其運行的操作系統、數據庫系統、以及相關的中間件;也應包含涉及該信息系統可靠運行的所有計算設備、存儲設備、網絡設備、機房設備、以及容災系統、通信系統、電力系統等支撐系統或設備;更應包含保障該信息系統應急預案實施的管理和組織行為。
信息技術所作為鐵路信息系統運行維護生產的一個專業單位/部門,由于信息系統獨有的網絡應用特性,信息技術所應急預案體系必須要按照《生產經營單位生產安全事故應急預案編制導則》要求,建立《信息計算所應急預案》作為單位/部門級別應急狀態下的綱領性組織文件,將影響全局的重要信息系統或設施合理地劃分為若干個《信息系統專項應急預案》作為支撐預案,以遍及重要信息系統各個環節的《專業現場處置措施》作為專項應急預案的支撐。由此形成信息部門一套完整的信息系統應急預案體系。
1.1 信息技術所應急預案
《信息技術所應急預案》從屬于綜合應急預案級別,它是生產經營單位應急預案體系的總綱。其重點是解決應急處置期間生產經營單位的應急組織機構及職責、應急預案體系、事故風險描述、預警及信息報告、應急響應、保障措施、應急預案管理等工作。
鑒于信息技術所重大的安全生產問題均會影響鐵路局整體的運輸經營活動,且一旦信息系統或支撐該信息系統的某一個環節崩潰或者失效,相關專業的應急預案就需要啟動。基于這一實際情況,信息技術所安全生產的重大問題必須通過信息技術所的行政管理行為進行干預,必須通過建立一套基于行政組織行為的綜合性應急(組織)預案予以保證。在這個應急預案中,信息技術所應急組織機構和職責必須與鐵路局應急預案有序銜接,專項應急預案必須納入鐵路局的應急預案體系,預警及信息報告和應急響應必須與鐵路局相關體系形成閉環。
1.2 信息系統專項應急預案
信息技術所專項應急預案從屬于對鐵路運輸和經營活動產生重大影響的應急預案級別。是對信息技術所重要生產設施、重要應用系統和重大危險源進行分類整合,由此所形成模塊清晰、相互不相交叉的專項應急預案。主要包括事故風險分析、應急指揮機構及職責、處置程序和措施等內容。
信息技術所保障信息系統運行的重要生產設施可以大致分類為:機房保障設施、網絡設備及其冗余設施、計算機/存儲設備及其冗余設施、系統/數據庫及其實時(備份及恢復)設施以及信息系統自身代碼及其容錯設施。信息系統最大的危險源主要有自然災害、火災危險、供配電停電危險。
就分類級別角度分析,自然災害、火災危險、電力停電危險將直接導致全部信息系統的崩潰,危及到鐵路客貨運業務的整體混亂,因此這些風險在應急預案中應列入最高級別(一級),涉及本級和上一級信息系統應用的中心網絡及其冗余設施失效同樣具有電力停電一樣的危險度,故也應納入最高級別。
信息系統自身代碼及其容錯設施失效將導致信息系統整體崩潰,危機到單個鐵路業務停頓,這種風險相對所有信息系統崩潰影響范圍較小,在信息技術所中和應急預案中應該列入次要級別(二級)。部分應用相關的核心網絡設備及冗余設施同時故障、計算機/存儲設備及其冗余設施同時故障以及系統/數據庫及其實時(備份及恢復)設施同時故障,也會造成單個或多個信息系統停頓,在信息技術所和應急預案中也應該列入次要級別(二級)。
部分機房環境設施(如空調)故障、次要網絡設備及冗余設施同時故障、集群部分設備同時故障,造成部分區域應用停頓,需要業務部門啟動一定范圍的應急預案,在信息技術所應急預案中應該列入次要級別(三級)。
1.3 信息系統現場處置方案
現場處置方案不同于應急方案,應急方案表征的是對信息系統故障延時所引發為事故的協調組織特性,現場處置方案則表征的是對信息系統故障排除的技術處理特性。
針對信息專業而言,應急處置措施不同于現場修復,是需要通過替代(故障系統或設備)、短接(跨接故障節點)、轉移(應用系統或載體)、減少(負載或負荷)、縮減(應用規模)、整體或局部降級等方式的現場處置措施。
現場處置方案應主要包括事故風險分析、應急工作職責、應急處置和注意事項等內容。信息技術所需要對所轄的所有在線信息系統/設備以及連接到應用終端的網絡徑路進行全路徑篩選,確定可能造成整體或局部癱瘓的關鍵項點,組織相關技術人員編制出可以通過替代、短路、轉移、減少、縮減或降級等方式的現場處置方案。
現場處置方案的立足點應是縮短故障處置時長、其目的就是盡快恢復應用單位的現場運用或盡量減輕對運用單位的干擾時間。因此應急處置過程簡單、有序是編制現場處置方案的核心。
綜上所述,一個完整的信息系統專項應急預案是一個專項應急預案和若干個專業性現場處置方案的有序組合。對以往已經納入到應急預案而其故障并不會影響安全生產的冗余系統或設備的處置措施,確需重新審定、斟酌并剔除。
應急預案演練是對應急預案編制結果的主動檢測。而應急預案實際啟動則是現場出現真實故障的被動應對。所以,應急預案的演練是應急預案體系中最為重要的日常性技術保障工作。
信息技術所信息系統應急預案演練具體體現在現場處置方案的演練。由于現場處置方案對專項應急預案的緊密關聯,每一個專項應急預案的演練同時會波及到信息技術所的綜合性應急預案,也會波及到相關專業的應急預案是否需要模擬或真實啟動。
基于應急演練對運輸生產具有影響的特性,信息系統不同類型的應急預案演練的形式、范圍、頻次、內容必須在有計劃的前提下展開,要盡力選擇對運輸生產影響最小的時段內進行。應急演練結束后,必須組織對應急演練過程及結果進行評估、總結。
應急預案演練的形式應該是多樣化的,信息技術所應急預案和專項應急預案在每一次現場處置方案演練時都會啟動,考慮到線上應急處置演練對生產的實際影響,應將線上演練和線下測試相結合、模擬演練和驗證性演練相結合,由此實現對現場處置預案自身的不斷完善、補充和改進。
信息系統應急預案編制和演練過程中,除按照國家《生產經營單位生產安全事故應急預案編制導則》推薦的內容外,還有以下幾點需要特別注意。
3.1 應急處置預案需要日常維護工作的有力支撐
目前,鐵路重要的信息系統都采用了冗余系統,這些冗余系統主要分布在應急預案所涉及的關鍵部位,一旦冗余系統失效,將會對運輸生產產生大范圍的影響。因此冗余系統日常的維護工作則顯得更加重要。冗余系統的線上和線下檢測和測試,其頻度要大于相關現場處置方案的演練。將冗余系統運行狀態實時監測起來,一旦出現問題必須在最短的時間內給予修復。與此類同,除設備級別的冗余外,系統/應用/數據軟件及其實時備份系統也必須實時監測起來,并及時處理任何異常狀態。
確保應急系統及數據的一致性檢查和冗余設備的可用性維護,既是避免應急預案被動啟動的基本保證,也是確保應急處置預案能否正確切換、替代和轉移的基本保證。
3.2 應急預案必須關注結合部的有組織判斷
信息系統故障有其特有的復雜度。例如操作系統、應用系統、數據庫系統以及中間件之間有著千絲萬縷的關系,一個表象后面可能是多種問題的集合。再如計算機設備、存儲設備和軟件系統也有著極其密切的依賴關系,一個軟性故障可能包含著硬件故障。還有網絡故障包含著通信專業問題等。
當一次現場處置方案啟動時,最關鍵的組織行為就是要在最短的時間內確定故障點,以便最快的速度啟動相應現場處置方案。而其中最重要的是參與故障判斷人員的專業技術水平和能力。因此,很有必要建立一個本單位/部門的專業技術專家組,實施有組織的故障診斷,其診斷結果和意見作為專項應急預案和信息技術所綜合應急預案的專業決策依據。
3.3 現場處置方案需要新技術的不斷引入
現場處置預案是根據不同故障類型,針對具體的場所、裝置或設施所制定的應急處置措施。制定現場處置預案的根本原因是在目前使用的裝置與設施中潛在著功能失效和崩潰的危險。
這些危險大致為:截至目前IT業暫時還沒有較新的技術能夠有效解決,或者已經有了解決方案,但由于投資過大,企業暫時無法給予投入,或者已經采用了最新技術但依然存在小概率失效風險。
為此,需要在制定應急預案的同時,對具有重大影響的裝置和設施實行有計劃的技術改進和投入,由此不斷降低重要節點的危險系數。此外還需要對處置過程繁瑣的現場處置方案進行篩選和優化,要通過新技術和新設備的引入去替代并簡化應急處置措施,努力提高應急處置的時效性。
3.4 現場處置方案必須兼顧處置后的恢復和還原
現場處置方案重點是應急處置的實現過程,在編制現場處置方案時,還必須兼顧應急處置后的恢復和還原過程。應急處置快速有效而恢復時影響鐵路運輸生產的事件卻遠大于應急處置時間,這樣的結果反映出現場處置方案的不完整性。
因此,一個好的現場處置方案不但應急處置快速有效,同時兼顧應急處置后恢復及還原工作的簡單有序。這就需要在信息系統及其相關設施的設計和實施前,必須充分考慮到系統架構對應急處置的影響。對架構性問題,要在編制現場處置方案的同時或之后進行必須的改進。
信息技術所應急預案的編制和演練,只有密切結合信息技術自身的技術特性,才能編制出一套切實可行的應急預案及其體系;只有實施演練,才能確保應急預案的有效性;只有不斷從技術和組織方面進行完善,信息系統的安全才有基本保證。
[1]中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T29639-2013生產經營單位生產安全事故應急預案編制導則[S]. 北京:中國國家標準出版社,2013.
責任編輯 方 圓
Formation of emergency plan for Information System and its drill
CUI Xueyi
( Institute of Information Technologies, Beijing Railway Administration, Shijiazhuang 050000, China )
Attention to the relationship among emergency plans, special emergency plans and site disposal program should be paid in the formation of emergency plan for Information System. The internal relation of application and equipment should be considered in the formed emergency plans. The plans should be improved and optimized by continuous simulation and actual drill. The paper pointed out that the emergency plan wasn’t a isolate copywriting, it should be brought into daily operation and maintenance work. The judge process, technological upgrading and recovery efforts after emergency disposal should be taken seriously.
emergency plan; formation; drill
U29∶TP39
A
1005-8451(2015)07-0035-03
2015-01-23
崔學毅,高級工程師。