應急響應預案是為了降低安全事故帶來的損失,就事故發生后的應急響應組織和人員、應急響應所需的資源、處理的步驟和綱領、控制事故發展的方法和程序等,預先做出的科學的計劃和安排。應急響應預案的編制和管理屬于應急響應處理的準備階段,在整個應急響應管理體系中尤為重要,應急響應預案是否合理、完善,是評估整個應急響應體系的重要指標。
應急響應預案的內容應該具備針對性和可操作性,針對不同安全事件制定不同的應急響應預案。預案里的操作步驟要詳細、可行,每個步驟必須經過嚴格驗證。
制定好應急響應預案后,必須要對相關人員進行培訓,使相關人員了解并熟悉故障恢復流程,讓應急響應預案得到理解并發揮實際作用。
俗話說“動口不如動手”,要使預案能夠真正得到驗證并貫徹落實,開展應急演練活動是最好的方式。下面將結合實際案例對應急預案編制和管理進行說明。
該案例的背景和前面文章所述一致,在此不再贅述,本次需要編制一份“聯通Internet線路故障”的安全事故的應急響應預案,下面將介紹該應急預案的要點。
1.確定此次安全事故的具體處理人員;事故發生后,由公司應急響應處理小組第一時間進行協調和安排,本案例中的具體處理人員是網絡管理員。
2.網絡管理人員到位后,要迅速判斷故障節點,查明故障原因。如果屬于聯通Internet線路局端故障,則立即將業務流量切換到備用的電信線路上,保障業務的連續性,同時向聯通大客戶專線10019進行報修。如果屬于防火墻、IPS等網絡設備故障,網絡管理人員立即進行檢測,如果屬于配置文件損壞,可立即利用備份的配置文件進行恢復,如果屬于硬件故障,則利用備機進行替換(主要網關設備均有備機),并聯系廠商進行報修。
3.故障修復后,還需要網絡管理人員將網絡由應急狀態恢復至正常狀態。
應急響應預案編制完畢后,為檢驗其有效性,必須定期組織相關人員進行應急演練。下面將介紹此次安全事故的應急演練全過程,演練中的角色包括用戶、應急響應小組成員、應急響應小組組長和網絡管理人員。整個演練流程如下。
1.用戶發現無法訪問Internet,將故障反映給應急響應處理小組成員,小組成員立即通知組長,組長通知網絡管理人員進行處理。
2.網絡管理人員立即趕赴現場,先利用“traceroute-d 202.99.96.68”命令(202.99.96.68為聯通DNS地址)判斷故障位置,如果故障點在核心交換機,可登錄Zabbix監控系統,查看核心交換機的實時運行狀態,特別是CPU和內存利用率。如果運行狀態正常,則利用Telnet工具登錄核心交換機,查看其配置文件,特別是路由的相關配置,看是否遭受篡改,必要情況下,可利用TFTP工具重新導入備份的配置文件進行恢復。如果Zabbix監控狀態異常,比如CPU利用率過高,則利用“monitor session”命令進行端口鏡像,然后利用Sniffer或者Wireshark抓包工具進行數據分析,查看是哪些數據導致核心交換機狀態異常,然后聯系相關人員進行處理。如果確定核心交換機硬件故障,則迅速將備機上線,同步相關配置,恢復網絡的正常運轉,同時聯系供應商進行維修。
3.如果故障點在核心交換機的下一跳,則需要確定到底是IPS故障,還是防火墻故障。因為IPS是以透明橋接的模式接入網絡,traceroute結果只能反映網絡層的路由結果,不論是IPS故障還是防火墻故障,traceroute的結果都是一樣。這里可以采用物理隔離的辦法進行判斷,即將IPS設備從網絡線路中剝離出來,看線路是否恢復正常,如果線路恢復正常,則可以斷定故障點就是IPS設備,直接向廠商報修即可。如果線路仍然未能恢復正常,說明故障點在防火墻,同樣利用Zabbix監控系統查看其狀態,如果設備自身CPU利用率、并發連接數等異常,則可以采取抓包分析的方式來定位故障源頭。如果是配置遭到篡改,可重新導入配置文件進行恢復;如果硬件故障,則立即啟用防火墻備機,同步配置,故障設備聯系廠家進行維修。
4.如果故障點在防火墻的下一跳,則說明問題出現在運營商局端位置,此時需要將線路流量切換到備用電信線路上,然后撥打10019電話進行報修。切換線路的具體操作步驟如下所述。
首先登錄防火墻修改默認路由,將默認路由的下一跳IP由聯通局端地址改為電信局端地址;在防火墻控制臺輸入命令“set route 0.0.0.0/0 interface ethernet1/1 gateway 221.239.110.131”即可,其中ethernet1/1為聯通線路接口,221.239.110.131為電信局端IP,更改完畢后,內網用戶訪問Internet的數據包都會從電信線路轉發。
其次需要對防火墻的DIP設置做出更改,原來的DIP設置是針對聯通線路設置的,目的是將Trust→LT_Untrust方向的數據包源地址都變更為聯通外網地址。現在需要啟用Trust→DX_Untrust方向的DIP設置,目的是將內網通過電信線路轉發至外網的數據包的源地址都轉換為電信的外網地址,這樣才能保證用戶通過電信線路訪問Internet的合法性。
DIP設置的方法如下:通過Web頁面登錄防火墻,Network→Interface→ethe rnet3/3→Edit,點擊上方菜單“DIP”,點擊“New”按鈕,新建一個DIP實例,按照要求填寫對應的電信外網 地 址221.239.110.145,點擊“OK”保存即可(其中ethernet3/3是防火墻上電信線路的接口)。
DIP實例創建完畢后,需要建立Trust→DX_Untrust的策略,用來調用該DIP實例。點擊菜單Policy→Policies,選擇“From Trust to DX_Untrust”方向的策略,點擊“New”按鈕新建一條策略,“source”選擇“Any”,“Destination”選擇“Any”,“Service” 選擇“Any”,“Action”選擇“Permit”,然后點擊頁面下方的“Advanced”按鈕,進入高級設置。在NAT設置中選中“Source Translation”,后面下拉框中選擇剛才建立的電信DIP實例,其他選項保持默認即可。最后點擊“OK”保存并生效。
下一步需要將發布在聯通外網的服務器切換到電信鏈路,保證外網用戶能夠正常訪問這些服務器。下面以IP為10.100.1.23這臺服務器為例,方法如下:在防火墻的Web頁面,依次訪問菜單Network→Interface→ether net3/3→Edit,點擊上方的菜單“MIP”,點擊“New”按鈕,新建一個MIP實例,“Mapped IP”填寫給該服務器分配的電信地址221.239.110.146,“Host IP”填寫服務器的內網地址10.100.1.23,點擊“OK”保存。然后創建DX_Untrust→Trust方向的策略,調用該MIP實例,左邊菜單Policy→Policies,然后選擇“From DX_Untrust to Trust”方向的策略,點擊“New”按鈕新建一條策略,“source”選擇“Any”,“Destination”選 擇“MIP(221.239.110.146)”,“Service” 選擇“Any”,“Action”選擇“Permit”,其他選項保持默認,最后點擊“OK”保存并生效。若有其他服務器需要切換,參照此步驟進行。
既然發布在外網的服務器的IP發生了變化,下面就需要在公司外網DNS服務器(Linux平臺)上修改對應的解析記錄,方法如下。
利用SSH連接外網DNS服務器,然后使用root用戶登錄,輸入命令“vi /var/named/XXX.com.zone”,進入XXX域的數據解析文件,修改對應的A記錄,然后保存并退出該文件,最后輸入“rndc reload”使變更后的解析記錄生效。
最后需要修改內網DHCP服務器(Windows Server 2003)下發的DNS地址,需要從聯通DNS改為電信DNS,具體方法如下。
遠程桌面登錄DHCP服務器,打開DHCP控制臺,點擊對應的作用域,然后選中“作用域選項”,在右邊的展示框中選中“DNS服務器”,右鍵選擇“屬性”,將DNS服務器IP改為 219.150.32.132(電信DNS),點擊“確定”保存即可。如果有多個作用域,重復此步驟,全部修改完畢之后,通知用戶重啟電腦或者網卡,重新獲取IP配置,即可利用電信線路恢復上網。
5.上述步驟實施完畢后,Internet線路從故障狀態過渡為應急狀態,各項重要業務得到一定程度的恢復,但是由于備用線路帶寬只有20Mbps,如果并發用戶過多,很容易造成網絡擁塞而導致業務系統訪問緩慢,所以在主線路沒有恢復之前,必須利用流控設備對重要業務做帶寬保障,對非重要業務做帶寬限制,保證有限的帶寬資源用在“刀刃”上。
6.待聯通Internet線路修復后,還需要將網絡從應急狀態恢復到正常狀態,恢復操作的步驟相對簡單,只需要按照前五個步驟進行反向操作,即操作順序改為5→4→3→2→1、刪除電信線路相關配置、添加聯通線路相關配置,這樣就可回退到網絡最初的運行狀態。恢復操作完成后,還需要利用Traceroute命令檢測路由是否正確,同時利用帶寬測試工具來檢測網絡的質量,保證網絡狀態恢復成功。
對整個應急演練活動進行評估,總結經驗,改進不足。演練活動結束后,應急響應工作小組應該開展評估和總結,并將評估的結果提交上級領導。
一套完整的應急響應預案的形成并不是一蹴而就,由于網絡架構環境處于動態變化之中,相應安全事件的應急響應預案也必須隨之動態調整,制定、演練、更新,這樣不斷循環往復,可以形成一個良性的循環機制,保證應急響應預案的可行性,減少安全事故發生時的損失。