做好災(zāi)難恢復(fù)計(jì)劃

2018-03-03 12:30:41

網(wǎng)絡(luò)安全和信息化 2018年2期

宕機(jī)事件對(duì)公司的業(yè)務(wù)、信譽(yù)、客戶體驗(yàn)以及信任等方面所造成的代價(jià)從未如此高昂。由于考慮到軟件驅(qū)動(dòng)業(yè)務(wù)的持續(xù)性和關(guān)聯(lián)性，客戶和用戶們?cè)絹?lái)越不能容忍災(zāi)難和故障的發(fā)生。而某種服務(wù)的故障可能影響到其所有的用戶。同時(shí)多用戶平臺(tái)發(fā)生故障的破壞力越來(lái)越大，因?yàn)樗绊懙皆谄脚_(tái)上運(yùn)行其服務(wù)的所有服務(wù)供應(yīng)商。

在難以預(yù)測(cè)的大事件與小宕機(jī)事件之間尋求平衡

隨著對(duì)設(shè)計(jì)災(zāi)難恢復(fù)方案的重視，企業(yè)容易關(guān)注如何防止大的災(zāi)難和故障。這種難以預(yù)測(cè)的不尋常事件往往對(duì)服務(wù)的可用性帶來(lái)極其巨大的幾乎是災(zāi)難性的影響。這種影響的范圍很廣，換言之，這種影響可能延長(zhǎng)服務(wù)發(fā)生災(zāi)難的持續(xù)時(shí)間，也可能增加數(shù)據(jù)丟失的數(shù)量。這種影響規(guī)模巨大，而那些較輕的不太常發(fā)生的宕機(jī)事件就可能被忽略。

企業(yè)需要注意判定、發(fā)現(xiàn)和防止那些發(fā)生頻率越來(lái)越高的小故障。這些小的宕機(jī)事件可能會(huì)隨著時(shí)間的推移而累積，并且會(huì)完全破壞服務(wù)可用性的目標(biāo)。對(duì)于災(zāi)難恢復(fù)而言，可用的選擇包括本地的災(zāi)難恢復(fù)解決方案，也可以是基于云的災(zāi)難恢復(fù)方案，后者利用的是一些大型的云運(yùn)營(yíng)商的基礎(chǔ)架構(gòu)和平臺(tái)的功能。

小宕機(jī)事件的代價(jià)

小宕機(jī)事件的代價(jià)容易累積。頻繁的宕機(jī)可能會(huì)增加大量用戶受影響的可能性。此外，同樣一個(gè)用戶被故障或宕機(jī)時(shí)間重復(fù)影響的可能性也會(huì)增加。這種頻繁的宕機(jī)會(huì)破壞對(duì)服務(wù)的信任。反復(fù)的宕機(jī)時(shí)間會(huì)令人經(jīng)常感覺(jué)到不快。客戶可能會(huì)不再增加業(yè)務(wù)的規(guī)模，甚至決定不再續(xù)約。依賴每月帶來(lái)收入或每年帶來(lái)收入的SaaS業(yè)務(wù)極易受到頻繁的小型宕機(jī)事件的影響。

形成彈性的關(guān)鍵能力

如果企業(yè)謀求針對(duì)重大和小型的宕機(jī)事件形成彈性，不妨重視形成和維護(hù)如下方面的能力。

連續(xù)備份

提供通信服務(wù)的所有關(guān)鍵系統(tǒng)都應(yīng)持續(xù)不斷地備份。除了以一種REST的方式設(shè)計(jì)外，這些服務(wù)所生成、更新和維護(hù)的數(shù)據(jù)都應(yīng)連續(xù)地備份到本地集中化的或是基于云的災(zāi)難恢復(fù)系統(tǒng)中。在不影響服務(wù)質(zhì)量和系統(tǒng)的前提下，應(yīng)盡可能地頻繁備份。同時(shí)，備份應(yīng)是遞增的，基于快照的，以提供靈活性和在任何時(shí)間和任何宕機(jī)事件中恢復(fù)的能力。此外，備份應(yīng)是多層級(jí)的，以確保備份系統(tǒng)不會(huì)受到影響主要系統(tǒng)的相同故障的影響。

持續(xù)監(jiān)視

企業(yè)應(yīng)當(dāng)持續(xù)地監(jiān)視提供通信服務(wù)的所有關(guān)鍵系統(tǒng)。這對(duì)于確保盡快地檢測(cè)故障或?yàn)?zāi)難并立即實(shí)施災(zāi)難恢復(fù)至關(guān)重要。與備份類(lèi)似，在實(shí)施監(jiān)視時(shí)，如果同樣的故障已影響了主要的服務(wù)，就不能在這種系統(tǒng)上實(shí)施。同樣，客戶的反饋系統(tǒng)也需要監(jiān)視，以獲得故障報(bào)告。在報(bào)告開(kāi)始到達(dá)或在監(jiān)視系統(tǒng)發(fā)出故障警告時(shí)，應(yīng)確認(rèn)故障并實(shí)施災(zāi)難恢復(fù)。

失效轉(zhuǎn)移

在檢測(cè)到災(zāi)難、生成報(bào)告并確認(rèn)時(shí)，就應(yīng)啟動(dòng)失效轉(zhuǎn)移過(guò)程，啟用新服務(wù)器從而繼續(xù)提供通信服務(wù)。這種失效轉(zhuǎn)移的完成是經(jīng)由確保新服務(wù)器承擔(dān)受宕機(jī)影響的服務(wù)器的角色而實(shí)現(xiàn)的。

管理員應(yīng)當(dāng)對(duì)失效轉(zhuǎn)移服務(wù)器進(jìn)行配置，使其能夠訪問(wèn)通信服務(wù)狀態(tài)和信息的備份。

自動(dòng)恢復(fù)

在宕機(jī)時(shí)間結(jié)束并且主要服務(wù)環(huán)境中的底層問(wèn)題被診斷、修復(fù)、確認(rèn)修復(fù)后，自動(dòng)恢復(fù)過(guò)程應(yīng)當(dāng)將所有的服務(wù)恢復(fù)到主要環(huán)境中。在確認(rèn)自動(dòng)恢復(fù)過(guò)程成功后，自動(dòng)恢復(fù)服務(wù)器即可被回收再利用。

結(jié)論

很多管理員認(rèn)為并未實(shí)現(xiàn)服務(wù)的可用性，并承認(rèn)在過(guò)去的一年中經(jīng)歷過(guò)不少宕機(jī)事件。宕機(jī)的頻發(fā)要求認(rèn)真規(guī)劃和設(shè)計(jì)，只有這樣才能減輕其威脅，并且確保快速的恢復(fù)。企業(yè)面臨很多選擇，應(yīng)當(dāng)認(rèn)真評(píng)估和選擇最適合自己需要的方案，并確保檢測(cè)不可預(yù)料的宕機(jī)事件的敏捷性和快捷恢復(fù)。