觀 點
我們應該相信服務提供商會盡可能提供最好的服務,但卻不可盡信其做出的種種保證。IT企業要做好應對任何突發狀況的準備,不能完全依賴于服務提供商。
7月24日,著名的Craigslist社區從互聯網上“消失”了。隨后,LiveJouranl和Technorati也不見了。據說包括CNET.com和第二生命等很多網站也都消失了一段時間。怎么了?他們共用的數據中心由于停電癱瘓了。就這么簡單。要不是數據中心會受此影響,他們可能永遠也不會擔心停電問題。
數據中心提供商365 Main公司,也就是舊金山“大癱瘓”中受到影響最大的設備擁有者,它最重要的營銷賣點就是向用戶提供永續的電力。一旦地區供電出現了問題,它那10.3萬馬力的柴油發電機組將自動運行,直到穩定電力恢復。
過去,365 Main公司一直是這樣做的。但這次卻有些不同。當天,外部電力開始瘋狂變動。附近的地下變壓器爆炸了。舊金山市區的大部分區域都停電了,包括金融區。受到影響的客戶至少有5萬個。由于某些原因——這些原因365 main公司正在調查之中,有些備用發電機沒有按照預期計劃運行,工程師花了45分鐘才手動使這些發電站再次運行。
到那時為止,365 Main公司20%~40%的客戶,包括Craigslist和LiveJournal已經蒙受了損失。他們的服務器突然癱瘓,公司所依賴的“神奇的”、“永續的”服務并沒有出現,那些服務器不得不緩慢地、小心地再次啟動。
運氣好的,斷線時間只有這幾個小時。但即使只是幾個小時,對他們而言,“魔法”也消失了。而對其他人更是如此。
是我們該接受殘酷事實的時候了。事故總會出現的。無論我們如何計劃以防萬一,事故還是會出現的。人算不如天算,無論我們付錢給誰來處理事故,也無論我們付多少錢給他,更無論他們曾向我們做過什么樣的承諾。
任何設置和外包都沒有用——至少在我們期望他們能夠解決商業可持續性方面是沒用的。他們做不到這點。他們沒有這個能力,我們也不能完全指望他們去做這項工作。實際上,我們應該假設他們不會這樣做,然后做出相應的計劃。
這次的事件就是最好的證明,即使像365 Main公司這樣保證永不斷電的公司在事故發生后,也很難采取任何措施。他們的承諾沒有兌現,問題不是失去了銷量和顧客,而是失去了信心。
那么,外包就是一個錯誤的舉措嗎?當然不是。只是過分相信承包商是錯誤的。
我們必須相信他們會盡其所能。否則,我們就無法和他們做生意。但不管他們色彩絢麗的宣傳冊說什么,我們也必須保持清醒,始終牢記他們不是完美的, 我們可以移交工作,但我們不能將公司的IT責任也移交給別人,這還是我們自己的。
這意味著我們不能外包一個個不眠夜;我們不能不考慮突發狀況和種種小概率事件。談到可靠性,擔心是好的。信賴?不那么好。
本來,365 Main公司的顧客之一,在線零售商RedEnvelope有個很好的主意。RedEnvelope在俄亥俄州維持著一個支持數據中心,以避免上周出現的那種問題所帶來的后果。
但由于兩年來舊金山都沒出過任何問題,365 Main公司發布了一條新聞,宣布RedEnvelope關閉了俄亥俄州的備用設施。那是在7月24日早晨宣布的,當天下午,RedEnvelope掉線了。