經過幾年的培育,云計算已經廣受用戶喜愛。借助云計算,用戶可以丟開笨重的服務器,在網絡天空里自由馳騁,甚至“云”本身這個名詞就給人一種躺在蓬松的云朵上的奇幻感覺。
但現實總是復雜的。擺脫了保管數據的麻煩,自然也喪失了對數據的控制權,隨之而來的自然是未知的安全隱患。事實上,沒有什么比云服務宕機時更可怕的了。
今年4月,亞馬遜服務器遭受了重大停機故障,直接影響到了大量使用亞馬遜云服務的廠商,這讓在這次事故前一個星期才剛剛注冊使用亞馬遜服務的Help Scout負責人Nick Francis心驚肉跳?!拔覀兒翢o準備,完全震驚了。”
“云計算正在被美化為一件神奇而又可靠的事物。”同樣提供云服務的Rackspace公司首席戰略官Lew Moorman指出,宕機是不可避免的,要確保自己不被這些錯誤影響,就要事先做好準備。
本期《云世界》專欄,我們特別介紹IT發展史上的十大云宕機事件,希望這十大事件引發的慘痛教訓,能使讀者從中吸取經驗,更謹慎地對待云計算。
亞馬遜云服務癱瘓
今年4月,亞馬遜公司在美國北弗吉尼亞州的云計算中心出現故障——在一次網絡升級中,當備份信息在尋找可嵌入的設備時,一個誤轉的通信位移傳送了一連串彈性持久存儲(EBS)的文件集,從而演化成一次重鏡像風暴。反常的一系列錯誤導致亞馬遜云服務癱瘓,美國東部多數公司因此受到嚴重影響。這次故障持續了整整4天,讓很多使用亞馬遜云服務的公司苦苦掙扎。
但同時,以Netflix為代表的部分企業卻對此事件應對自如。這些企業幸存的關鍵在于,它們在已有失敗的經驗上重新設計了系統?!拔覀兊脑O計師拒絕使用EBS作為主要的數據存儲服務器,主要依賴SimpleDB、S3和Cassandra的服務器,因此沒有受到宕機的影響?!盢etflix的工程師表示。
Sidekick手機關機事件
智能手機能讓用戶在旅途中輕松獲得信息,但其名稱中的“智能”兩字并不能保證它就不會犯傻。在2009年秋季,T-Mobile的Sidekick手機就搞砸過一次。當時,微軟旗下的Sidekick手機遭受了將近一周的服務中斷,導致用戶無法訪問電子郵件、日歷信息和其他個人數據。更加雪上加霜的是,微軟承認它已完全丟失了存儲在云端的數據,也無法進行恢復。這次事故讓用戶的數據遭受了嚴重的損失。
Gmail的失誤
所有云服務中,Google Gmail最有可能威脅到微軟的行業地位,但Gmail也不是絕對靠譜的。最近,當15萬個Gmail用戶登錄到Gmail賬戶時,呈現在他們面前的是一片空白——沒有電子郵件、沒有文件夾,用戶們完全看不出來是在查收自己的收件箱。在事故發生后,Google承諾將迅速修復漏洞,但結果是,一些受影響用戶的賬戶恢復時間長達4天。
事實上,Google在多個數據中心保存有用戶數據副本,這事怎么可能發生?對于這個問題,Google的工程副總裁Ben Treynor在博客中解釋道:“在一些罕見的情況下,軟件錯誤可以影響數據的多個副本,而這次事故就是源于軟件錯誤?!?/p>
Hotmail的大麻煩
在Google之外,微軟也沒有為推廣云計算做出很好的表率。在2010年底和2011年初,由于Hotmail服務數據庫錯誤,數以萬計的Hotmail用戶也遭遇了“空收件箱”問題。
根據微軟的解釋,這次Hotmail錯誤源于一個腳本錯誤,它原本是用來刪除為自動化測試創建的虛擬賬戶,卻錯誤地針對了1.7萬個真實賬戶。最終,微軟花了3天時間來還原大多數用戶的服務,另外有8%的受害用戶還多等了3天才拿回自己的數據。
Intuit兩次中斷
Intuit去年很不走運:在短短一個月內,其基于云的服務接連宕機了兩次,包括TurboTax、Quicken和QuickBooks等大受歡迎的平臺。最糟糕的情況是,6月份Intuit宕機了整整36個小時。問題的起因是,電源故障導致該公司的主系統和備用系統從電網完全斷開。
屋漏偏逢連夜雨,幾個星期后Intuit遭遇了另一次明顯的電源故障。除了帶來相關問題外,第二次宕機還引起眾多用戶在網上大爆粗口。一個用戶在Twitter上發了這樣的消息:“宕機25個小時讓人很難接受。Intuit的一套被動的、缺乏透明的、死板的溝通方法無濟于事。”
“事實上,如果你需要絕對的穩定性和安全性,有比單獨采用云計算更好的解決方案。”惠普安全優勢項目首席策略師Chris Whitener表示,“這不是說要復制一切,只需要多做一步——自己備份重要數據,這可以省去很多麻煩?!?/p>
微軟的BPOS危機
如果基于云的生產力套件無法使用,工作效率就很難有保障。兩個月前,依賴微軟商業云服務解決方案的公司企業就遭到了這種情況:微軟商業生產力在線標準套件(Business Productivity Online Standard Suite,簡稱BPOS)服務在5月10日前后開始停頓。結果,付費客戶的電子郵件被延遲了長達9個小時才發送。
兩天后,就在BPOS故障看似已經修復時,郵件延遲發送的毛病又來了,發出去的郵件開始堆積如山。接下來,更糟糕的事情又發生了:用戶開始無法登錄到微軟基于互聯網的Outlook門戶網站。
Salesforce服務中斷
一個小時的斷網故障聽起來或許并不嚴重。但是,如果你的公司掌握著數萬家企業客戶服務業務的命脈,這60分鐘對于不少企業相當于一個生命周期。
當Salesforce.com的數據中心在去年1月宕機時,它對此可是深有體會。新年過后4天,Salesforce.com就宣布遇到了徹底的故障——這意味著服務、備份和其他一切都完蛋了。
令人抓狂?絕對如此。令人驚訝?不完全是??履峥滥苓_公司旗下All Covered部門的首席信息官Tim Crawford表示:“現實情況是,基于云的數據中心同樣會停止運行。過去一向如此,將來也是如此。我們一定要從現實的角度看待這個問題?!?/p>
Terremark的悲劇
最近,云服務提供商Terremark與Verizon之間的10億美元的交易成為了重要新聞。但在2010年初,人們關注的主要是Terremark斷網事故。
2010年3月17日,這一天也是西方的重大節日圣帕特里克節,Terremark的厄運來了。該公司的vCloud Express服務在那一天急轉直下,位于邁阿密的數據中心斷網了大約7個小時。在這段時間里,用戶無法訪問存儲在這個數據中心的數據。
盡管業界都認同不要過于追求冗余,但這起事件還是表明了冗余機制的重要性——要將企業的關鍵數據放在不同數據中心的多臺服務器上;或者更安全的做法是,放在不同地區的多臺服務器上。
PayPal停滯故障
想要看看引起廣泛嚴重影響的云斷網故障嗎?設法讓PayPal斷網幾個小時就可以。
這不是假設的演習: PayPal在2009年夏季真的宕機了,導致全球數百萬商戶無法銷售商品。PayPal服務在大約一個小時內完全崩潰,在后來的幾個小時里依舊是斷斷續續。PayPal稱,這次事故的起因是硬件故障。
Rackspace遭遇坎坷年
如果你為像美國科技博客TechCrunch和流行音樂天王Justin Timberlake這樣的知名網站和網絡紅人提供云服務,最好還是相信這一點:一旦你的服務器停止運行,人們肯定會注意到。
Rackspace在2009年數次汲取了這個教訓。這家云服務提供商在那一年先后遭到了4次重大的服務故障,導致其眾多客戶出現長達數小時的停機。每次故障就足以讓Rackspace不得不向用戶支付相當于近300萬美元的服務折扣。
小貼示
技術可以改進,教訓也不能忘記。用戶必須清醒地意識到,對于關鍵數據,千萬不要以為別人會自發保護它們。在選用云供應商時,一定要了解它們的災難恢復解決方案。而最萬無一失的,當然是自己獨立備份重要數據。
你可以選擇一系列提供商來托管工作負載——某一兩家提供商充當后備提供商,另一家提供商充當主提供商。然后,你以一種安全的方式將工作負載部署到那里,確保合適的安全機制,隨后開始添加你的彈性功能。