十大云宕機事件敲響警鐘

2011-12-31 00:00:00JRRaphael

計算機世界 2011年26期

經過幾年的培育，云計算已經廣受用戶喜愛。借助云計算，用戶可以丟開笨重的服務器，在網絡天空里自由馳騁，甚至“云”本身這個名詞就給人一種躺在蓬松的云朵上的奇幻感覺。

但現實總是復雜的。擺脫了保管數據的麻煩，自然也喪失了對數據的控制權，隨之而來的自然是未知的安全隱患。事實上，沒有什么比云服務宕機時更可怕的了。

今年4月，亞馬遜服務器遭受了重大停機故障，直接影響到了大量使用亞馬遜云服務的廠商，這讓在這次事故前一個星期才剛剛注冊使用亞馬遜服務的Help Scout負責人Nick Francis心驚肉跳?！拔覀兒翢o準備，完全震驚了。”

“云計算正在被美化為一件神奇而又可靠的事物。”同樣提供云服務的Rackspace公司首席戰略官Lew Moorman指出，宕機是不可避免的，要確保自己不被這些錯誤影響，就要事先做好準備。

本期《云世界》專欄，我們特別介紹IT發展史上的十大云宕機事件，希望這十大事件引發的慘痛教訓，能使讀者從中吸取經驗，更謹慎地對待云計算。

亞馬遜云服務癱瘓

今年4月，亞馬遜公司在美國北弗吉尼亞州的云計算中心出現故障——在一次網絡升級中，當備份信息在尋找可嵌入的設備時，一個誤轉的通信位移傳送了一連串彈性持久存儲（EBS）的文件集，從而演化成一次重鏡像風暴。反常的一系列錯誤導致亞馬遜云服務癱瘓，美國東部多數公司因此受到嚴重影響。這次故障持續了整整4天，讓很多使用亞馬遜云服務的公司苦苦掙扎。

但同時，以Netflix為代表的部分企業卻對此事件應對自如。這些企業幸存的關鍵在于，它們在已有失敗的經驗上重新設計了系統?！拔覀兊脑O計師拒絕使用EBS作為主要的數據存儲服務器，主要依賴SimpleDB、S3和Cassandra的服務器，因此沒有受到宕機的影響?！盢etflix的工程師表示。

Sidekick手機關機事件

智能手機能讓用戶在旅途中輕松獲得信息，但其名稱中的“智能”兩字并不能保證它就不會犯傻。在2009年秋季，T-Mobile的Sidekick手機就搞砸過一次。當時，微軟旗下的Sidekick手機遭受了將近一周的服務中斷，導致用戶無法訪問電子郵件、日歷信息和其他個人數據。更加雪上加霜的是，微軟承認它已完全丟失了存儲在云端的數據，也無法進行恢復。這次事故讓用戶的數據遭受了嚴重的損失。

Gmail的失誤

所有云服務中，Google Gmail最有可能威脅到微軟的行業地位，但Gmail也不是絕對靠譜的。最近，當15萬個Gmail用戶登錄到Gmail賬戶時，呈現在他們面前的是一片空白——沒有電子郵件、沒有文件夾，用戶們完全看不出來是在查收自己的收件箱。在事故發生后，Google承諾將迅速修復漏洞，但結果是，一些受影響用戶的賬戶恢復時間長達4天。

事實上，Google在多個數據中心保存有用戶數據副本，這事怎么可能發生？對于這個問題，Google的工程副總裁Ben Treynor在博客中解釋道：“在一些罕見的情況下，軟件錯誤可以影響數據的多個副本，而這次事故就是源于軟件錯誤?！?/p>

Hotmail的大麻煩

在Google之外，微軟也沒有為推廣云計算做出很好的表率。在2010年底和2011年初，由于Hotmail服務數據庫錯誤，數以萬計的Hotmail用戶也遭遇了“空收件箱”問題。

根據微軟的解釋，這次Hotmail錯誤源于一個腳本錯誤，它原本是用來刪除為自動化測試創建的虛擬賬戶，卻錯誤地針對了1.7萬個真實賬戶。最終，微軟花了3天時間來還原大多數用戶的服務，另外有8%的受害用戶還多等了3天才拿回自己的數據。

Intuit兩次中斷

Intuit去年很不走運：在短短一個月內，其基于云的服務接連宕機了兩次，包括TurboTax、Quicken和QuickBooks等大受歡迎的平臺。最糟糕的情況是，6月份Intuit宕機了整整36個小時。問題的起因是，電源故障導致該公司的主系統和備用系統從電網完全斷開。

屋漏偏逢連夜雨，幾個星期后Intuit遭遇了另一次明顯的電源故障。除了帶來相關問題外，第二次宕機還引起眾多用戶在網上大爆粗口。一個用戶在Twitter上發了這樣的消息：“宕機25個小時讓人很難接受。Intuit的一套被動的、缺乏透明的、死板的溝通方法無濟于事。”

“事實上，如果你需要絕對的穩定性和安全性，有比單獨采用云計算更好的解決方案。”惠普安全優勢項目首席策略師Chris Whitener表示，“這不是說要復制一切，只需要多做一步——自己備份重要數據，這可以省去很多麻煩?！?/p>

微軟的BPOS危機

如果基于云的生產力套件無法使用，工作效率就很難有保障。兩個月前，依賴微軟商業云服務解決方案的公司企業就遭到了這種情況：微軟商業生產力在線標準套件（Business Productivity Online Standard Suite，簡稱BPOS）服務在5月10日前后開始停頓。結果，付費客戶的電子郵件被延遲了長達9個小時才發送。

兩天后，就在BPOS故障看似已經修復時，郵件延遲發送的毛病又來了，發出去的郵件開始堆積如山。接下來，更糟糕的事情又發生了：用戶開始無法登錄到微軟基于互聯網的Outlook門戶網站。

Salesforce服務中斷

一個小時的斷網故障聽起來或許并不嚴重。但是，如果你的公司掌握著數萬家企業客戶服務業務的命脈，這60分鐘對于不少企業相當于一個生命周期。

當Salesforce.com的數據中心在去年1月宕機時，它對此可是深有體會。新年過后4天，Salesforce.com就宣布遇到了徹底的故障——這意味著服務、備份和其他一切都完蛋了。

令人抓狂？絕對如此。令人驚訝？不完全是?？履峥滥苓_公司旗下All Covered部門的首席信息官Tim Crawford表示：“現實情況是，基于云的數據中心同樣會停止運行。過去一向如此，將來也是如此。我們一定要從現實的角度看待這個問題?！?/p>

Terremark的悲劇

最近，云服務提供商Terremark與Verizon之間的10億美元的交易成為了重要新聞。但在2010年初，人們關注的主要是Terremark斷網事故。

2010年3月17日，這一天也是西方的重大節日圣帕特里克節，Terremark的厄運來了。該公司的vCloud Express服務在那一天急轉直下，位于邁阿密的數據中心斷網了大約7個小時。在這段時間里，用戶無法訪問存儲在這個數據中心的數據。

盡管業界都認同不要過于追求冗余，但這起事件還是表明了冗余機制的重要性——要將企業的關鍵數據放在不同數據中心的多臺服務器上；或者更安全的做法是，放在不同地區的多臺服務器上。

PayPal停滯故障

想要看看引起廣泛嚴重影響的云斷網故障嗎?設法讓PayPal斷網幾個小時就可以。

這不是假設的演習： PayPal在2009年夏季真的宕機了，導致全球數百萬商戶無法銷售商品。PayPal服務在大約一個小時內完全崩潰，在后來的幾個小時里依舊是斷斷續續。PayPal稱，這次事故的起因是硬件故障。

Rackspace遭遇坎坷年

如果你為像美國科技博客TechCrunch和流行音樂天王Justin Timberlake這樣的知名網站和網絡紅人提供云服務，最好還是相信這一點：一旦你的服務器停止運行，人們肯定會注意到。

Rackspace在2009年數次汲取了這個教訓。這家云服務提供商在那一年先后遭到了4次重大的服務故障，導致其眾多客戶出現長達數小時的停機。每次故障就足以讓Rackspace不得不向用戶支付相當于近300萬美元的服務折扣。

小貼示

技術可以改進，教訓也不能忘記。用戶必須清醒地意識到，對于關鍵數據，千萬不要以為別人會自發保護它們。在選用云供應商時，一定要了解它們的災難恢復解決方案。而最萬無一失的，當然是自己獨立備份重要數據。

你可以選擇一系列提供商來托管工作負載——某一兩家提供商充當后備提供商，另一家提供商充當主提供商。然后，你以一種安全的方式將工作負載部署到那里，確保合適的安全機制，隨后開始添加你的彈性功能。

計算機世界2011年26期

計算機世界的其它文章: 惠普激光一體機要當“智慧全能王”; 航天數字傳媒衛星數字發行是大勢所趨; 巴法絡推出全新移動硬盤; 貴州移動:讓新農合享用云服務; 物聯網基石:傳感器和傳感網; 中小企業也要虛擬桌面