
北京時間 3 月 1 日凌晨,亞馬遜 AWS S3 服務突然出現故障,停擺四個多小時,影響了數千個在線服務,Netflix、Airbnb、Slack、Spotify、雅虎網絡郵箱等互聯網服務受到明顯影響。同時受到波及的一大批流行網站和服務,包括 Airbnb、 Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru 和 Zendesk 等。
科普一下:S3 主要負責托管網站的圖片或者整站,也有一些物聯網服務將應用后端放置在上面。有數據顯示,S3 托管著 148213 個網站和 121761 個獨立域名,幾乎都是美國網站。在前排前 100 萬的網站里,S3 的使用率為 0.8%,低于 CloudFlare 的 6.2%,但影響力依然巨大。
5 個小時之后,亞馬遜宣布所有服務恢復正常。
事后調查顯示,亞馬遜簡單存儲服務(S3)團隊當時在調試一個問題,該問題導致S3計費系統的處理速度比預期慢。上午9:37分,一名獲得授權的S3團隊成員使用預先編寫的playbook,執行一條命令。該命令旨在為S3計費流程中一個子系統刪除少量服務器。
不幸地是,輸入命令時輸錯一個字母,結果刪除了一大批本不該刪除的服務器。重新啟動時,S3無法處理服務請求。該區域依賴S3進行存儲的其他AWS服務也受到影響,包括S3控制臺、亞馬遜彈性云計算(EC2)、亞馬遜彈性塊存儲(EBS)以及AWSLambda。
據亞馬遜報告稱,云服務S3云存儲桶出現了“越來越高的錯誤率”,造成了AWS與主要網站和服務之間的連接中斷,之后影響迅速蔓延,政府、技術、銷售、市場、學術和電子商務網站不是停用,就是速度過慢以至于無法運行。
Commvault亞太區企業解決方案架構師李可表示:“亞馬遜AWS云服務宕機主要是在存儲層出現的故障,除了造成服務響應延遲或中斷之外,還可能造成數據的丟失,從而給用戶帶來巨大的經濟損失。對于企業用戶來說,在享受云服務帶來的便利的同時,也面臨著云服務宕機帶來的巨大挑戰。所以,企業需要根據自身的需求提前制定數據管理策略,并應用全面的數據管理解決方案,確保云中數據安全無虞。”
李可從以下四點闡述了云數據恢復的方法,幫助企業以更加有效的方式管理云中數據的安全。
1云數據恢復第一點:分區域管理數據
對于企業而言,可以把所有的數據都放在一個公有云上,但是需要在不同的區域進行完整的數據備份,并了解各區域數據所在的位置。如果某一區域的云服務發生中斷,企業可以在其他區域快速恢復數據,并且在服務中斷期間保證業務的正常運營。
這里的重點是數據備份。關鍵數據和服務必須在云內、各個云之間以及從云上進行備份,以確保數據始終可用。自動數據備份與數據備份驗證能夠確保云中數據的安全,減輕企業因宕機或中斷帶來的壓力。而Commvault數據備份解決方案可以借助一個Web的控制臺來管理多個應用、位置和環境的保護、保留和搜索功能,從而減低風險、復雜性和成本,提高可用性。
2云數據恢復第二點:掌握數據存儲的位置
鑒于本次亞馬遜S3 web宕機事件的經驗教訓,企業應該隨時掌握所有可訪問數據的位置。當數據遷移到公有云時,并不意味著各個區域的數據都得到了保護。所以,企業應該主動管理數據存儲,掌握數據所在的位置。
一旦云服務宕機或中斷,企業需要迅速了解哪些數據受到影響,從而能夠快速創建分析報告,找出故障,降低損失。所以,如果某一個地點發生中斷或宕機,企業可以在其他地點快速恢復數據。
數據備份或云數據恢復的點解決方案無法讓企業縱觀整體數據情況,一旦發生宕機或中斷,企業往往就會措手不及。Commvault數據管理方法可以提供一個跨越現代數據中心的物理、虛擬(VMware和Hyper-V)和云計算組件的一體化解決方案,融合了災難恢復、數據挖掘、合規搜索、滿足合規或監管要求等各種用途,是一種整體獨特和現代的數據管理方法,可以幫助企業應對復雜的數據保護的挑戰。
3云數據恢復第三點:制定數據恢復備用計劃
對于企業而言,如果你的數據都是亞馬遜AMI格式并且你的預置基礎架構是微軟Hyper-V或VMware,一旦發生宕機或中斷,將會怎樣?因此,無論是將本地數據備份到云,還是將云中數據備份到本地,企業都需要在主要地點之外保留一份數據副本。
企業需要在各地點和平臺之間遷移數據,而這種數據遷移的靈活性是目前任何原生云工具所不具備的。如果某一個地點不可用,企業需要能夠在本地、異地以及不同的管理程序平臺之間實現數據恢復。如果美國東1區不可用,企業需要能夠在本地或在AWS美國西區、微軟Azure、Oracle Cloud等平臺上恢復這些數據。通過Commvault,企業可以在本機上將工作負載遷移到任何地方-從內部到云平臺、從云平臺到云平臺、或者從云平臺回到內部。
最后再馬上制定數據管理策略
亞馬遜云停擺4小時,百度移動端和客戶端搜索也掛掉了30多分鐘,這一系列云服務宕機事件給需要數據保護的企業敲響了警鐘。許多企業IT團隊正在制定從云到本地、以及從云到云的數據策略。Commvault亞太區企業解決方案架構師李可表示:“企業需要根據自身的業務和要求,制定全面的數據保護方案,特別包括容災方案,盡可能規避單個節點或者單個中心導致的損失。“
作為一家領先的數據保護及信息管理解決方案提供商, Commvault的解決方案由一系列在數據保護與恢復、云計算、虛擬化、歸檔、文件同步與共享領域領先業界的產品組成,被廣泛部署在本地、移動平臺和云端,并提供軟件即服務型方案。作為獨立、值得信賴的行業專家,Commvault專注于數據管理和保護,積極與全球客戶探討云中數據管理,致力于為全球企業客戶提供最完善、全面的數據管理解決方案。endprint