在今年“雙11”期間,除了電商們忙東忙西的促銷活動和徹夜狂歡的買家“剁手黨”,對IT 圈來說,恐怕最忙的要屬運維人員了。
像“雙11”這樣的典型場景,不僅是對數據中心各種設備的考驗,同時也是對背后技術服務及運維人員的挑戰。
對此,UCloud“重保”項目組是深有體會,在他們眼中,“雙11”不止是24小時,而是整整籌備了3個月,可謂是歷經“上弦月-滿月-下弦月”的3 次循環。
這種典型高并發峰值的業務,通常面臨性能、鏈路、容量、容災、安全等挑戰。“重保”項目組的存在就是為了協助客戶穩定的度過業務高峰,他們在其中扮演非常重要的角色。通常來說,為應對這種突如其來的高并發場景,需要在活動的前、中、后期,都要能夠提供包括技術和人員上的全力支持。
在活動前期,銷售人員和服務經理就要深入客戶,了解業務特性、活動推廣模式、業務QPS 等情況,制定雙11大促保障方案,把控全盤。
而此時,后端技術團隊也要相應跟進,進行分工協作。比如,小M 同學負責數據庫風險排查、數據庫瓶頸分析并輸出優化方案,小L 同學負責NATGW 風險規避以及細化監控參數,大M 同學負責資源容量規劃,Noc 團隊負責資源結構性調控……
此外,技術服務專家組全程緊盯雙11 期間的“大盤”情況,全力支撐整點秒殺、福袋領取、五折搶購等“巔峰時刻”,為客戶提供強力的后盾。
最終,UCloud“重保”項目組保障客戶大促活動圓滿完成。
其實不僅是“雙11”活動,新游戲開服、視頻直播、紅包秒搶等等,在一年中客戶經常會遇到類似這樣的高并發場景,在應對工作上類似,但也有所區分。
例如,在針對UCloud“重保”項目組遇到的另一個明星線上給用戶派發紅包活動中,服務經理需要提前與客戶運維團隊溝通紅包活動特性、業務需求(峰值、并發量等)、核實重點資源等,同時結合歷史活動數據、構建紅包業務增長與資源負載上升的數據模型,并且根據客戶當前架構制定容災調度預案。
而后端技術團隊根據客戶活動期間的流量及負載情況進行相應的調度優化,并根據客戶業務狀況和活動規劃,在活動期間持續輸出數據庫等產品的優化建議,全力支撐每一個明星“撒幣”時刻,而流量明星則考驗著IT 系統的“流量”極限。
技術服務團隊則定點定時密切關注大盤情況,與后端技術團隊保持聯動。同時依據活動期間每日發生的問題、資源使用情況等信息進行相應梳理并提供業務日報。
就是這樣,UCloud 重保項目組幫助客戶一次次平穩度過了流量“巔峰”,在完成客戶托付的同時,UCloud 重保項目組也一次次在挑戰中得到成長。