趙建凱

Wilson是某世界500強公司亞太區的CIO。財年剛過,公司的CFO就告訴他,由于整體經濟形勢未見好轉,公司決定減少在數據中心上的投入預算,大概同比縮減了20%左右,要他拿出具體的縮減方案來。
CFO剛走,CTO就又找上了門。因為今年公司要開發幾個大型的應用程序,CTO要求公司新添置一些高性能的服務器。一個是要省錢,一個是要花錢,這一“加”一“減”出來的“虧空”,都要靠他這個公司的CIO來“填補”上。除此之外,公司占地2000多平米的數據中心今年也迎來了第10個年頭。“需求在增加,數據中心又到了極限,經濟不景氣的原因又讓新建和升級數據中心的議程往后推遲——這些都讓人很頭疼。”Wilson無奈地說。
根據Gartner的一項長期跟蹤研究,現在許多大企業都在想方設法避免由于升級、擴建或搬遷數據中心帶來的成本。“大型數據中心的投入就算不耗資上億美元,至少也要耗資上千萬美元。由于數據中心通常每過5到10年就更新一次,這需要大筆資金,于是許多公司都在另辟蹊徑。”Gartner研究副總裁如是說。
解決能耗問題
縱然是煩惱在心,但Wilson在答復CFO和CTO時,都是一副禮貌的笑臉,并信心滿滿地說:“Im Wilson,and Will be soon.(相信我,很快就能搞定!)”
雖然口頭上說得如此輕松,但Winson在下面絲毫不敢懈怠,急忙做起了功課。他發現,在公司整個數據中心的運營成本中,電力消耗就占到了35%~45%,這著實讓他吃了一驚,盡管這種情況是傳統數據中心的常態。施耐德電氣的研究數據顯示,大部分傳統數據中心用電的 47% 都消耗在 IT 負載上,其余的電力都被制冷及照明等設備所消耗。換句話說,有53% 電力是被“浪費”的。
業界往往用PUE值來衡量數據中心里電力的使用效率,PUE=總能耗/有效利用能耗。“理論上說,設計合理的數據中心的PUE值應該在1.2到1.4之間。”施耐德電氣執行副總裁,APC總裁兼首席執行官Laurent Vernerey介紹。而Wilson經過計算后發現,自己公司數據中心的PUE值是2.13。
由此看來,要想縮減預算投入,就必須降低PUE的值,而第一任務便是提高數據中心的能效問題。“想要進一步提高數據中心的能效,首要的步驟是要對能效進行衡量。”Laurent Vernerey如是說。Wilson經過仔細“盤查”后發現,制冷系統是數據中心里與服務器一樣的另一只“電老虎”,耗電量甚至超過了服務器自身的能耗。
Wilson來到那2000多平米的數據中心,發現一些地方放置的設備過多,導致局部熱點的出現,從而嚴重消耗了電力和冷卻資源。他讓人調整了一下機柜的位置,改為背對背式排列,確保機柜背面的氣流暢通,并讓設備得到適當冷卻。他又讓冷風從機柜底部的前邊進入,從數據機柜后側排出。這種方式與上送風形式相比,可以讓空調風機耗電量節省30%。“只是簡單地挪了個位置,調整了一下進風風向,就讓我們省卻了購置更大功率空調系統和更多電力的成本。”Wilson自豪地說。
從業務應用上入手
通過降低PUE的值來縮減數據中心的運營成本是第一步。而且通過遍覽諸多大型跨國公司新建和擴建數據中心的案例,Wilson發現,獲得較低的PUE值往往都會帶來額外的成本投入。Wilson心里明白,省電只是“小把戲”,不足以達到CFO的要求,更與CTO的需求沾不上邊兒,關鍵的解決辦法還是要從業務應用上入手,從數據中心里挖掘出新的商業價值來——而這已經變得迫在眉睫,因為那一個要省錢一個要花錢的兩位“大佬”都在不同場合上有意無意地追問過他:“Wilson, it will be soon. Right?(快搞定了,是嗎?)”
從業務上入手,就要看數據中心之于公司業務的角色定位是什么。傳統上,業界通常按照規模來對數據中心加以分類,即:大、中、小。現在更具啟發意義的是按照使用需求來分類:第一類是把數據中心當成工具來使用;第二類是把數據中心當成一種投入;第三類是把數據中心當成自己核心的業務。
把數據中心當作自己的核心業務來運營的企業,比如Google、Amazon,會很在意數據中心前期的投入和實際的運營成本,同時會要求最終的整體投入更加高效。若把數據中心當成一種固定投入的機構,比如銀行、證交所等,會進一步要求數據中心有更高的可用性和可靠性。而對于一些中小企業而言,它們往往只是把數據中心當作一種工具,要求有很好的可用性就可以了。
Wilson思忖再三,決定要讓自己的數據中心在支持業務的可用性和可靠性上發揮出更多的價值,既讓CFO滿意,又讓CTO滿意。
在應用上,最先引起Wilson注意的是數據處理的成本。比如說,公司每周都會有定期的培訓和團隊建設活動,參加活動的人會使用公司的服務器、存儲系統和帶寬資源,來編輯、共享和長時間保留這些圖片和視頻。為了把數據中心從這些非關鍵性數據的處理中解放出來,Wilson在外部照片共享網站和視頻分享網站上各開設了一個企業賬戶,把管理那些照片、視頻的所有相關流程都轉移到外面網站。這樣一來,不但省掉了幾萬美元的存儲設備購買成本,還減輕了與高分辨率照片、大容量視頻有關的資源密集型活動給數據中心帶來的壓力,數據中心再也不必提供用于傳送視頻的專用帶寬和用于保留視頻的專用硬件了。“把非關鍵的、非核心的數據遷移出數據中心之后,就可以將存儲空間專門用于關鍵任務型項目。”Wilson說。而此舉更在CFO所要求的縮減方案上,添上了濃重的一筆。
同其他企業的CIO一樣,Wilson也想到了在數據中心里采用虛擬化技術,采用虛擬化技術可以騰出更多的場地,節省更多的電力和資源。經過測算,Wilson發現,公司的全部物理設備能夠支持近1000個虛擬服務器。
雖然虛擬化技術需要高性能、高密度的服務器,但是Wilson將這批機器整合成幾百臺節能的物理機器,又進一步降低了數據中心的總能耗,讓PUE值也進一步下降。
Wilson還清理了數據中心里“閑置”的服務器,這些服務器上僅僅運行著一兩個應用程序,利用率極其低下,但耗電量卻不低。“經過測量,我們發現這些服務器消耗的能量相當于它在滿負荷運行時候的50%~60%。”Wilson說。而且,舊服務器的效率往往比虛擬化項目的服務器低得多。
下面要做的就是滿足CTO的需求了。Wilson仔細想了想,其實CTO要求的更高的計算能力及更多的計算資源,并不必然意味著多花錢。
Wilson調查了一下公司開發和測試人員的計算資源使用率,結果發現,給他們提供多少資源,他們就會耗用多少資源。而且,他還發現一些被拋棄或已結束的測試和開發項目仍然在占用著資源。而有的時候,短時間內集中的測試和開發活動甚至能拖垮整個數據中心的運行。
清理出被閑置占用的資源后,Wilson專門在數據中心里開辟出了一個區域給CTO,并配備了符合開發和測試要求的、專門的服務器和存儲資源。他叮囑CTO,這塊領地只是暫時劃歸給他們專用,一旦開發項目結束,便會立即收回資源。他也看似不經意地提醒CTO要確保開發人員使用最嚴謹的代碼,因為那樣開發出來的應用程序才最高效。“這樣既合理調配了數據中心的計算資源,不必再去另外購置,又滿足了開發和測試的要求,并在一定程度上保證了開發效率,不啻為一個創新的好辦法。”Wilson說。
表面上來看,Wilson所做的這些都是在電力、空間、計算等資源方面的節省和改進。但從業務角度來看,這些措施其實對公司整個業務形成了有力的支撐。今天,公司業務的發展已經越來越離不開數據,而一個可以提供更高可靠性、可用性、安全性的數據中心,為企業帶來價值是遠遠超過能源的節省的。Wilson在數據中心里挖掘出來了更多的商業價值。