林湧雙,丘文博
(中國移動通信集團南方基地 廣州510640)
IDC(internet data center,互聯網數據中心)作為互聯網的信息處理中樞,是信息社會和大數據時代不可或缺的基礎性公眾設施。當前,隨著移動互聯、電子商務、云計算與云存儲等互聯網業務的廣泛興起,IDC需求量激增,全球范圍內掀起了大規模建設IDC的浪潮,并且新建的IDC也越來越趨于大型化。然而,由于傳統模式的IDC在節能方面考慮不周,其需要消耗巨量的電力,這嚴峻地考驗著各地區的能源供給能力。據估計,到2015年,我國的IDC年均消耗電量將達到1000億千瓦時,等同于三峽電站的年發電量[1]。因此,革新IDC設計模式、降低IDC能耗和運營成本,已經成為數據中心業界一個相當現實和迫切的課題[2,3]。
在傳統模式的IDC中,致冷系統(由冷水機組、精密空調、水泵、風機、冷卻塔等組成)(筆者注:此為“致冷”非“制冷”,為表明本文所提新方案中CPU散熱采用自然冷源而非冷水制備,以示差異)消耗了一半左右的能量[4],是最耗費能量的輔助系統。為了減少其能耗,業內研究團隊一直嘗試的突破方向有兩種:一種是將供冷的顆粒度不斷細化,從傳統的“房間級致冷”轉換到“行級致冷”乃至“機柜級致冷”[5],其基本技術思路均在于如何提升供冷精確度、隔離冷熱通道、減少冷量泄漏進而減少浪費;另一種是引入自然冷源,機房內外的冷熱空氣在轉輪或熱管的作用下隔離傳遞冷量,甚至將機房外的冷空氣清潔后直接對服務器進行致冷。然而,這兩種方向均屬于“非接觸式”單一通道致冷模式,改變不了空氣換熱能力差、致冷通道熱阻高、致冷系統工作溫度低的缺陷,前者擺脫不了壓縮機,后者適用的區域及時間段少,故而節能效果有限。
本文從傳熱學的傅里葉定律出發,基于服務器內部的集中式熱源和分散式熱源(具體定義見第3.2節)的不同特性,首次提出了由“接觸式”和“非接觸式”兩個具有顯著熱阻差異的通道組成的“雙通道”數據中心致冷模式。其中,“接觸式”致冷通道針對CPU建立了“熱管水冷模塊+冷卻塔”的高效直排式致冷通道,全程去除壓縮機,可充分利用自然冷源。同時,通過研制“熱管水冷服務器”樣機并開展系統測試工作,初步驗證了“雙通道”致冷模式的可行性、可靠性和經濟性,同時得出了“可利用自然冷源對服務器CPU進行‘接觸式’致冷”的關鍵結論。
對于傳統的“非接觸式”單一通道致冷模式,其基本原理可以由圖1表示。
這些類型致冷模式的不足之處如下。
(1)服務器端散熱效率低
由于空氣比熱容小、換熱能力差,所以IDC機房內需要使用大量的空氣來完成服務器端的散熱;在開放式送風的條件下,需要配置大功率風機和風扇來驅動空氣快速循環。
(2)要求較低的環境溫度
圖1(a)代表的系統中,由于要求機房內的環境溫度保持在22℃左右(若提高環境溫度,則風機和風扇需要消耗更多能量以輸出足夠風量),需要使用7℃的中溫冷凍水來冷卻循環空氣,所以IDC機房需配置中溫冷水機組,其中的壓縮機處于深度壓縮循環狀態,從而需要消耗大量的能量。
(3)存在“熱島”現象
服務器內部發熱不均勻、CPU發熱密度高,造成局部區域供冷不足,在高負載率條件下CPU溫度甚至可能高至引發系統癱瘓。同時,若長期處于高溫工作狀態,將降低CPU乃至服務器整機的性能和壽命(業內經驗認為每提高10℃的溫度將導致服務器壽命減少一半)。
(4)適用范圍窄和附屬系統體積龐大
圖1(b)代表的系統中,其正常運行所需要的條件是大氣溫度為20℃以下,這決定了其只適用較少的區域和時間段。同時,由于利用空氣作為機房內外的傳熱介質,要求IDC配備大體積的管道、轉輪、熱管系統和除酸、除塵等附屬設施,機房面積利用率低。
數據中心的致冷過程遵循傳熱學基本原理。由傅里葉定律可知[6],一維宏觀條件下熱流與溫差、熱阻的關系為:

即:若熱通道的熱阻為R(單位為℃/W),為了排走熱流Q(單位為W),則熱通道兩端須加以ΔT(單位為℃)的溫差。在數據中心致冷系統中,要么提高致冷通道溫差(一般是降低系統工作溫度),要么降低致冷通道的熱阻,才能高效地排出熱流。
不同換熱方式的熱阻具有數量級的差別。在同樣的換熱面積條件下,假設“空氣—固體”之間的換熱熱阻為歸一量“1”,則“水—固體”之間的換熱熱阻可低至0.01,“固體—固體”之間的接觸換熱熱阻可低至0.001[7],而“水相變—固體”之間的換熱熱阻可更進一步低至0.001~0.000 1。可見,在數據中心致冷系統設計中,從提高致冷效率的角度考慮,采用傳統的空氣導熱方式進行致冷是不經濟的。

圖1 “非接觸式”致冷模式的兩種原理
需要指出的是,上述熱阻R與流體(空氣、水等)的流速有著密切的關系:流體的流速越高,則流體內部就能夠越快地形成均溫,越有利于將熱端的熱流高效地吸收過來,進而宏觀表現為熱阻越低。然而,由于驅動流體流動需要消耗電機能量,故數據中心也不能無限提高流體的流速。
服務器是數據中心的核心負載和業務樞紐,同時也是數據中心的主要熱量散發源。在服務器內部,可將所有發熱源劃分為兩類。
·集中式熱源,指CPU,其特點是熱流密度高,發熱量大,占服務器發熱量的65%左右。
·分布式熱源,指除CPU以外的服務器組件,其特點是熱流密度低,發熱量占服務器發熱量的35%左右。
對于這兩類熱源,傳統的“非接觸式”單一通道致冷模式未能區別對待,而是統一使用冷空氣來將發熱量帶走,導致了對機房環境溫度要求苛刻并且效率低下:對于集中式熱源,由于發熱量大并且“空氣—芯片”換熱模式熱阻大,空氣與芯片之間需要建立巨大的溫差(溫差為30℃~50℃,一般環境溫度為22℃左右)以維持服務器的有效散熱和正常工作。
針對集中式熱源,建立“接觸式”高效致冷通道,采用“熱管水冷模塊”直接將熱量導出至循環水流中,其原理如圖2所示。
在圖2中,集中式熱源的發熱量就在由“芯片→熱管水冷模塊→水流”組成的“接觸式”致冷通道中高效地傳輸。其中,熱管是當前廣泛應用于導熱、均溫等場景的功能部件,其依靠內部液體相變導熱,導熱能力非常高[8]。由于“接觸式”致冷通道全程棄用空氣介質,僅有“水—固體”、“固體—固體”和“水相變—固體”等換熱方式,整體熱阻比單一“非接觸式”致冷通道可低2個數量級,故而芯片與循環水流之間只需較小溫差即可傳導較大的熱流量。

圖2 利用“熱管水冷模塊”帶走集中式熱源的發熱量
從原理上講,服務器的致冷可以采用單一的“接觸式”模式,以實現完全的低熱阻、高效致冷通道。但由于服務器的布局限制、元器件的尺寸限制等原因,采用單一的“接觸式”致冷模式工藝復雜、成本過高,因此本文提出“雙通道”致冷模式。
“雙通道”致冷模式區別對待服務器內部的兩類發熱源,在IDC致冷系統的設計中安排了兩個對應的致冷通道,其邏輯如圖3所示。

圖3 “雙通道”致冷模式邏輯示意
(1)“接觸式”致冷通道
利用“熱管水冷模塊+冷卻塔”的方式直接排出集中式熱源發熱量,全程只有少量水泵和冷卻塔等能耗設備。由于集中式熱源一般可承受較高的工作溫度(CPU的安全工作溫度上限為80℃),同時“接觸式”致冷通道全程熱阻低,故而該通道中的循環水可以工作在較高溫度,并可采用冷卻塔直排的方式進行散熱,可去掉壓縮機和風機能耗。另外,由于“接觸式”致冷通道處理了服務器65%的發熱量,這決定了采用“雙通道”模式的致冷系統整體上具有較高的能效比。
(2)“非接觸式”致冷通道
利用傳統空氣冷卻的方式排出分散式熱源發熱量。由于集中式熱源的發熱量被高效導出,服務器的“CPU熱島問題”被消除,故而服務器對入風溫度的要求大大放寬,進而可以提高機房的環境溫度至30℃左右。在這個條件下,“非接觸式”致冷通道可以采用高溫冷凍水機組對機房循環空氣進行致冷,進而達到更高的能效比(高溫冷水機組能效比高達10)。
“雙通道”致冷模式可為數據中心的節能效果、機房利用率和服務器性能等方面帶來豐富效益。
3.5.1 節能效果
傳統方式中,所有的熱量均需要使用冷水機組來冷卻,并且必須采用能效比為6的中溫冷水機組,則其功耗為100%/6;采用“雙通道”致冷模式之后,僅有35%的熱量(來自“非接觸式”致冷通道)需要使用冷水機組來搬運,且可以采用能效比為10的高溫冷水機組,則冷水機組能耗降低占傳統方式的比例為:

至于水泵、風機等設備,也會有能耗上的節省;但由于這部分設備功耗的占比相對較小,計算時可忽略,不在本文呈現。根據研究分析,致冷系統整體能耗可降低至傳統方式的1/5左右。
3.5.2 機房利用率
由于解決了服務器內部的CPU熱島問題,僅剩35%的熱量需要通過“非接觸式”致冷通道帶走,使得高功率密度機架成為可能,在同等條件下可以將服務器單機架功率密度提升至10 kW。
3.5.3 服務器性能
由于“接觸式”致冷通道的熱阻低、通道溫差小,一般情況下服務器CPU的溫度可比傳統模式低10℃~20℃(根據測試結果,新方案與傳統方案在100%負載率的條件下的CPU溫度差可達20℃以上,詳見表1)。由于電子元器件的壽命與工作溫度負相關[9],則采用“雙通道”致冷模式可使服務器整機性能獲得提升,并能降低故障率、提高可靠性、提高壽命。
通過以上分析可知,要驗證“雙通道”致冷模式的可行性和經濟性,其重要前提是在服務器上進行“熱管水冷”定制化改造,即研制“熱管水冷服務器”。為此,本節介紹中國移動通信集團南方基地(以下簡稱中國移動南方基地)的相關研發、測試工作進展。
自2012年10月起,中國移動南方基地啟動了數據中心“雙通道”致冷模式的理論論證工作,并聯合曙光信息產業股份有限公司(以下簡稱曙光)、華為技術有限公司(以下簡稱華為)、廣東新創意科技有限公司、華南理工大學等國內知名企業和院所組建研發團隊,實施了“熱管水冷服務器”的樣機研制工作,取得了核心技術突破。
2013年11月,中國移動南方基地完成“熱管水冷服務器”的樣機研制工作,分為以下兩類。
·曙光x86服務器:每臺服務器雙CPU,每個CPU的TDP(thermal design power,散熱設計功耗)為130 W。
·華為x86服務器:每臺服務器雙CPU,每個CPU的TDP為135 W。
同時,本項工作建立了完善的配套軟件、硬件測試平臺系統,可對環境參數、服務器運行參數、循環水系統參數等進行調節,實現全方位的驗證性測試。
圖4為“熱管水冷服務器”實物。
需要指出的是,為了確保測量準確性,在本測試平臺中,對于溫度的測量均采用外接傳感器的方式,而不是采用服務器管理口讀數的方式。
為了驗證“雙通道”致冷模式的可行性,本文分別調整測試平臺的環境溫度、入水溫度、水流量等參數,開展了大量的試驗。表1為環境溫度30℃、CPU負載率100%的條件下,各服務器的CPU溫度的測試值。

圖4 “熱管水冷服務器”實物

表1 水流參數變化情況下的CPU溫度(環境溫度30℃)
從表1中可以看出:CPU與冷卻水入水之間的溫差為14℃~18℃。并且,從表1中可看到的一個重要結論為:在環境溫度30℃、水流量0.5 L/min的條件下,即使采用45℃的水流作為冷卻水,仍能保證CPU溫度控制在60℃左右的安全溫度上。由于在全球絕大多數地區、絕大多數時段均能夠輕易獲取45℃的水流,故而本方案具有高度普適性。
另外,考慮到實際服務器在絕大多數情況下運行于部分負荷狀態,本文組織測試了不同CPU負載率下“熱管水冷服務器”的性能表現。實驗中,本文使用SPECpower軟件,由其中兩臺服務器為另外兩臺進行負載加壓,CPU負載率設置為5%、33%、50%、75%、100%,每個負載率水平上分別運行30 min,所得測試曲線如圖5所示(環境溫度30℃、水溫45℃、水流量0.5 L/min)。
由圖5可見,在部分負載率條件下,“熱管水冷服務器”能進一步降低CPU的工作溫度。故而,可以根據業務負載率動態地調節各服務器的供水量,實現更高精度的按需供冷,以進一步減少致冷系統能耗。
由于“雙通道”致冷模式能夠利用自然冷源對服務器CPU進行“接觸式”致冷,故而其在全球絕大多數地區、絕大多數時段具有高度普適性,能大幅降低全球IDC的能耗。同時,由于“雙通道”致冷模式的工藝實現較簡單,再加上“熱管水冷模塊”具有安全可靠、投資少的優點,可以預見,“雙通道”致冷模式未來極有可能成為數據中心致冷系統節能設計的主流技術。
本團隊在“雙通道”致冷模式的研究上取得了關鍵的突破,完成了核心系統環節的驗證工作。下一步,要推動“雙通道”致冷模式的產品化工作,需要解決諸如服務器內部工藝調整、整機柜集成、致冷管路設計等問題,同時需要研究致冷管路泄漏防控、運行變量監控、運維管理模式等后期維護的可管、可控問題;另外,面向大規模應用還需要解決建設、運營的標準問題。故而,“雙通道”致冷模式的研究需要產業界共同努力去推動,才能最終成為一個實用化的數據中心節能致冷解決方案。

圖5 部分負載率條件下曙光、華為定制化服務器的性能表現
1 周伏秋,谷立靜,孟輝.數據中心節能和優化布局研究.電力需求管理,2011(13)
2 趙鋒.數據中心節能減排技術.電信網技術,2011(1)
3 成彬,王濤,武紅光等.中國電信數據中心節能減排的策略及其應用.節能,2012(1)
4 錢曉棟,李震.數據中心空調系統節能研究.暖通空調,2012(3)
5 Dunlap K,Rasmussen N.數據中心行級和機柜級致冷架構的優勢.施耐德電氣白皮書 第130號
6 楊世銘,陶文銓.傳熱學.北京:高等教育出版社,2006
7 朱德才.固體界面接觸換熱系數的實驗研究.大連理工大學碩士學位論文,2007
8 Dunn P D,Reay D A.熱管.周海云譯.北京:國防工業出版社,1982
9 劉婧,呂長治,李志國等.電子元器件加速壽命試驗方法的比較.半導體技術,2006(9)