鐘志鯤
(中國電信上海公司電源空調中心)
云計算現在炙手可熱,但云計算的定義卻眾說紛紜。對于運營商來講,云計算是一種商用計算模型,它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算能力、存儲空間和信息服務。
云計算系統架構分為服務系統和管理系統兩大部分。在服務方面,主要以提供用戶基于云的各種服務為主,共包含3個層次:基礎設施即服務IaaS、平臺即服務PaaS、軟件即服務SaaS。在管理方面,主要以云的管理層為主,它的功能是確保整個云計算中心能夠安全、穩定地運行,并且能夠被有效管理。對于一個優秀的云系統,一定是從基礎設施開始的,而動力系統,又是IaaS的重點,是可靠的高容量電源和良好的散熱途徑。
散熱問題一直是機房安全穩定運行的關鍵和難點。對于目前應用的空調系統而言,風仍然是機房載冷的主體,因此問題就變得復雜,甚至會成為云機房發展的瓶頸。
在云計算的潮流下,云計算數據中心具有超大規模和降低運維成本等特點。迫于市場競爭的壓力,云計算的機架必須是高密度。由于目前并沒有規范性的要求,因此各運營商所建設的云機房容量也不一致,就目前的實際情況看,8~10 k W/機架是起始點,32 k W甚至更高是目標點。
由此,云機架的熱密度已經完全顛覆了傳統的觀念:例如,2 k W、3 k W、4 k W或2 k W、4 k W、6 k W等低、中、高密度的分法。熱密度不大于6 k W/機架、6~12 k W/機架、大于12 k W/機架將成為新的三段熱密度門限。
在十多年IDC機房的維護過程中,大量的經驗和教訓告訴我們,散熱是數據機房的一個難題,也是必須解決的問題,即使在低密度機房,問題都很突出。而高密度,會使問題變得更尖銳和難于解決。
傳統機房一般使用風為直接載冷,這種情況目前還沒有很大的改觀,主要是服務器目前還是使用風扇散熱的。但是,從輸送冷量的方式上分析,水輸送冷量還是有很大的優勢的。以專用空調10KJ/KG的冷風比計算,1個6 k W的機架,每小時需要2 160 kg的空氣,折合1 670 m3/h,以風速3 m/s計,需要0.155 m2的通風截面。若以水來載冷,6 k W冷量需要5℃溫差的水1.04噸,DN40的水管在2 m/s的流速下就可以滿足。因此水系統只需要風系統的1%~1.5%的通道截面即可,可以節約大量機房空間。
而在載冷物質驅動能耗方面,氣流是需要空調的風機作為驅動源的,而水系統是水泵作為驅動。一般風系統,每輸送15 k W的冷量,就會需要1 k W的風機功耗。水系統的輸送能耗會低一半,600 k W的冷量大約20 k W的電機驅動的水泵即可,折合30 k W/1 k W。并且,風機馬達的熱量是耗散在室內的,功率將全部需要冷量充抵,水泵的電機只是通過聯軸器把機械功傳遞給水系統,電機的發熱是隔絕在冷水系統之外的。
在利用自然冷源方面,雖然直接利用室外空氣是最直接的、最高效的方法,但直接的質交換使灰塵、濕度的控制難度比較大,而且需要對增加不少通風設備、開鑿大面積的墻洞。而利用水系統,只需要改變外圍管路,可以直接利用冷卻塔供冷,即使考慮水質問題,也只需要增加干式冷卻塔即可,無需改動室內機組,避免了灰塵、加濕等難題。
從奔騰5的CPU芯片應用開始,計算機的愛好者就開始進行原始的DIY方式,解決CPU發熱量大且速度慢的問題,用水冷的散熱器替代原來的金屬鋁散熱片+風扇的方式,取得了很好的效果,甚至可以將CPU的主頻提高30%以上,而工作溫度比設計問題還低(見圖1)。
后來,國外的一些廠商,研制了大量的高品質的液冷散熱器,象 KOOLANCE、Heat Killer、Bitspower等(見圖2)。對于提高液冷系統的安全性,起到了很好的推動作用,也為在大型數據機架上使用奠定了基礎。多達數百萬臺的應用表明,只要采用質量可靠的部件,安裝(尤其是接頭部分)牢固,漏水的幾率非常小,并且由于系統水量小,漏水也很少造成嚴重傷害。

圖1 計算機的水冷系統

圖2 各種CPU冷卻頭
液冷是空氣冷卻能力的幾十到上百倍,而且由于液體的比熱容大,熱穩定性很好,能對發熱部件提供相對恒定的溫度環境。因此,液冷衍生出幾種運用方式:
(1)冷凍水專用空調方式:集中制備冷凍水,專用空調利用表冷器冷卻機房回風,用專用空調風機送風冷卻設備。這種方式離熱源最遠。
(2)列間空調方式:在每列服務器機架中,夾雜幾個冷凍水列間空調,機架排風面為列間空調的進風口,機架的前面板方向為列間空調的送風口,列間空調使用多臺小風機作為風路循環驅動。這種方式使冷水更靠近熱源,依舊使用空氣載冷,但風的方向要在很小的范圍2次轉向才能完成氣流循環,因此不是很合理,容易形成亂流(見圖3)。

圖3 列間空調方式
(3)水冷背板方式:在機架背后直接懸掛水表冷器,無額外風機驅動,僅靠服務器內的風扇驅動氣流,熱量幾乎是在產生點被直接對沖,機架總排風已基本不含高熱。
(4)液體包方式:一般是液體包與機架整體設計,服務器處于液體冷卻板的包裹之中,對已經在用的機架很難改造。液體包方式可以采用封閉式機柜,柜中有一套封閉的空氣循環系統,這套空氣循環系統與機房內環境相對獨立。
液體直接冷卻芯片:芯片的散熱翅片改為水冷頭,液體直接接入水冷頭。目前很少有服務器能直接使用液冷。
圖4為各種冷卻方式的適用情況,水冷背板的適用范圍廣,可以應用于6~30 k W/機架的密度,而且無需外加風扇。

圖4 各種冷卻方式適用情況

圖5 冷水機+冷水分配器方式

圖6 機架上改造的水冷背板
冷水機組制備冷凍水,供給冷水分配器(CDU)(見圖5~圖7)。冷水分配器需要起到3個主要作用:⑴將大系統的水壓降低,一般用板式換熱器,類似電源中的變壓器。⑵調節一次側和二次側的流量,以控制二次側的水溫高于機房露點溫度,防止結露。⑶合理分配二次側各支路的流量,適應各機架的熱負荷。

圖7 冷水分配器CDU
設計優良的CDU在進水、出水、水泵等都為雙路由,確保系統在使用期間可以進行在線維護、維修。在二次側管路全部使用高壓部件,但運行時保持低壓力、小水量的水系統,同時具有完備的漏水檢測系統,使機房免于水患。一般在二次側僅有幾十升的水量,一個標準背板的水容量只有2~3升。
在實驗環境中,服務器的排風口最高溫度達43℃,即使與其他機位的氣流混合,在機架背后60 c m處,仍達到31℃。利用傳統專用空調方式制冷,空調機組就必須將31℃的回風冷卻,再通過風路送到機架進風處(見圖8)。

圖8 實驗環境中機架排風溫度

圖9 使用冷水背板后機架排風溫度
而使用了冷水背板之后,機架排風溫度明顯下降,實驗中得到了平均溫度下降到19℃,甚至低于機架的進風溫度。此時機架已經不是熱源,對機房而言,可以認為是一臺“小空調”(見圖9)。
隨著云機房的出現和發展,高熱密度將成為機房的潛在危險,在單機架的容量超過6 k W后,傳統的氣流冷卻方式很難解決散熱問題,水冷背板將是解決這一難題的最佳輔助方法之一。而且,水冷背板在現網的改造是非常方便的。