深圳綠色云圖科技有限公司 李 棒 陳 前 林 智
隨著互聯網業務廣泛興起,全球數據中心建設浪潮風起云涌,服務器作為數據中心最為核心的設備,其功率密度也在不斷攀升,傳統的風冷散熱方案將難以滿足散熱需求,致使服務器液體冷卻技術成為近年來的研究熱點。液體冷卻技術(以下簡稱“液冷”)按熱源與液體是否接觸,可分為直接式和間接式兩類。在常見的直接式液冷系統中,服務器被完全浸沒在液體中,故又被稱為浸沒式液冷,其中作為傳熱介質的液體又被稱作“冷卻液”。按照熱交換過程中冷卻液是否存在相態變化,浸沒式液冷可分為單相液冷和相變液冷兩類。本文通過對服務器芯片散熱過程進行理論分析,并利用6SigmaET仿真軟件對部分影響散熱性能的因素進行仿真分析,為今后單相浸沒式液冷系統設計及散熱性能研究提供指導。
服務器芯片單相液冷散熱時,90%的熱量通過各種結合層以熱傳導的方式至散熱器,然后利用散熱器與冷卻液進行對流換熱。
結合傳熱學原理,可將CPU散熱過程表示如下:
(1)芯片內核到表殼導熱:

式(1)中:Φ1約占CPU發熱量的90%,λ1為CPU導熱系數,A1為CPU導熱面積,d1為CPU導熱厚度,Tj為CPU核心溫度,Tc為CPU封裝表面溫度。
(2)TIM導熱:

式(2)中:Φ2≈ Φ1,λ2為TIM導熱系數,A2為TIM導熱面積,d2為TIM導熱厚度,Tb為散熱器基板表面溫度。
(3)芯片散熱器導熱:

式(3)中:Φ3≈ Φ1,λ3為散熱器導熱系數,A3為散熱器平均導熱面積,d3為散熱器平均導熱厚度,Tf為散熱器翅片表面溫度。
(4)散熱器與冷卻液之間對流換熱:

式(4)中:Φ4≈ Φ1,h為對流換熱系數,A為對流換熱面積,T1為冷卻液溫度。
由上述表達式(1)(2)(3)(4)可推到出CPU芯片溫度Tj表達式:

式(5)中:R1為芯片導熱熱阻,R2為TIM導熱熱阻,R3為芯片散熱器導熱熱阻,R4為冷卻液與散熱器對流換熱熱阻,R表示冷卻液與芯片CPU換熱的總熱阻。
由式(5)推導出液冷機柜內冷卻液與芯片CPU換熱的總熱阻R表達式:

式(6)中R是量化服務器單相浸沒式液冷散熱性能的重要指標,由R1、R2、R3、R4共同決定,其中R1由CPU設計確定;TIM熱阻R2影響參數單一,實際選型設計中可由上式(2)估算熱阻值,并根據導熱溫差允許值確定選型結果;R3與R4影響參數較多,相互制約,影響規律較復雜,由散熱器結構設計、冷卻液流速及冷卻液的種類決定。
在芯片散熱過程中,芯片散熱器對散熱性能的影響除了本身材質決定的導熱系數外,主要通過其結構影響本身導熱面積,以及與冷卻液之間的對流換熱系數和換熱面積。建模條件如下:單顆CPU,CPU尺寸為40×40×3mm,功耗為200W,冷卻液為硅酮類物質,冷卻液進液流量按總換熱溫差5℃及總發熱量200W計算設置,進液溫度為35℃,散熱器材料為純銅。通過對CPU散熱器與冷卻液之間的對流換熱過程及其本身的導熱過程進行數值仿真,參考常規風冷散熱器結構尺寸,分別對散熱器的基板寬度、基板長度、翅片厚度、翅片間距、翅片高度以及基板厚度進行單一結構參數影響的數值模擬試驗,以分析散熱器結構對散熱性能影響。
由圖1可知,當基板寬度在80~150mm變化,其余參數不變的情況下,CPU溫度隨著基板寬度增加不斷降低并趨于平緩。因此,在CPU散熱器空間位置允許情況下,散熱器寬度設計值越大對CPU散熱越有利,對于200W的CPU而言,散熱器寬度取120mm較為合理。

圖1 CPU溫度隨散熱器基板寬度變化曲線
由圖2可知,基板長度在90~150mm變化,其余參數不變的情況下,CPU溫度隨著基板長度增加不斷降低并趨于平緩。因此,在CPU散熱器空間位置允許情況下,散熱器基板長度設計值越大對CPU散熱越有利,對于200W的CPU而言,散熱器基板長度取140mm較為合理。

圖2 CPU溫度隨散熱器基板長度變化曲線
由圖3可知,翅片厚度在0.3~1.4mm變化,其余參數不變的情況下,CPU溫度首先隨著翅片厚度增加而降低,當翅片厚度增加到1~1.2mm時,CPU溫度達到較小值,再繼續增大翅片厚度,CPU溫度又緩慢升高。由此看出,在散熱器整體外形尺寸固定不變時,翅片厚度存在最優解。

圖3 CPU溫度隨翅片厚度變化曲線
由圖4可知,翅片間距在1.6~4mm變化,其余參數不變的情況下,CPU溫度首先隨著翅片間距增加而降低,當翅片間距增加到接近2.8mm時,CPU溫度達到最小值,再繼續增大翅片厚度,CPU溫度又緩慢升高。由此看出,在散熱器整體外形尺寸固定不變時,翅片間距存在最優解。

圖4 CPU溫度隨翅片間距變化曲線
由圖5可知,翅片高度在18~33mm變化時,其余參數不變的情況下,CPU溫度隨著翅片高度增加不斷降低并趨于平緩;又因翅片高度33mm是當前仿真模型中散熱器極限高度尺寸,所以在CPU散熱器空間位置允許情況下,散熱器翅片高度設計值越大對CPU散熱越有利。

圖5 CPU溫度隨翅片高度變化曲線
綜上所述,在單相浸沒式液冷散熱設計時,在空間允許情況下CPU散熱器外形尺寸越大對散熱越有利,外形尺寸一定時,散熱器翅片厚度、翅片間距均有最優參數,需要針對不同功率及不同冷卻液進行參數正交優化求解。
本文選用某品牌服務器作為研究模型,仿真分析冷卻液流速對服務器CPU散熱性能的影響。建模條件如下:2U4節點1kW服務器,單節點2單顆95W的CPU,CPU封裝尺寸42.5×45mm,散熱器采用常規設計;冷卻液下進上出,均勻進液,冷卻液流量按總換熱溫差5℃計算設置,進液溫度均為35℃。
針對上述求解模型及邊界條件,通過仿真求解獲得液冷機柜流場及服務器芯片CPU溫度場,仿真結果如圖6所示,分析圖6中各服務器的同一位置芯片CPU溫度隨流量變化規律圖可知,服務器芯片CPU溫度分布與冷卻液流速直接關聯,流速越大,CPU溫度越低,且機柜內服務器芯片CPU溫度分布與其獲得的冷卻液流量近似負相關線性關系。

圖6 服務器流量分布及CPU溫度分布
在進出液5℃溫差設計的循環流量情況下,冷卻液平均流速不到1×10-2,將服務器冷卻液平均流速分別提高1個數量級和2個數量級進行溫度場仿真對比,仿真結果如圖7所示。

圖7 10倍和100倍流量下服務器芯片溫度分布
對比圖6和圖7仿真結果,當流速成倍提高,CPU溫度隨之降低,但降低的幅度逐漸趨于平緩。因此,冷卻液流量設計時應考慮散熱效果與冷卻能耗之間的平衡。
由傳熱學可知,在對流換熱過程中,若滯流內層的溫度梯度一定時,冷卻液導熱系數愈大,則對流傳熱系數也愈大;若冷卻液粘度愈大,則對流傳熱系數愈低;若冷卻液密度與比熱容乘積愈大,則其單位流量攜帶熱量的能力愈強,對流換熱的強度愈強;若體積膨脹系數愈大,則液體受熱后密度差愈大,將有利于對流。因此,單相浸沒式液冷系統設計時,冷卻液選擇同樣重要。由于影響對流換熱系數的冷卻液物性參數較多,不同冷卻液的物性參數對比時,需要通過測試對比確定不同冷卻液的散熱性能。
冷卻液的典型物質包括硅酮類物質、脂肪族化合物以及氟碳化合物。本文通過數值仿真方式對某液冷系統中采用上述三種典型冷卻液物質的散熱效果進行對比。仿真建模條件如下:2U4節點1kW服務器,單節點2單顆95W的CPU,CPU封裝尺寸42.5×45mm;散熱器采用常規設計;冷卻液下進上出,均勻進液,冷卻液流量按換熱溫差5℃計算設置,進液溫度均為40℃。常用某確定型號的三種典型冷卻液物質的物性參數見表1。

表1 某確定型號的三種典型冷卻液物質物性參數表
經過散熱仿真計算,三種冷卻液散熱性能如表2所示,在上述條件情況下,氟碳化合物冷卻效果較好,脂肪族化合物次之,硅酮類物質較差。

表2 不同冷卻液的散熱性能對比
結論:(1)理論分析推導出服務器單相浸沒式液冷散熱性能指標表達式,即冷卻液與芯片CPU換熱的總熱阻:

式(7)中,R1由CPU設計確定;R2影響參數單一,實際選型設計中可由式(2)估算熱阻值,并根據導熱溫差允許值確定選型結果;R3與R4影響參數較多,相互制約,影響規律較復雜,整體由芯片散熱器結構設計、冷卻液流速及冷卻液種類決定。
(2)在單相浸沒式液冷散熱設計時,在空間允許情況下,CPU散熱器外形尺寸越大對散熱越有利,外形尺寸一定時,散熱器翅片厚度,翅片間距均有最優參數,需要針對不同功率及不同冷卻液進行參數正交優化求解。
(3)芯片溫度與冷卻液流速成負相關線性關系,提高冷卻液流速有利于提高散熱性能,降低芯片溫度。
(4)影響冷卻液散熱性能的物性參數較多,不同冷卻液的散熱性能需要按應用情況實驗對比測定。在三種典型冷卻液物質中,氟碳化合物冷卻效果較好,脂肪族化合物次之,硅酮類物質較差。