林楷智,宗艷艷,張雁南
(1.高效能服務器和存儲技術國家重點實驗室,北京 100085;2.浪潮(北京)電子信息產業有限公司,北京 100085)
伴隨著科技的高速發展,人類步入了信息化時代。移動終端的愈發普及,智能穿戴設備以及社交媒體的廣泛應用,為人們的生活提供了巨大的便利,同時也產生了海量的數據[1,2]。因此,對呈幾何級增長的數據存儲和處理提出了更為嚴苛的要求[3,4]。云計算和大數據產業的蓬勃發展使得這個問題迎刃而解,并為信息通信產業提供了強勁的動力,越來越多的行業通過建立數據中心來滿足數據計算和存儲的需要[5,6]。
服務器以其可靠性、可用性、可擴展性、易用性和可管理性等特點在數據中心扮演最核心的角色[7,8]。而服務器上電子元器件集成度以及時鐘頻率提高的同時,其物理尺寸卻在減小。元器件表面的熱流密度迅速增大,工作溫度急劇升高,這將直接影響芯片的工作性能。因此,在服務器有限的體積內,在眾多高功耗電子元器件長期高負荷運行時,能否快速、有效地將其產生的熱量傳遞到外部,將直接影響服務器運行的穩定性和工作效率[9]。
因此,如何高效穩定地為服務器降溫已成為研究熱點。沙超群等人[10]采用吸風式的強迫風冷散熱設計,利用Flotherm熱仿真軟件對整機系統進行了仿真優化,并在35℃實際應用環境下對產品樣機進行了熱測試。張子軒[11]通過將大尺寸共模風扇模組直接安裝在機柜上的方法提出了共享風扇的散熱方案,同時對多臺服務器進行共同散熱,減少了使用的風扇數量,提高了散熱效率。王晶等人[12]為了提高服務器散熱效率,提出了一種熱管與水冷技術相結合的散熱方法,首先熱管將服務器內部CPU的熱量導出到服務器外部,然后通過水冷將熱量帶走,并通過測試驗證了水冷熱管散熱系統的有效性。為了提高2U游戲服務器的散熱效率,吳澤云[13]進行了機構散熱部件的選型和布局,并完成了系統風道中導風罩和系統開孔的設計,最后通過仿真分析和實驗測試驗證了設計的可行性。
但是,傳統的散熱設計多為通過查表法讀取當前時刻的溫度值,再向風扇輸出控制信號實現轉速控制,這類設計會導致風扇轉速波動較大,不利于散熱效率的提高和服務器整體功耗的優化。本文提出一種基于預防性散熱的功耗優化控制策略PTEC(Predictive Thermal Energy Controller),通過電流變化來預估溫度的變化趨勢,提前調整風扇轉速,為系統進行預防性散熱,故整體環境溫度不會有顯著的提升,這將有利于提高系統相關器件的工作效率,并節省因溫升所帶來的功率消耗。
為管控系統中所有關鍵電子元器件的溫度,使其滿足溫升的要求,需對系統的散熱設計進行優化,達到功耗優化的目的。散熱器是將發熱電子元器件的熱量傳導至周圍環境或熱沉中的熱量交換部件。裝配在PCB板上的元器件,其內部產生的熱量主要通過熱傳導的方式傳遞至PCB板和元器件表面,再通過對流換熱傳遞至周圍環境中。
強迫對流換熱公式為:
Q=h*A*ΔT
(1)
其中,Q為強迫對流的換熱量,A為散熱表面面積,ΔT為元器件表面溫度與環境溫度的差值,h是強迫對流時的換熱系數。
熱阻計算公式為:
R=ΔT/P
(2)
其中,R表示熱阻,P為電子元器件功耗。當ΔT=(Tc-Ta)時,可用于計算元器件散熱器熱阻,其中Tc為元器件與散熱器接觸位置的表面溫度,Ta為散熱器進風溫度;當ΔT=(Tj-Tc)時,可用于計算芯片內核與表面之間的熱阻,其中Tj為芯片的結溫。
但是,當元器件無法通過自然冷卻滿足系統溫控要求時,需要采用風扇進行強制冷卻。風扇的選擇需考慮3個因素:溫差、抵消溫差所需功耗和完全消除熱量所需風量。
在實際風扇控制系統中,電子元器件工作產生的熱量首先傳遞至機箱內部,然后再由風扇將其帶出,通過熱平衡方程計算系統所需風量的公式為:
(3)
其中,Q1為系統冷卻所需風量,P1為系統發熱總功耗,ΔT1為系統允許溫升。
根據系統總體散熱量和預估的系統溫升,評估計算出系統散熱所需風量,從而確定系統風扇選型。
為了提高系統散熱效率,滿足服務器功耗優化的要求,本文提出了基于PTEC的風扇控制策略。通過監測發熱電子元器件電流下降幅度來預估溫度下降趨勢,預先調節風扇轉速。利用傳感器監測服務器中核心電子元器件電流和溫度的變化,若某元器件溫度大于所設定溫度閾值,根據該元器件電流下降的幅度,判斷其功率呈下降趨勢,并預估該器件因功率下降而產生溫度下降的幅度,隨后由風扇控制芯片發出相對應脈沖寬度調制信號PWM(Pulse Width Modulation),通過調節PWM信號的占空比實現風扇轉速的調節;若發熱電子元器件溫度在小于所設定溫度閾值的情況下波動,控制系統則不對PWM信號進行調節,避免因溫度的波動而造成風扇轉速的頻繁調節。最后,利用PID控制器,實現風扇轉速的精確控制,在滿足散熱需求的同時也達到了功耗優化的目的。
本文中風扇控制系統的核心發熱電子元器件為NGSFF(Next Generation Small Form Factor)固態硬盤NF1。PTEC流程圖如圖1所示,具體控制流程介紹如下:
(1)給定風扇控制芯片MCU初值和各傳感器初值。
(2)循環讀取每一個NF1存儲器的溫度,并比較各存儲器的溫度,從而得到最高溫度。
(3)判斷NF1最高溫度是否大于溫度閾值,若是,設定該NF1為參考點;若否,返回上一步。
(4)評估參考點NF1的電流趨勢,若電流呈上升趨勢,保持當前轉速并通過PID控制器基于實際溫度對PWM進行調節。
(5)評估參考點NF1的電流趨勢,若電流呈下降趨勢,則根據電流下降幅度預估溫度變化,相應地降低PWM;通過PID控制器基于實際溫度調節PWM。
本文搭建了如圖2所示的實驗系統來驗證所提控制策略的有效性。控制系統主要由系統控制板、存儲設備、PTEC風扇板和6個4 056 mm風扇組成,其中系統控制板主要由PM8546 PCIe Swith芯片、Aspeed 2500 BMC、CPLD、16個支持NF1的固態硬盤接口、4顆redrvier芯片以及8個mini SAS HD連接器構成。

Figure 2 Experimental devices圖2 實驗系統裝置圖
圖3是風扇控制系統拓撲結構,首先由存儲裝置NF1內嵌的溫度傳感器采集溫度信息,電流傳感器PAC1720采集NF1電流信息,電流和溫度信息由I2C總線經擴展器PCA9546后由BMC統一收集,并傳輸至風扇控制芯片PIC32MX Microchip(MCU),隨后MCU芯片通過調節PWM信號來控制風扇轉速,實現溫度控制。

Figure 3 Topology of fan control system 圖3 風扇控制系統拓撲結構
考慮到系統中NF1存儲器讀寫時間的不確定性以及工作環境變化所帶來的差異,為了驗證所提PTEC控制策略在各種復雜工況下的有效性,在不同周期、不同占空比以及不同溫度下分別進行功耗驗證實驗。首先在圖2所示實驗環境下進行不同周期相同占空比的功耗驗證實驗;隨后又在相同周期不同占空比與不同溫度2種實驗條件下進行功耗對比實驗。
基于PTEC的風扇控制系統中,溫度閾值設定為60℃,MCU每100 ms會更新PWM信號至風扇,以實現轉速的實時調整,PID控制器的參數設定分別為:kp=5,ki=0.1和kd=1。3組實驗結果都表明,采用PTEC控制策略的方法檢測到電流開始下降,預估溫度下降并提前降低風扇轉速,進行預防性散熱,較無PTEC的傳統控制方法功耗有了顯著的下降。
首先,在不同周期相同占空比下對PTEC控制方法進行驗證,圖4~圖6分別是周期為20 s,100 s和180 s時3種不同頻率的功耗實驗驗證。圖4a是周期為20 s時,采用PTEC控制策略的方法和無PTEC的傳統控制方法的風扇轉速及NF1功率對比曲線。因為預先判斷了溫度下降趨勢,調低了風扇轉速,故采用PTEC控制策略的風扇轉速明顯低于傳統控制方法,采用PTEC控制策略時NF1功率較傳統控制方法也有所下降。從圖4b可以看出,采用PTEC控制策略的方法的風扇電流值明顯小于傳統控制方法的,在同樣12 V電壓下,風扇總體功耗下降了27.48%。圖5a和圖6a是周期為100 s和180 s時,采用PTEC控制策略的方法和傳統控制方法的風扇轉速和NF1功率對比曲線,隨著控制周期的增長,雖然預先降低了轉速,但整體NF1功率和風扇電流值與傳統控制方法較為接近,2種頻率下風扇功耗分別下降了9.59%和5.39%。

Figure 4 Comparison of experimental verification when T=20 s圖4 T=20 s實驗驗證對比圖

Figure 5 Comparison of experimental verification when T=100 s圖5 T=100 s實驗驗證對比圖

Figure 6 Comparison of experimental verification when T=180 s圖6 T=180 s實驗驗證對比圖
為對PTEC控制進行充分驗證,又進行了周期分別為40 s,60 s,80 s,120 s,140 s和160 s的功耗優化實驗。圖7是采用PTEC控制策略的方法相比于傳統控制方法的功耗優化曲線。由圖7可以看出,采用所提控制策略的方法在各個周期的風扇功耗表現均優于普通的控制方法,在周期較短時,即頻率f=0.05Hz和f=0.025Hz時,風扇控制系統功耗優化效果最為顯著,相比于傳統控制方法,功耗優化率分別提高了27.48%和20.84%,隨著周期的增長,功耗優化的值也會逐漸減小,在T=160 s時,功耗優化值僅為5.28%。

Figure 7 Comparison of power consumption with same duty cycle in different periods圖7 不同周期相同占空比功耗優化對比圖
為進一步驗證功耗優化效果,本節在周期為80 s時,采用不同的占空比對采用PTEC控制策略的方法進行分組實驗驗證。圖8~圖10分別是占空比為12.5%,50%,87.5%時的功耗優化驗證實驗圖。由圖8a可以看出,當占空比較小時,采用PTEC控制策略的風扇轉速和傳統控制方法的風扇轉速有明顯不同,NF1功率較傳統控制方法也有所下降,由圖8b的風扇電流對比圖可以看出,在同樣12 V電壓下風扇功耗降低了7.66%。

Figure 8 Comparison of experimental verification with duty cycle of 12.5%圖8 占空比為12.5%實驗驗證對比圖
圖9和圖10分別是占空比為50%和87.5%時采用PTEC控制策略的驗證曲線。從圖9a可以看出,占空比為50%時,通過評估參考點NF1的電流趨勢,當電流呈下降趨勢時,根據電流下降幅度預估溫度,相應地調低了風扇轉速。從圖9b中的采用PTEC控制策略的方法和傳統控制方法的電流對比圖可以看出,功耗優化效果較為明顯,達到了14.52%。而圖10中,當占空比為最高的87.5%時,采用PTEC控制策略的方法的風扇轉速、NF1功率以及風扇電流都與傳統控制方法接近,風扇功耗優化值僅為0.68%。

Figure 9 Comparison of experimental verification with duty cycle of 50%圖9 占空比為50%實驗驗證對比圖

Figure 10 Comparison of experimental verification with duty cycle of 87.5%圖10 占空比為87.5%實驗驗證對比圖
圖11是風扇控制系統工作周期固定為80 s,當占空比分別為12.5%,25%,37.5%,50%,62.5%,75%和87.5%時,采用PTEC控制策略的方法的風扇功耗與傳統控制方法風扇功耗的對比折線圖。由圖11可以看出,占空比過高或者過低都會導致采用PTEC控制策略時功耗優化效果降低,而當占空比為37.5%和50%時,功耗優化效果最為顯著,分別達到了14.71%和14.52%。

Figure 11 Comparison of power consumption of different duty cycles圖11 不同占空比功耗優化對比圖
為進一步驗證本文所提PTEC控制方法的有效性,在20℃,25℃,30℃和35℃ 4種不同環境溫度下,在周期為20 s、占空比為50%,以及周期為80 s、占空比為25%時分別進行采用PTEC控制策略的方法和傳統控制方法的對比實驗。圖12~圖15分別為4種不同溫度下周期為20 s占空比為50%時,基于PTEC控制策略的方法與傳統控制方法的NF1功率、風扇轉速及電流的對比圖。

Figure 12 Comparison of experimental verification at 20℃圖12 20℃時實驗驗證對比圖
由圖12a可以看出,PTEC控制方法在20℃的環境下,風扇轉速和傳統控制方法轉速有較大差異;從圖12b的電流對比圖可以看出,在同樣12 V電壓下,功耗優化值僅為13.56%。

Figure 13 Comparison of experimental verification at 25℃圖13 25℃時實驗驗證對比圖

Figure 14 Comparison of experimental verification at 30℃圖14 30℃時實驗驗證對比圖

Figure 15 Comparison of experimental verification at 35℃圖15 35℃時實驗驗證對比圖
從圖13~圖15可以看出,隨著溫度的升高,采用PTEC控制策略的方法的風扇轉速明顯低于傳統控制方法下的風扇轉速。從電流對比曲線可知,功耗優化的值會隨著溫度的升高而逐漸提高,在25℃,30℃和35℃度分別達到了27.48%,35.79%和39.52%。
為進一步驗證PTEC功耗優化效果,本節還進行了周期為80 s、占空比為25%的驗證實驗。圖16是周期為20 s、占空比為50%和周期為80 s、占空比為25%時在4種不同溫度下的功耗優化折線圖。從圖16可以看出,隨著溫度的提高,功耗優化的效果更加明顯,周期為20 s、占空比為50%以及周期為80 s、占空比為25%時PTEC控制方法功耗優化值在35℃相對于在20℃時分別提高了25.96%和16.12%;同時也驗證了,隨著風扇工作頻率的升高,功耗優化的效果也更加明顯。

Figure 16 Comparison of power consumption at different temperatures圖16 不同溫度功耗優化對比圖
本文提出一種基于預防性散熱的功耗優化控制策略對服務器的功耗進行優化,通過評估參考點的電流變化來預測NF1溫度變化的趨勢,然后發出相對應的控制信號來預先調節風扇轉速,達到功耗優化的目的。隨后搭建了實驗系統,為了驗證PTEC控制策略在不同工況下的有效性,針對控制系統中的風扇功耗優化問題,設計不同周期相同占空比、相同周期不同占空比以及不同溫度3組實驗來對所提控制策略進行實驗。實驗結果表明,系統中NF1工作頻率越高即周期越小時,功耗優化效果越好;在周期相同而占空比不同的情況下,當占空比接近50%時,功耗優化效果最好;在不同溫度下的對比實驗中,隨著工作環境溫度的提高,本文所提PTEC功耗優化控制效果越好,驗證了控制策略的有效性。與此同時,除對文中所提實驗平臺可以滿足散熱需求的同時也能達到較好的功耗優化效果外,針對不同種類的服務器以及不同的核心發熱電子元器件,PTEC控制策略皆可推廣使用。