趙 靜
(陜西財經職業技術學院,陜西咸陽,712000)
超級計算機系統實時節能控制技術的理論與實踐分析
趙 靜
(陜西財經職業技術學院,陜西咸陽,712000)
計算機的能耗總和數量非常大,如何做到計算機的“省電、節能、環?!边@對社會的節能減排非常重要。本文闡述分析了超級計算機系統實時節能控制技術的基本理論,并對共享計算機資源實時任務執行概率的充要條件和概率的確定進行了闡述,最后分析了切點機的切入和切出的安全問題。
計算機系統;實時節能;技術;理論分析
近幾年來,能源危機日益嚴重,創造低碳環保的生活環境,對社會的可持續發展非常重要。計算機的生產廠商,其新產品的設計出發點也是節能環保,這對計算機占據“節能、環保、省電”的市場非常重要。計算機能耗的增加主要表現在CPU能耗的不斷增加,其頻率越來越高,功耗也越來越高;內存和其功耗的增加以及芯片能耗的增加,計算機系統的能耗也在不斷增加。
計算機服務器節能技術的研究主要在芯片技能技術、基礎架構節能技術和系統級節能技術三個方面。
1.1 芯片級節能技術
芯片級節能技術主要體現在CPU功耗控制、CPU頻率調整、芯片級冷卻技術、低功耗專用芯片部件等。一方面,隨著CPU加工工藝的改善和提升,提高了CPU的性能,同時CPU的主板芯片組耗能也降低了;另一方面,CPU的動態功耗通過降低頻率和電壓也降低了。比如在CPU耗能控制這方面,Intel的動態功耗節點管理器和BIOS、OSPM相互協作,調整其平臺的動態消耗,可以實現功耗和服務器性能的最大化。
1.2 基礎架構級節能技術
基礎架構級節能技術有很多種,主要包括高效能散熱冷卻技術、存儲制冷、液冷技術、高效能電源等多種技術。高效能散熱冷卻技術的研究主要有提高散熱方式的效率和提高冷卻設備的性能,比如IBM的機房冷卻系統和HP PARSEC體系結構(Parallel Redundant Scalable Enterprise Cooling)等。存儲制冷是指基于設備的儲存能力,部分制冷能力由制冷設備儲存,在有需要的時侯再有效釋放,和電池的儲存電能相類似,比如IBM的機房冷卻方案就是基于存儲冷卻技術。液冷技術包括兩項技術,分別為水冷和液態金屬制冷。夜冷技術的應用越來越普遍,是因為其導熱能力和熱容非常強大,由緩解負載突變所造成的散熱壓力能更快的緩解并且吸收的熱量更多,比如IBM Cool Blue機柜系統。
1.3 系統級節能技術
系統級節能技術包括面向能耗的進程及作業級遷移和基于作業調度的機群節點休眠等。降低功耗方面,除了上面所提到的CPU工作頻率調整和功耗控制、芯片級冷卻、低功耗專用芯片、液體冷卻等技術,還包括研究正熱的系統級節能技術和產品,主要包括基于負載情況隨時動態調整系統狀態、部分節點或者是部件的實施休眠;根據每個進程能耗的不同來調整CPU任務隊列,比如說如果一些任務產生的熱量比較多,就可以將它遷移,從溫度高的CPU上到溫度低的CPU上。比如自適應功耗管理系統,它是由國家高性能計算機工程技術研究中心開發,其作業調度策略可以根據能效實現。
從實際上說,超級計算機節能的基礎是芯片級節能,超級計算機節能的保障是基礎架構級節能,超級計算機節能的根本是系統級節能,最本質和有效的節能方式是系統級節能。但是系統節能的技術難度比較大,其主要解決兩個問題,即計算機資源共享的實時任務執行概率問題和節點機的切入和切出的安全系統問題。
2.1 計算機資源共享實時任務的執行概率
計算機實時任務以共享網絡為應用環境。共享網絡的體系結構具有分布系統的特征,利用互聯設備以及通信協議二者,將分散的資源連接整合形成一個整體。共享網絡中的資源主要包括存儲資源(Memory Resource)、網絡帶寬(Network Bandwidth)、計算資源(Computing Resource)分別用M,B,C來表示。為了避免資源耗盡造成的任務終止問題,一般情況下,采取的預防措施為保留部分資源,并且要限定各種資源的最高利用率U。在本文中,分別用Um,Ub,Uc來表示上面所敘述的三類資源的最高利用率。
實時任務Ti的描述的關鍵參數包括達到時刻、開始執行時刻、執行結束時刻、任務周期、執行時限,它們分別用ai、ri、fi、pi、di表示,其通式為:
Ti=(ai,ri,fi,pi,di)
由實時任務的特點,可以知道:
執行延時即Delay Time:DTi=ri-ai;
執行時間即Executive Time:ETi=fi-ri
對于實時任務集{Ti}來說,每個任務的周期都不一樣,所以超周期就是計算每個任務周期的最小公倍數,用LCM(p1,p2,...,pn)表示。在超周期內,某個任務的實際執行次數為Ni=LCM(p1,p2,...,pn)/pi,i=1,2,3,...,n。
共享資源中的網絡資源使用方式為非獨占方式,所以提供給實時任務使用的只能為資源可用余量。在系統的運行狀態下,資源可用余量是關于時間的函數,記作x*(t)。實時任務在執行過程中需要的資源量不是固定的,而是變化的,記作XT(t)。
2.2 實時任務的網絡可執行條件
2.2.1 實時任務(集)可執行的必要條件:
第一個定理 在實時任務(集)執行的整個過程中,共享網絡能夠提供的資源余量不論在任何時刻一定要滿足實時任務(集)對資源的需求,也就是說實時任務(集)可執行的必要條件是資源必須充足,供等于或者是大于等需,滿足下列不等式成立:
x*(t)≥XT(t),t=0-T
T代表實時任務(集)執行完任務需要的時間,一般為很多個超周期。
2.2.2 實時任務可執行的充分條件
第二個定理 實時任務(集)可執行的充分條件就是ETi必須滿足di的要求,其中ETi代表執行時間,di代表執行時限。
具體說來,如果實時任務集{Ti}的時限di大于等于pi,并且實時任務所有的起始時間都是0,則實時任務集的可執行充分條件就是,在一個超周期中,所有執行過的實時任務的累加時間和小于超周期的時間,即充分條件為:

或是

在上式(1)和(2)中,ETi代表實時任務(集)中一個任務的執行時間的和,它由tci、tbi、tmi三者構,分別代表計算執行時間、傳輸時間、存儲時間。三者的處理可以重疊,但是最壞的情況為串行疊加,即:ETi小于等于 tci、tmi、tbi三者之和。
2.3 共享網絡中實時任務的可執行概率的確定
網絡實時任務的可執行概率就是說在用戶的一定范圍內,網絡中實時任務的請求被執行的概率。實時任務的共享網絡可執行概率的確定,必須要考慮實時任務網絡可執行的充分條件和必要條件,其必要條件為,在某一時刻中,資源余量要大于網絡實時任務所需要的需要量的總和,但是只是滿足其必要條件并不能夠保障執行實時任務。只滿足資源需求,有可能網絡的處理速度達不到要求,如網絡的存儲器讀寫速度、網絡的傳輸速度、計算速度慢等。因此,要想完成實時任務還必須滿足其充分條件。如果網絡實時任務能夠增加任意的約束條件,網絡實時任務可執行的概率就是其可執行的充要條件。
超級計算機系統一般采用的控制機制為分級集中控制,常見的有二級控制和三級控制,二級控制為類陣列節點機局控和總控,三級控制就是將總控和局控之間的類陣列控按照機柜分成若干個,即為機柜控,本文分析討論的為二級控制,其控制的拓撲結構圖,如圖1所示。

圖1 超級計算機系統二級集中控制拓撲結構圖

圖2 超級計算機系統節能控制安全決策過程圖
根據用戶的服務要求,超級計算機系統總控系統先檢測系統的在線實際可用的共享資源,然后留有一定的余量,最后才會進行安全節能決策。其決策主要包括:節點機的調頻調壓、喚醒切入、休眠切出和服務節點機用戶任務的接納控制。節能安全決策的具體過程如2所示。
由上圖2可知,節點機的喚醒切入和休眠切出都有一個最佳的時間,即這類命令的執行一般都在被控陣列機處于“暫停狀態(最佳是初態)”。因此,完成執行的時延包括執行本身的時延和最大等待時延兩項。
[1]魏敏,王彬,孫婧,谷軍霞,洪文董.“天河一號”系列超級計算機系統氣象領域適用性分析[J].氣象科技進展,2012,01:31-35.
[2]田寶華,蔣句平,李寶峰,張曉明,屈婉霞.基于統一資源管理的超級計算機系統節能方案[J].計算機應用,2012,03:835-838.
[3]曾宇.服務器節能及能效評價技術綜述[J].信息技術與標準化,2008,09:6-8+12.
趙靜,女,1984年9月19,陜西咸陽人,講師,研究方向:計算機專業的
Theoretical and practical analysis of real time energy saving control technology for super computer system
Zhao Jing
(Shanxi Vocational College of Finance and Economics,Xianyang Shaanxi,712000)
the total amount of energy consumption of the computer is very large, how to make the computer's "energy saving, energy saving, environmental protection" is very important for the energy saving of the society. Analyses the basic theories of super computer system real-time energy-saving control technology, and the sharing of computer resources real-time task execution probability, the necessary and sufficient conditions for probabilistic determination are described. Finally, the paper analyzes the cut-off machine cut in and cut out the security problems.
computer system; real time energy saving; technology; theoretical analysis
TP338.6
A