張超越 余積寶 王紫陽 張歡



摘? ?要:計算機集群是目前中大型系統建設的重要發展方向,計算機集群技術是支撐國家戰略威懾手段和戰略安全的中堅力量。目前,國內對其工作效能評估尚無有效的方法和模型。本文采用由美國空軍提出的ADC系統效能評估模型,對中大型計算機集群的工作效能進行了建模。將集群狀態分為正常、降級和故障3種情況,以概率論為基礎,推導出了可行性的計算矩陣。根據計算機集群的工作能力、計算速度、實時推算能力3個指標給出了集群能力的計算方法。最后對模型進行仿真得到計算機集群工作效能隨單個計算節點的平均故障間隔時間和工作時長的變化關系,對于計算機集群的應用和指標設計具有重要指導意義。
關鍵詞:計算機集群? ADC模型? 工作效能
計算機集群可以通過多臺計算機完成同一工作,具有高性價比、高可靠性和高計算速度的特點[1]。作為集群的核心設備,計算機集群節點的性能顯得尤為重要。以計算機集群節點的性能為基礎,對集群的工作效能進行評估,能夠有效掌握集群目前的能力,同時在合理調度使用節點方面,有著指導性的作用。本文將基于美國空軍經典的ADC系統效能評估模型[2],建立可適用于計算機集群的工作效能評估模型[3],用于對同一體制的集群進行工作效能評估。
1? ADC效能評估模型
本文采用的效能評估模型最初由美國空軍提出,簡稱ADC模型。該模型最終用一個向量來表示系統的工作效能[4],整個系統的n個明顯不同的狀態是建立該向量的基礎。美國空軍給出的系統效能表達式如式(1)所示。
式中,A是一個向量,為系統可用性因子。用于度量系統是否能夠正常使用,可以對使用前的系統是否處于正常狀態進行量度,確認系統是否正常工作。
D是一個矩陣,為系統可靠性因子。用于度量系統在工作過程中的可靠性,測算系統在工作過程中不發生故障的概率。
C也是一個向量,為系統的能力因子。這是使用者最關心的指標,也是最能體現系統效能的指標。用于表示系統完成工作任務能力的量度。
明顯可以看出,基于以上的評估模型,如果系統的狀態、故障概率和能力指標不一致,那么獲得的效能評估結果也就不一致。
2? 計算機集群工作效能建模
2.1 可用性因子建模
把計算機集群處于不同工作狀態的概率用可用性因子A來表示[5]。計算機集群由多個相互獨立的計算節點組成,可以分為正常節點和故障節點。與傳統單個計算機不同,即使故障計算節點較多,計算機集群仍能工作,只是性能會下降[6]。
計算機集群的工作效能直接受故障節點影響,可以將計算機集群工作狀態分為正常狀態、降級狀態和故障狀態,其中降級狀態指計算機集群的性能受到影響,但是仍然能夠擔負工作任務。故障節點的數量不同,計算機集群性能降級的情況也可以細分為很多種。根據故障節點的數量對計算機集群的工作狀態進行定義,并建立簡化模型:
狀態1:系統工作正常,故障節點數量少于計算機集群節點總數量的4%;
狀態2:系統性能降級,故障節點數量在計算機集群節點總數量的4%~16%之間;
狀態3:系統工作故障,故障節點數量大于計算機集群節點總數量的16%。
此時,計算機集群的可用性因子A可以表示為以下向量:
單個計算節點變為故障節點的平均間隔時間為t1,通過修復使故障節點恢復成正常節點的間隔時間為t2,單個計算節點變為故障節點的概率可以表示為PW。
那么n個正常節點同時變為故障節點的概率為:
接著推導a1的表達式,即故障節點數量少于計算節點總數量4%的概率。設計算機集群節點總數量為N,那么當故障節點數量少于時,計算機集群處于正常狀態。計算機集群處于正常工作狀態的概率a1為:
同理可得,計算機集群處于故障工作狀態的概率,既a3的表達式為:
2.2 可靠性因子建模
系統可靠性因子D同樣分為三個階段:d1、d2、d3,對應可用性因子A的三個階段。在系統工作過程中,系統存在狀態之間的轉換,比如系統從正常工作狀態轉換為降級狀態,我們將這個過程命名為:d12。類似的,我們命名d23為降級狀態轉換為故障狀態,d13為正常工作狀態轉換為故障狀態。由此類推,可以得到矩陣如下:
式(11)表示系統在正常工作過程中變換到各種狀態的概率矩陣。我們假設在工作狀態下無法修復故障節點,并且故障節點無法自動恢復,所以式(11)可以簡化為:
假設一次系統工作時長為t,那么整個過程中單個計算節點正常工作的概率為:
2.3 能力因子建模
系統能力因子向量表示了計算機集群在三個不同狀態下的作戰能力。采用計算機集群的工作能力、計算速度、實時推算能力三個評價因子,表示為β1、β2和β3,三個評價因子的權重根據實際應用情況確定,表示為ω1、ω2和ω3,則能力因子向量C可表示為:
當計算機集群處于正常工作狀態時,β1、β2和β3的取值均為1;當計算機集群處于故障狀態時,β1、β2和β3的取值均為0;當計算機集群處于性能降級狀態時,計算機集群的工作能力β1下降為0.5,β2計算速度下降為0.5,實時推算能力β3下降為0.8。那么,能力因子向量C可表示為:
3? 計算機集群工作效能仿真
為了對某型計算機集群進行工作效能評估,在搭建有效模型時,我們采用以下仿真參數。
(1)計算機集群節點數量:N=50。
(2)故障節點修復間隔時間:t2=10h。
(3)三個評價因子的權重取值為:(ω1、ω2、ω3)=(0.5,0.5,0.8)。
在上述參數設定下,系統工作時長t=20h時,計算機集群工作效能隨單個計算節點平均故障時間的變化趨勢如圖1所示。由圖1可得,在故障節點校正間隔時間和系統工作時長的約束下,單個計算節點平均故障時間小于6000h時,計算機集群的工作效能隨單個計算節點平均故障時間的增加先上升后下降;單個計算節點平均故障時間為3000h時,計算機集群的工作效能達到第一個峰值,隨后開始下降;當單個計算節點平均故障時間大于6000h時,計算機集群的工作效能開始隨著單個計算節點平均故障時間的增加而增加;當單個計算節點平均故障時間大于100000h時,計算機集群工作效能接近最佳值。
當單個計算節點平均故障時間一定時,計算機集群的工作效能隨系統工作時長的變化趨勢如圖2所示。由圖2可得,當單個計算節點平均故障時間一定時,計算機集群的工作效能隨系統工作時長的增加而減少;單個計算節點平均故障時間越小,計算機集群的工作效能隨系統工作時長的增加而減小的速度越快。
4? 結語
本文針對計算機集群的工作效能評估,對正常、降級和故障3種狀態進行分析。通過仿真結果可知,計算機集群的工作效能受單個計算節點的平均故障時間和系統工作時長的影響。當系統工作時長和故障節點校正間隔時間一定,單個計算節點的平均故障時間小于6000h時,計算機集群的工作效能并不是線性增加的,當單個計算節點的平均故障時間大于6000h時,計算機集群的工作效能隨單個計算節點的平均故障時間的增加而增加;當單個計算節點的平均故障時間和故障節點修復間隔時間一定時,系統工作時長越大,計算機集群的工作效能將會降低,單個計算節點的平均故障時間越短,計算機集群的工作效能下降的速度越快。
參考文獻
[1] William W.Hargrove.The Do-It-Yourself[J].Scientific American,2011-10-18(2):72-79.
[2] 李耀,馮明翰.基于ADC模型的雷達網工作效能評估[J].火控雷達技術,2016(2):96-99.
[3] 梁桂琳,周曉紀,王亞瓊.基于ADC模型的遙感武器系統地面系統效能評估[J].指揮控制與仿真,2018(5):96-99.
[4] 董雪.基于ADC模型的潛艇作戰系統效能評估與工具實現[D].南京:南京航空航天大學,2018.
[5] 李彤巖,王培國,張婷.基于ADC模型的通信網絡效能評估方法研究[J].電子技術應用,2015(9):621-625.
[6] 梁波.計算機集群節點的狀態測量與節能優化的研究[D].湘潭:湘潭大學,2015.