摘要:通過(guò)馬爾可夫模型對(duì)SHD2IP系統(tǒng)中的雙機(jī)熱備份系統(tǒng)進(jìn)行可信性建模和分析,從理論上對(duì)SHD2IP系統(tǒng)的可信度和安全度進(jìn)行研究,并根據(jù)設(shè)定的參數(shù)分析參數(shù)對(duì)系統(tǒng)可信度和安全度的影響。最后根據(jù)參數(shù)對(duì)系統(tǒng)影響的大小提出提高系統(tǒng)性能的思路。
關(guān)鍵詞:雙機(jī)熱備份; 可信性建模; 馬爾可夫模型
中圖法分類(lèi)號(hào):TP309.3文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-3695(2007)01-0196-03
隨著系統(tǒng)可靠性的不斷提高,許多系統(tǒng)在關(guān)鍵節(jié)點(diǎn)都需要雙機(jī)熱備份系統(tǒng)的支持,本文對(duì)SHD2IP系統(tǒng)中的一個(gè)雙機(jī)熱備份進(jìn)行了可信性建模分析和比較。通過(guò)對(duì)系統(tǒng)建立可信性模型的分析和驗(yàn)證,對(duì)掌握系統(tǒng)的可靠性和可信性以及系統(tǒng)的性能有很大的指導(dǎo)意義。
1SHD2IP系統(tǒng)的雙機(jī)熱備份機(jī)群
SHD2IP系統(tǒng)是運(yùn)行在移動(dòng)網(wǎng)絡(luò)中的一個(gè)監(jiān)控系統(tǒng),主要是接收前端采集設(shè)備發(fā)送來(lái)的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析和處理,如果發(fā)現(xiàn)被監(jiān)控的對(duì)象有故障,就進(jìn)行報(bào)警。圖1是SHD2IP系統(tǒng)中分光器與 LSC之間的雙機(jī)熱備份圖。為了敘述方便,我們分別稱運(yùn)行主外掛服務(wù)器和從外掛服務(wù)器的系統(tǒng)為主服務(wù)系統(tǒng)和從服務(wù)系統(tǒng)。主服務(wù)系統(tǒng)和從服務(wù)系統(tǒng)之間通過(guò)心跳線進(jìn)行連接,開(kāi)始時(shí),主服務(wù)系統(tǒng)和從服務(wù)系統(tǒng)均處于打開(kāi)狀態(tài),它們都接收從分光器發(fā)送來(lái)的數(shù)據(jù)信號(hào)。但是只有主服務(wù)系統(tǒng)向LSC發(fā)送信息,從服務(wù)系統(tǒng)不向LSC發(fā)送信息。一旦主服務(wù)系統(tǒng)出現(xiàn)故障,就完成了向從服務(wù)系統(tǒng)的切換,轉(zhuǎn)換設(shè)備(BOX)與外掛服務(wù)器作為一個(gè)整體工作,切換時(shí)進(jìn)行整體切換。該監(jiān)控系統(tǒng)的實(shí)時(shí)要求比較高,要求其可用性達(dá)到99.999%甚至更高,如果進(jìn)行實(shí)際驗(yàn)證,會(huì)浪費(fèi)大量資源,所以從理論上對(duì)系統(tǒng)的可用性進(jìn)行分析具有很重要的意義。通過(guò)使用符合系統(tǒng)狀態(tài)變化的模型和設(shè)定的參數(shù)來(lái)驗(yàn)證系統(tǒng)的可靠度和安全度,并通過(guò)改變這些設(shè)定的參數(shù)來(lái)看它們對(duì)系統(tǒng)的影響;然后根據(jù)對(duì)系統(tǒng)可靠度和安全度有影響的參數(shù)因子來(lái)指導(dǎo)系統(tǒng)的設(shè)計(jì),使系統(tǒng)的可用性符合系統(tǒng)的要求。
圖1SHD2IP系統(tǒng)中的雙機(jī)熱備份系統(tǒng)圖
2可信性模型的選取
在計(jì)算機(jī)容錯(cuò)系統(tǒng)中有許多評(píng)價(jià)模型[1~3],主要有組合模型 、動(dòng)態(tài)故障樹(shù)模型、馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)模型。在這四種模型中,組合模型比較適合解決簡(jiǎn)單的、靜態(tài)系統(tǒng)的可靠性問(wèn)題,在比較復(fù)雜的系統(tǒng)中用組合模型很難分析,所以一般時(shí)候不采用這種模型;動(dòng)態(tài)故障樹(shù)模型分析雖然可以分析出系統(tǒng)的薄弱環(huán)節(jié),但是不能對(duì)具有動(dòng)態(tài)隨機(jī)性的系統(tǒng)和順序相關(guān)的系統(tǒng)進(jìn)行分析;神經(jīng)網(wǎng)絡(luò)模型在系統(tǒng)的設(shè)計(jì)過(guò)程中,對(duì)系統(tǒng)參數(shù)的選擇起指導(dǎo)作用,對(duì)評(píng)價(jià)既定系統(tǒng)的可靠度和安全度還需要進(jìn)一步的研究和探索;馬爾可夫模型不但建模簡(jiǎn)單,而且很適合描述具有計(jì)算機(jī)容錯(cuò)系統(tǒng)的狀態(tài)轉(zhuǎn)移。由于本系統(tǒng)中的狀態(tài)轉(zhuǎn)換符合馬爾可夫模型,所以本文選擇了馬爾可夫模型來(lái)對(duì)雙機(jī)熱備份系統(tǒng)進(jìn)行建模分析比較。
3馬爾可夫模型對(duì)SHD2IP中雙機(jī)熱備份系統(tǒng)的描述
3.1SHD2IP中雙機(jī)熱備份系統(tǒng)的馬爾可夫模型建立
為了能正確地反映組成模塊在工作狀態(tài)和失效狀態(tài)之間的不斷轉(zhuǎn)換,在馬爾可夫模型中定義了所有可能的系統(tǒng)狀態(tài)和狀態(tài)轉(zhuǎn)移[2]。其中系統(tǒng)狀態(tài)描述了在該系統(tǒng)中的任何時(shí)刻系統(tǒng)可能處于的狀態(tài)。在馬爾可夫模型中,系統(tǒng)的下一步運(yùn)行狀態(tài)與如何進(jìn)入當(dāng)前狀態(tài)無(wú)關(guān),而僅僅與當(dāng)前狀態(tài)有關(guān)系。狀態(tài)轉(zhuǎn)移表示了系統(tǒng)從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率。
在SHD2IP系統(tǒng)中,雙機(jī)熱備主要處于四種狀態(tài):雙機(jī)互備狀態(tài)、Work_primary_handler狀態(tài)、Work_secondary_handler狀態(tài)和Work_standalone狀態(tài)。圖2是它們的狀態(tài)轉(zhuǎn)換圖。
為了刻畫(huà)系統(tǒng)的馬爾可夫模型,根據(jù)系統(tǒng)處于的狀態(tài)定義系統(tǒng)的馬爾可夫狀態(tài)集s={0,1,2,…,n},該系統(tǒng)有四個(gè)狀態(tài),如圖3所示。
狀態(tài)0:兩個(gè)服務(wù)系統(tǒng)都正常工作,處于完好狀態(tài)。
狀態(tài)1:主服務(wù)系統(tǒng)或者備用服務(wù)系統(tǒng)有一個(gè)系統(tǒng)發(fā)生故障,系統(tǒng)處于單服務(wù)系統(tǒng)工作狀態(tài)。
狀態(tài)2:在單服務(wù)系統(tǒng)下,檢測(cè)到該系統(tǒng)也發(fā)生故障并被切除。
狀態(tài)3:系統(tǒng)處于危險(xiǎn)狀態(tài)。
那么,根據(jù)上面的定義,假設(shè)系統(tǒng)在時(shí)刻t正常工作,而在時(shí)刻t+Δt失效的概率p為p=1-e-λΔt,如果把上面部分用指數(shù)展開(kāi),當(dāng)Δt很小時(shí),p=1-e-λΔt≈λΔt。如果假設(shè)系統(tǒng)的可維修概率是μ,故障覆蓋率是c,那么該系統(tǒng)出現(xiàn)故障后,被隔離維修后系統(tǒng)的轉(zhuǎn)換概率是λcΔt,若沒(méi)有檢測(cè)切除則其概率是λ(1-c)Δt,系統(tǒng)維修后轉(zhuǎn)換為正常工作模塊的轉(zhuǎn)換概率是μΔt。于是可以得到在馬爾可夫模型中的轉(zhuǎn)移概率函數(shù),如表1所示。
表1狀態(tài)轉(zhuǎn)移概率表
3.2可靠度與安全度的計(jì)算
可靠度r(t)[4,5]表示電子元器件產(chǎn)品在規(guī)定條件下使用一段時(shí)間t后,還能完成規(guī)定功能的概率;安全度s(t)表示在系統(tǒng)的可靠度與失效安全狀態(tài)下條件概率的和。如果用pn(t)表示系統(tǒng)在時(shí)刻t處于狀態(tài)n的概率, pn(t+Δt)表示系統(tǒng)在t+Δt時(shí)刻處于狀態(tài)n的概率,其中n的取值是{0,1,2,3}中的一個(gè),那么根據(jù)圖3,可以得到如下方程組:
求上述偏微分方程的解,由式(6)可得p0(t)=p′1(t)+(λ+μ)p1(t)2λc,然后把它帶入式(5),再結(jié)合系統(tǒng)的初始條件(在條件t=0時(shí)刻,系統(tǒng)完全可靠,沒(méi)有故障發(fā)生,所以有p0(0)=1,p1(0)=p2(0)=p3(0)=0),可以求得到如下結(jié)果:
4系統(tǒng)可靠度和安全度分析
通過(guò)上面的公式,可以利用仿真語(yǔ)言MATLAB來(lái)對(duì)影響系統(tǒng)性能的關(guān)鍵參數(shù)c,λ,μ進(jìn)行分析。圖4和圖5是可靠度和安全度隨時(shí)間變化的函數(shù)。表2和表3列出了參數(shù)μ和參數(shù)c對(duì)系統(tǒng)可靠度和安全度的影響。其中c=0.95, λ=0.
通過(guò)上面的分析可得到下面的結(jié)論:
(1)當(dāng)系統(tǒng)的失效率和故障覆蓋率是一個(gè)常數(shù)時(shí),系統(tǒng)的可靠度和安全度隨著系統(tǒng)維修率的改變而改變。當(dāng)維修率增加時(shí)系統(tǒng)的可靠度和安全度也增加,所以可以通過(guò)增加系統(tǒng)的維修率來(lái)增加系統(tǒng)的可靠度和安全度。
(2)當(dāng)系統(tǒng)的維修率固定后,系統(tǒng)的可靠度隨著時(shí)間的運(yùn)行急劇下降,而系統(tǒng)的安全度受到的影響不是很大;當(dāng)系統(tǒng)的故障覆蓋率比較低時(shí),系統(tǒng)的可靠度也很低,而系統(tǒng)的安全度受到的影響不是很大。
(3)從圖4和圖5可以看出,系統(tǒng)的可靠度和安全度隨著時(shí)間的增加而降低,并且有一個(gè)時(shí)間段急劇下降。
表3參數(shù)c對(duì)雙機(jī)熱備份系統(tǒng)可靠度和安全度的影響
所以為了提高SHD2IP系統(tǒng)的可靠度和安全度,需要做下列工作:
(1)提高系統(tǒng)的可維修率μ。
(2)提高系統(tǒng)的故障覆蓋率c。
(3)定期對(duì)系統(tǒng)中的備份系統(tǒng)進(jìn)行維修檢查,以提高系統(tǒng)的安全度和可靠度。
這就需要從硬件和軟件兩個(gè)方面對(duì)系統(tǒng)進(jìn)行可靠性設(shè)計(jì),在設(shè)計(jì)時(shí)需要考慮能使系統(tǒng)可靠的各種因素。
5結(jié)論
本文通過(guò)對(duì)SHD2IP系統(tǒng)中的雙機(jī)熱備份系統(tǒng)進(jìn)行建模分析,了解影響系統(tǒng)可靠度和安全度性能的關(guān)鍵參數(shù),這對(duì)于設(shè)計(jì)、使用、維護(hù)SHD2IP系統(tǒng)應(yīng)用有一定的理論指導(dǎo)價(jià)值。
參考文獻(xiàn):
[1]劉新宇,高文,孫凝暉.雙機(jī)熱備份集群的可信性建模分析與比較[J].小型微型計(jì)算機(jī)系統(tǒng),20-04,25(4):747751.
[2]Raj Jain.The Art of Computer Systems Performance Analysis:Techniques for Experimental Design,Measurement, Simulation and Mode ̄ling[M].NewYork:John wileg Sons, 1991.8182.
[3]Allen M Johnson, Miroslaw Malek.Survey of Software Tools for Evalua ̄ting Reliability, Availability and Serviceability[J]. ACM Computing Surveys,1998,20(4):227269.
[4]孫青,莊奕琪,等.電子元器件可靠性工程[M].北京:電子工業(yè)出版社,2002.4854.
[5]高繼祥.雙機(jī)熱備計(jì)算機(jī)連鎖系統(tǒng)可靠與安全性指標(biāo)分析[J].北方交通大學(xué),1998,22(5):7377.
[6]袁振東,洪淵,等.數(shù)學(xué)建模[M].上海:華東師范大學(xué)出版社,2000.241258.
作者簡(jiǎn)介:
白立軍(1982),男,山東聊城人,碩士,主要研究方向?yàn)榫W(wǎng)絡(luò)安全;
陳曙暉(1974),男,助理研究員,碩士,主要研究方向?yàn)榫W(wǎng)絡(luò)安全與嵌入式系統(tǒng);
張銀福(1948),男,研究員,碩士生導(dǎo)師,主要研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)應(yīng)用技術(shù)。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文