雷華舟,鐘 杰,呂升林
(1.中國科學院 空間光電精密測量技術重點實驗室,成都 610209; 2.中國科學院 光電技術研究所,成都 610209; 3.中國科學院大學 計算機科學與技術學院,北京 100049; 4.中國人民解放軍 空軍裝備部駐成都地區第五軍事代表室,成都 610209)
近年來,由于商業需求在航天領域的不斷發展,商業載荷需求呈現爆發式增加。傳統的以科技載荷為需求的3~5年的載荷研制周期不能滿足商業航天的業務需求,而且航天級器件一般因為供貨周期長,價格昂貴而且性能往往落后于地面上的同級別器件的原因,所以采用高性能商業級現貨器件代替傳統航天級器件作為商業航天公司在成本控制領域發展的一個方向。在宇航應用中,計算單元能否長時間地穩定、可靠工作對于目標任務的實現具有關鍵作用,由于高性能商業級器件不是為了宇航應用而生產,所以為了提升其在宇航應用中的可靠性,利用適當的容錯策略和冗余設計,使其達到所需的設計目標。[1]隨著計算技術的發展,在冗余設計上有傳統采用靜態的熱備、冷備的方式[2-3],也有較新的基于動態重構的方式[4-5],不同的設計和策略因為應用場景不同各有特點。因此各種冗余設計的可靠性是一個值得研究的重要問題。
目前針對冗余設計可靠性主要研究指向單一項目前對宇航電子設備進行設計前的預估,判斷宇航電子設備是否能夠滿足系統的可靠性設計,為系統方案提供必要的技術支撐[6-7]。另外,從理論角度采用新的理論進行新的可靠性模型搭建和軟硬件容錯策略設計也是學者們研究的另一方向[8-9]。為了更低成本的商業化應用,部分學者嘗試將方向引向商業設計上計算單元架構可靠性相互間比較研究[10]。
綜上所述,以往的研究主要集中為單一項目提供技術支撐和新可靠模型的搭建,對于架構可靠性比較研究較少。本文在冗余設計可靠性理論基礎上,用馬爾可夫鏈模型數值分析計算方法,考慮計算單元的仲裁切換模塊,針對商業航天任務周期時長的背景,對幾種冗余設計架構可靠性進行仿真、比較分析,為商業航天載荷的設計提供參考。
常見的基于COTS器件宇航計算單元一般采用“計算核心+FPGA”的異構組合,近年來也出現了基于大容量FPGA構成的可重構計算單元[4,11-12]。對于常見的異構組合需要考慮其仲裁切換模塊的可靠性,而對于基于FPGA構成的計算單元還需要考慮由其系統的最大特點是可以通過重新配置,進行系統的重構,通過可重構機制使得系統得以修復。
由于具有可修復能力的電子設備進行可靠性分析時過程相對比較復雜。本文以動態重構三模冗余作為可修復設備的代表進行可靠性分析。主要針對比較常用的雙機冷備、雙機熱備、三模冗余以及兩熱一冷這幾種冗余結構計算單元的可靠性進行分析。
雙機冷備份結構設計原理如圖1所示,正常狀態下采用的主節點上電,備節點不上電。雙機冷備份結構在仲裁切換模塊正常,沒有發生故障時,主節點正常工作進行運算處理,計算單元內的備節點不會發生故障;當主節點發生故障時,激活備節點,對主節點進行替換;當備節點也發生故障時,系統失效。當仲裁切換節點發生故障時,主節點正常工作,備節點不會發生故障;當主節點故障時,由于仲裁切換模塊發生故障無法切換,系統失效。

圖1 雙機冷備份重組結構拓撲圖
雙機熱備份重構設計原理如圖2所示,采用的雙機熱備份,熱備份與冷備份不同在于正常情況下,計算單元內的備節點也有可能發生故障。雙機熱備份在仲裁切換模塊正常,主節點正常工作時,計算單元工作正常;當備節點也發生故障時,系統失效。當仲裁切換節點發生故障時,主節點正常工作,備節點發生故障,系統正常工作;當主節點故障時,由于仲裁切換模塊發生故障無法切換,系統失效。

圖2 雙機熱備份重組結構拓撲圖
常規三模表決設計原理如圖3所示,采用的三模表決,正常狀態下3個節點均正常工作對輸入信號進行運算,仲裁切換模塊表決,系統正常輸出;當其中1個節點發生故障,另2個節點正常工作時,仲裁切換節點將會屏蔽故障節點的影響;當出現2個節點及以上節點發生故障時,系統失效。當仲裁切換節點出現故障時,由于無法進行仲裁或者仲裁出錯,系統失效。

圖3 三模表決冗余結構拓撲圖
三模冗余重組結構設計一般應用在大容量可重構FPGA上,其結構如圖4所示,采用的三模表決的仲裁策略,正常狀態下3個節點均正常工作,系統正常輸出;當其中1個節點發生故障,另2個節點正常工作時,仲裁切換節點屏蔽故障節點的影響,系統通過內嵌的故障診斷、識別,然后進行故障清理等手段讓故障節點恢復正常,在不影響計算單元工作的情況下,將其接入系統,恢復到三模表決的工作狀態;當出現2個節點及以上節點發生故障時,系統失效。當仲裁切換節點出現故障時,由于無法進行仲裁或者仲裁出錯,系統失效。

圖4 三模冗余重組結構拓撲圖
兩熱一冷冗余結構設計原理如圖5所示,采用1個雙節點熱備加一個節點冷備的節點架構,正常狀態下兩個熱節點均正常工作,系統正常輸出;當其中1個熱節點發生故障,仲裁切換節點激活冷節點,與正常節點重新構成雙節點熱備。
考慮仲裁切換節點出現故障的時間,其工作狀態分為:首先仲裁切換節點出現故障,當其中1個熱節點發生故障,系統只能以單節點狀態工作;其中1個熱節點首先發生故障,之后仲裁切換節點出現故障,系統以雙節點熱備狀態工作。

圖5 兩熱一冷冗余結構拓撲圖
由于計算單元的容錯設計結構不一致,其在工作時遭受故障時的工作狀態會產生變化以保證系統的正常運行,針對計算單元不同的工作狀態,采用馬爾科夫隨機過程對其可靠性進行建模,考慮到不同單元失效率λC、λAW和維修率μC,對不同結構計算單元的可靠性指標進行評價。
由圖1所示的雙機冷備結構,正常狀態S11,沒有故障節點,主節點當班;當主節點發生故障,由狀態S11變為狀態S12,備節點被激活,作為當班節點;當仲裁切換節點發生故障,由狀態S11變為狀態S13,主節點仍作為當班節點工作。當主節點、仲裁切換節點發生故障,由狀態S12變為狀態S14,備節點被激活,作為當班節點;當主節點、備節點發生故障,由狀態S12變為狀態S16,系統失效。當仲裁切換節點、主節點發生故障,由狀態S13變為狀態S15,系統失效。當所有節點故障,變為狀態S17,系統失效。其工作狀態如表1所示。

表1 雙機冷備份重組結構工作狀態表


圖6 雙機冷備結構系統狀態轉移圖
由圖2所示的雙機熱備結構,正常狀態S21,沒有故障節點,主節點當班;當主節點或者備節點發生故障,由狀態S21變為狀態S22,另一節點被激活,作為當班節點;當仲裁切換節點發生故障,由狀態S21變為狀態S23,主節點仍作為當班節點工作。當主節點、仲裁切換節點或者備節點、仲裁切換節點發生故障,由狀態S22變為狀態S24,另一節點被激活,作為當班節點。當仲裁切換節點、備節點發生故障,由狀態S23變為狀態S24,主節點仍作為當班節點工作;當仲裁切換節點、主節點發生故障,由狀態S23變為狀態S25,系統失效。當主節點、備節點發生故障,由狀態S22變為狀態S26,無當班節點,系統失效;當所有節點故障,變為狀態S27,系統失效。其工作狀態如表2所示。

表2 雙機熱備份重組結構工作狀態表


圖7 雙機冷備結構系統狀態轉移圖
由圖3所示的三模表決冗余結構,正常狀態S31,沒有故障節點,仲裁節點3/3仲裁。當某計算節點發生故障,由狀態S31變為狀態S32,仲裁節點2/3仲裁;當仲裁切換節點發生故障,由狀態S31變為狀態S35,系統失效。當某計算節點再次發生故障,由狀態S32變為狀態S33,仲裁節點1/3仲裁,系統失效;當某計算節點,仲裁切換節點發生故障,由狀態S32變為狀態S36,系統失效。當仲裁切換節點、某計算節點發生故障,由狀態S35變為狀態S36,系統失效。當所有計算節點發生故障,由狀態S33變為狀態S34,系統失效;當某兩計算節點、仲裁切換節點發生故障,由狀態S33變為狀態S37,系統失效。當仲裁切換節點、某兩計算節點發生故障,由狀態S36變為狀態S37,系統失效。當所有節點發生故障,變為狀態S38,系統失效。其工作狀態如表3所示。

表3 三模表決冗余結構工作狀態表


圖8 三模表決冗余結構系統狀態轉移圖
由圖4所示的三模表決冗余結構,工作模式與三模表決冗余結構基本一致,主要區別在于當某一計算單元出現故障之后,將以某一修復率對該計算單元進行修復,其工作狀態如表4所示。

表4 三模冗余重組結構工作狀態表


圖9 三模冗余重組結構系統狀態轉移圖
由圖5所示的兩熱一冷冗余結構,正常狀態S51,沒有故障節點,由主節點與備節點1構成雙機熱備結構,主節點當班。當主節點或者備節點1發生故障,啟動備節點2,組成新的雙機熱備結構,由狀態S51變為狀態S52。當任意兩個計算節點發生故障,轉化為單機系統,由狀態S52變為狀態S53;當一個計算節點和仲裁切換節點先后發生故障,由狀態S52變為狀態S54。當仲裁切換節點和備節點1先后發生故障,主節點仍做當班機,系統正常,由狀態S51變為狀態S55;當仲裁切換節點和主節點先后發生故障,仲裁切換失效,系統失效,由狀態S51變為狀態S56。當仲裁切換節點、主節點、備節點1先后發生故障,系統失效,由狀態S55、S56變為狀態S59。當任意兩計算節點故障后,仲裁切換節點失效,系統由狀態S53變為狀態S57、S58;當所有的3個計算節點故障后,系統由狀態S53變為狀態S5a。當某計算節點和仲裁切換節點故障后,降為雙機系統,此時如非當班節點發生故障,則系統工作正常,系統由狀態S54變為狀態S58;此時如當班節點發生故障,則系統工作失效,系統由狀態S54變為狀態S5b。當所有節點發生故障,變為狀態S5c,系統失效。其工作狀態如表5所示。

表5 兩熱一冷冗余結構工作狀態表


圖10 兩熱一冷冗余結構系統狀態轉移圖
在研究系統的可靠性之前,首先對系統做如下假設:
1)假設系統中除了處理器模塊和表決切換單元外,其他系統的可靠度均為1;
2)每個計算核心模塊的失效率為λC,維修率為μC,表決切換單元的失效率為λAW,同時假設失效分布和維修時間分布為指數分布;
3)某一時刻只有一個模塊發生故障;
4)系統開始工作時,各單元都為無故障狀態,系統整體處于完好狀態。
基于以上假設,對各結構的可靠性進行研究。
根據圖6,其馬爾克夫狀態可做以下的數學描述:時刻t+Δt結構狀態的條件概率與t時刻結構狀態由全概率公式得到,考慮當Δt→0時,得到如下狀態微分方程組:
(1)
考慮系統的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得雙機冷備重組結構可信度:
R1(t)=PS11(t)+PS12(t)+PS13(t)+PS14(t)
(2)
根據圖7雙機熱備結構的狀態轉移圖,其馬爾克夫狀態可做以下的數學描述:時刻t+Δt結構狀態的條件概率與t時刻結構狀態由全概率公式得到,考慮Δt→0當時,得到如下狀態微分方程組:
(3)
考慮系統的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得雙機熱備重組結構可信度:
R2(t)=PS21(t)+PS22(t)+PS23(t)+PS24(t)
(4)
根據圖8,其馬爾克夫狀態可做以下的數學描述:時刻t+Δt結構狀態的條件概率與時刻t結構狀態由全概率公式得到,考慮當Δt→0時,得到如下狀態微分方程組:
(5)
考慮系統的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結構可信度:
R3(t)=PS31(t)+PS32(t)
(6)
根據圖9,考慮三模重組一般采用大容量FPGA構成的,其馬爾克夫狀態可做以下的數學描述:有λC=λAW,時刻t+Δt結構狀態的條件概率與t時刻結構狀態由全概率公式得到,考慮當Δt→0時,得到如下狀態微分方程組:
(7)
考慮系統的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結構可信度:
R4(t)=PS41(t)+PS42(t)
(8)
根據圖10三模冗余重組結構的狀態轉移圖,其馬爾克夫狀態可做以下的數學描述:時刻t+Δt結構狀態的條件概率與t時刻結構狀態由全概率公式得到,考慮當Δt→0時,得到如下狀態微分方程組:
(9)
考慮系統的約束條件:
初始條件:
PS51(0)=1,PS52(0)=PS53(0)=PS54(0)=PS55(0)=PS57(0)=PS58(0)=0
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結構可信度:
R5(t)=PS51(t)+PS52(t)+PS53(t)+PS54(t)+PS55(t)+
PS57(t)+PS58(t)
(10)
宇航計算單元對可靠性的要求非??量?,在預計壽命內的可靠度不低于0.99[13]。經過特別的處理和加固的宇航級或軍品級的電子元器件,其失效率λ一般在10-9~10-8/h之間,目前的商用VLSI技術所能達到的失效率為10-7/h,但一般的商業級或工業級的電子元器件,其失效率λ在10-6~10-5/h之間[14]。
根據式(2)、(4)、(6)、(8)、(10)可以分析與比較失效率和修復率對不同形式系統可靠性的影響,對這5類結構組成的計算單元正常工作5年(4.38×104h)的可靠度進行比較。選取計算核心失效率λC=10-6/h,仲裁切換單元失效率λAW=10-6/h,恢復率μC=100λAW=10-4/h(恢復率主要對于三模冗余重組結構,其由大容量FPGA構成,故λAW=λC,下文同理),所得曲線如圖11所示。

圖11 λC=10-6/h,λAW=10-6/h,μC=100 λAW=10-4/h各架構可靠度變化曲線
取計算核心失效率λC=10-5/h,仲裁切換單元失效率λAW=10-5/h,恢復率μC=100λAW=10-3/h,所得曲線如圖12所示。

圖12 λC=10-5/h,λAW=10-5/h,μC=100λAW=10-3/h各架構可靠度變化曲線
可以明顯由圖12看出,λC=10-5/h,λAW=10-5/h,失效率較大時,無論采取什么結構,系統保持可靠度不低于0.99的預期壽命不足1.2×104h,其中能保持可靠度不低于0.99最長結構為兩熱一冷,時間為1.14×104h,最遠低于一般載荷正常工作5年(4.38×104h)的預期壽命;而當選取的λC=10-6/h,λAW=10-6/h,失效率較小時,雙機熱備、雙機冷備和兩熱一冷結構能夠保持可靠度不低于0.99的預期壽命超過一般載荷正常工作5年(4.38×104h)的預期壽命,分別達到8.6×104h、10.5×104h和11.3×104h。由圖12、圖13可明顯看出三模冗余重組結構由于修復率的關系,相同工作時間內明顯比一般三模冗余結構系統可靠性更高,但無論是常規的三模冗余還是三模冗余重組結構的計算單元其可靠度都極低,遠不能達到一般載荷正常工作的預期壽命。
分別選取計算核心失效率λC=10-6/h、λC=10-5/h,仲裁切換單元失效率λAW在10-7~10-5/h下,分析和比較不同架構可靠性,所得曲線如圖13、圖14所示。

(a)λAW=10-5 h-1 (b)λAW=10-6h-1 (c)λAW=10-7h-1圖13 λC=10-6/h,不同λAW下各架構可靠度變化曲線(t=2×105 h)

(a)λAW=10-5h-1 (b)λAW=10-6 h-1 (c)λAW=10-7 h-1圖14 λC=10-5/h,不同λAW下各架構可靠度變化曲線(t=105 h)
在λC=10-6/h情況下,雙機冷備冗余結構可靠度不低于0.99的運行時間由4.6×104h先后提升至10.5×104h、14.1×104h;雙機熱備冗余結構可靠度不低于0.99的運行時間由4.4×104h先后提升至8.6×104h、10.2×104h;三模冗余結構可靠度不低于0.99的運行時間由0.1×104h先后提升至0.9×104h、4.4×104h;兩熱一冷冗余結構可靠度不低于0.99的運行時間由3.4×104h先后提升至11.1×104h、51.1×104h。
在λC=10-5/h情況下,雙機冷備冗余結構可靠度不低于0.99的運行時間由1.0×104h先后提升至1.4×104h、1.4×104h;雙機熱備冗余結構可靠度不低于0.99的運行時間由0.8×104h先后提升至1.0×104h、1.0×104h;三模冗余結構可靠度不低于0.99的運行時間由0.1×104h先后提升至0.4×104h、0.5×104h;兩熱一冷冗余結構可靠度不低于0.99的運行時間由1.1×104h先后提升至5.5×104h、51.5×104h。
如表6所示,相同λAW下,λC的可靠度是決定系統可靠度的絕對因素,λC的提高能大幅提高系統的可靠性。在λC不變情況下,不同冗余結構可靠度都隨著λAW提高能有效提升系統整體的可靠性,λAW在到達某一個值之后對系統可靠性的影響就會逐漸減弱。
本文對5種典型宇航計算單元冗余架構建立了馬爾可夫模型,根據可靠性理論對各架構的可靠性進行了計算、分析和比較。三模表決架構雖具有實時性強、發生一次故障系統工作不間斷等優點,但從分析結果看,無論是常規三模表決架構還是動態重構的三模表決架構都不適合長時間任務。另一方面,在考慮制造成本、預期壽命、實時性和系統復雜度的不同影響的情況下,可以采取不同的冗余架構或者在計算核心和仲裁單元采用不同失效率的器件。具有雙機冷備的冗余架構在制造成本占有一定優勢,既能夠滿足較長預期壽命相對而言可靠性也能夠達到要求;具有兩熱一冷的冗余架構在制造成本優勢較小,既能夠滿足長時間的預期壽命和相對而言較高的可靠性要求,但結構相對復雜;具有雙機熱備的冗余架構在制造成本上占有一定優勢,既能夠滿足一般的預期壽命相對而言可靠性也能夠達到要求,并且在實時性上會表現較好。

表6 不同結構不同失效率可靠度不低于0.99運行時間(104 h)