沈霽 鄭璧青 葉恒 施雯 王琰


摘要:高可靠飛行器計算機系統主要應用于智能化飛行器以及其它具有故障修復,任務變更等在軌持續擴展飛行任務要求的飛行器,本文選用了三模冗余設計,總線獨立,具備三機自主降級切換,自主恢復的能力,有效的保證了計算機的可靠性和安全性。
關鍵詞:可靠性;三模冗余;自主降級
中圖分類號:TN79 文獻標識碼:A 文章編號:1007-9416(2019)04-0158-02
0 引言
航天飛行器由于其靈活多變的應用特點,所以在功能和需求上對可靠性的要求越發重要,本文中高可靠飛行器計算機具備高可靠高性能的特點,系統主要采用三模冗余容錯的計算機系統結構,完全消除了單點故障,設計了三機故障重構和降級策略,提高了計算機系統的實時性和可靠性,延長了計算機的使用壽命。
1 系統可靠性設計
為了提高計算機系統的可靠性和安全性,采用了高容錯能力的三模冗余設計,主要是通過采用硬件結合軟件容錯的措施,在系統出現一定故障的情況下仍能夠正確完成規定任務的容錯系統,這個結構完全消除了單點故障,提供了一種故障重構和降級的策略,提高了飛行器計算機系統的實時性和可靠性,并且采用了斷點時分采集方法,保證系統采集能夠在同一時間進行讀取,通過三取二表決[1]進行處理,避免單個故障狀態下的安全性,使得三模冗余的設計更加可靠。
計算機系統設計了三個CPU(arm9260)作三機冗余設計,并且配置了2套系統構成冷/熱冗余的二模系統,共6機,每套CPU總線獨立,分別有自己的引導程序存儲器(PROM)、程序運行存儲器(SRAM)和數據存儲區(NorFlash),CPU兩兩之間有共享數據存儲器(雙口RAM),CPU通過表決FPGA與對外總線(CAN總線和CPCI內總線)進行通信。系統具體設計如圖1所示。
2 軟件工作模式設計
計算機系統默認分為當權機與備份機,工作模式有三機模式、雙機模式以及單機工作默認情況下工作在三機模式,A號機為當權機,B、C號機為備份機,三機同時接收外部數據,進行三機數據交互表決后,由當權機輸出控制[2]。
計算機系統故障模式分為兩種:瞬時故障和永久故障。
(1)瞬時故障處理設計:各模式下發生瞬時故障時,需維持當前模式,解決瞬時故障,若連續發生瞬時故障超過閾值限制,需轉換為永久故障,進行降級或切權;
(2)永久故障處理設計:1)三機模式下發生永久故障時,通過CPU三冗余內部表決實現降級處理,轉入雙機模式,等待故障機重啟,若重啟超過閾值限制仍沒有恢復,需進入雙機模式,當權機共作,備份機通過“心跳”信號監測主份機的工作狀況;2)雙機模式下發生永久故障時,備份機奪權,降級為單機工作模式直至任務結束。
三種工作模式的切換關系圖如圖2所示。
3 系統可靠性處理方案
方案設計通過自查、互查模式來決定切權,以此來保障單機在出現故障時仍能正常工作。
(1)自查模式:CPU軟件均分配獨立的空間進行三冗余數據判讀,通過三冗余數據判讀檢查自身功能異常狀態,若三冗余出現異常,需發送異常反饋,寫入自身異常標志,由備份機參與進行表決,并進入異常處理模式;(2)互查模式:三個CPU通過各自的交互緩存獲得其他兩個CPU的心跳信號和同步信息,發現有CPU狀態異常時(如無心跳、連續出現同步信息錯誤等),若有兩個CPU同時判斷另一機異常,則將三機模式降級為雙機模式,以此實現三個CPU之間的互查。
計算機系統主要故障處理策略如下:
(1)降級策略:由于三機采用三取二的三冗余容錯機制,當單機失效后三取二的冗余機制不再存在,為了使系統具備更強的故障容忍度,方案采用單機故障后,可降級為主從模式,再次有單機故障時,可降級為單機運行;(2)恢復策略:單機故障后的三機模式的重建:若三取二表決出一機軟件故障,則正常的兩機控制輸出的同時,通過發送復位信號給故障CPU,對CPU進行復位處理;正常的兩機降級為雙機熱備模式固定由其中單機當班輸出。在隨后的三機模式重建中,以該當班機為主,控制實現三機的重建。
4 結語
本文主要闡述了一種高可靠飛行器計算機系統設計方法,采用了三模冗余結合故障修復設計的綜合方案,通過三取二表決進行處理,確保單個故障狀態下的安全性,使得三模冗余的設計更加可靠,大大提高了飛行器計算機系統的可靠性和穩定性,能夠滿足飛行器計算機高可靠的發展趨勢。
參考文獻
[1] 曹靚,田海燕,王棟.一種抗單粒子瞬態輻射效應的自刷新三模冗余觸發器[J].電子與封裝,2018,18(09):36-38+41.
[2] 王釗,李勇,崔維鑫,雒莎.一種星載嵌入式軟件容錯啟動系統設計[J].電子設計工程,2019,27(08):1-5.