趙海濤,熊 笑,謝 軍,鄭晉軍,谷 巖
(1. 北京空間飛行器總體設計部,北京 100094;2. 中國空間技術研究院,北京 100094)
衛星導航系統是當今國民經濟和國防建設不可或缺的重要空間基礎設施。導航信號的連續可用是衛星導航系統成功運行的根本保證。在民航、交通運輸等應用中,導航信號中斷可能帶來嚴重后果。如果導航信號頻繁中斷,衛星導航系統將失去應用價值。因此,可用性、連續性是衛星導航系統的關鍵頂層技術指標。
中斷是指導航衛星不能提供規定導航信號服務的狀態。衛星導航系統的可用性、連續性都與導航衛星的中斷直接相關。導航衛星中斷既可能由故障引起(一般表現為導航信號或數據的丟失或異常),也可能由維護操作引起(如相位保持),前者對應非計劃中斷,后者對應計劃中斷。計劃中斷可通過提前給出衛星不可用標識而不影響導航信號連續性,但非計劃中斷由于發生的不確定性,必然對導航信號的連續可用造成影響。因此,為保證導航信號的連續可用,我國北斗導航衛星首次將中斷頻次作為衛星的技術指標。
中斷頻次可定義為單位時間內導航衛星信號中斷的次數。在調研GPS、Galileo、GLONASS的公開資料中,只有GPS明確提出了中斷頻次指標[1],但未見具體的分析方法。目前GPS已運行20多年,其中斷頻次指標早已得到在軌驗證。我國北斗全球衛星導航系統起步晚,由于缺少實測數據,在工程研制階段如何分析與驗證中斷頻次是制約衛星可用性量化設計的瓶頸問題,其中需解決的關鍵問題又包括:
1)底層中斷事件的確定。故障不一定導致中斷,一顆衛星有百余臺設備、幾萬個元器件,全面分析這些設備/元器件和衛星中斷的關系將耗費大量的資源,需要通過簡單有效的方式確定底層中斷事件,剔除與導航信號中斷無關的設備、元器件。
2)中斷建模方法。需要考慮以何種方法建立中斷頻次的分析模型,能夠覆蓋中斷有關的各類因素,并能以數學方法方便地得到分析結果。
3)器件功能異常率的獲取。器件功能異常率是整星中斷頻次分析的數據基礎,這一指標和器件自身的單粒子本征翻轉率有很大差異,需要考慮器件單粒子軟錯誤的傳播過程及實際設計情況。地面試驗、故障仿真都只能解決有限范圍的問題。
當前國內外鮮見中斷頻次分析方面的研究資料,相關研究主要集中在星座及單星可用性綜合分析[2-6]、單粒子軟錯誤定量表征與評價[7-10]方面,前者以單星中斷頻次、中斷恢復時間等指標為輸入,考察星座層面的可用性,后者主要進行器件單粒子軟錯誤及其傳播概率的理論計算,兩者均未給出中斷頻次分析的系統解決方案。
為此,本文面向導航衛星中斷頻次分析的工程需求,針對中斷頻次分析的關鍵問題,提出了具體實施方法。
導航衛星在軌運行期間,其中斷具有隨機性、可恢復的特點。引起中斷的主要故障原因包括:
1)使用了大規模FPGA等邏輯器件,以及和導航功能相關的設備,由于單粒子事件導致功能中斷或異常,繼而造成導航信號不可用。例如,導航任務處理FPGA發生單粒子翻轉后,通常需要進行復位或整機加斷電,進而引起信號連續性損失。
2)由于軟件錯誤導致導航信號中斷。例如,導航信號生成、處理、播發相關的軟件,由于軟件設計缺陷造成運行出錯、復位,也可能導致導航信號不可用,從而出現中斷。
3)與導航下行信號生成與播發直接相關的設備,發生故障后切機造成功能中斷,進而導致導航信號不可用。例如,導航信號播發通道的主份行波管放大器故障后,需要切換到備份行波管放大器,這一過程中相應頻率的導航信號將處于不可用狀態。
以上3類原因中,單粒子事件和硬件故障在設計上是不能徹底消除的,軟件設計缺陷只要在軌糾正則不會重復發生,因此導航衛星中斷頻次分析通常只考慮單粒子事件和硬件故障。
中斷頻次分析過程主要包括篩選和確定中斷影響因素、建立中斷模型、獲取FPGA功能異常率等基礎數據、計算中斷頻次指標并進行符合性驗證,其流程如圖1所示。

圖1 導航衛星中斷頻次的分析流程
中斷可由故障引起,但不是所有故障都會導致中斷。事實上,大多數故障和中斷無關,如遙控損失一個通道只短暫影響遙控功能,地球敏感器故障后可以用備份設備或星敏感器替代,不會影響導航功能的正常運行。因此,中斷頻次分析首先需要確定哪些故障可能造成中斷,即確定底層中斷事件。
ESA的可用性工程[11]和國內航天器工程中提出了一種類似FMEA的中斷分析方法,針對星上設備列出可能的中斷事件,并進一步分析其原因和影響。對這種中斷分析方法進行自下而上分析,需要覆蓋所有設備,投入較大人力、時間等資源。為了提高分析效率并節約成本,可以結合功能分析、信息流分析,利用相關性分析方法,自上而下快速縮小分析范圍,分析步驟如下:
1)獲取衛星所有分系統的組成、功能和冗余設計信息。
2)分析各分系統與導航信號生成與播發的關系,明確中斷影響。
3)針對可能導致導航衛星中斷的分系統,分析各設備和導航信號生成與播發的關系,確定可能導致導航衛星中斷的底層故障。
為快速確定分系統、設備和導航衛星中斷的關系,可參考表1所示的線索表。

表1 中斷關系線索
底層故障引起導航衛星中斷是一個故障傳播過程,由于從器件、設備到分系統、整星均有一定的防護措施,而且不同設備在導航信號生成與播發過程中的功能不同,因此既便是與門邏輯中的底層故障也不一定必然導致導航衛星中斷。為描述這一特征和突出中斷以軟故障為主的特點,本文提出中斷樹,并將傳播概率納入分析過程。
中斷樹以“導航衛星信號中斷”為頂事件,依據底層中斷事件的分析結果建立。中斷樹與衛星傳統的故障樹的主要區別如表2所示。

表2 衛星中斷樹與故障樹的主要區別
定義影響因子β為本級事件導致上一級事件發生的概率,其取值范圍如下:
1)β=1,本級事件必然導致上一級事件發生。
2)β=x,0 3)β=0,本級事件不會導致上一級事件發生。 依據中斷樹,可建立中斷頻次分析的數學模型。 當中斷樹底事件較少、邏輯關系較簡單時,可以建立解析模型。依據中斷樹,導航衛星中斷頻次可以分解為或門、與門及其組合。 或門邏輯下,假設有n1個底事件,第i個底事件的影響因子為βi(i=1,2,…,n1),則中斷頻次為 (1) 式中:Pso為或門系統的中斷頻次;Pi為第i個底事件的發生頻次;θi為第i個底事件的平均發生間隔時間。 與門邏輯下,假設有n2個底事件,且該與門的影響因子為βa,則中斷頻次為: (2) 式中:Psa為與門系統的中斷頻次;Pj為第j個底事件的發生頻次;θj為第j個底事件的平均發生間隔時間。 當中斷樹底事件較多、邏輯關系復雜、采用解析式計算量大或者不適合用解析式計算時,可以采用蒙特卡洛仿真方法。依據中斷樹,建立蒙特卡洛仿真流程,利用可靠性專用軟件或者編制程序,實現中斷頻次的仿真計算。 底事件可分為硬故障和軟故障兩類。硬故障的發生頻次可以近似采用失效率轉換為單位時間的故障次數得到。 軟故障主要關注FPGA的單粒子功能異常率,即FPGA在軌發生單粒子軟錯誤后引起規定功能中斷的頻次。FPGA單粒子功能異常率既和器件的單粒子本征翻轉率有關,也和軌道條件、器件資源使用情況、單粒子防護設計情況等有關。目前,常見的方法是進行地面輻照試驗或者故障注入仿真來獲得單粒子功能異常率的數據,但地面輻照試驗投入大,且試驗結果一般不代表在軌真實情況,故障注入仿真周期長,且依賴模型的準確性,因此均未大量應用。為快速而有效地獲取所有相關FPGA器件的功能異常率,本文提出一種利用相似器件在軌數據的快速預估方法,主要過程如下: 1)計算FPGA在任務軌道環境條件下、考慮資源使用情況后的單粒子翻轉率。 首先獲得FPGA的單粒子本征翻轉率,包括目標軌道環境下的存儲區單粒子翻轉率PbR1、配置區單粒子翻轉率PbS1;然后根據FPGA存儲區和配置區資源占用情況,確定存儲區資源占用系數βRR1和配置區資源占用系數βRS1(資源占用系數即占用資源與器件資源的比值),從而得到FPGA考慮資源使用情況后的單粒子翻轉率PM1為: PM1=PbS1βRS1+PbR1βRR1 (3) 2)利用相似FPGA數據,計算未采取防護措施情況下,當前FPGA在軌由于單粒子軟錯誤導致功能異常的頻次。 首先獲得相似FPGA在軌無防護條件下由于單粒子軟錯誤導致功能異常的頻次PF2;然后計算相似FPGA在考慮資源使用情況后的單粒子翻轉率PM2;再比較當前FPGA和相似FPGA的結構復雜性,確定結構復雜度系數βc,從而得到未采取防護措施情況下,當前FPGA在軌由于單粒子軟錯誤導致功能異常的頻次PF1為: (4) 3)利用同型號FPGA數據,計算當前FPGA功能異常率。 首先依據同型號FPGA采取特定單粒子防護措施前后的效果比對數據,確定防護系數βP(即采取措施前后的錯誤率之比);然后得到當前FPGA的單粒子功能異常率Po為: (5) 以上方法既考慮了FPGA在器件固有設計和應用設計中采取單粒子防護措施后的效果,又考慮了FPGA在實際應用條件下由單粒子軟錯誤向最終功能異常傳播的可能性,可以快速得到預估值,從而實現在導航衛星設計階段快速判斷設計符合性和進行設計迭代。 某導航衛星的基本任務是:接收地面控制系統注入的導航電文,并存儲、處理生成導航信號,向地面控制系統和用戶發送。衛星導航信號中斷頻次要求為小于0.5 次/年。 衛星包括有效載荷和平臺兩部分。有效載荷的基本構成包括導航、天線分系統,平臺的基本構成包括控制、推進、綜合電子、測控、供配電、熱控和結構分系統。 衛星系統級功能樹如圖2所示。 圖2 某導航衛星系統級功能樹 首先,依據衛星軟硬件功能及冗余設計情況,分析各分系統和導航衛星中斷的相關性。分析表明,分系統A的故障會引起導航衛星中斷。進一步依據分系統A的設計信息,分析各設備和導航信號生成與播發的關系,確定可能導致導航衛星中斷的底事件。分析結果如表3所示。 表3 分系統A中設備和衛星中斷的關系 根據中斷相關性分析結果,建立導航衛星中斷樹如圖3所示。根據以往歷史數據確定各底事件相對頂事件的影響因子。 圖3 某導航衛星中斷樹 結合表3的分析,圖3的底事件發生頻次可分為兩類: 1)設備A2、A3、A4由于單粒子事件引起功能中斷的頻次。 2)設備A2、A3、A4的失效率。 應用本文提出的FPGA器件功能異常率的預估方法,以設備A2為例計算功能中斷頻次如下。 1)設備A2選用了1片300萬門FPGA,若發生單粒子事件可能引起導航信號中斷,依據該器件的資源占用率和廠家提供的單粒子本征翻轉率,得到修正后的單粒子翻轉率PM1為2.4 次/天。 2)與該FPGA功能相似但未采取三模冗余、定時刷新等措施的相似FPGA,經統計已累計在軌飛行16年,發生由于單粒子事件引起的異常20次,其頻次PF2為0.0034 次/天。 3)根據式(2)中相似FPGA的資源占用率和其單粒子本征翻轉率,得到相似FPGA修正后的單粒子翻轉率PM2為0.8 次/天。則結構復雜度系數βc=3。 4)由此得到設備A2的FPGA未采取防護措施時的功能異常率為: PF1=βcPF2=3×0.0034=0.0102(次/天) 5)根據地面試驗結果,與該FPGA設計相似的同型號FPGA采取單粒子防護措施前后的效果比對,其防護系數βP=50。因此,設備A2的功能中斷頻次為: 設備A2的失效率可通過可靠性預計得到。同理可得其他設備的底事件基礎數據。最后計算、匯總各底事件的發生頻次如表4所示。 表4 中斷底事件發生頻次 由圖3可知,該導航衛星中斷頻次為: (6) 將圖3和表4的基礎數據代入式(6)中,計算得該導航衛星中斷頻次為0.26 次/年,滿足小于0.5 次/年的指標要求。 研究采用合理的方法計算導航衛星中斷頻次指標,有效開展可用性量化設計,是保證衛星導航系統長期連續可用的基本途徑。本文面向導航衛星中斷頻次分析的工程需求,針對中斷頻次分析的幾個關鍵問題,提出了具體實施方法,并在北斗導航衛星工程中得到應用。該方法的重點在于通過相關性分析快速定位底層中斷事件,通過中斷樹建立指標分析模型,利用在軌數據、地面試驗數據快速預估得到底層功能異常率,從而系統地給出了中斷頻次的分析驗證方案。這在工程設計階段對導航衛星可用性的迭代改進具有重要支撐意義。3.3 獲取底事件發生頻次
4 中斷頻次分析示例
4.1 某導航衛星簡介

4.2 導航衛星中斷相關性分析

4.3 建立中斷樹

4.4 獲取底事件基礎數據


4.5 計算中斷頻次
5 結論