(北京空間飛行器總體設計部,北京 100094)
目前航天器普遍存在長壽命設計要求,除了硬件冗余、功能冗余、空間環境防護等設計外,在軌自主健康管理及控制、故障診斷技術是航天器穩定且長壽命運行的重要因素,是確保航天器故障情況下不失效、可修復、提高航天器使用效能的重要手段。
航天器自主健康管理是指航天器能夠對自身狀態進行監控和感應,對出現的故障能夠自主進行檢測、隔離和恢復[1]。有效、及時、準確地執行在軌自主健康管理是確保航天器在軌安全穩定運行的有力保障。航天器特定的工作環境決定了航天器自身健康的重要性。傳統的地面干預型航天器健康管理主要依靠地面測控站,通過人工判讀大量遙測信息以獲取航天器運行狀態進行管理。航天器數據量大、數據類型多、變化復雜,地面操作人員需全面了解航天器故障預案與故障處置方式,航天器異常診斷、確定處理措施、實施操作、觀察效果、故障排除等一系列動作常需多軌完成,健康管理效率低,時效性差,且在執行處置策略時極易出現空間鏈路不安全、人為操作失誤等問題,降低了航天器的可靠性和安全性設計系數。而對于航天器在軌運行期間的一些不威脅整星安全的輕度故障,仍需要地面干預恢復,影響了用戶使用滿意度,違背了用戶對航天器“好用性”、“易用性”的要求。 特別對于低軌道運行的航天器及遠距離的深空探測器,航天器處于長時間不可見弧段,不具備器上自主健康管理,在故障發生時及時進行自主安全處置,將會使故障進一步擴散,造成不可挽回的重大損失。
隨著我國航天技術的快速發展,航天器的在軌任務越來越復雜,多數航天器已形成初步的在軌自主管理的概念,航天器自主健康管理技術已逐漸提升為系統級關鍵項目。國內現有航天器的自主管理主要采用安全性導向性設計,例如常見的自主能源管理、自主熱控、測控組件管理等。然而,不同航天器間工作任務差別迥異,使用方式千差萬別,有限的在軌數據量和多學科知識融合技術人才的不足,使故障模型的建立變得異常困難,嚴重制約了航天器自主健康管理技術的發展速度,無法形成一套標準化解決方案,通用化水平低。型號的差異性需求與航天器健康管理項目的指數級增長,給航天器的存儲能力、處理能力都提出了更高的要求,為系統設計和測試帶來了更大的挑戰。
針對上述存在的問題,本文提出了一種多維動態可配置的航天器自主健康管理系統設計與實現方法,將已有的大量的人工管理方法和策略轉換為故障模型,植入航天器形成支持動態配置的規則庫,以實滿足日益增多的航天器自主健康管理需求,實現自主健康管理功能設計的快速迭代與不同航天器的定制化服務,提高航天器在軌運行的故障監測與處置能力,確保航天器業務的連續。本方案經過實際工程項目整器級測試驗證,可作為其他工程項目設計參考。
航天器自主健康管理,需實現故障的識別、診斷與處置。基于目前國內普遍應用的安全性導向性設計進行設計,涵蓋故障識別方式、診斷策略、故障處置3個方面。
故障的識別,是指找出與該故障最有關聯的觀測變量。在航天器系統中,最能夠直觀反應狀態的就是遙測。遙測是航天器健康狀態的直接映射反應源,利用數據系統生成的大量遙測數據實行自主健康管理,能夠保證航天器健康狀態輸入條件的客觀、完備、有效。本系統故障識別則基于遙測數據實現,同時遙測數據也作為故障模型的建模依據。
故障診斷過程是確定故障的類型、故障的量級、故障發生的位置和時間的過程。其策略的建立,即是故障模型的建立。針對航天器系統安全性導向性設計,將故障模型的建立分成對整星各分系統安全狀態信息的收集,根據預設的控制策略對影響整星安全的關鍵設備進行控制管理,保證整星的安全。具體方法是:對某些重點遙測參數設計安全門限,軟件對通過采集回來的遙測參數進行分析,與相應門限值進行比較,若超出門限限制,則認為故障發生。
完成故障識別與診斷后,可通過自主執行預定的安全指令序列進行故障恢復,即完成故障處置。
航天器自主健康管理的工作流程包括數據集成、故障診斷與恢復,健康狀態生成與下傳三部分,如圖1所示。

圖1 航天器自主健康管理工作流程圖
以往,星上不能自主識別、處理更多的故障,是由于不能及時獲取足以支撐進行故障定位和處理的足夠的有效信息。數據集成的輸入即為原始采集遙測,該環節采用數據的多維動態可配置的方式,使設計出的通用參數匹配構件能夠滿足不同航天器的需求。難點在于參數匹配模型的抽象與建立。模型建立的過程需要多判據間形成可擴展的擬合關系,關鍵遙測采用備份設計,判決異常時經過擬合過程確保數據的有效性。
依據健康遙測自主判讀結果進行故障的識別、診斷,對明確處置措施、且處置措施無風險的故障進行自主處理,并形成對應的事件報告和異常計數遙測,結合健康狀態生成與下傳模塊完成遙測的下傳。該過程的難點在于選用合適的方法完成故障的識別。
航天器自主健康管理的核心是對自身健康狀態進行監控和判讀,自主完成故障識別,并采取隔離、恢復等處置措施[2]。根據航天器自主健康管理的核心任務,將整個系統設計劃分為4大模塊,各模塊組成見圖2。原始采集數據通過健康管理規則庫生成健康狀態字,將由多通道采集數據通過數據擬合器綜合生成健康狀態字,能夠保證數據源的可信性和有效性;由故障診斷與處置模塊進行健康狀態判決,對故障狀態執行事件的記錄、故障數據的記錄及采取恢復措施;最后通過健康數據收集與下傳模塊匯總健康數據,將事件記錄、故障數據和健康狀態信息下傳。

圖2 自主健康管理系統設計模塊構成
1)構建健康管理規則庫,用鏈入碼串聯數據流,靈活設置健康檢測規則。
典型的監視系統狀態的方法有兩種,分別是極限檢查和基于模型的檢測[3]。
極限檢查:一種跟蹤系統關鍵參數是否處于正常工作范圍的方法。存在參數范圍可能隨著系統壽命或不同操作狀況而發生改變的問題。
基于模型的檢測:它將系統當前狀態同模型相比對,如果當前行為偏離模型的預期,則認為系統處于故障狀態。這種方法受系統模型好壞的制約,當前階段在軌獲得的有效建模數據量有限,影響系統模型的構建。
針對兩種常用手段的可實現程度,提出并實現一種擴展型極限檢查方法,構建健康管理規則庫,支持靈活修改系統關鍵參數范圍與檢測規則。自主健康管理規則庫是航天器自主健康管理的依據,負責引導完成自主健康管理。它的建立過程是將以往人工健康管理手段和管理策略代碼化[4-6]。規則庫由三部分組成:規則鏈入模塊、規則元語、規則提取器。
(1)規則鏈入模塊:讀取文本文件中的關鍵參數的定量值,將其轉化成軟件代碼嵌入系統中。
該模塊涉及關鍵參數的選取、閾值關系和閾值范圍的設置。建立規范化的鏈入表格設計規則,通過工具軟件生成規則元語,降低人工開發引入的錯誤,提高開發效率和正確率。文本示例如表1、表2所示,表1生成規則元語,表2定義規則提取方式,生成規則提取器。

表1 規則鏈入文本示例1

表2 規則鏈入文本示例2
(2)規則元語:是健康管理規則庫的基本單元,由規則鏈入模塊自動生成,具有唯一性。將一條包含關鍵參數與正常范圍信息的語句設定為基礎判斷元語,故障診斷過程中需要依據的所有規則都由基礎元語組合生成。為每一條規則元語自動設置專屬鏈入碼,便于規則提取器快速提取。有效規則元語在使用時,具有特定性,即每一個規則元語只服務于一個故障識別模式,多個故障識別模式中出現相同的判決條件時,對應的規則元語擁有不同的專屬鏈入碼。
(3)規則提取器:通過規則鏈入模塊,將規則元語按一定規則進行組合,建立故障診斷的方案。為了實現航天器自主高效地故障診斷。該模塊實現過程,采用圖形化選擇的方式,避免人為檢入鏈入碼帶來的錯誤,規避操作風險。
健康管理規則庫構建的過程,以其核心的鏈入碼將數據流串聯,實現高定位,高靈活性的規則設置,支持在軌參數的修改,可修改規則鏈入文本中的各項內容。并能夠通過狀態下載的方式,支持設置的校驗。
(4)多維動態配置庫:基于規則鏈入模塊、規則元語、規則提取器實現。分為兩個操作層級:
針對開發階段:通過規則鏈入表格的升級實現。
針對應用階段:通過上注指令的方式,修改規則元語與規則庫。
達到的效果是,支持故障識別的全更新,能有效提高系統的使用效能。
2)執行多通道采集數據擬合,實現雙流程的健康數據生成,提高數據有效性。
航天器的數據采集由數據采集終端和智能終端聯合實現。通常由數據采集終端完成對硬通道遙測數據的采集,由智能終端實現軟通道遙測數據的采集,出于安全性考慮,將硬通道采集設計成雙備份形式,即通過主備兩個通道對同一數據源的數據進行采集,可規避在一臺數據采集終端出現問題時導致重要數據采集數據無法獲取的問題[7]。同時,軟遙測與硬通道遙測相結合的故障判決方式能夠進一步加強故障識別能力。而針對無硬件遙測的狀態,支持全軟遙測的故障判決。
針對上述特點,根據不同的數據源類型設計兩種數據擬合方案,以提高故障識別的準確度。
方案1:適用于數據采集終端采集的硬通道遙測數據與智能終端采集的軟通道遙測數據有冗余備份關系的情況,例如電源分系統。由數據采集終端的主備硬通道遙測數據和由智能終端采集的軟通道遙測數據發送給中央處理單元,在中央處理單元數據管理系統中依據規則庫中的規則,分別生成健康狀態字a、b、c。對健康狀態字a、b、c進行數據擬合,綜合生成健康狀態字。同時在健康狀態字變化時刻記錄事件數據與故障數據信息[8]。冗余備份的遙測設計能夠對故障的發生起到增強識別的作用,在軟遙測異常時,只要硬通道遙測其一發生異常,則可將識別出異常狀態。同時,該方案支持故障的加嚴判決,即也可設定必須a、b、c三者均為異常特征時,才做為故障。數據擬合方式如圖3所示,任一數據擬合器有3個數據源。

圖3 健康數據擬合-方案1
方案2:適用于數據采集終端采集的硬通道遙測數據與智能終端采集的軟通道遙測數據沒有冗余備份關系的情況。由數據采集終端的主備硬通道遙測數據分別生成健康狀態字a、b,由軟遙測通道生成健康狀態字c。ac,bc,ab,cc,通過abc三種數據源兩兩組合的方式,通過數據擬合器生成健康狀態字。特別的是,該方案中允許cc作為數據擬合器的數據源,由全軟遙測執行故障識別操作。同時,在健康狀態字變化時,記錄事件信息及故障信息[9]。由智能終端采集的軟通道遙測數據通過數據擬合器生成分系統/單機健康狀態字,并在健康狀態字變化時刻記錄事件數據與故障數據信息,如圖4所示。任一擬合器有兩個輸入源。

圖4 健康數據擬合-方案2
綜上,兩種方案的選用策略,與硬件設計相關,原則為:重要安全相關遙測設計硬通道備份遙測,執行故障識別時,選用方案1;無硬通道備份的遙測,執行故障識別時選用方案2;無硬通道遙測的終端故障狀態,執行故障識別時選用方案2。
為每一個故障識別條目設定一個健康狀態字,默認為健康狀態。在選用數據執行故障識別判決時,應關注數據有效性,數據的有效性應作為判決的前提。設置異常計時器,在滿足異常條件時計時加1,不滿足條件時及時清0。在異常計時器達到異常門限后,對應健康狀態字變為異常,發生健康狀態跳變,生成故障事件,保存故障前后一段時間的相關數據,以備后用。
3)故障診斷與處置模塊,執行自主健康分級分類管理,提高安全性設計。
該模塊輸入為健康狀態字,輸出為故障事件、健康狀態、故障數據。以生成的健康數據為基礎,采用分級管理分類處理的原則執行自主故障處置。
分級管理原則:設備的自檢、健康遙測數據的自主判讀、故障的診斷與處置都遵循分級管理的原則,分為單機級、分系統級和系統級分別管理。不同層級的故障處理機制,使每一層級均對下一級的數據進行預處理,剔除或壓縮無效數據,提取有效數據并生成更有效信息(健康狀態數據)向上傳遞,改變了現有航天器遙測數據從源到地面的狀態,數據有效性大大提升。為了防止航天器自主故障處理帶來風險,設置自主故障處理功能使能禁止開關,只有定位清晰、處置措施無風險的故障,才使能由航天器自主處理。
分類處理原則:將航天器上設備分為長期工作設備、短期工作設備兩類,不同類別設備采取不同手段的故障處置。對于長期工作設備,檢測并記錄其健康狀態后,對有時效性要求的故障及時進行航天器自主處理措施。對于短期工作設備,故障后僅自主進行重新加斷電操作,不進行自主切機動作。該手段有效確保了航天器運行的安全性[10]。
4)健康數據收集與下傳模塊,接收故障結果相關信息,包括故障事件、健康狀態、故障數據,完成相關數據的組織與下傳。
作為健康管理系統全數據流的最后一道關口,健康數據收集與下傳模塊主要執行兩方面工作:數據收集、數據下傳。
對于數據收集,應區分數據類別,不同類別數據形成專用數據包,設計健康事件包、健康狀態包、故障數據記錄包。健康事件包為突發包,在生成時可立即下傳,確保故障狀態在第一時間下傳給地面。同時應進行事件個數累加操作,并作為遙測下傳,作為輔助故障排查的依據。健康狀態包,能夠實時反應健康狀態即可,按一定周期進行數據的存儲,在執行故障排查時可作為輔助的依據。故障數據記錄包,將故障發生前后一定時長范圍內的數據記錄下來,在發生故障時,可通過發指令的方式將該包下傳,輔助排查。
數據的下傳,針對故障事件、健康狀態、故障數據三類數據采用不同策略,已在上文中簡述,分別為:突發、存儲回放、指令觸發的方式。
該設計方案已在多個航天器得到整器級測試驗證,對恢復航天器正常工作狀態起到了關鍵性作用。在工程實用性上具有明顯優勢,提煉總結10余項功能和算法,形成通用化構件,多維動態可配置的設計,使軟件代碼復用率達90%以上,研制效率有效提高3倍,型號間通用化程度有效提升。該設計方案對提高航天器自主健康管理的具有較高的通用性設計意義。
后續需深入研究基于大數據分析的航天器故障診斷、預測、健康狀態評估技術,為航天器任務管理和運行維護提供更高水平的系統健康狀態分析能力。