王亞坤,楊凱飛,張婕,郭莉芳,韓笑冬,邢川,王睿
中國空間技術研究院 通信與導航衛星總體部,北京 100094
21世紀以來,全球范圍衛星及應用產業發展迅速,呈現快速增長的態勢。統計數據顯示,2020年全球發射衛星總量高達1 212顆[1]。截止到2020年12月31日,在軌衛星數量達到3 372顆,其中美國1 897顆,中國緊隨其后,擁有在軌衛星412顆,再次是俄羅斯176顆[2]。
現代社會對衛星的需求和依賴日益增長,因此,衛星系統的安全性和可靠性就變得極其重要。衛星發射后能否順利完成任務主要取決于兩個因素:一是衛星是否運行在預期的軌道上;二是衛星是否正常工作。而這兩方面又取決于各分系統的在軌運行情況。在軌衛星一旦發生故障,其損失是不可低估的[3]。例如2016年1月27日發射的波音Intelsat-29E通信衛星,在發射3個月后由于推進劑泄露直接導致衛星發生爆炸而解體。又如,2017年11月28日俄羅斯發射的Meteor-M氣象衛星由于坐標輸入錯誤,導致衛星沒有進入預定軌道墜落大西洋。由于主觀或客觀原因所導致的衛星故障或失敗會造成巨大的經濟損失,因此,對航天器各分系統的在軌故障分析與研究已經成為航天器總體設計人員最關注的重點之一[4]。
通過統計分析航天器的在軌故障,可以進一步了解故障的發生原因和規律,從而采取一定的措施,以減少或避免衛星出現重大損失[5-7]。當前航天器的故障診斷通常是基于預先設定閾值的方法,然而,現代航天器正變得越來越復雜,傳感器的數量越來越多[8-10],傳統基于閾值的方法需要對各種可能出現的異常設定閾值,這就需要大量的專家經驗,且對每一種可能出現的故障都要通過編程實現。此外,基于閾值的方法無法檢測未知故障模式,對不可預見的故障沒有檢測能力[12]。這就需要更加智能的方法對衛星故障進行檢測。因此,本文最后對航天領域基于人工智能方法的故障診斷系統、故障診斷方法進行了綜述,同時介紹了針對時間序列數據的故障診斷方法。
本章對2003~2021年公開的衛星典型故障案例進行研究,所有故障的信息如表1所示。

表1 故障衛星信息匯總Table 1 Information summary of satellite failures

續表1Table 1 Continued

續表1Table 1 Continued

續表1Table 1 Continued
下面對部分典型故障案例進行介紹。
1)Spaceway-1。2019年12月,波音公司的Spaceway-1衛星發生了一次重大故障,導致其電池產生不可逆轉的熱損壞。Spaceway-1進入地影期后,不得不使用電池進行供電。地影期于2020年2月25日開始時,出現故障的電池可能會在供電時爆炸,從而摧毀衛星并使附近的其他衛星處于危險之中。由于衛星的軌道位置較高,使衛星向地球方向飛行以使其最終在大氣中燃燒的方案并不可行,因為衛星會經過其他衛星所在的軌道并有可能產生碰撞。2020年1月19日,Spaceway-1被轉移到墓地軌道,該軌道比其當前路徑高約300 km。
2)GOES-17。2019年8月1日,美國國家海洋和大氣管理局的GOES-17氣象衛星高級基線成像儀出現故障,原因是儀器冷卻系統中發生堵塞。GOES-17衛星上的高級基線成像儀的散熱器和環路熱管系統出現故障,導致其無法對儀器進行冷卻。環路熱管系統原本可以承受390W的熱負荷,但衛星發射之初僅剩60 W,后來降至10~20 W。由于儀器的數據有限,無法確定回路熱管性能下降的根本原因。從可用數據來看,GOES-17儀器冷卻系統失效的最可能的技術原因是工作流體中所含的微粒阻塞了環路熱管組件。
3)Meteor-M No.2-1。2017年11月,Meteor-M氣象衛星發射失敗,原因是坐標輸入錯誤。Meteor-M本來計劃從哈薩克斯坦的拜科努爾發射,但最后選擇的是俄羅斯東方港基地。后者是俄羅斯首個民用火箭發射場,2017年4月才第一次啟用,且第一次發射任務也失敗了。負責運載的聯盟火箭卻依然輸入的是拜科努爾的發射坐標命令,導致衛星沒有進入預定軌道,墜落大西洋。這次發射失敗的不僅是Meteor-M一顆衛星,還有18顆其他衛星,分別用于科學研究、商業活動等,來自挪威、瑞典、美國、日本、加拿大和德國。
4)Galileo Navigation Satellites。2014年7月3日,歐洲空間局的Galileo衛星導航系統部分星上原子鐘失效。原因是星上的銣鐘有一個部件存在缺陷,會造成短路。Galileo系統迄今已有18顆衛星在軌,但部分衛星原子鐘出現了故障。每顆Galileo衛星上設有4臺超高精度的原子鐘,其中2臺為銣鐘,另2臺為氫脈澤鐘。每顆衛星只需有1臺時鐘工作即可,另3臺作為備份。目前該系統已有3臺銣鐘和6臺氫脈澤鐘不能工作,有1顆衛星已有2臺時鐘失效。
5)Intelsat-29E。2016年4月18日,國際通信衛星公司Intelsat-29E通信衛星發生在軌故障并解體。故障原因是衛星推進器貯箱外壁出現破損,衛星推進劑發生了泄漏,推進劑隨即噴出。這樣的反作用力直接導致衛星加速旋轉,而衛星中的很多構件也由于離心力的作用被甩入太空當中。更為嚴重的是,這些泄漏的推進劑在遇到電火花時發生爆炸,直接導致衛星解體。至于Intelsat 29E衛星外壁破損的原因,美國專家給出的解釋是,該衛星位于微隕石較為繁多的區域,極有可能是由微隕石撞擊了該衛星,導致衛星推進劑貯箱被擊穿。
6)Hitomi。2016年3月26日,日本的Hitomi(也稱為Astro-H)衛星的姿軌控分系統出現問題導致衛星失去控制,并導致太陽能電池板發生脫落。Hitomi衛星的姿態控制系統利用反作用輪通過快速旋轉來控制衛星的指向,以抵消旋轉。反作用輪系統內部積聚了動量,衛星上的磁力矩器無法卸載這些動量,該動量已接近反作用輪的設計極限。Hitomi衛星的計算機識別出危險情況,并在數小時后將衛星置于安全模式。
7)DMSP-F13。2015年2月3日,美國空軍氣象衛星DMSP-F13在太空中解體,原因是電池充電器內部的線束損壞,且在軌的其他6顆DMSP衛星也可能發生相同的故障。專家稱,電池線束退化導致的電氣短路,其中的一個線束由于長時間的壓縮而失去功能。線束受損,裸露的電線可能會導致電池電量不足,從而導致過度充電,并最終導致電池破裂。衛星解體產生了超過50 000片大于1 mm的碎片,其中許多碎片將在軌道上保留數十年。
衛星平臺故障數統計如圖1所示。其中美國休斯公司(Hughes)的HS-601系列存在推進系統故障,其發射的Galaxy 10R,JCSat 1b,Optus B1,Satmex 5衛星均出現推進系統故障。洛克希德·馬丁空間系統公司(Lockheed Martin)的TIROS-N平臺存在電池故障,其發射的NOAA 16,DMSP系列衛星均存在電池設計缺陷。

圖1 故障衛星平臺統計Fig.1 Statistics of satellite platforms
表2展示了衛星分系統故障數的統計結果。可以看到供配電分系統出現的故障在所有分系統中最高,達到了44%。其次是推進分系統和控制分系統,分別達到了26%和16%。在推進分系統中,LEROS系列、S400推進器多次發生故障。

表2 分系統故障統計Table 2 Statistics of sub-system failure
圖2展示了衛星故障時間的統計。可以看到,在衛星剛發射后就出現故障的案例最多,達到了26個。同時,衛星在軌前5年的故障率也明顯高于5年之后的故障率。例如,第3年和第5年發生故障的衛星數量分別是7和8,而在5年后出現衛星故障最多的一年(第8年)也只有6顆衛星。由此可知,發射初期的衛星故障率最高,應對發射初期的衛星進行重點檢查和監視。

圖2 衛星故障時已在軌時長Fig.2 Duration in orbit when a failure occurs
表3~表6對不同分系統故障發生時間進行了統計分析。從表中可以得出以下結論:

表3 衛星在軌1年內的分系統故障統計Table 3 Sub-system failure statistics of satellite within 1 year in orbit

表4 衛星發射1~5年分系統故障統計Table 4 Sub-system failure statistics of satellite within 1 to 5 years in orbit

表5 衛星發射5~10年分系統故障統計Table 5 Sub-system failure statistics of satellite within 5 to 10 years in orbit

表6 衛星在軌超過10年分系統故障統計Table 6 Sub-system failure statistics of satellite for more than 10 years in orbit
1)衛星在發射初期,供配電和推進分系統故障最多,均達到了36%。
2)供配電分系統的故障貫穿于衛星壽命的整個階段。
3)推進分系統故障貫穿于衛星壽命的整個階段,特別的,推進分系統故障在衛星發射的初期和壽命末期尤為嚴重。在衛星發射的初期,一些衛星由于推進分系統故障,導致在星箭分離后無法到達預定軌道。例如2016年美國發射的MUOS 5衛星和2010年美國發射的AEHF-1衛星,均因推進系統故障未到達預定軌道。
4)熱控、載荷和綜合電子分系統故障總體較少,且衛星在工作5年以上出現這4個分系統故障的概率小于前5年。
表7按照故障發生的原因進行了分類,其中由于設備引發的故障占了絕大多數,有86%;人為操作失誤,比如誤發指令等占到了3%;由于空間環境因素等影響引發的故障占到了11%,其中空間因素包括隕石或空間碎片撞擊、太陽活動(太陽耀斑、太陽粒子等),如表8所示。空間環境因素中,太陽活動占到67%,隕石或空間碎片撞擊占到33%。

表7 人為因素、空間環境因素和衛星設備故障統計Table 7 Statistics of failures caused by space environment, human and equipment

表8 不同空間因素在衛星故障中的占比Table 8 Proportion of different space environmental factors for satellite failures
衛星故障類型可分為機械、電子、軟件和未知類別。電路短路、電池陣損耗等均視為電子類故障,將推進劑貯箱泄漏、翼板驅動機構堵轉等視為機械類故障,將星載計算機軟件設計缺陷、錯誤的遙控指令等視為軟件類故障,其它一些不易分類的故障視為“其他”。表9對衛星故障類型進行了統計。可以看到,機械類的故障最多,占到40%,其次是電子類的故障,占到32%。

表9 機械、電子、軟件和其他故障類型統計Table 9 Statistics of mechanical, electronic, software and other failure types
通過上述統計分析,得出如下結論:
1)衛星平臺的設計缺陷,會導致相關衛星出現相同的故障;
2)供配電分系統出現的故障在所有分系統中最高;
3)衛星在發射初期的故障率最高,也就是說衛星的故障隱患在發射初期就會暴露;
4)衛星在發射初期,供配電和推進分系統故障最多,且供配電和推進分系統的故障會貫穿衛星壽命的整個階段;
5)衛星設備本身的故障、機械類的故障出現幾率最高。
衛星在設計階段可參考上述統計結論,對易發生故障的分系統和故障類型進行重點排查,在衛星發射初期進行重點跟蹤監視,盡早排查故障隱患。當前的衛星系統已經建立了故障診斷、隔離與恢復系統(fault detection, isolation and recovery, FDIR),該系統針對關鍵參數,利用設置上下限閾值的方法來檢測故障。該方法的不足在于,一方面僅檢測部分參數的部分故障,另一方面只能檢測已知的故障類型,對未知的故障類型沒有檢測能力。而人工智能的方法為解決這些不足提供了可能,下一節將對航天器的故障診斷方法,特別是基于人工智能的故障診斷方法進行詳細介紹。
故障診斷方法可以分為知識驅動的方法和數據驅動的方法[37]。常見的知識驅動的方法如專家系統,該方法利用豐富的領域知識,形成一系列準確的規則,如定義參數的正常上限和下限閾值來檢測故障。該方法計算效率高,易于理解,因此是當前航天器常用的故障診斷方法。不同于知識驅動的方法,數據驅動的故障診斷方法利用各種機器學習模型從數據中學習知識,如利用概率模型學習以往數據所服從的分布,然后利用學習到的模型分析新生成的數據。相比于知識驅動的方法,數據驅動的方法不需要專家知識,且可以同時檢測已知和未知的故障,因此,具有更廣闊的應用前景[43]。但數據驅動的方法也存在計算復雜、可解釋性差等問題,因此需要進一步的研究。下面對航天器常用的知識驅動的故障診斷方法和基于人工智能的故障診斷方法進行介紹。
故障診斷、隔離與恢復技術(FDIR)是在各國航天器中廣泛應用的健康狀態管理方法,其目的是將飛行器的健康狀態通過衛星自主管理,實現故障檢測、隔離和恢復的自動化與智能化,從而提高飛行器的安全性、可靠性、經濟性、可測試性和可維修性,提高地面支持任務的準備和完成效率,降低飛行器的后勤保障和維護成本。常用的方法是專家系統。專家系統是基于規則的,這些規則是從專家的經驗中總結出來,用來描述故障和征兆的關系。該方法的優點是知識表示簡單、直觀、形象、方便,使用直接的知識表示和相對簡單的啟發式知識,診斷推理速度快;要求數據的存儲空間相對較小;易于編程和易于開發出快速原型系統。缺點是知識庫覆蓋的故障模式有限,對未出現過的和經驗不足的故障診斷就顯得無能為力;當知識庫中沒有相應的與征兆匹配的規則時,易造成誤診或診斷失敗[12]。
人工智能的方法從數據中獲取知識,無需預設故障類型,可以檢測任意遙測參數,可有效解決專家系統在航天器故障診斷方面的不足。下面對基于人工智能的航天器故障診斷進行綜述。
感應監視系統(inductive monitoring system, IMS)是由NASA-Ames研究中心開發的基于聚類的故障診斷系統,該系統通過對正常遙測數據進行聚類生成數據模型。對于每個時間片,將d個遙測參數值組合在一起來創建d維向量,然后通過聚類算法將不同的向量聚類到不同的空間。當新的遙測數據到達時,計算其與最近的類之間的距離。該距離提供了相對于正常區域的“異常值”點的度量。自從IMS系統建立以來,其異常檢測軟件已經改進了多次,例如異常監視感應軟件系統(AMISS),該版本軟件是由約翰遜航天中心(隸屬于NASA)和Ames共同合作開發的,用于國際空間站的運行[13]。
此外,NASA還實現了其他異常檢測系統[14-15],包括基于距離算法的Orca系統[16]、Ames研究中心開發的基于支持向量機的Mariana系統[17]、噴氣推進實驗室提出的動態不變異常檢測系統[18]。
歐洲航天局(ESA)開發了新穎性檢測系統[19]。在該系統中,遙測數據首先被分解為連續的時間間隔。對于每個時間間隔,將計算一個4維特征向量,并將其與預先標記的一組正常數據點進行比較。通過基于密度的局部離群值概率(local outlier probability,LoOP)算法[20]與正常數據簇進行比較,得到每個數據點在不同時間間隔的新穎度概率。作為這項技術的應用,位于GSOC-DLR的哥倫布控制中心團隊實現了一個名為Sibyl[21]的框架,該框架使用DBSCAN[22]算法對每個時間片的4維特征向量進行處理。在得到正常數據類之后,將其輸入到新穎性檢測系統并對新生成的數據進行新穎度檢測。
ATHMoS[23]與上述系統類似,它對每個時間片的遙測數據算一個特征向量(維度大于4),并使用基于密度的譜聚類算法[24]過濾沒有異常值的訓練數據,并建立3類分類數據庫:歷史標注數據、近期標注數據和異常數據,利用三類數據和新數據進行對比來檢測異常。對比算法為德國太空作戰中心(GSOC)提出的基于本征維度的異常概率算法(outlier probability via intrinsic dimension)[25]。對于每個時間片的數據向量,OPVID通過本征維的統計量,得到一個概率值以表征其異常程度。此外,它允許同時分析多個遙測參數,類似于IMS和AMISS系統,而不會顯著降低準確性。
目前,中國尚未有已在軌運行的基于人工智能的航天器故障診斷系統研究報告。相比于美國、歐洲的航天器故障診斷技術應用,中國的航天器故障診斷技術研究還有一定的差距。原因在于:一方面真實的航天器故障數據不容易獲取,導致理論研究與型號需求不匹配;另一方面,實際應用的技術相對比較保守,人工智能方法在可靠性方面還需要進一步的驗證。
基于知識的方法最早用于航天器故障診斷,如專家系統。專家系統通常利用專家知識,對重要的衛星參數設置上下限閾值,當某個參數的遙測值超限時,則會觸發報警[26-28]。考慮到航天器遙測數據具有高維特征,降維方法[29-30]被用于航天器故障診斷,如文獻[31]利用概率主成分分析混合模型(mixtures of probabilistic PCA)[32]同時對正常的衛星遙測數據進行降維和聚類,然后利用重建誤差進行故障診斷。基于聚類方法[33]的故障診斷的原理是,將正常遙測數據中的每一種系統狀態模式聚為一個類,若新的遙測數據不屬于任何一個系統狀態或類時(通常與一個閾值進行比較),則可以認為該數據是故障數據。文獻[34]提出動態故障樹的方法,采用馬爾可夫鏈和二元決策圖相結合的分析方法,建立了衛星的電源、姿軌控和推進3個分系統的動態故障樹模型。文獻[35]利用基于距離的方法,如最近鄰方法[36],進行航天器故障診斷。此外,還有支持向量機方法(OC-SVM)[37-38]。
近些年,基于深度學習的航天器的故障診斷研究越來越多[39-40]。基于深度學習的方法可分為兩類,基于預測的方法和基于重建的方法。基于預測的方法通常是時間序列模型,如長短期記憶網絡(long short-term memory networks, LSTM)[41]。此類模型假設如果新數據點距離預測值很遠,則認為該數據為異常數據。文獻[42]提出基于LSTM和動態閾值的故障診斷方法,該方法首先利用LSTM進行時間序列遙測參數預測,然后利用一種非參數無監督的動態閾值方法進行遙測參數的故障診斷,并將上述方法應用到NASA火星科學實驗室的火星探測器好奇號和NASA的SMAP衛星。文獻[43]提出LSTM模型和混合概率主成分分析模型結合的方法,并將該方法應用于韓國KOMPSAT-2衛星。基于重建的方法有自編碼器(autoencoder)[44]。該方法假設只有正常數據可以從壓縮后的低維空間中還原,因此,在模型訓練中用正常數據來訓練編碼器(encoder)和解碼器(decoder)。編碼器是一個降維過程,用于把數據壓縮到低維空間,解碼器則進行相反操作將壓縮后的數據還原。當新數據壓縮后再還原時誤差較大,則認為該數據為異常數據[45]。相比于傳統機器學習方法,深度學習方法對復雜的非線性數據有更好的學習能力,能更好地發現數據中的規律。然而,深度學習也存在一些缺點,如深度學習的可解釋性較差,當模型出現問題時很難給出合理的解釋。另外,深度學習方法訓練耗時,部署也需要更多的軟硬件支持。
在眾多工業應用中,時間序列數據是最常見的數據類型之一,如典型的航天器遙測數據。時間序列數據異常可分為點時間序列數據異常和時間子序列數據異常[46]。
點時間序列數據的常用故障診斷方法有基于統計的方法[47-48],該方法通過對時間序列數據進行統計分析,如中值絕對偏差,再通過設定閾值來進行故障診斷[49]。基于估計的方法旨在識別正常數據擬合的模型或分布不可能生成的數據點,即異常點[50],如移動平均值方法[51]、高斯混合模型[52]。基于預測的方法通過對未來數據的預測值與真實值進行對比來發現故障。如文獻[53]通常基于卷積神經網絡的深度學習方法,文獻[54]提出多尺度長短期記憶網絡的深度學習方法,文獻[55]提出變分長短期記憶網絡的深度學習方法。此外,文獻[56]提出周期分解的統計學習方法,文獻[57]提出基于線性回歸的故障診斷方法,文獻[58]提出基于神經網絡的方法。
時間子序列異常旨在檢測一組同時表現出異常的數據點。為此,子序列故障診斷方法需要考慮一些更關鍵的因素。此類問題中最典型的是檢測固定長度的異常序列[59-60],這需要事先指定時間序列的長度(或叫步長),通過指定長度的滑動窗口來獲取序列數據。相應地,一些研究提出變長時間子序列故障診斷,這些方法可以檢測不同長度的異常子序列[61-62]。相比于點數據,序列數據間的比較,如計算相似度,時間復雜度較高。因此,一些研究提出使用表示方法(representation)而不是原始數據進行序列數據間的比較。離散化方法是最常用的表示方法,如等頻合并法[63]、等寬合并法等[64]。時間子序列異常的另一個問題是異常的周期性特征,異常的子序列重復地出現在數據中[65]。
發展我國基于人工智能健康管理的自主航天器是未來的必然趨勢,但將人工智能方法應用于在軌航天器仍有很多需要解決的問題,如當前航天器存在的計算能力、存儲資源不足的問題,人工智能方法存在的不確定性及不可解釋性問題。本文給出如下幾點建議。
1)設計針對衛星遙測數據特點的人工智能故障診斷算法。衛星生成的數據及應用場景具有鮮明的領域特征。首先,衛星的遙測數據具有周期性、時間序列、存在野值和缺失值、異構等特點。其次,衛星在不同生命周期生成的遙測數據有所區別,特別的,由于衛星在壽命末期各分系統性能下降或損壞,導致生成的遙測會明顯區別于衛星早期生成的遙測數據。再次,衛星遙測數據中的正常數據和故障數據非常不平衡,導致數據中的故障數據極其稀疏。此外,衛星的狀態存在不確定性,由于空間環境變化或人工干預如發送指令,會導致衛星狀態發生變化,這種非預期的變化會導致人工智能模型的虛警率。因此,需要設計針對衛星遙測數據特點的智能故障診斷方法。
2)利用更多的衛星系統數據進行人工智能模型的訓練和故障診斷。受限于衛星遙測參數的數量及采集頻率,衛星遙測數據不能全面、實時地反應衛星的狀態。此外,衛星各分系統、各部組件存在耦合關系。因此,需要采集更能反映衛星健康狀態的遙測參數,并利用衛星的實時數據進行人工智能的模型訓練和故障診斷,充分利用海量的傳感器觀測信息,準確地發現系統的異常,避免漏報和誤報,提高診斷結果的準確性和實時性。
3)提升衛星的計算能力。運行人工智能算法需要強大的計算能力,當前人工智能的快速發展得益于地面處理能力的提升,而目前我國衛星的處理能力較弱,不足以支撐人工智能應用,無論和國外的衛星系統還是地面計算機系統相比,都有很大的提升空間。因此,亟需提升我國衛星的星上處理能力,一方面采用高性能的宇航級芯片,提升星上的計算能力,另一方面升級星上的信息系統架構,提升星上的數據傳輸能力,為人工智能算法在衛星上的應用夯實基礎。
首先對2003~2021年的衛星在軌故障案例進行了研究總結,然后對在軌衛星故障案例從不同維度進行統計分析,最后對基于人工智能的航天故障診斷系統、故障診斷方法以及時間序列數據故障診斷方法進行了介紹。綜合上述研究內容,發展我國基于人工智能方法健康管理的自主航天器是未來的必然趨勢。將人工智能方法應用于在軌航天器仍有很多需要解決的問題,如當前航天器存在的計算能力、存儲資源不足的問題,人工智能方法存在的不確定性及不可解釋性問題。此外,當前人工智能方法僅可以解決故障診斷問題,在檢測的基礎上如何進行故障恢復和故障隔離,也是未來需要解決的關鍵問題。