張 森 石 軍 王九龍
(北京空間飛行器總體設計部,北京 100094)
在惡劣的空間環境中長期穩定工作是衛星技術發展和應用的關鍵。雖然衛星設計中都充分考慮了各種因素,但仍有很多衛星在完成預定任務之前就出現嚴重故障,使得任務終止。也有一些衛星雖然主要分系統發生了嚴重故障,但由于處置及時合理、功能備份完善,仍然能夠完好地恢復操作,并達到設計壽命。本文調研的故障主要來自http://w w w .sat-index.co.uk/failures/,該網站截至2010年2月共記錄了218 顆衛星的故障,本文選取其中部分典型故障并加入了一些其他文獻的資料, 共分析了1975-2007年間的272 次衛星故障,研究了各種失效模式對衛星任務的影響,并提出了故障規避和故障恢復的建議。本文分析結果也可用于故障對策的針對性設計。
研究中對衛星分系統進行如下分類:姿態和軌道控制分系統(AOCS)、指令和數據處理分系統(CDH)、測控與通信分系統(TTC)、結構機構分系統(M ECH)和有效載荷分系統等。
衛星的失效會導致功能暫時或永久性的喪失。本文把有相同故障模式的故障算作故障源所在分系統的一次故障。例如,1995年NASA 和ESA 發射的“日光層觀測臺”(SOHO)衛星三年內先后損失了3 臺陀螺[1],統計中把這些故障算作一次。單一失效可能帶來多種故障現象,統計中把這些現象也算作一次故障。失效的損失程度分為兩類。一是“任務失敗”,指發生了災難性的故障,使衛星任務失敗;二是“任務降級”,這種失效發生以后就要放棄部分任務,通信衛星的暫時通信中斷也屬于這一類。
統計的272 次失效事件中,53 次為瞬時故障,219 次為永久故障。瞬時故障一般是衛星暫時失去通信或控制指向,但很快又自動恢復;永久性故障導致衛星失去某項功能或失去某個備份部件。
瞬時故障的原因一般有:環境干擾、靜電或單粒子翻轉。環境干擾是太陽質子、磁暴等導致通信暫時中斷或干擾衛星上儀器正常工作,靜電充電/放電有時較嚴重,有時比較輕微,輕微時儀器暫時停機或重新啟動;嚴重時會由于電流過大使部件燒毀。地球軌道衛星的單粒子翻轉一般發生在南大西洋異常區上空,使存儲器或計算機發生比特錯誤。由于時間較短,瞬時故障經常難以確定故障源。
永久故障一般是由于靜電放電、輻射損傷、設計余量不足、生產加工缺陷或機械磨損。星上的易耗損部件主要為高速轉動部件,如動量輪、陀螺等,因此發生了大量動量輪、陀螺的故障(占總數10.45%)。
本節對272 次衛星故障進行總結。圖1 為失效在衛星各個分系統的分布。因為瞬時故障時間短,難以確定發生位置,因此不在統計范圍內。

圖1 衛星故障分系統Fig.1 Affected subsystems

圖2 衛星失效類型Fig.2 Failure type

圖3 發射后的失效時間Fig.3 Time of failure after launch
“其他”包括機械、載荷和未知原因的失效。因為每顆衛星的結構和載荷各不相同,且故障的隨機性較大,因此不做重點討論。57%的失效會影響AOCS 和電源分系統,后面將對這兩個系統做詳細分析。圖2 顯示失效類型。失效類型分類如下:機械、電、軟件和未知。機械故障由機械現象導致,如熱、溫度、外力、摩擦和壓力變化等。電源過載、短路、電池異常損耗等都看作是電子故障。軟件故障主要是指令走飛和軟件設計缺陷。故障有如下特點:
1)電子線路故障多于機械故障
電子線路的損耗小于機械部件,所以一般認為它的故障次數應該比機械故障少。但統計發現衛星電子和電氣故障占故障總數的54%,是機械和熱故障(占27%)的一倍。原因有三:第一,現代衛星中,電子設備的數量遠遠超過機械部件,因此故障次數也會相對較多;第二,輻射、太陽風暴和電磁場這種空間環境也主要影響電子部件;最后,還有些電子設備損耗很嚴重,如電池和太陽翼等。
2)在軌第一年的故障較多
入軌后故障發生的時間分布如圖3 所示。43%的故障發生在在軌的第一年,主要是因為衛星測試不足以及對衛星和空間環境的建模不充分。故障發生的越早,任務的損失越大[2],因此應該盡量減少早期失效的發生。
3)及時發現處理的故障損失較小
圖4 顯示失效嚴重程度。只有18%的失效是災難性的,而導致功能損失的失效大約占54%,不用任何處理很快就自動恢復的故障占28%。這表明,可以通過一些手段減少失效的影響。衛星經過仔細設計和備份,可以較好地從故障中恢復,針對這種情況應進行故障識別、隔離和恢復系統的開發[3-4]。
4)空間環境的影響較多
空間環境指太陽輻射、宇宙射線、電磁風暴、小行星和空間碎片等不利因素。圖5 顯示空間環境造成失效的分布比例。雖然花費了大量的經費對太陽和電磁輻射進行防護,但這個比例仍是可以接受的。這是因為空間環境難以捕捉且復雜多變,設計余量只能通過間接經驗來確定。
5)人為操作失誤較少
人為錯誤包括操作人員的錯誤和設計人員的錯誤。操作人員錯誤經常是發送錯誤的指令或對遙測數據的理解不正確。設計錯誤指衛星設計階段出現的計算錯誤、參數錯誤等。調查中發現,只有11%的故障與人有關。人為錯誤只占錯誤總數的11%,這可能是因為衛星的設計和操作都要經過專家反復迭代和確認。

圖4 失效對任務的影響Fig.4 Failure impact on the mission

圖5 空間環境對衛星失效比例Fig.5 Percentage of space environment impact on satellites
最后,根據現有數據對故障部件進行了分類。圖6 包括了衛星的主要故障部件和對應的數量。

圖6 衛星失效部件Fig.6 Satellite failed components
6)太陽翼的故障較多,且多發生在在軌的第一年
故障次數最多的部件是太陽翼。而其中約40%是由于機械原因,主要表現為展開失敗或太陽翼結構失效。電子失效主要由于太陽陣驅動機構短路。并且,大量太陽陣失效是衛星生產單位的重復性問題。2002年1月波音衛星系統公司指出,BSS-702 平臺太陽翼上用于增加發電量的光聚集器,使至少7 顆衛星在壽命期內失去了電源[5]。55%的太陽陣失效發生在第一年,這是它致命的另一個原因。因此,衛星生產時必須進行充分的測試。并避免如BSS-702 平臺這種重復出現的問題。
7)在軌控制器故障較多,但多數影響不嚴重
故障的次數僅次于電源的分系統是在軌控制處理器。因為主控制器失效時可以切換到備份,它的失效一般不如太陽翼嚴重。但CDH 系統災難性故障中56%是因為主備控制器先后故障或者切換失敗,它占所有災難性故障的8%。
AOCS 系統包含很多關鍵部件,它的失效將嚴重影響衛星的運行。圖7 重新對AOCS 的失效進行了分組。

圖7 AOCS 失效類型分布Fig.7 AOCS failure type distribution

圖8 AOCS 失效時間分布Fig.8 AOCS failure time distribution
與其他分系統不同,有超過一半的AOCS 故障是機械故障(53%),只有少量是電子故障。從圖8可見,AOCS 系統故障的發生時間比較均勻。只有22%發生在第0~1年,這遠遠低于所有分系統的43%。圖9 顯示AOCS 失效的損失程度,圖10 是發生故障的部件統計。

圖9 AOCS 失效對任務的影響Fig.9 AOCS Failure impact on the mission

圖10 AOCS 失效部件分布Fig.10 AOCS failed components
AOCS 失效的嚴酷度不高,并且比其他分系統失效恢復得更好。它的降級故障比整體低8%。其實可能有大量未知的故障是AOCS 引起的,只是因為缺少信息。同時,AOCS 系統失效的50%是因為如下部件:陀螺、動量輪和推力器。
在感覺上,電源分系統的故障應該比AOCS 分系統少,因為與后者不同,電源分系統的任務比較單一。可是,衛星的運行的能量全部要靠電源產生和存儲,因此也應對電源故障加以詳細分析。

圖11 電源分系統失效類型Fig.11 Power failure type

圖12 發射后電源分系統的失效時間Fig.12 Failure time of power after launch
重要的載荷或衛星平臺如果被電源故障影響,都可能使任務終結。圖11 和圖12 顯示電源分系統的相關統計。
66%的電源系統失效是由于電子產品故障。值得注意的一點是發射以后發生故障的時間,幾乎一半(49%)發生在第一年,這可以歸結為地面測試的不足,也可能是因為設計缺陷而造成的。圖13 顯示失效帶來的損失,圖14 顯示引起失效的部件。
電源失效對衛星是致命的。45%的失效會導致任務失敗,80%(35%+45%)會明顯影響衛星任務。而且,幾乎一半的電源失效與太陽翼有關。這個部件的失效比衛星其他任何部件都多。它也占第一年內所有失效的一大部分。很多太陽翼問題是由于展開機構的故障(這也可以歸結到結構機構分系統的失效)和發電量不足。這種故障經常出現在衛星在軌的早期。增加地面測試可以減少在軌操作時發現的故障。可是,地面測試需要經費和時間,必須在代價和減少風險之間折衷考慮。

圖13 電源分系統失效對任務的影響Fig.13 Power failure impact on the mission

圖14 電源分系統失效的部件Fig.14 Failed power components
把CDH 和T TC 分系統的故障組合到一起,是因為它們的故障較少而且分析方法類似。圖15 至圖16 顯示了CDH 和T TC 分系統的相關數據。

圖15 CDH 和TTC 分系統的失效類型Fig.15 Failure type of CDH and TTC

圖16 CDH 和T TC 發射后失效時間分布Fig.16 CDH and TTC failure time after launch
這類失效的最主要原因是電子器件和軟件故障。軟件故障主要是指錯誤的指令和軟件漏洞。最著名的軟件故障就是美國“火星氣候軌道器”(MCO)。它在進行軌道注入機動時失效,根源是地面彈道模型軟件中錯誤地使用了英制單位。這個錯誤使對衛星過載的影響估計低了45%,以致衛星燒毀[6]。這兩個分系統的故障發生時間與電源類似,有45%發生在第一年內。第一年的故障主要發生在T TC 分系統。超過70%的TTC 故障發生在第一年,而CDH 分系統第一年的故障只占24%。天線故障有很多種,包括展開失敗、通信丟失和收發機失效等。圖17 顯示失效損失的程度, 圖18 顯示CDH 和T TC 失效影響的部件。
與AOCS 故障類似,CDH 和T TC 故障不太致命,并且較容易恢復。這主要是因為衛星的控制處理器(也就是在軌計算機)、收發機、行波管放大器經常有備用單元。T TC(占失效總數的18%)和CDH(占所有失效的20%)的失效概率比其他器件低。

圖17 CDH 和T TC 失效對任務的影響Fig.17 CDH and TTC failure impact on the mission

圖18 CDH 和TTC 失效的部件Fig.18 CDH and TTC failed components

圖19 空間環境導致的CDH 和TTC 故障比例Fig.19 CDH and T TC failure percentage due to space environment
空間環境是這類失效的主要原因, CDH 和TTC 失效中21%是由于空間環境。太陽風和電磁風暴導致單粒子效應和計算機切機,如果處理不恰當,可能造成致命影響。空間環境對CDH 和T TC分系統的影響如圖19 所示。
結構機構分系統主要有停泊機構、各種展開機構和衛星結構等等,超過一半的這種故障發生在入軌的第一年。載荷包括相機、數據傳輸裝置和探測器等,這種失效大部分發生在地球觀測和科學探測衛星上。這類分系統故障率較低,而且重復發生的故障模式少。
本次統計研究發現的一個重要結論是,大量失效發生在衛星在軌的第一年。姿態與軌道控制系統第一年失效的比例最低,而電源和測控通信分系統在第一年的失效率非常高。這些分系統大多數由電子部件構成,要求至少能夠可靠工作3~5年(通過部件篩選達到)。而且,很多失效就發生在入軌以后。因此,應該深化故障模式與影響分析(FM EA)工作,加強部件熱設計,進行充分的環境應力篩選,加強元器件篩選復驗,提高元器件使用可靠性[7]。在不影響發射進度情況下,增加出廠測試的覆蓋率。
冗余(包括硬件冗余和功能冗余)是提高衛星可靠性的主要手段。姿態與軌道控制執行器、傳感器和衛星在軌處理器等都需要有充分的冗余[8]。哈勃太空望遠鏡(Hubber Space Telescope)有6 個陀螺,某個陀螺損壞以后切換到備份組件,如果損壞數量過多則需要及時更換以保證它的可靠運行;很多衛星在失去主處理器時依靠備份控制器才能運行。但有時切換失敗或發生備份失效的情況,這就會導致災難性后果。
衛星軟件和硬件的靈活性使地面工程師或操作員可以重新對衛星系統編程。這也是失效恢復的一個重要手段。很多衛星在動量輪完全失效以后,通過程序注入實現用磁力矩穩定;有的衛星在陀螺失效以后,通過編程實現用敏感器進行姿態獲取。
空間環境是衛星故障的主要因素。單粒子事件效應、靜電充放電和物理損傷等[9]都是空間環境所致。因此應該增加對空間環境的監測,建立完備、準確的空間環境模型[10]。做好輻射、靜電防護和余量設計。
隨著設計和生產水平的提高,除了在軌初期的故障以外,幾乎所有致命的故障都是由系統間接口、空間環境和多故障并發引起的。因此,設計時要充分考慮系統間功能的耦合,應當用仿真來識別未知風險,提高衛星的安全性。
部件的老化難以避免,及時監視部件性能的下降可以預測一些故障的發生,防止故障損害衛星的主要功能。故障檢測技術是航天器自主的基礎,是降低生命周期費用、提高安全性和成功率的關鍵。
本文對130 多顆衛星的272 次在軌故障進行了統計。對不同分系統的失效特點和典型失效模式的分析得出結論:很多故障是重復發生的;良好的備份和故障處理可以減輕故障影響;應加強出廠前測試等。并指出了最容易出故障的主要衛星部件。基于本文研究和相關失效事例給出了故障防護設計建議,分析了開發故障識別、隔離和恢復(FDIR)系統的重要性。
)
[1]Massimo T, Ellen L H, Freeman H R, et al.SOHO mission interruption joint NASA/ESA investigation board[R].NASA, 1998
[2]Rrook R S, David L A.A survey of serviceable spacecraft failures[C]//American Institute of Aeronautics and Astronautics, 2001
[3]Wertz J R, Larson W J.Space mission analysis and design[M].3rd Torrance, CA, USA:Microcosm Press,1999
[4]姜連祥,李華旺, 楊根慶,等.航天器自主故障診斷技術研究進展[J].宇航學報, 2009, 30(4):1320-1326
[5]Caceres M.Satellites and launches trend dow n[J].Aerospace America, 2004, 42(1):18-20
[6]Young T, Arnold J.Mars program independent assessment team report[R].NASA, 2000
[7]趙海濤,張云彤.東方紅三號系列衛星在軌故障統計分析[J].航天器工程, 2007, 16(1):33-37
[8]張新邦,索旭華.衛星故障診斷技術[C]//全國仿真技術學術會議,北京控制工程研究所, 2001
[9]Koons H C, Mazur J E, Selesnick R S, et al.The impact of the space environment on space systems[R].Aerospace Technical Report TR-99(1670)-1, 1999
[10]Xapsos M A, Summers G P, Barth J L.Probability model for w orst case solar proton event fluences[J].IEEE Trans.on Nucl Sci, 1999, 45(6):1481-1485