胡紹林, 肇 剛, 郭小紅, 傅 娜, 杜 瑩
航天安全與健康管理技術研究述評
胡紹林1,2,肇剛2,郭小紅2,傅娜2,杜瑩2
(1.西安理工大學自動化與信息工程學院,西安710048;2.航天器故障診斷與維修重點實驗室,西安710043)
航天工程是一項涉及多人-多機-多環境的超大規模復雜系統工程.降低航天風險、保障航天安全、充分發揮航天器在軌效能,是航天技術發展亟需研究的重大課題.在簡要梳理影響航天工程安全性5個方面要素的基礎上,分事故調查與故障處置、狀態監控與健康管理、環境監測與碎片規避等3大部分,對相關領域的研究現狀及技術發展動態進行了述評,并結合航天工程實際提出了3個方面亟待解決的問題.分析、述評和研究建議有助于了解安全管理的癥結、跟蹤技術研究的前沿和突破工程應用的瓶頸.
系統安全;故障診斷;健康管理
隨著航天技術的發展,人們日常生活越來越離不開遠在太空的各種型號航天器.如開車遠行離不開衛星導航、與大洋彼岸親朋聯絡離不開衛星通信、收看電視離不開電視轉播衛星服務、遠洋救護和對敵作戰離不開偵察衛星等.但是,自20世紀50年代,前蘇聯發射第一顆人造衛星進入太空以來,在航天技術不斷取得一個個劃時代突破的同時,災難和事故也如影隨形、接連不斷.2014年10月28日,美國軌道科學公司研發的“天鵝座”飛船,從美國弗吉尼亞州瓦勒普斯島點火升空僅6 s就發生爆炸,攜帶的2 200 kg原計劃給國際空間站6名宇航員提供補給的物資,瞬間化為烏有;2010年8月,美國發射的“先進極高頻”星座首顆衛星在變軌時因發電機故障,使原設計90 d完成的變軌需10個月~1年才有可能到達目標軌道,星上有限的能量被大量消耗在變軌過程中,直接影響和縮短了衛星有效壽命;2009年,俄羅斯發射的2顆“白鶴號”衛星發生損壞,影響到國際失事船衛星搜救系統COSPAS-SAR SAT組網運行;2008年9月,美國的GeoEye-1衛星,運行1年多時間就出現天線指向系統故障,影響合作業務,減少收入折合人民幣3億元;2007年,日本全球情報處理系統雷達衛星,因老化導致星上電源故障不能正常工作,造價高達3.56億美元的設計壽命為5年的雷達衛星,不得不提前1年退休;2003 年2月1日晚10時許,美國“哥倫比亞號”航天飛機飛行16 d之后的返航途中,在得克薩斯州上空約63 km處解體,7名宇航員全部遇難,甚至有美國政治評論家哀嘆“哥倫比亞號墜毀標志太空時代走向末路”.
那么,是什么導致航天這類舉世矚目的國際重大工程故障不斷呢?文獻[1]中從系統、過程、技術和環境等方面系統地歸納了影響航天工程安全的主要要素:既有來自航天器本體和外在環境的,也有工程設計及工程實施環節各參與方的;既有技術和工藝的,也有工況乃至操作過失的;既有硬件與材料的,也有軟件及通信鏈路與數據的.根本原因在于系統、過程、技術、環境的復雜性和人-機-環境系統工程的相合性.本文以上述論斷為基礎,簡要闡述航天工程安全技術研究的現狀及動態,并對未來發展提出若干思考.
基于上述簡要分析,影響航天器安全可靠運行的因素很多,但按其來源及影響過程大致可以分為3大類:事故或故障、狀態異常變化以及空間環境變化.圍繞上述3個方面,簡要述評相關領域的國際研究及其進展.
1.1事故調查與故障處置
航天工程系統的事故與故障是影響航天器安全的主要方面之一.據資料統計[2],1995年底之前,美國和前蘇聯的249次載人航天發射飛行,出現重大故障166起,1965—1990年,25年間國際衛星組織200多顆地球同步軌道通信衛星和廣播衛星,發生的嚴重故障就多達350余次.近年來,盡管航天器材料、制造、工藝、控制和管理等技術都有顯著發展,但國際國內航天界依然故障不斷,損失和影響巨大.
能否準確查明航天器在軌運行過程中出現的各種事故或故障,及時發現航天器運行過程中隱藏的危險苗頭或可能發生的故障,有效地防范后續類似故障發生,或正確地對當前的故障實施有效處置,對保障航天安全至關重要.相關技術的探索和研究一直受到國際學術界和工程界的高度關注.
在20世紀40年代或更早,航天器出現之前,人們就為航空器安全運行大傷腦筋,并開始探索飛機運行過程安全管理.飛機出現后的半個世紀歷程中,由于飛行過程故障和災難成為影響航空安全的頭號殺手,各航空大國高度關注并著力開展事故調查研究.20世紀30年代,美、英等國花費大量人力和財力加強對重大飛行事故的記錄和調查,英國于1937年專門成立航空事故調查組,1944年英國皇家空軍還專門成立飛行安全機構,負責軍用飛機的重大事故調查,《飛行安全》雜志同年在美國創刊,推進了航空安全事故的調查與分析.二戰后至20世紀60年代中期的20多年時間里,美、英空軍在不斷完善事后追究式的事故記錄、調查和分析方法.例如,利用事故調查和分析得到的信息,探究引發系統發生事故的可重復性或共性起因,研究和建立糾正措施,以期從源頭上防止類似故障再次發生.這種間接性“事故預防”式處理思路改變,對后續事故的預防帶來的效果有明顯改進.例如,1955年美國啟動“先驅者”號地球衛星計劃,進行的11次試驗中,發生了8次事故,僅有3次發射成功,其主要原因恰是沒能很好地吸取之前經驗教訓,進行防范,事故預防或預案措施不力,以前出現過的零部件質量控制不嚴、系統關鍵部件沒有保留設計余度等共性問題一再發生.鑒于此,在隨后“大力神”火箭和“雙子星座”飛船計劃實施過程中,吸收“先驅者”計劃的經驗教訓,采取更嚴格的事故預防措施,嚴控質量關,并對導航和供電等關鍵子系統都采用雙余度設計,一系列故障預防措施保證了后續“大力神”火箭在14次飛行試驗中僅發生2次事故.這種建立在對歷史事故調查和分析基礎上的事故預防模式[3],對探索基于數據挖掘和典型故障案例的航天安全技術有重要的參考借鑒價值.
這一階段形成的事故調查分析法,被美國NASA和歐空局等繼承并沿用至今,并推廣到航天安全領域.例如,2007年Hubble望遠鏡故障調查和2010年歐洲對“阿麗雅娜5號”火箭故障調查等,都顯示了事故調查法的重要性和實用性.
但是,對航天器的安全運行管理而言,由于航天器部件多、結構復雜、功能多樣、運行環境千變萬化、控制操作遙不可及,事故調查與分析工作無疑要遠比飛機故障調查艱難得多.當然,無需諱言,事故調查法本身固有的弱點,譬如事后分析模式不可能用于事故預防,調查分析過程通常持續時間跨度長,存在時間滯后等局限性也一定程度上影響了其時效.
20世紀60年代,伴隨著系統論和系統思想的提出和廣泛被接受,系統安全作為一種新的安全管理思路和模式,受到航空航天領域的關注.20世紀60年代初期,美國空軍“民兵”洲際導彈的研制首先引入系統安全原理,并頒布“空軍彈道導彈系統安全工程”等軍用規范;1969年7月,美國國防部制定“系統及其有關分系統、設備的系統安全大綱”作為軍用標準MIL-STD-882,明確規定了系統安全管理、設計、分析和評價的基本要求;NASA在參照MIL-STD-882標準的基礎上,于1970年頒布面向航天工程的“系統安全”標準NHB.1700.1(V3),并在“阿波羅4號”發射失敗后全面采用系統安全的思想,對后續“阿波羅”計劃進行了包括故障模式、故障影響及其危害性分析和故障樹分析在內的系統安全分析,嚴格的安全性設計與評價,定性與定量相結合的風險評估,以及全過程的質量管控,收到了好的效果.NASA的“阿波羅”飛船飛行安全程序負責人Lederer曾明確指出,系統安全覆蓋了風險管理各個方面,遠遠超出了設備硬件及與之關聯的系統安全工程過程[3].伴隨著系統安全標準的全面貫徹和實施,NASA分別于20世紀70年代末和80年代中期又頒布NHB.5300.4(ID-2)“航天飛機的安全性、可靠性、維修性和質量條例”以及NHB.1700.1 (V7)“系統安全手冊”.另外,歐空局在“使神號”航天飛機計劃中,吸收美國在系統安全方面的成功經驗,也制定專門的安全性設計分析與管理程序.
縱觀美國和歐空局的做法,可明顯感覺到系統安全的核心是系統的思想和系統工程的方法.采用系統工程技術,將航天器從設計、發射、測控、管理到最后變成空間垃圾的完整過程作為一個不可割裂的航天器生命周期,將保障安全貫徹在航天器全生命周期的各個階段、各個環節,在系統的全壽命周期中都必須識別、分析和控制危險與災變.這種面向系統生命過程的系統安全工程技術和方法,對保障航天器在軌安全運行無疑是有幫助的.
20世紀70年代以后,故障檢測、診斷與處理技術研究成為跨多個學科的持續性研究熱點,同時也逐步成為系統安全技術關注的核心內容之一,既有明確的帶共性的研究目標,又有大量兼具基礎性和應用性雙重特征的科學問題,逐步形成較為復雜的研究體系和多學科知識融合的研究群.
在故障檢測與診斷(FDD)技術研究方面,自1971年前后Beard和Britov分別提出基于解析冗余的FDD這一創新思想,突破早期設備FDD依賴硬件冗余的局限性之后,經40多年持續發展,現已基本形成的體系:按研究內容分,包括故障在線檢測、影響分析、朔源定位、時間推斷、幅度辨識、模式識別和反演推演等;按技術手段分,包括基于冗余法(物理、解析、信息、知識冗余等)、關聯分析法(故障樹推理、Petri網、有向圖、等價關系、等價空間)、信號處理法(特征分析、殘差分析、檢測濾波/觀測器、統計診斷、模式識別等)和仿真對比法等;按研究領域分,有設備/裝備、過程和流程FDD等;按時間關系分,有在線、離線FDD和故障預測等;按量化程度分,有定量和定性FDD等[4-8].并且,大量學者結合不同應用背景,進行了卓有成效的開發應用,例如,航天工程領域,美國在飽受“阿波羅”登月工程期間的系列重大事故困擾后,NASA和美國海軍研究室成立機械故障預防小組,在衛星故障的機理分析、在軌檢測、診斷、預測等方面取得大量卓有成效的研究成果;美國HRL實驗室的Pete Tinker等建立衛星快速類比推理系統,結果顯示可達到80%的準確度;德國Maieijvic在20世紀90年代初就開發了基于模式識別的故障診斷專家系統,用于對液體火箭發動機的故障診斷;法國馬特拉空間系統中心Dinh等開發基于案例推理技術,建立協助衛星測試期內應對突發性事件的故障診斷系統,分析異常事件成因,能夠在異常事件發生時提取事件特征并與相關的歷史類似事件檢索匹配,融合案例推理、規則推理與模型推理等技術形成一個混合知識系統推理核心,并在異常事件發生時自動生成基于多推理技術融合的診斷方案;國內在測控過程的安全監控、基于系統仿真的FDD[6]和容錯設計等方面也有卓有成效的研究進展.
在故障處理技術研究方面,典型方法有故障硬處理和軟處理兩大類.其中,硬處理的常規方法包括故障設備修復、備件替換和故障系統組成的重構等,例如,設計航天器自主自組裝可重構模塊[8]、采用多Agent優化方法等實現多體航天器重構[7]、建立適當形式的混合控制策略[9]實現將多體航天器從一種形態改變到另一種形態,并使系統達到新的穩定狀態等,都不失為可嘗試的技術途徑;軟處理的典型方法包括功能重置、功能降級與被動容錯等.無論是硬處理還是軟處理,通常是建立在模塊設計或一定形式冗余基礎上的,冗余是實施故障處置的基礎.面向航天工程的冗余技術,途徑很多,如物理、結構、時間、數據、解析和知識冗余等.適當形式的冗余,可以為選用合適方式進行故障處理(特別是容錯處理)提供有利條件.
所謂容錯,顧名思義就是要求處理手段能容允系統已經發生或正在發生故障,至少不會因為系統故障而發生功能失調或算法崩潰.具體地,在系統或部件發生故障的情況下,仍可利用冗余資源將制定的控制策略、處理流程、軟件算法等繼續完成.容錯處理技術核心就是防范故障和避免非致命性故障帶來的不利影響.基于冗余的容錯是一種先進理念和提高系統可靠性的先進技術,通過合理的系統設計,使系統在出現某些局部故障時能借助“冗余”實現對故障進行有效處置.容錯技術通常可以分為主動容錯和被動容錯兩大類.主動容錯大多是以故障檢測與診斷為基礎,通過對系統進行適當形式重構,達到避免或削弱故障影響的目的[10];被動容錯主要是基于有界影響分析與設計、魯棒控制、補償技術和完整性設計等方法,使被控系統對某些類型故障或某些環節故障具備不敏感性、完整性和免疫性[10-11].
近30年來,冗余與容錯處理的思想在美國和俄羅斯等航天大國得到廣泛應用.例如,美國曾大力研制可用于控制航天器飛行的容錯計算方法和容錯機,對可靠性要求高的系統用雙重、三重、四重甚至五重冗余;前蘇聯“聯盟”TM型載人飛船上也曾使用了三重冗余的主電氣系統以及雙重冗余的氣動液壓管路和生命保障系統.至于飛行器故障的容錯處理技術,美國NASA的專題技術報告[12]介紹了多個成功實例:一是故障檢測和容錯計算技術在空間試驗室、空間飛船、Hubble望遠鏡、Galileo衛星、Landsat-7衛星,以及A320和波音777飛機等航天、航空工程中應用情況;二是容錯計算等技術在Landsat-7衛星試驗中的應用情況,容錯系統可進行72 h自主安全模式的操作,能滿足衛星任何單個部件故障恢復的處理需求,并具備危險分析能力;三是A320飛機飛控等多個子系統進行了容錯設計,機上計算機系統具備運行自檢功能,若各通道之間的差異超出門限值則隔離自檢,并自動地從已檢出問題的計算機控制對象切換到另一個,顯示了良好的工程價值.
此外,在提高航天器在軌運行過程可靠性與安全性方面,“挑戰者”號航天飛機爆炸后,促使NASA重新考慮原來的可靠性管理方法有效性,加強對衛星在軌可靠性管理的研究.1991年,美國國防部頒布標準《綜合診斷MIL-STD-1814》,作為提高新一代衛星可靠性和降低使用維修費用的重要途徑,標志著美國衛星可靠性管理研究進入了一個新階段.近年來,NASA專家還提出了以可靠性為中心的維護(RCM)和可靠性/可維護性/可用性(RMA)方法,以提高衛星在軌運行可靠性.由于擁有低軌運行的航天飛機并參與了國際空間站工程,NASA據此提出建立在軌診斷維修基地(ORB)的系統可靠性管理構想,該構想把航天飛機和軌道空間站作為維修低軌道故障衛星的基地.
1.2狀態監控與健康管理
本節所謂狀態是一個相對廣泛的概念,包括航天器在軌運行狀態(如軌道位置、空間姿態),航天器構成部件或子系統的工作狀態(如是否正常工作、是否功能衰減),航天器運行趨勢,以及航天器各系統或結構部件所處壽命階段.評估在軌航天器所處狀態、分析其運行過程的狀態演化趨勢、預測其未來時刻狀態變化、預估其故障后的剩余壽命、監視與診斷其運行過程及可能的異常變化,不僅是保障航天器按照預期目標安全可靠運行的前提,也是保障航天安全的技術基礎.
狀態監控的核心技術是異變檢測.異變檢測又稱變化檢測,是檢測和分析系統在其運行過程中發生變化,以及變化的發生時間、部位、表現形式、作用方式和影響大小等相關問題的一門新興學科.異變檢測的理論最早可追朔到20世紀50年代中期Page等[13-14]的奠基性工作,但作為一門獨立學科則應歸功于1993年Basseville和Nikiforov在專著《突變檢測——理論與應用》中建立的系統性框架和精巧的研究思路[15].異變檢測技術應用面很廣,諸如設備運行過程的狀態檢測、計算機集成制造系統的有條件維護、生產過程質量控制、復雜系統實時監控、核電站安全保障、運載火箭安全控制、載人飛船安全管理、導航系統監視、氣候與環境變化監測和預報、地震等災變預警、人體病理檢查、圖像邊界確定和控制系統故障檢測等,都可以在變化檢測的框架下探索和研究.最近10年多來,變化檢測的理論研究和應用開發一直受到國際統計界和控制工程界廣泛重視.國內關于異變檢測的技術研究,起步于2000年前后系列文獻[16-20]系統地對系統輸出、輸入-輸出和輸入-狀態-輸出等3種不同情形展開研究,并建立了在線檢測、幅度估計和突變時間辨識等一系列新方法和算法,提出的“安全管道”設計等方法突破了門限監測模式的局限性,初步實現了門限內異常變化的在線監控.但是,從總體上看,僅處于起步階段,見諸報道的研究成果大多混雜在故障檢測與診斷技術文獻中;另一方面,故障檢測與診斷領域的大量研究成果中,也有相當部分屬于過程與數據異變檢測的范疇.
健康管理是近30年基于管理工程發展起來的研究熱點之一.美、俄等航天大國為保障航天器安全和滿足在軌衛星運行管理需要,采用系統分析、管理工程、信號處理和風險評估等多種不同方法與技術,圍繞著航天器的運行管理問題,對狀態評估及相關問題進行了系統研究,提出和形成了包括趨勢分析、過程監控、壽命預測、狀態預診和健康管理等在內的一系列新方法與技術,人們將上述研究統一在健康管理這一研究框架下,形成了有一定影響度和參與度的研究方向.
廣義的健康管理是一項多功能聚成的綜合分析與評估技術,包括了趨勢分析、過程監控、余壽預測、影響分析、異變預警、健康狀態分析與評估、風險分析與綜合管理等作為其重要構成部分的綜合性技術,核心是基于智能系統的預診,從反應性定期維護轉向在準確時間對準確部位進行主動的準確維修,借助各種算法(如Gabor變換和FFT變換)和智能模型(如神經網絡和模糊邏輯等),預測、監控和管理飛行器狀態,實現由事件主宰式事后/定期維修轉向基于狀態與健康狀況維護.
健康管理技術較早用于直升機系統,例如,美國海軍有綜合狀態評估系統、P-8A多任務海上飛機有飛機健康監測系統、陸軍有診斷改進計劃、NASA 第2代可重復使用運載器有飛行器綜合健康管理系統、航空無線電通信公司飛機狀態分析與管理系統近20年來,健康管理技術被推廣應用到航天器安全運行管理中,發揮越來越重要的作用.20世紀90代中期,NASA在戈達德航天飛控中心、休斯敦任務控制中心、馬歇爾航天飛控中心等建立具有衛星健康狀態綜合分析、狀態評估、壽命預測、降級運行策略分析制定等功能的在軌衛星運行管理系統;俄羅斯借助自身在健康監控技術方面的先進技術和豐富實踐經驗,Katorgin等開發了大功率液體火箭發動機RD-170健康監測和壽命評估與預測系統,Vasilchenko等開發了“暴風雪”號航天飛機軌道實時自動監測、預測系統,并向航天員提供可視化信息,便于其監測和控制航天飛機運行狀況.近10多年,NASA通過在軌衛星運行管理系統實時對在軌航天器健康狀態進行綜合分析、評估、壽命預測、故障預防預警,并對已喪失部分功能的在軌衛星采取合理、有效的測控,有力地保障了在軌航天器的穩定、可靠運行,充分發揮在軌航天器應用潛能,取得了巨大效益.近年來,美國投大量資金用于研制集成健康管理系統(IVHM),包含機載健康管理分系統和地面健康管理分系統(IGHM),機載健康管理分系統負責實時監視和管理航天飛機的運行狀態,對異常現象進行本地診斷后,診斷結果連同其他信息下傳至IGHM,該系統則依據航天器下行健康信息,進行遠程專家會診,診斷結果用作航天飛機機載診斷系統診斷結果的補充和校核,連同處理策略被回傳至航天飛機,整個IVHM系統實際上是一系列使航天器健康管理行為自動化工具和過程的集合.據資料介紹,IVHM系統的投入應用,使航天飛機飛行風險降低了50%,運行預算降低了1/3.
1.3環境監測與碎片規避
復雜多變的空間環境也是影響航天安全的重要因素.本文所謂的環境不僅包括航天器運行過程依存的自然環境,也包括長期航天工程產生的外在環境以及航天器本體的內部環境.
文獻[21]中指出,空間環境對衛星等各種航天器安全運行帶來的潛在威脅和影響是不可忽視的,根據統計衛星故障的40%與空間環境有關.例如,對于高軌道航天器,高真空度環境的壓力差效應可能會導致機載設備因外壓力的劇變而變形、損壞、泄露,美國第一顆航天飛機爆炸致7人罹難的事故,就是因泄漏引發爆炸造成的;對于低軌航天器,低真空范圍的放電效應和輻射傳熱效應,會直接影響到航天器安全運行.另外,太陽輻照、太陽風暴、空間碎片也無時不威脅著航天器在軌安全運行.例如,2010年4月,國際通信衛星組織Intelsat公司“銀河-15”衛星故障,就是因4月3日—5日期間太陽風暴引起的[22],類似事故還多次發生在國內外不同衛星上,如1998年“銀河-4”衛星.至于空間碎片引發事故和災害性事件以及對衛星通信系統的破壞性影響,更是司空見慣.對于空間環境異常變化對航天安全的影響和空間碎片對航天器的威脅,從安全技術的角度必須區別對待.
環境擾動是不可控的,其影響與危害多采用提前預測和區別性防范.對太陽及空間環境變化及其對航天器影響,美、俄、韓等國家多位學者圍繞太陽活動周期性、地磁活動、輻射帶電子通量模型AE-8和離子通量模型AP-8及改進南大西洋異常區檢驗、大氣密度影響和空間環境對航天器安全運行的影響等,從不同角度進行了多項研究[22-23].并且,為研究和利用空間環境,多個國際組織在全球各地布設了廣泛的地面站(如NOAA空間氣象預報中心和NWRA/SWS)與天基觀察網(如美國行星際、地球同步軌道、中軌、低軌等不同軌道天基空間環境監測系統),監視太陽活動、行星際擾動和近地空間環境擾動.對大量存在于太空中的各種碎片或垃圾,多采用提前預示和及時規避等方法,防范其威脅航天器的運行安全,國際學術技術界對此有大量研究,通過數學模型或數學方法描述空間的分布、運動和物理特點,建立可用于預示確定域10年內空間碎片分布和碎片數量的短期碎片環境狀態模型和預示空間碎片10年以上環境演變數學模型,采用屏蔽防護和規避機動等不同的方式規避其對航天器安全運行的威脅.其中,屏蔽防護法是采用屏蔽方式對微小碎片進行防護;規避機動法則是對直徑大于10 cm的大型空間碎片進行碰撞規避.規避機動決策方法,主要有Box區域判定方法和基于碰撞概率法等.Box區域判定法通過定義航天器周圍警戒區域和規避區域,用以判斷航天器與空間碎片之間的距離是否構成碰撞危險,進而采取相應對策,屬平均方法,偏保守;碰撞概率主要考慮兩目標交會時的位置、速度、幾何關系以及危險目標的位置/速度的不確定性以及誤差協方差矩陣等信息,當碰撞概率大于黃色門限時,在機動動作不會對主要任務和有效載荷造成沖擊就進行機動規避.
空間環境研究是一項長期的研究工作,特別是空間環境對航天器的安全可靠運行方面,需要長期地觀察數據的積累.
綜合上述分析,無論是圍繞航天過程故障、航天器運行狀態,還是圍繞運行環境,國際學術技術界和工程應用領域都對如何降低航天風險與保障航天安全這一重大課題進行了卓有成效的理論研究與技術探索.但是,現有研究成果只是向降低航天工程安全風險方向邁進了一步,并沒有也不能夠從根本上杜絕安全事故或故障的發生.面向航天工程這樣的大規模復雜結構人-機-環境系統工程,降低工程風險和保障運行安全,尚有大量亟待解決的重大科技問題與技術難題,需要創新觀念、創新方法和創新技術措施.
(1)技術研究的觀念亟待創新.航天工程安全性,不能等同于測控設備的可靠性,也不能簡單地歸結于航天器構成部件的故障檢測與診斷.航天器結構復雜,以美國2005年7月發射的“發現號”航天飛機為例,該航天飛機約有250萬個部件、4萬多個傳感器.如果每個部件可靠性為0.999 999 9,即發生故障的幾率為千萬分之一,則這250萬個部件中至少有1個發生故障的概率高達22.1%;如果每個傳感器可靠性為0.999 99,即故障的幾率為十萬分之一,則這4萬多個傳感器至少有1個發生故障的概率高達33%.如果再考慮到發射系統、測控系統和氣象保障等輔助系統,規模會更加龐大.對規模如此龐大、部件數量多且結構耦合的復雜工程系統,航天安全的技術研究既必須關注關鍵部件故障與否,又不能停留在部件級上,更不能不分主次平均用力于診斷每個部件的故障,或者不切實際試圖期待從航天器到地面測控龐大系統中每個部件都絕對無故障運行,而是將系統工程的理論引入到航天系統的安全性研究,開展面向系統安全性和安全技術的研究.
(2)技術研究的方法途徑亟待創新.由于航天系統是一個超大規模的復雜結構動態系統,不僅有一般復雜系統常見的自主性、發展性、分散性和不確定、不確知等典型特性,還具有許多其他復雜系統不常見的特性[1],諸如不可重復性、不可逆性、過程特性、主體系統與環境之間的強關聯性等.這些特殊性決定了航天工程故障不僅具有一般復雜系統故障的層次性、傳播性、相關性、放射性和延時性等常見特征,更有體現航天工程特色的繼發性(航天器生命周期內故障會多次發生)、并發性(不同子系統/部件同時故障或連鎖故障)、模式多樣性、危害性、小樣本性和處置過程的巨大風險性等特點.此外,從航天工程過程安全分析的角度,還有測控和真實運行過程難以精確量化建模、解析模型與實際狀態間多存在難以忽略的差異、故障與航天器運行狀態緊耦合、異變現象和系統部件故障間“多對多”網狀關聯等工程特性.上述復雜特征和過程特性在多個方面制約了包括故障樹分析、解析冗余、正向/逆向推理在內的多種常規診斷在航天故障診斷過程中應用,有必要在吸收經典方法的合理內核基礎上,創新技術路線,借鑒基于容錯處理的“安全管道”監視[22]、“抑制歷史故障影響”的繼發故障檢測[24]、數據驅動自適應仿真的故障診斷和關聯矩陣布爾運算的故障定位[25]等各類創新方法的技術思路,將航天器運行過程故障預測、監控、診斷以及余壽預測和健康狀態評估等安全管理核心方法與算法,從遙測數據等表象推進到航天器本體.
(3)技術研究的集成度亟待創新,建立集“危險分析、故障預警、故障檢測、故障診斷和故障處理”于一體的綜合性處理方法.航天工程系統的安全技術研究,必須面向航天測控工程的實際,系統分析影響航天測控工程安全性的主要因素,建立能夠定性與定量描述不同危險因素對航天安全的影響關系模型與風險評估模型,面向航天器全生命周期,研究整個工程系統(特別是測控系統和航天器分系統級以上)的風險分析與健康評估技術、建立全壽命周期健康管理模型和整星(或功能系統)狀態異變后的余壽預測模型、實現面向安全分析的多源異構的數據-信息-知識融合和不同類型故障診斷方法的集成,構建航天工程全過程的在線監控、趨勢分析、異變預警、故障診斷、輔助決策與容錯處理全流程無縫銜接的安全保障機制和技術實現平臺.
總之,航天工程全壽命周期安全管理是一項復雜系統工程,涉及多學科知識融合,應用基礎研究必須與工程實際緊密結合.目前大部分研究工作還處在研究的初步階段,局限在比較單一的方向,必須理清思路、圍繞有限目標、堅持應用與創新并重、方法創新與集成創新相結合,集智攻關,建立符合航天測控與運行管理工程實際的安全管理技術.
[1]胡紹林,黃劉生.航天故障的成因分析與診斷技術[J].控制工程,2003,10(4):295-298,259.
[2]胡紹林,陳如山,黃劉生.航天器故障檢測診斷與容錯處理技術研究[J].系統工程與電子技術,2006,28(9):1360-1364.
[3]Leveson N,Cutcher-Gershenfeld J,Barrett B,et al. Effectively addressing NASA’s organizational and safety culture:insights from systems safety and engineering systems[C]//Engineering Systems Division Symposium.Cambridge,MA:MIT,2004:1-21.
[4]Iserman R.Process fault detection based on modelling and estimation methods:a survey[J].Automatica,1984,20(4):387-404.
[5]Verhaegen M,Stoyan K,Redouane H,et al.Fault tolerant flight control-a survey[J].Lecture Notes in Control and Information Sciences,2010,399:47-89.
[6]Frank P M.Fault diagnosis in dynamic systems using analytical and knowledge-based redundancy-a survey and some new results[J].Automatic,1990,26(3):459-474.
[7]胡紹林,孫國基.基于系統仿真的故障檢測與辨識技術研究[J].系統工程理論與實現,2000,20(6):8-14.
[8]Dong S,Allen K,Bauer P,et al.Self-assembling wireless autonomously reconfigurable module design concept[J].Acta Astronautica,2008,62(2):246-256.
[9]Yang Guang,Yang Qingsong,Kapila V,et al.Fuel optimal manoeuvres for multiple spacecraft formation reconfiguration using multi-agent optimization[J].Int J Robust Nonlinear Control,2002,12(2-3):243-283.
[10]Stengle F.Intelligent failure-tolerant control[J]. IEEE Control System Mag,1991,6:63-69.
[11]Rauch H.Intelligent fault diagnosis and control reconfiguration[J].IEEE Control System Mag,1994,14(3):6-12.
[12]Page E S.Control charts with warning lines[J]. Biometrika,1955,42(2):241-257.
[13]Page E S.Estimating the point of changes in a continuous process[J].Biometrika,1957,49(2):242-252.
[14]Basseville M.Detecting changes in signal and systems:a survey[J].Automatica,1988,24(3):309-326.
[15]胡紹林,孫國基,賴菲.過程變化檢測機理及其應用[J].華北工學院學報,1998,19(4):312-320.
[16]胡紹林,孫國基.傳感器突發性故障的檢測與辨識[J].信息與控制,1999,27(7):613-619.
[17]胡紹林,孫國基.多維平穩過程的容錯辨識與突變檢測[J].飛行器測控學報,1999,18(4):38-50.
[18]胡紹林,孫國基.非平穩過程突發性故障的在線檢測與辨識[J].自動化學報,2001,27(1):120-124.
[19]胡紹林,黃劉生,孫國基.ARX過程突發性故障檢測與辨識[J].信息與控制,2002,21(3):219-222,226.
[20]胡紹林,孫國基.過程監控與容錯處理的現狀及展望[J].測控技術,1999,18(12):1-5.
[21]Kacprzynski G J,Gumina M,Roemer M J,et al.A prognostic modeling approach for predicting recurring maintenance for shipboard propulsion systems[C]//USA:Proc of ASME Turbo Expo,2001.
[22]Patera R P.General method for calculating satellite collision probability[J].Journal of Guidance,Control and Dynamics,2001,24(4):716-722.
[23]Rangarajan G K,Barreto L M.Use of Kp index of geomagnetic activity in the forecast of solar activity [J].Earth Planets Space,1999,51(5):363-372.
[24]胡紹林,孫國基.過程監控技術及應用[M].北京:國防工業出版社,2001.
[25]Hu Shaolin,Li Ye,Meinke K.The fault location method research of three-layer network system[J]. International Journal of Advanced Research in Artificial Intelligence,2012,1(6):26-29.
(編輯呂丹)
Review on Spaceflight Safety and Health Management
HU Shaolin1,2,ZHAOGang2,GUO Xiaohong2,FU Na 2,DU Ying2
(1.School of Automation and Information Engineering,Xi’an University of Technology,Xi’an 710048,China;2.Key Laboratory of Fault Diagnosis and Maintance of In-orbit Spacecraft,Xi’an 710043,China)
The aerospace engineering is a super-large scale complicated ergonomics with man-machineenviroment coupling correlation.In order to minimize the engineering hazards and to make sure the safety of the spaceflight and to bring all spacecraft’s functions into play,it is very necessary to explore and develop spaceflight safety techniques.Based on the sorting of the five kinds of essential factors influencing the the safety of spaceflight engineering,research status and developments of spaceflight safety techniques in relevant fields were reviewed from three different aspects,namely,hazards survey and faults treatment,states monitoring and health management,enviroment prediction and debris elusion,etc.Finally,combined with the status and situation of the aerospace engineering,three problems that need urgent resolution were put forward.It was hoped that the analysis,review and research suggestion could be helpful in understanding the sticking points of spaceflight safety and keeping track of the frontiers of safety techniques and breaking through the bottle-neck obstacles whick befell at the application process of safety techniques.
system safety;fault diagnosis;health management
TP 391
A
1671-7333(2015)03-0286-07
10.3969/j.issn.1671-7333.2015.03.015
2014-12-13
國家自然科學基金資助項目(61473222)
胡紹林(1964-),男,研究員,博士,主要研究方向為故障與容錯.E-mail:hfkth@126.com