程 卓 遇 今 郭涇平 郭振偉
(1 北京空間飛行器總體設計部,北京100094)
(2 中國空間技術研究院,北京100094)
(3 航天恒星科技有限公司,北京100086)
共因失效表現為多個冗余部件由于共同的原因在同時或在一段短時間間隔內相繼發生失效。共因失效分析(CCFA)是對共因失效進行定性和定量分析,用于檢驗系統、部件之間是否滿足獨立性要求,分析共因失效條件下系統失效的概率。共因失效定性分析方法可通過典型共因失效檢查單等方式識別系統中的共因事件薄弱環節,定量分析以定性分析為基礎,通過邏輯建模、參數模型和數據分析等方法計算共因失效導致的系統失效概率。
國際上各工業領域對共因失效的認識逐步加深,美國國家航空航天局(NASA)在開展概率風險評價(PRA)的程序文件[1]中明確要求要考慮共因失效,包括定性和定量分析要求,防止低估風險。核電領域一直重視共因失效的處理,已形成了相應的標準規范[2]。歐洲空間標準化合作組織發布的標準ECSS-S-ST-00-01《術語》[3]也對共因失效進行了定義,并在可信性要求中給出了共因檢查單。
國內目前在分析與預防共因失效方面開展的相應研究,如:清華大學等結合核電站的需求開展過共因失效相關技術研究,并出版了著作[4]來論述如何計算共因失效的概率;上海核工程研究設計院仇永萍等[5]介紹了在核電廠系統可靠性分析和概率安全評價中應用整合部分法(UPM)等共因失效分析方法。但是,在航天器領域關于共因失效的標準定義和分析的程序方法并沒有建立起來,僅在目前應用的GJB 451A-2005《可靠性維修性保障性術語》[6]中對共因失效進行了定義,但在GB/T 3187-94《可靠性、維修性術語》[7]和其他行業標準中均未對共因失效進行定義。但實際上,在冗余結構中使用相同的單元已經成為提高航天器可靠性常見的策略,冗余單元的相似性造成的耦合因素經常出現在這種冗余結構中,容易導致共因失效事件。
共因失效廣泛存在于航天器、核電站和飛機等復雜系統中。下文是美國在航空、航天及核工業領域發生的典型共因失效事件案例[1]:
1)航天領域
(1)無水肼泄露導致航天飛機第9次飛行任務(STS-9)上的兩個輔助動力系統爆炸;
(2)當一根電纜發生短路后,在兩個獨立的發動機上的兩個航天飛機主發動機的控制器均失效;
(3)兩個O 形圈失效,導致航天飛機第25次飛行任務(STS-51-L)的一個固體火箭助推器中高溫氣體滲漏。
2)航空領域
(1)飛機多個引擎故障(如1988年福克(Fokker)F27;1992年波音(Boeing)747);
(2)美國道格拉斯公司的DC-10 飛機的2 號引擎失效導致3個液壓系統均失效(1989年)。
3)核電領域
(1)三哩島核電廠三個冗余的輔助水回路泵均失效;
(2)兩個冗余電路板由于技術人員更換鄰近的部件產生靜電沖擊造成失效;
(3)工人在核電廠內泵電機附近放置梯子粉刷天花板時突然切斷兩個冗余的泵;
(4)維修人員錯誤地將潤滑劑加入幾個冗余閥的電機繞組中,導致所有閥都不能工作;
(5)從新的供貨方購買的小電機導致4個冗余的冷卻風扇失效;
(6)單向閥被裝反,阻斷2個冗余回路的流動。
我國航天器在軌發生的共因失效案例:如某航天器控制計算機主份在軌失效,切到備份也同樣失效,導致航天器最終失去控制;某航天器冗余電子設備主份和備份之間供電電源不獨立,電源失效后導致冗余系統共因失效。
綜上表明,不能及時、全面地識別出共因失效,會低估系統中存在的風險,可能導致嚴重后果。
航天器中冗余策略一般有兩種:一種是利用相同設備進行冗余,另一種是利用不同的方式實現同一功能。第二種能有效防止共因失效事件的發生,而第一種則容易發生共因失效。
航天器共因失效定性分析的有效途徑是按工作指南或檢查單逐一分析、篩選,得出共因失效單元組(CCCG s),據此建立至單元層次的系統故障樹(FT),再進一步分析得出共因基本事件(CCBEs),并引入到擴展的故障樹中[1]。共因失效的原因一般與單個獨立失效的原因沒有區別,耦合因素是區分單個和多重失效事件的真正因素,可從以下幾個方面進行分析:
1)相同的設計;
2)相同的硬件;
3)相同的功能;
4)相同的安裝、維護和操作人員;
5)相同的程序;
6)相同的系統/部件接口;
7)相同的位置;
8)相同的環境。
按上述因素進行分析后可得到共因失效單元組,這個過程一般可以通過工作指南或檢查單等形式完成。設計過程中可參照航天器預防共因失效設計指南(見表1[8]),防止將共因失效引入系統中,確保風險或代價最小。設計過程中或設計初步完成后,還可以利用共因失效檢查單(見表2[9])進行復查,便于及早識別共因失效薄弱環節并控制風險。

表1 航天器系統預防共因失效設計指南Table1 Guide to prevent spacecraft system common cause failure
共因失效定量分析主要計算共因失效的概率,共因失效的概率計算是比較復雜的,有一種分類方法將其分為顯式直接計算法和隱式間接計算法,前者目前國內外比較多采用的方法有β 因子法、雙因子法、希臘字母法(MGL 法)、UPM 法等;后者是利用馬爾可夫理論來處理事件之間的關聯關系,其中β 因子法最為常用。文獻[1]詳細闡述了航天器實施PRA過程中對于共因失效事件的定量分析內容,包括初步定量分析和詳細定量分析兩個階段,簡要介紹如下。
初步定量分析采用相對保守的分析方法,首先修訂單元層次的故障樹模型,明確表示出每個共因失效單元組中每個單元內最多的共因失效事件。然后計算故障樹的最小割集,一般在大型系統模型和事件序列中要對割集失效概率進行截斷,獨立失效事件往往因其概率值小而被截斷,而共因失效事件保留下來。這時共因基本事件的失效概率數值通過能值“g”與單元的總失效概率來表示,如由A、B、C 3個單元組成的共因失效單元組,共因基本事件的概率用簡單全參數模型表示:

其中P(A)是單元總失效概率。典型的能值g的取值范圍在0.05~0.10 之間。
詳細的定量分析方法推薦采用α因素模型法,該方法具有如下優點:
1)是一個多參數模型,可以處理任何冗余層次;
2)是基于失效率比值的,當無統計數據可用時使其參數評估更容易;
3)有一個簡單的統計模型;
4)相比其他擁有上述特點的參數模型,能給出更準確的點估計值和不確定性分布。
α因素模型用到的參數有:
Qt—每個單元由于所有獨立的和共因事件導致的總失效頻率;
αk—在系統中發生由于一個共同原因導致k個單元失效的總頻率的分量;
αt—在系統中發生由于一個共同原因導致所有單元失效的總頻率的分量。
利用這些參數,依據有關系統冗余檢測方式的假設,由m個單元構成的系統中涉及k個單元失效的共因基本事件的頻率如下:
對于交錯檢測方案

對于同時檢測方案

其中

文獻[1]給出了3 取2表決模型按上述方法進行計算的例子以及參數估計方法,本文不再詳述。
本文對航天器共因失效分析和預防方法進行了初步探討,通過研究國內外航天器和核電站領域對共因失效的認識和控制,我國航天器在共因失效的分析和預防方面還需深入。航天器設計師在設計過程中應考慮常見的共因失效耦合因素,有效防止共因失效事件的發生,同時應加強對共因失效分析與預防技術的研究。
References)
[1]Michael Stamatelatos.Probabilistic risk assessment procedures guide for NASAmanagers and practictioners[Z].NASA.Version1.1.2002,8
[2]Mosleh A.Procedures for treating common cause failures in safety and reliability studies[C]// U.S.Nuclear Regulatory Commission and Electric Power Research Institute,NUREG-CR-4780,and EPRI NP-5613.Volumes 1 and 2,1988
[3]ECSS.ECSSS-ST0001 Glossary of terms[S].The Netherlands:ECSS Secretariat,ESA-ESTEC Requirements &S tandards Division,Noordwijk,2008
[4]黃祥瑞.可靠性工程[M].清華大學出版社,1990:173-189
[5]仇永萍,宋明海.UPM 共因失效分析方法在系統可靠性分析中的應用[J].可靠性論文,2004(S0):32-39
[6]宋太亮.GJB 451A-2005可靠性維修性保障性術語[S].總裝備部軍標出版發行部出版,2005,9
[7]機械電子工業部第五研究所.GB/T 3187-94可靠性、維修性術語[S].國家技術監督局,1994
[8]Peter J,Ali M.Dependent-failures in spacecraft:root cause,coupling factors,defenses,and design implications[C]// Proceeding Annual Reliability and Maintainbility Symposium,1995
[9]ECSS.ECSS-Q-S T-30C Space product assurance-Dependability[S].The Netherlands:ECSS Secretariat,ESA-EST EC Requirements & Standards Division,Noordwijk,2009,3