孫晨峰, 呂衛民, 叢林虎, 徐鵬博
(海軍航空大學, 山東 煙臺 264000)
冗余是指在實現裝備基本性能指標之外,重復增加功能單元或全部設備,以在局部發生故障時保持系統正常工作的一種控制方式。冗余技術作為提高系統可靠性的有效手段,與可靠性理論發展以及裝備質量水平緊密相關,并在計算機網絡技術、導彈武器系統以及航空航天測發控等諸多重要領域應用廣泛。
冗余控制方式雖然能夠有效提高系統的故障容錯能力,但單元及子系統的失效組合及失效順序仍對整機可靠性有很大影響,在使用期間也可能因人員操作不當、維護保養不善或工作環境欠佳引起系統共因失效或元件差異性失效,進而造成系統可靠性下降。尤其對于一些貯存周期長而在短時間窗內需要高可靠性的裝備(導彈發控設備、機載電源系統等)而言,必須定期進行系統狀態評估,并通過針對性維修措施提高裝備的可靠性。
目前,對冗余系統的可靠性建模與分析工作,很多還是構建系統可靠性框圖或故障樹模型,靜態描述系統故障邏輯、基于當前狀態演繹分析某事件的發生概率,從而評估系統的可靠性水平;或是利用馬爾可夫的分析方法,基于系統各單元故障概率建立系統狀態轉移機制,最終通過馬爾可夫方程求解系統狀態概率。但隨著裝備對控制能力要求的提高,系統結構愈趨復雜,動態和多態性能愈發明顯,傳統的靜態分析方法難以刻畫狀態轉移隨故障傳播的時序關系,不易描述其中基于概率傳播的不確定性故障;而馬爾可夫模型又在系統冗余結構較為復雜時,難以避免爆炸增長的狀態空間描述和繁瑣的馬爾可夫方程組求解,因此在系統狀態評估與分析中存在不足。
1962年,數學家Petri提出了用于計算機異步通訊的Petri網模型,因其在動態建模及表達形式上的獨特優勢,很快應用于可靠性工程相關問題分析。林闖較早闡述了利用SPN網絡描述離散動態系統,并同構于連續時間馬爾可夫鏈模型的方法,實現了系統建模的簡化。原菊梅等結合模糊集思想,通過提出可修系統可用性建模與分析方法,簡化了可修系統的可靠度求解;后又從部隊作戰角度出發,逐層拆解任務、分配資源,利用有色Petri網絡模型實現了對復雜武器系統任務可靠性的建模及估計。江式偉等針對現役裝備結構體系特點,借鑒DoDAF體系結構框架,提出了基于時間Petri網流程分析的可靠性建模與分析方法,為部隊裝備體系設計及改進提供了支撐。陸中等基于Petri網絡拓展了維修性建模方法,用庫所、變遷等基本元素描述各種維修實體及狀態,并利用蒙特卡洛仿真簡單、快速的優勢,計算裝備維修時間及所需的維修資源,實現了對維修保障活動的有效評估。綜上,許多學者對可修/不可修系統的Petri動態建模方法做了許多有益的探索,但沒有考慮到外部沖擊可能導致的共因失效作用,也較少對包括各種冗余形式的混合冗余系統進行建模分析。共因失效的發生在一定程度上抵消了冗余結構對于系統可靠性的提升,混合冗余系統在實際工程中廣泛存在,在建模過程中應給予充分考慮。
鑒于該理論模型在時序邏輯和動態建模上的強大優勢,本文提出了一種考慮共因失效的冗余系統廣義隨機Petri網建模方法。在典型冗余結構GSPN建模過程中引入沖擊庫所/變遷的概念,拓展Petri網表示方法,在此基礎上從系統層級構建了PLC控制器的模型,實現了單元、子系統和系統的信息保持,最后通過蒙特卡洛仿真生成系統壽命數據,完成系統可靠性計算與評估。
廣義隨機Petri網在變遷的使能與激活狀態之間引入延遲特性,從而為資源轉移賦予時間屬性。該屬性可以描述事件發生所需要的時間(如元件失效、單元維修),實現對系統行為的有效描述。
存在一個七元組:=(,,,,,,),其構成廣義隨機Petri網絡系統的條件是:
1)∩=?,是的位置集,={P0,P1,P2,…,P},其中的元素稱為庫所,是的轉移集,={T0,T1,T2,…,T},其中的元素稱為變遷。位置集和轉移集是模型中的基本組成部分,流關系則表征資源從位置進行轉移的有序集合。
2)∪≠?。
3)為弧集或流關系,?×∪×,“×”為笛卡爾乘積。
4):→{1,2,3,…}稱為的容量函數。
5):→{1,2,3,…}稱為上的權函數,規定了每次變遷所引起的資源變化。
6):→{0,1,2,3,…}稱為上的初始標識,指明資源的初始分布。
7)稱為轉移點火速率集,={,,,…},表示第次(=1,2,3,…)變遷的速率。
11節介紹了GSPN模型從網絡結構到資源分布的靜態特征,本節給出系統狀態轉移的動態規律,并對文獻[14]中較為繁瑣的前置集后置集描述進行簡化。
設=(,,,,,,)是一個GSPN網絡,是的標識,則有:
1)變遷∈在下使能的充要條件是

(1)
此處的變遷為庫所任意存在的前后轉移集。
2)當變遷具備資源轉移的使能條件時,需經過由該變遷對應的分布生成的時間方可激活,該時間稱為轉移點火時間,分布對應的函數稱為轉移點火速率函數。若所有的轉移點火時間均滿足指數分布,則變遷的轉移點火速率函數為
→(,T)
(2)
3)當該變遷轉移點火時間完成后,變遷T處點火并在原標識處產生一個新標識′,計算處于轉移前或轉移后某時刻的標識′的規則為

(3)
在工程領域,冗余系統常含有混聯系統、()表決系統、共載冗余等典型結構。大量可靠性與安全性分析結果表明,單元共因失效是除獨立失效外系統失效的重要原因之一,這一結論在核電廠、美國航天飛機的概率安全評估及鋰離子電池組失效分析中已經得到證明。本節將在對冗余結構進行可視化建模的基礎上,進一步拓展共因失效模式下Petri網建模表示方法,實現故障單元狀態信息保持,并利用可達圖對系統狀態的可達性、覆蓋性和有界性等行為特性進行分析,驗證模型的可用性。
共因失效是指兩個或兩個以上的單元,在同一時間或相隔較短時間內受到某種相同的作用,所導致的單元級甚至是系統級失效。在該失效模式中,受相同原因影響的各單元組成共因失效組。外部環境的作用如振動沖擊、濕度或鹽霧腐蝕是導致共因失效的主要原因。


(4)

由串聯系統和并聯系統按照冗余設計的理念混合組成的系統稱為混聯冗余系統,混聯冗余系統按照系統對單元的容錯配置方式進一步分為串- 并聯冗余結構和并- 串聯冗余結構,兩種結構在提高系統可靠性的同時,為系統元件開路或短路提供有效保護。本文以串- 并聯冗余系統為例進行建模,其考慮共因失效的GSPN可靠性模型如圖1所示。

圖1 串- 并聯冗余系統可靠性模型Fig.1 Reliability model of series-parallel redundancy system

在各子系統Psys中,只有當冗余單元均失效時,子系統才會完全失效;在串聯結構中,任一子系統失效,整機系統Psys立即失效。因此在圖示結構下,設定單元故障庫所Pdown、子系統Psys及整機系統Psys的容量函數均為1,即

(5)
對建立的串- 并聯冗余模型,搜索GSPN存在的狀態空間,構建包括消失狀態(瞬時變遷的標記,也稱為零標識)和實存狀態(延時變遷的標記)的可達圖如圖2所示,其中S表示模型所處的第個狀態,T表示經歷的第個變遷,紅色橢圓為實存狀態,藍色橢圓為消失狀態,藍色方形為消失狀態的起始態。從上述模型建立過程可知,模型所有位置上的標識均是有界的,因此整個網絡模型是有界的;從可達圖可知,圖中存在的終止節點是整機系統的故障狀態,除此之外不存在導致系統死鎖的結點,符合可靠性模型的物理意義,且對于任何一個給定的標識′,都能在圖中搜索到等價或包含該標識的結點,因此網絡具備可達性。

圖2 串- 并聯冗余系統可達圖Fig.2 Reachability graph of series-parallel redundancy system
同時應該注意到,混聯系統雖然能夠有效提高系統的可靠性,但是其中的熱備冗余結構可能因單元故障對輸出結果存在爭議而影響系統正常運行。
基于多個單元的表決冗余系統能夠有效解決上述問題,從而保證結果的準確性。
在冗余表決系統中單元數為,表決數為,輸出經表決器表決得到。當單元表決系統中有至少個單元完好時,就能實現預定功能;當系統中故障單元數超過-個時,表決器失效??紤]共因失效時,外部沖擊直接作用于表決器表決結果的輸出庫所,考慮共因失效的()表決系統的GSPN可靠性模型如圖3所示。

圖3 3取2表決冗余系統可靠性模型Fig.3 Reliability model of triple-module redundancy system
在圖3中,P表示各個單元的輸出狀態,Pvote表示表決器單元的工作狀態,Pdown為冗余單元輸出的表決結果,Pshock是可能對表決器造成故障的沖擊庫所,該庫所的不同狀態轉移方式可表示隨機沖擊下不同數量單元的失效形式。
在該模型中,同樣有Pvote、Pdown、Psys的庫所容量函數:

(6)
同樣對該模型構建可達圖如圖4所示,網絡模型是有界的,且終止結點符合系統故障模式;對于一個給定的狀態,網絡能夠尋找到該結點,因此網絡模型也是可達的。

圖4 串- 并聯冗余系統可達圖Fig.4 Reachability graph of series-parallel redundancy system
在共載冗余系統中,各單元在系統載荷下存在共同承擔關系,從而使得每個單元的實際功率低于額定功率。當某一單元存在故障時,系統載荷在其余單元間分配,載荷的改變增大了其余單元的實際功率,導致單元壽命分布發生變化,使得系統失效率增加。參考文獻[14]中的系統模型,考慮外部沖擊作用的三單元共載冗余系統可靠性模型如圖5所示。

圖5 共載冗余系統可靠性模型Fig.5 Reliability model of load-sharing redundancy system
在圖5中,同一單元不同的工作庫所Pup、P′up、P″up代表不同數量失效單元下的單元工作狀態,T則對應不同的失效概率。當結構中的所有單元均失效時,系統才完全失效,則有
(P0down)=3
(7)
共載冗余系統可達圖如圖6所示。通過構建模型可達圖,同樣可知網絡是有界的、可達的,模型具備可用性。

圖6 共載冗余系統可達圖Fig.6 Reachability graph of load-sharing redundancy system
為了避免系統在狀態轉移動態描述中可能出現的狀態空間爆炸問題,實現模型的快速計算,本節運用蒙特卡洛仿真分析方法,基于單元間的邏輯關系生成壽命數據,評估系統的狀態及可靠性水平。
系統壽命蒙特卡洛仿真的具體步驟如下:
1)仿真條件設定。設定仿真初始時刻,確定仿真循環次數(即選擇用于壽命仿真的系統數量),并令此次仿真序次為1。
2)網絡模型初始化。根據實際問題對庫所中的資源(托肯)進行初始分配,產生GSPN網絡中的初始標識;依據各單元故障產生或外部沖擊發生服從的分布,產生相應的隨機數,作為變遷的點火轉移時間。
3)系統步進仿真運行。根據模型中托肯轉移的時序邏輯關系和使能點火規則,以生成的變遷點火轉移時間為步長進行系統運行仿真,并即時更新系統標識。
4)系統壽命樣本求解。當系統滿足條件(Psys)=(Psys)=,即故障庫所中的托肯數量達到容量函數時,系統失效,仿真停止。此時基于變遷點火轉移時間的仿真時間即為系統的一次壽命樣本。
5)循環條件確定。如果運行次數<,則′=+1,轉步驟2進入下一次仿真;當=時,系統仿真結束。
PLC系統在導彈武器系統、裝備航空航天等諸多國防關鍵領域具有廣泛應用。這些領域對PLC控制系統的可靠性有極高要求,本節以某型PLC控制器為例說明模型的有效性。
PLC采用3個不同的信道處理信號,通過表決器收集各信道的結果,并按2/3表決方式產生信號輸出。每個信道(信道標識為CH,=A, B, C)由一個輸入單元DI、一個處理單元CPU和一個輸出單元DO構成。信號通過總線IObus在該信道的單元間傳輸。在CPU層次也采用了冗余技術,每個CPU接收數據輸入單元信號的同時,通過總線Tribus接收其他信道信號的拷貝,同時每個CPU使用一個2/3表決器來確定輸入信號。系統電源模塊可認為滿足共載冗余結構,即由兩個獨立的能量供應單元PS1和PS2共同承擔系統供電任務(V1,V2),考慮到常用鋰離子電池組的失效機理,本文對電源系統考慮共因失效作用。PLC系統結構如圖7所示,其中VOTER為表決器,OUTPUT為輸出。

圖7 PLC控制器結構圖Fig.7 Structure diagram of PLC controller
在本例中,電源模塊是二單元共載冗余模型,為兩個單元正常工作時的失效率,當其中一個能量供應單元失效時,另外一個單元的失效率增加為。參考文獻[18]中的分析結論、文獻[19]中的數據及案例中PLC可靠性參數,設定電源模塊共因失效率為。冗余系統各單元的失效率水平見表1。

表1 故障部件失效率
本例基于第2節中典型冗余結構的GSPN可靠性模型實現PLC子系統到整系統的組合建模,在描述系統狀態轉移的同時,通過增加輔助變遷及禁止弧、設計網絡結構、設定瞬時變遷優先級等方式,實現部件故障狀態信息保持,更加準確地描述系統動態行為。
1)以CHA信道信號傳輸處理過程為例說明系統狀態轉移過程,考慮到信號接收過程中的部件交聯特點,將各信道輸入單元DI、總線IObus和Tribus作為網絡底層庫所,以其不同故障狀態轉移組合PinA的表決結果PinA作為CPUA信號輸入的瞬時狀態,在逐級考慮CPUA和輸出單元DOA的狀態后得到該信道故障狀態信息PchA。
2)以CHA信道信號傳輸處理過程說明網絡具備的部件故障狀態信息保持性。通過信號輸入狀態子庫所PinA′變遷對狀態組合庫所PinA的托肯轉移和反向禁止,限制其在故障信息保持狀態下的變遷點火轉移次數,實現借用Petri語義描述系統可靠性特性,彌補故障庫所在狀態轉移過程中造成的自身信息描述缺失問題。
3)在系統層,通過瞬時變遷優先級按層級設置,確保子系統、整機系統狀態轉移順序正確,部件故障信息保持完整。
4)連接各部件、各子系統,形成整個系統,完成系統整的體故障傳播關系,得到導彈PLC系統完整的GSPN模型如圖8所示。

圖8 PLC系統GSPN可靠性模型Fig.8 GSPN Reliability model of PLC redundancy system
由第3節方法,取仿真循環次數為10 000,得到該PLC系統的10 000個壽命數據。通過設定進行系統隨機抽樣的次數、抽樣時點的跨度,基于定義可計算其可靠性(抽樣總時間應覆蓋系統壽命周期)。考慮到經典的特征壽命難以滿足導彈等飛行器對于PLC控制系統的可靠性要求,因此設定PLC系統任務可靠度不得小于0.9,最后通過對壽命數據的統計分析可知,在外部環境良好、電源電壓和負載穩定的情況下,PLC系統壽命約為150 000 h??紤]共因失效的PLC系統廣義隨機Petri網可靠性分析結果如圖9所示。

圖9 PLC冗余系統可靠性曲線Fig.9 Reliability Graph of PLC redundancy system


(8)
由此可進行整個系統的可靠性概率計算,得到考慮共因失效的解析法可靠性曲線如圖9所示。顯然,本文方法與考慮共因失效的解析法分析結果較為吻合。
從圖9中可以看出,若忽略共因失效影響,會使得PLC系統的可靠性預估結果在壽命全周期偏向樂觀,且這種偏差會隨著系統工作時間的推移而增大,說明共因失效在系統壽命周期后半段發生時造成的影響更顯著,這一結果符合失效物理分析與工程實踐認知,這也與本文在分析中提到的共因失效故障模式能夠抵消冗余設計對系統可靠性的提升是一致的。
從可靠性計算結果來看,本文建立的模型具有較好的預計效果。圖10為GSPN模型的蒙特卡洛仿真方法求得的結果與基于解析法求得結果之間的誤差變化曲線,誤差最大值為0.018 85,與基于因子模型的概率模型結果比較接近。誤差最大值出現在PLC運行時間約120 000 h,從所要求的任務可靠性水平來看可以接受。同時本文在描述系統動態特性基礎上,通過抽樣估計、大量仿真考慮了不同元件壽命的不確定性,相對精度更高。

圖10 解析法與GSPN模型的可靠性差值Fig.10 Reliability difference of the analytical method and GSPN model
表2所示為兩種方法的結果對比。由表2可知,利用GSPN模型進行系統可靠性估計具有較好的運算速度,可以根據精度需要靈活調整仿真次數,實現更高精度的仿真。

表2 模型方法比較
本文針對混合冗余系統,提出了拓展共因失效影響的廣義隨機Pertri網絡模型。首先對典型冗余結構進行GSPN可靠性建模,拓展了Petri網建模表示方法,進而利用系統可達圖驗證了模型的合理性;運用蒙特卡洛仿真分析方法計算系統的可靠性。得到以下主要結論:
1)相比于傳統可靠性建模工具,本文提出的基于GSPN的建模方法能夠動態描述系統行為,刻畫單元、子系統與整機系統之間的故障時序傳播關系;同時基于典型結構的模型簡化了系統的建模過程,運用蒙特卡洛仿真抽樣模擬的計算優勢,避免了繁瑣的馬爾可夫建模及求解,實現了快速計算。
2)相比于文獻[14]的Petri網可靠性評價模型,本文在完成可靠性建模的同時,聚焦共因失效對模型的影響,從混合系統而非某類結構層面對系統進行分析評價,模型更具一般性,也為后續系統可靠性設計提供了新思路。
3)利用本文所提模型對PLC系統進行分析計算,并運用概率解析方法進行對比驗證,在允許的誤差下得到了較準確的可靠性評價結果,驗證了模型的有效性。
4)考慮故障覆蓋因子和控制裝置的復雜裝備冗余系統可靠性評價及優化設計是今后的研究方向。