張宏揚,盧佩玲,張 浩
(中國鐵道科學研究院集團有限公司通信信號研究所,北京 100081)
電氣/電子/可編程電子(Electrical/Electronic/ Programmable electronic,E/E/PE)安全相關系統廣泛應用于石油化工、航空鐵路、礦業核能等領域,功能安全基礎標準IEC61508—6[1](以下簡稱IEC61508)中提供了一種基于可靠性框圖(Reliability Block Diagram) 的硬件失效概率計算方法,以預測E/E/PE安全相關系統的硬件安全完整性能否達到規定等級,許多領域常利用該方法推導出的PFD(Average probability of failure on demand)/PFH(Average frequency of dangerous failure)公式對產品的安全性進行定量分析與評估。
工業過程控制領域中,王耀等[2]利用該方法中PFD計算公式對鍋爐爐膛的安全監控系統中“爐膛風量小于25%觸發主燃燒跳閘”這一安全功能進行了定量評估,結果顯示,為使系統滿足要求的SIL(Safety Integrity)2級,可將原來的電動執行機構由1oo1結構改進為1oo2結構;薛利俊[3]以某化工裝置的安全儀表系統中“當溫度低于低聯鎖值時,應立刻切斷閥門保護下游管道和設備”這一安全聯鎖功能為例,采用1oo1、2oo3結構的PFD公式計算系統中的回路是否滿足相應SIL等級,除考慮增加系統的冗余度外,文獻[1-2]均建議通過縮短離線的檢驗測試時間間隔T來提升系統的SIL等級;靳江紅[4]通過考慮誤動率、不完善檢驗測試等因素改進了PFD計算公式,并對某儲罐系統的壓力保護系統進行了安全評估。鐵路信號領域中,WANG等[5-6]分別采用標準中PFH公式計算了不同結構計算機聯鎖系統的危險失效概率,以評價整個系統的SIL等級,但文獻[5]沒有對檢驗測試時間T的取值進行說明,文獻[6]中T取值為一年,但檢驗測試需在離線條件下進行,而計算機聯鎖系統具有常年連續不間斷運行的特點,難以定期執行檢驗測試,且兩個文獻均未考慮2oo2結構中共因失效對安全性的影響。
通過分析上述文獻可知,工業過程控制領域內的安全生產過程一般由實現應用功能的安全控制系統與對其進行監控防護的安全防護系統共同完成,后者并不參與生產應用功能,IEC61508中的PFD/PFH公式是根據其中防護系統的安全特性推導得出的,而鐵路信號地面控制系統的生產應用功能與防護功能融為一體,一般不存在附加防護系統,但鐵路信號領域內部分研究[7-8]在計算其冗余結構的危險失效概率時直接采用了該標準中的公式,并沒有分析該公式的適用性,也有研究[9]對IEC61508所面向的工業領域內單純實現防護功能的系統進行了分析,說明其與鐵路信號控制系統間的差異性,但文中只從定性角度進行了評判,并沒有給出定量評估。
以A類系統表示IEC61508所面向的主要用于實現安全防護功能的安全相關系統,以B類系統表示鐵路信號安全相關系統。從定性角度,分析兩類系統在系統結構、控制對象、危險側判定等方面差異性;從定量角度,以兩類系統中常見的3種冗余結構—1oo1、1oo2、2oo2為對象,首先,采用IEC61508中的可靠性框圖法計算A類系統這3種結構的危險失效概率;然后,根據B類系統的安全特性,采用馬爾科夫鏈計算B類系統上述結構的危險失效概率;最后,以實際參數為例進行仿真,比較兩類系統計算結果的差異性,對IEC61508推薦的可靠性框圖法在B類系統中的適用性進行分析。
圖1為典型A類系統某化學反應器的高完整性壓力保護系統結構示意。圖2為典型B類系統某計算機聯鎖系統結構示意。

圖1 A類系統高完整性壓力保護系統

圖2 B類系統某計算機聯鎖系統
如圖1所示,該生產過程由實現生產控制的化學反應器和對其進行監控防護的壓力保護系統共同完成。其中,壓力保護系統由2oo3結構傳感器子系統、1oo1結構邏輯控制器子系統和1oo2結構執行器子系統組成,它們各自實現不同的功能且與化學反應器之間相互獨立。當傳感器子系統中任意2個壓力傳感器PT(Pressure Transducer)檢測到化學反應器頂部壓力過高時,邏輯控制器子系統的PLC(Programmable Logic Controller)將輸出控制信號來關閉執行器子系統的任意閥門V(Valve),從而切斷反應器進料源,以防止反應器內因壓力過高而造成安全事故[10]。如圖2所示,以計算機聯鎖系統的核心部分—聯鎖邏輯子系統為例,它通過輸入子系統采集的現場設備狀態,結合操作顯示子系統下達的執行命令,經過邏輯運算并通過輸出子系統控制現場設備。整個系統不僅執行正常的生產任務(控車)且保證行車安全,例如對于道岔轉換這一功能來說,聯鎖系統不僅控制道岔進行轉換,而且決定所轉向的位置,以防止轉換錯誤導致列車處于危險狀態。
由上述分析可知,在工業過程控制領域中,一個正常的安全生產過程通常由2個系統組成:用來執行生產控制功能的安全控制系統與用來保證前者處于安全狀態的安全防護系統[11]。而IEC61508中的安全性定量分析主要面向其中的安全防護系統,但鐵路信號領域中安全相關系統直接面向信號系統的具體應用需求,實現所有或主要的應用功能,而非僅對受控設備進行“監控”,這顯然與上述單純實現防護功能的系統之間存在差異。
此外,雖然在形式上“MooN”(以MooN(M≤N)表示在N個獨立完成相同功能通道結構中的M個通道,當采用以M為判值的表決原則構成冗余時,MooN為標準可靠性模型中的M/N[G]表決系統,即該冗余系統功能完好的充要條件為:N個通道中有M個及M以上個完好)已足以表達大部分冗余結構,但本質上“MooN”能夠清晰表達的只包括輸出選擇方式(表決/比較/選擇)在內的由多個“通道”構成的基本冗余結構或冗余關系,并未表達也無法表達該冗余結構在“通道”故障后的處理原則。實際上,冗余系統故障檢出及之后的處理原則通常不僅是影響和決定MooN系統具體技術實現的關鍵因素,而且對冗余系統可靠性、安全性影響也至關重要,即冗余系統可靠性、安全性不但取決于其MooN結構,還取決于其故障檢測的有效性和故障處理原則,而且一般還與其安全相關功能的性質及實現方式密切相關。因此,這些因素直接影響對冗余系統可靠性和安全性分析與建模(可靠性框圖等)、計算,甚至還可能會使同一種MooN結構對安全相關功能性質及其實現方式不同的系統的安全性起到不同的作用。
下面以常見的1oo1、1oo2、2oo2結構為對象,采用IEC61508中的方法計算A類系統這3種結構的危險失效概率,采用馬爾科夫鏈計算B類系統這3種結構的危險失效概率,從定量角度分析兩類系統安全性的差異。
(1)假設單元模塊的失效率服從指數分布,其失效率用λ表示,危險失效率λD=0.5λ,λDD為可被在線檢測到的危險失效率,λDU為不能被在線檢測到的危險失效率,診斷覆蓋率DC=λDD/λD。
(2)共因失效部分采用β因子模型[12-13],定義β=λDUC/λDU為具有共同原因的,沒有被檢測到的失效分數;βD=λDDC/λDD為具有共同原因的,已被檢測到的失效分數[1];且檢測模塊與功能模塊之間互相獨立,不存在共因失效。
(3)冗余結構中比較單元和切換單元不發生失效,均能可靠完成規定功能。
2.1.1 1oo1結構


(1)

圖3 1oo1結構
2.1.2 1oo2結構
1oo2結構的物理塊圖如圖4(a)所示。

圖4 1oo2結構

FA1oo2=2((1-β)λDU+(1-βD)λDD)tCE(1-β)×

(2)
2.1.3 2oo2結構
2oo2結構的物理塊圖如圖5(a)所示。由圖5可知,該結構包括兩個并聯通道,只有當兩通道在要求時均進行安全處理,系統才能實現安全功能,假設每個通道在檢測到任何失效時,均使本通道進入安全狀態,但兩通道中只要有一個發生不能被在線檢測到的失效,整個系統就會在要求時失效。建立其可靠性框圖如圖5(b)所示,是典型的兩個單通道串聯后結構,根據2.1.1節中對1oo1結構危險失效概率的計算,可得

(3)

圖5 2oo2結構
馬爾科夫鏈(Markov)研究隨機事件狀態變化及其之間的轉移規律[15-17],適合描述和分析具有動態交互過程的鐵路信號系統的安全性,故這里采用馬爾科夫鏈分析鐵路信號系統不同冗余結構的安全性。
2.2.1 1oo1結構
圖6為鐵路信號系統典型的1oo1結構。模塊A無失效發生時系統處于正常工作狀態;當模塊A發生可被在線檢測到的失效后會在短時間內被拒絕,使系統導向安全側[18];當模塊A發生不能被在線檢測到的失效后會致系統于危險側。對該系統的3種狀態定義及說明如表1所示。

圖6 1oo1結構

表1 1oo1結構系統狀態編號及說明
根據表1中3種狀態建立圖7所示的Markov模型。

圖7 1oo1結構Markov模型
不同狀態之間轉換的相應描述如下。
0→1:A發生可被在線檢測到的失效,系統無法正常工作,導向安全側。
0→2:A發生不能被在線檢測到的失效,可能導致事故的發生,系統處于危險側。

FB1oo1=P2=(1-DC)(1-e-λDt)≈(1-DC)λDt
(4)
2.2.2 1oo2結構
圖8為以1oo2結構在鐵路信號領域中最常見的實現方式,雙機熱備架構為例,該結構由兩個完成相同功能并具有主備關系的A、B兩系組成,正常時A、B均無失效發生,系統正常工作,以主系A的輸出有效,當A發生可被在線檢測到的失效,拒絕A的輸出并由切換單元切換至B系保持系統的正常運行,從而實現冗余功能。對該結構系統狀態定義及說明如表2所示。

圖8 雙機熱備結構

表2 雙機設備系統狀態編號及說明
根據表2中5種狀態建立圖9所示的Markov模型。

圖9 雙機熱備Markov模型
不同狀態之間轉換的相應描述如下。
0→1:A或B發生可被在線檢測到的失效,另一系可以代替失效的模塊繼續正常工作。
0→2:B發生不能被在線檢測到的失效,由于A正常,因此系統正常工作。
0→4:A發生不能被在線檢測到的失效或A、B發生不能被在線檢測到的共因失效,系統處于危險側。
0→3:A、B發生可被在線檢測到的共因失效,系統處于安全側。
1→3:對于僅有一系正常工作的狀態,當該系出現可被在線檢測到的失效時,系統無法正常工作,導向安全側。
1→4:對于僅有一系正常工作的狀態,當該系出現不能被在線檢測到的失效時,可能導致事故的發生,使系統處于危險側。
2→4:對于A正常、B出現不能被在線檢測到的失效的狀態時,當A再次發生失效(不論是可被在線檢測到還是不能被在線檢測到的類型),將置系統于危險側。
由圖9可知,該模型通過三條馬爾科夫鏈到達危險側狀態4,分別為:0→1→4、0→2→4、0→4,其中
(1)0→1→4
P41=2(1-βD)λDD(1-β)λDU×

(5)
(2)0→2→4

(6)
(3)0→4
P43=((1-β)λDU+βλDU)×

(7)
狀態4的發生概率為上述三條馬爾科夫鏈計算結果之和P4=P41+P42+P43。即系統的危險失效概率為
FB1oo2=P4
(8)
2.2.3 2oo2結構
圖10為鐵路信號系統2oo2結構,該系統由兩個完成相同規定功能的基本模塊A、B組成,兩模塊的輸出需由比較單元進行一致性校核,若一致才允許輸出[16],否則系統在短時間內導向安全側,以避免因錯誤執行而產生風險。通常情況下,比較單元比較周期的間隔不會超過最大數百毫秒的應用軟件運行周期,這相對于電子器件的可靠壽命而言已足夠短[7],且可編程電子器件構成的大規模集成電路的失效組合數值空間巨大,擁有海量內部狀態,因此,無論是什么類型的失效,只要導致輸出結果有差異,一般都可以通過比較檢測得到,故在極短時間內連續發生多重失效且造成相同錯誤結果的可能性幾乎為零。綜上,該系統導向危險側只由不能被在線檢測到的共因失效造成,且必須是導致相同錯誤結果的共因失效類型。故
δ·β(1-DC)λDt
(9)
式中,δ為引發相同錯誤結果的失效率占總λDUC的比值。

圖10 2oo2結構
以第2節中A類系統與B類系統常用的3種結構1oo1、1oo2、2oo2為例進行仿真,采用蒙特卡洛模擬法[20-21]消除DC、β參數變化導致的結果不確定性,假設DC與β均服從均勻分布,各參數取值如表3所示。

表3 參數取值


表4 蒙特卡洛模擬下A、B類系統不同冗余結構危險失效概率均值及誤差
由表4可得如下結論。



(1)工業領域中主要用于實現防護功能的安全相關系統與鐵路信號系統具有不同的系統結構特點和安全控制特性,后者的生產應用功能與防護功能融為一體,一般不存在附加防護系統。
(2)相比單一的1oo1結構,1oo2與2oo2結構在A、B兩類系統安全性方面所起的作用正好完全相反,這表明IEC61508所面向的工業領域中過程控制系統(即防護功能和控制功能分離的A類系統)的可靠性框圖法并不適用于鐵路信號控制系統(控制與防護融為一體的B類系統)的安全性定量分析。因此,在選擇安全相關系統的安全性定量分析方法時,需首先對系統本身的安全特性進行分析。