李莎莎,崔鐵軍
(1.遼寧工程技術大學 工商管理學院,遼寧 葫蘆島 125105;2.遼寧工程技術大學 安全科學與工程學院,遼寧 葫蘆島 125105)
在研究系統故障的過程中,往往面臨很多問題,一般情況下系統故障不是一蹴而就的,而是1種演化過程。在該演化過程中涉及眾多事件,這些事件的發生發展規律及其之間的關系都不相同;同時由于系統運行環境的變化會導致事件故障特征的改變,進而導致系統故障特征改變,最終使系統故障過程出現多樣性,上述過程即為系統故障演化過程。實際上預測、預防和治理系統故障演化過程是從演化過程中的事件、關系和影響因素入手的,針對演化過程的特征有的放矢地制定預防措施,但這些工作的前提是實際系統故障演化過程與系統設計期間設想的演化過程相同,這樣才能根據演化特征、故障程度、演化方式來提前制定措施阻礙故障發生。但實際上,在設計期間由于對系統內部不同元件的意外能量、物質和信息交互情況不清,對系統運行期間因素作用情況不了解等問題會導致預防措施不能阻礙故障演化,最終導致系統故障。那么導致上述現象的根本原因是在某個事件上預想的系統故障演化過程與實際的演化過程出現不同,即系統故障演化過程的不連續現象。當演化出現不連續時,原有措施將不適應之后的演化過程,這時必將發生故障。因此如何發現演化不連續原因,并提出消除演化不連續方法成為減少系統安全阻礙故障發生的關鍵。
關于系統故障演化及其預防措施的研究逐漸增加,主要包括機械系統、電器系統、電力系統、巖體系統、控制系統等的故障預測、預防和治理[1-15]。上述研究一般針對各自領域發揮作用,究其原因是提出的阻礙演化的方法缺乏通用性,沒有站在系統故障演化過程的系統層面上進行分析,缺乏從演化結構角度確定演化不連續原因的方法。
為保障系統功能可靠性,阻止系統故障演化過程的發生發展,必須確保設計的系統故障演化過程與實際發生的故障演化過程一致,從而發現演化不連續的原因進而制定消除方法。作者在2018年首次提出空間故障網絡理論[16],該理論主要用于描述和分析系統故障演化過程,通過對演化過程的結構分析,給出3個層次的演化不連續原因,并針對這些原因提出消除不連續的方法,所提出的部分方法能夠在定性層面上消除演化的不連續,也能在一般情況下消除定量層面的不連續。
任何系統的存在都是為了完成預定的功能,系統能保持其完成功能的能力稱為可靠性,而完成功能能力的下降和喪失稱為失效。系統的功能狀態從可靠狀態必將向著失效狀態發展,而該發展過程就是系統故障演化過程。在沒有人的作用的情況下,系統故障演化過程一般是單向的,由可靠到不可靠。人的作用就是為了保證系統功能而阻礙系統故障演化過程,甚至采取特定措施逆轉演化過程。針對人工系統而言,人存在意義是在規定條件下和規定時間內必須完成預定功能,即保持系統可靠性,從而阻礙系統故障演化過程;與之對應的自然系統則是按照自然規律形成的系統,該系統也是不斷演化的,其唯一目的是使系統熵增加。無論是自然系統還是人工系統,當需要時人必定采取措施維持系統可靠狀態,一般通過維持系統結構、影響因素和邏輯關系穩定來實現。因此人的作用必定使系統熵減少,使系統變得有一定規則性;而自然的作用則是使系統熵不斷增加,使系統變得混亂失去功能,因此實際中將人、系統和自然組成大系統,其中人與自然是博弈關系,博弈的對象是系統,博弈的目的是系統功能。
上述博弈過程是人與自然之間對系統作用的過程,該過程體現于系統可靠性的變化或是失效性的變化,本文將該過程定義為系統故障演化過程,其是對系統功能狀態變化的描述概念。基于目前研究,系統故障演化過程的基本描述要素包括事件、因素和邏輯關系。事件是系統故障演化過程各階段的定性描述;因素是影響事件特征變化的動力;邏輯關系代表事件之間的因果關系。作者為研究系統故障特征提出空間故障樹理論體系[16-19],該體系的第3階段為空間故障網絡理論,適合于研究系統故障演化過程。對應于系統故障演化過程中的事件、因素和邏輯關系,空間故障網絡中使用節點表示事件;事件發生概率分布表示因素的作用;因果邏輯關系表示事件間關系;有向線段表示演化過程各環節的演化方向,并蘊含傳遞概率。其中事件包括邊緣事件(基本原因事件)、過程事件和最終事件(系統最終故障)。事件發生概率分布是多因素情況下各因素的特征函數疊加得到的;傳遞概率表示原因事件引起結果事件的概率。圖1為文獻[20]給出的空氣壓縮機的系統故障演化過程實例。
圖1 空氣壓縮機系統故障演化過程Fig.1 System fault evolution process of an air compressor
圖1中V代表事件;→代表傳遞由原因事件指向結果事件,蘊含傳遞概率;結果事件右下角標為原因事件以何種邏輯關系導致結果事件,“+”表示或關系。空間故障網絡能完整表示系統故障演化過程。
假設在系統故障演化過程中,對于單一故障鏈,某1個事件之前的原因事件發生概率和傳遞概率都是正確的,可得到該事件發生概率;同時通過其他手段測量也可得到該事件發生概率,而當該事件的這2個發生概率不同時,即出現故障演化過程的不連續現象。造成這種不連續現象的原因很多,但其結果一般都會造成系統故障演化過程的錯誤。如果原因事件發生概率和傳遞概率都正確,那么得到的結果事件發生概率必將大于通過其他方式得到的該結果事件發生概率。正如美國科學院院士南希埃文森指出[21],通過系統分析整理計算得到的系統故障發生概率遠小于實際系統故障的發生概率,究其原因是由于系統之中各元件間意外的能量、物質和信息傳遞造成系統故障,而這些意外傳遞在系統設計期間難以發現,導致設計時計算的故障概率小于實際故障概率。對于由多個故障鏈組成的系統故障演化過程中的演化不連續現象更為普遍,任何不連續現象都表明系統故障演化過程在空間故障網絡中可能存在錯誤,其來源于計算、結果或是因素影響。圖2為單一故障鏈的系統故障演化過程,對其進行不連續原因的詳細分析。
圖2 單一故障鏈的系統故障演化過程Fig.2 System fault evolution process of single fault chain
其中:q表示事件的發生概率,tp表示傳遞概率,q′和tp′是q和tp的同級表示。由圖2中可知,如設V3之前的所有故障概率都正確,那么q3是正確的,同時如果tp3正確,則代表V4發生概率q4=q3×tp3是正確的。但如果通過其他手段得到的q4′≠q4,則出現了故障演化過程不連續現象,不連續事件為V4。
第1層原因,從q4=q3×tp3中可以得到最直接的故障演化不連續原因,即q3不正確、tp3不正確或q4不正確。q3不正確是由于V3作為結果事件時確定的發生概率錯誤,這與q2和tp2的正確性相關,具體分析過程與V4的不連續原因相同,這里不贅述;tp3不正確可能是由于傳遞條件判斷錯誤或者傳遞概率計算錯誤;q4不正確的原因是通過其他方法確定的V4發生概率錯誤。當然有可能是q4>q3×tp3或q4
第2層原因是由于因素的作用導致q4≠q3×tp3。因為系統由各種元件組成,元件由于自身的特性可能對不同因素的響應不同,即使2個元件的影響因素相同,也會由于因素的不同值導致元件的故障概率不同。例如通過經典故障樹分析得到甲、乙事件同時發生時導致丙事件發生,但甲事件發生需要零下溫度,乙事件發生需要零上溫度,這時丙事件根本不發生。因此進行系統故障分析時,其故障概率數據必須反映各元件在各因素影響下,因素數值相同時的故障概率特征,即只有在各因素數值相同時,各元件故障概率結合形成系統故障概率才是有效的。當各因素數值不同時,各元件故障概率的值可能對應于不同的因素值,而實際過程中同一時刻因素只可能有1個值,這導致因素不同值時的各元件故障概率疊加沒有意義,因為缺乏存在條件。因此,作者在研究空間故障樹理論時提出以單一因素變化與元件可靠性變化關系構建特征函數,再以該元件所有因素的特征函數疊加形成故障概率分布的方法,由元件因素作為坐標軸構建的空間坐標系,元件的故障概率變化是坐標系統中的曲面分布,這保證了在同一坐標系中系統的所有元件可根據因素變化范圍進行合理疊加,得到具有實際意義的系統故障概率分布。這是空間故障樹優于經典故障樹的最重要方面,因為經典故障樹并不考慮因素的作用,所得結果一般情況下難以準確。
第3層原因是導致結果事件V4發生的原因事件不是V3或有其他事件與V3共同作用導致V4發生。第1種情況如圖3所示,當tp3不存在,V3不是直接原因事件,則故障演化過程變為V3→Vx→V4,當然Vx可能是眾多事件演化的集合體。此時q4≠q3×tp3,而是q4=qx×tpx,qx=q3×tp3′,因此這時q4=q3×tp3′×tpx。第2種情況是V4的原因事件不唯一,且這些原因事件之間存在邏輯關系。如圖3中Vx是與V3同級的原因事件,這時tp3′不存在,導致q4的不準確原因除了q3和tp3不正確外,還有qx、tpx和邏輯關系LS。qx和tpx的不精確原因與q3和tp3的不精確原因相同,這里不再贅述,但需要注意的是Vx代表眾多事件及其邏輯關系的綜合。邏輯關系LS代表原因事件以何種邏輯關系導致的結果事件,邏輯關系的不確定導致結果事件本身和發生概率的不確定。
圖3 存在復雜演化結構的情況Fig.3 Situation with complex evolution structure
將上述3層原因總結,得到q4≠q3×tp3,即結果事件V4的發生概率與原因事件V3傳遞的發生概率不等的原因,也就是系統故障演化過程不連續的原因,具體如圖4所示。
圖4 系統故障演化過程不連續原因Fig.4 Causes of discontinuity in system fault evolution process
圖4展示了通過推導得到的結果事件發生概率與其他方式(試驗統計)得到的結果事件發生概率不相等的基本原因。更為一般地說,通過推導得到的結果事件可理解為設計階段得到的結果,而其他方式可看作是實際數據得到的結果事件發生情況。從這個角度看,二者得到的結果事件發生概率一般都不相等,實際結果往往大于推導結果,這主要是由于設計期間不可能確定實際運行時所有的原因事件、作用因素和事件間邏輯關系,這導致系統故障演化過程的分析錯誤,從而導致結果事件發生概率錯誤。另外,通過實際數據確定的結果事件發生概率往往蘊含更多的系統故障演化信息,但這些信息也受到隨機事件影響。因此,如果通過計算得到的系統故障概率與實際得到的系統故障概率不一致,可從圖4中給出的3層不連續原因進行逐層分析漸進深入,因為原則上2個概率結果應該是相同的,不相同必定是由于圖4中的原因造成的。
上述分析表明系統故障演化過程中的不連續現象一般是由圖4中分析的原因造成的。對于第1層次的原因,即q4、q3和tp3的不正確,主要是確定事件發生概率分布和傳遞概率分布,或是事件發生概率和傳遞概率。概率與概率分布的區別在于概率不考慮因素影響,是單一數值,精確性較差;概率分布是基于影響因素構建的空間曲面,對因素變化敏感,更為精確。在不考慮因素情況下,事件概率和傳遞概率可使用試驗法、結構分析法和邏輯推理法獲得。
試驗法最為簡單,通過多次嘗試研究原因事件發生概率、結果事件發生概率,從而確定原因事件導致結果事件的概率,即傳遞概率。原因事件通過元件故障數量的統計可得到發生概率,同樣結果事件也可以通過實際故障數量統計發生概率,這時確定的傳遞概率最為準確,是消除不連續現象的最有效方法。同時由于需要對實際元件及其事件反復試驗,所需成本也最高。
結構分析法需要確定原因事件發生概率,即元件的故障概率,然后確定元件組成系統的結構,進而結合元件故障概率和系統結構確定系統故障概率。這樣獲得的系統故障概率一般不等于從實際中得到的系統故障概率,前者小于后者。其原因在于元件故障概率錯誤,即原因事件發生概率錯誤;元件之間聯系及其組成系統的結構錯誤。消除演化過程不連續,必須通過更為精確的方法獲得原因事件故障概率,比如試驗法;或者重新理解系統結構,調整元件之間關系,可通過系統功能結構分析方法實現[22],這里不做贅述。
邏輯推理法主要是根據原因事件發生概率變化與結果事件發生概率變化來分析和推理原因事件與結果事件的邏輯關系。該方法使用最為廣泛,但也最為不精確,只能確定定性關系。可通過因素空間的因素分析法進行確定邏輯關系,但一般這種情況伴隨著因素變化。因為只有因素變化,原因事件概率和結果事件概率才能發生變化,進而同步傳遞概率變化,最終消除系統故障演化不連續現象。
基本上第1層的3個不連續原因使用上述試驗法、結構分析法和邏輯推理法都可解決。第2層原因主要是因素不對應造成的事件發生概率分布和傳遞概率分布錯誤。首先構建特征函數,對于事件而言是元件發生故障,因此通過確定各因素單獨變化時與元件故障概率變化的關系,形成該因素的特征函數。使用特征函數對不同因素變化下的元件故障概率進行疊加形成元件故障概率分布,即原因事件發生概率分布,該分布在以因素為坐標軸的因素空間中。同理得到結果事件發生概率分布,與原因事件發生概率分布對應于每個因素的相應點,從而可求得傳遞概率在該因素空間中的概率分布,進而消除系統故障演化過程的不連續現象。當然其困難在于特征函數的確定,在空間故障樹基礎理論中已給出幾種特征函數的構建方法,比如擬合法、因素投影擬合法、模糊結構元法、云模型法等。在第2層次中消除系統故障演化不連續的核心任務是建立因素空間,確定原因事件發生概率分布、結果事件發生概率分布和傳遞概率分布的對應關系。
第3層次原因在于系統故障演化結構不清,因此需從系統故障演化過程的結構方面進行分析。對于原因事件和結果事件而言,最簡單的情況有2種,一是鏈式結構,二是網絡結構。鏈式結構的系統故障演化過程不連續一般是不連續位置的原因事件和結果事件之間存在1個或多個過程事件。這時可使用反推理論進行分析,假設原因事件和結果事件中間存在1個過程事件(Vx),由于q4=q3×tp3′×tpx。借助原因事件發生概率和結果事件發生概率確定tp3′×tpx,進一步借助因素空間中曲面變化虛擬設定過程事件發生概率分布。分析概率分布隨不同因素變化規律,從而確定該事件的定性特征,進而選擇出實際存在的具有相同特征的過程事件。再構建該過程事件的發生概率分布qx,最終確定tp3′和tpx,消除演化中的不連續現象。
另一情況是原因事件不唯一,這是較復雜的情況,不但要解決上述所有問題,還要解決原因事件之間的邏輯關系問題。確定邏輯關系可使用作者在文獻[23]中提出的基于三值邏輯和因素空間耦合的空間故障網絡化簡方法。首先假設存在事件Vx,通過試驗法等確定已有原因事件V3的q3和tp3,及結果事件V4的q4和tp4。根據該文獻中提出的結構法和概率法得到的邏輯關系特征,來判斷Vx和V3導致V4的邏輯關系。結構法使用結構化的網絡表示,概率法使用發生可能性的傳遞概率表示,它們都代表1種等效形式,前者強調邊緣事件以何種邏輯關系導致最終事件;后者強調邊緣事件以何種可能性導致最終事件。
以圖1為例進行分析,表1、表2和圖5為該方法的主要基礎數據和所得結果。表1是基礎數據包括事件和狀態;表2是經過計算的數據;圖5是形成的等效結構,可判斷事件間邏輯關系,其中PE表示過程事件,“+”表示或關系,“·”表示與關系。
表1 狀態數量統計矩陣MTable 1 Statistical matrix M of state quantity
表2 決定度矩陣DTable 2 Determination matrix D
圖5 SFN的化簡圖Fig.5 Simplified SFN
使用結構法分析實例說明各狀態的分析結果。該例中有5個原因事件(A,B,C,D,E),共同作用于1個結果事件V,0狀態表示失效、1狀態表示成功、#狀態表示未知。表2中的0狀態,eA=eB=1,說明A和B事件可直接導致V發生,它們是傳遞關系;事件C、F和K的決定度之和約等于1,因此它們以或關系導致V發生。表2中的1狀態,A和B自身的決定度小于1,但總和大于1,它們之間是與關系導致V發生;C、F和K總和為1,是或關系導致V發生。表2中的#狀態,A和B自身的決定度小于1,但總和大于1,它們之間是與關系導致V發生;C、F和K總和為1,是或關系導致V發生。因此該系統故障演化過程對于0、1和#的3種狀態的結構化簡圖如圖5(a)和5(b)所示。
同樣通過概率法得到與結構法相似的系統結構,即原因事件以何種邏輯關系導致結果事件。如圖5(c)代表概率法0狀態,C、F和K事件的概率為0.333 3,表明它們在系統中層次相同,3個事件概率之和為1說明它們是或關系;同時A和B事件的概率為1,說明兩者可直接導致結果發生,是在系統中層次相同的傳遞關系。如圖5(d)代表概率法1狀態,C、F和K事件的概率為0.333 3,表明它們在系統中層次相同,事件概率之和為1說明它們是或關系;同時A和B事件的概率為0.6,說明兩者共同導致結果發生,在系統中為同層次與關系。如圖5(e)代表概率法#狀態,C、F和K事件的概率為0.333 3,表明它們在系統中層次相同,事件概率之和為1說明它們是或關系;同時A和B事件的概率為0.666 7,說明兩者共同導致結果發生,在系統中為同層次與關系。
本文主要對系統故障演化的不連續現象及產生原因進行論述,針對相關原因提出不連續現象的消除方法。由于原因按照不同深度由淺入深劃分為3層,對應的不連續消除方法也劃分為3層。這些原因是系統結構性原因,消除方法只給出一般方法、因素空間、空間故障樹及空間故障網絡中的已有方法,這些方法受到數據、因素等要素的制約,其結果目前仍難以精確。但隨著相關理論的發展,針對3層次的系統故障演化不連續原因必將有更多的方法出現,而這些結構性原因對于演化過程而言一般保持不變。
1)論述系統故障演化過程中的不連續現象。由于演化中結果事件發生概率分布應等于原因事件發生概率分布和傳遞概率分布的乘積,但實際中由于各種原因導致得到的結果事件發生概率與上述乘積不同,即形成演化過程的不連續現象。
2)研究導致不連續現象的可能原因。針對演化過程結構,第1層次原因是原因事件、結果事件或傳遞的概率錯誤;第2層是在確定原因事件、結果事件或傳遞的概率時,對應的因素錯誤導致概率沒有實際意義;第3層是演化過程結構不確定,分為存在非直接原因和原因事件不唯一2種情況,前者是過程事件確定錯誤,后者是邏輯關系確定錯誤。
3)研究消除不連續現象的方法。最基本的消除方法是試驗法、結構分析法和邏輯推理法,它們能處理第1層原因。第2層是由于因素造成的不連續,使用空間故障樹和因素空間相關理論配合基本方法可以消除。第3層是由于系統結構不清造成的,前者通過過程事件假設調整原因及結果事件發生概率分布解決;后者通過更為復雜的三值邏輯和因素空間等方法解決。