崔鐵軍,李莎莎
(1. 遼寧工程技術大學 安全科學與工程學院,遼寧 阜新 123000; 2. 遼寧工程技術大學 工商管理學院,遼寧 葫蘆島 125105)
面對無人化、智能化、信息化和數(shù)據(jù)化的復雜系統(tǒng),目前系統(tǒng)故障分析方法存在明顯不足,特別是智能科學和技術涌現(xiàn)后問題更加嚴重。首先是故障數(shù)據(jù)分析。故障數(shù)據(jù)特點在于難以提取、存在較多的冗余和錯誤,通過數(shù)理統(tǒng)計方法不易獲得準確而深入的故障因果關系;其次是在故障數(shù)據(jù)基礎上只能通過分析數(shù)據(jù)得到故障因果關系。但這種關系完全基于數(shù)據(jù),雖然能廣泛了解故障因果關系,但深入研究基本影響因素較為困難。這將進一步導致故障預測、預防和治理的困難;三是面向復雜系統(tǒng)故障的智能管控系統(tǒng)的基礎數(shù)學理論不充分。單純基于故障大數(shù)據(jù)和因素,而不考慮數(shù)據(jù)與因素關系和人的假設條件,難以通過智能系統(tǒng)管控分析復雜系統(tǒng)故障。
目前關于系統(tǒng)故障數(shù)據(jù)的智能處理及因果關系研究的文獻不多,較新的研究包括:光纖通信故障數(shù)據(jù)智能檢測[1];故障因果信息的故障智能診斷[2];空間故障樹與因素空間融合的智能可靠性分析[3];自適應選擇融合智能故障分類技術[4];智能變電站網(wǎng)絡設備故障定位[5];智能電表運行故障監(jiān)控[6]與預測[7];智能電網(wǎng)監(jiān)控大數(shù)據(jù)模型構(gòu)建[8]等。這些研究在各自領域取得了較好成果,但并沒有解決故障數(shù)據(jù)處理和故障因果關系分析等本質(zhì)理論問題。
作者根據(jù)對故障信息轉(zhuǎn)換[9]、故障狀態(tài)[10]、故障對象分類[11-12],故障的因素影響[13-15]及故障演化[16]等的研究,對上述3個問題提出了解決方案。對上述3個問題提出了一些看法。論述了通過數(shù)理統(tǒng)計方法分析故障數(shù)據(jù)的弊端;給出了系統(tǒng)故障原因及結(jié)果的相關性和關聯(lián)性區(qū)別;最后論述了智能系統(tǒng)對故障因果關系分析的4個層次。希望能為復雜系統(tǒng)故障分析提供智能方法。
廣義的數(shù)據(jù)包含了各種數(shù)據(jù)形式。系統(tǒng)存在對人而言就是能獲得系統(tǒng)發(fā)散出來的數(shù)據(jù)。數(shù)據(jù)是系統(tǒng)存在的表現(xiàn)形式。但人受限于技術方法,在不能獲得數(shù)據(jù)時將難以判斷系統(tǒng)存在,更難以了解系統(tǒng)特性。這是系統(tǒng)層面的問題,但專業(yè)技術領域可能更加嚴重。
安全科學相對而言較新,涉及到社會的方方面面。與其他科學相同,其基礎理論的建立需要大量數(shù)據(jù)支持。雖然安全理論多數(shù)來源于相關學科但也需要這些數(shù)據(jù)。人們對系統(tǒng)的要求是在規(guī)定時間內(nèi)、規(guī)定條件下完成預定功能,即系統(tǒng)的可靠性;與之對應的是系統(tǒng)失效性。通常情況在給定條件下,系統(tǒng)都具有可靠性。那么系統(tǒng)的可靠狀態(tài)是一種通常狀態(tài);當系統(tǒng)遇到意外作用時可能出現(xiàn)失效狀態(tài)。這種失效是人們關心的問題,因此研究系統(tǒng)安全主要關注于系統(tǒng)失效狀態(tài)。
如上所述,對系統(tǒng)失效的研究也立足于數(shù)據(jù)。系統(tǒng)運行時散發(fā)的數(shù)據(jù)可分為正常數(shù)據(jù)和異常數(shù)據(jù)。可靠性和失效性就蘊含在這些數(shù)據(jù)之中。失效性特征蘊含在異常數(shù)據(jù),即故障數(shù)據(jù)中,正常數(shù)據(jù)也有作用但不直接。因此研究系統(tǒng)安全的主要基礎就是故障數(shù)據(jù)。那么問題是如何監(jiān)測、收集、篩選、分析和處理故障數(shù)據(jù)。
本文不論述監(jiān)測和收集問題,因為這些偏重于硬件。當獲得故障數(shù)據(jù)后如何處理才是關鍵問題。系統(tǒng)故障一般具有因果關系,即哪些事件導致了故障,故障又導致了哪些事件發(fā)生。因此安全科學,特別是故障研究最終需要揭示故障之間的因果關系。另一方面,處理故障數(shù)據(jù)的方法很多,但目前最常用的是數(shù)理統(tǒng)計。數(shù)理統(tǒng)計之父Karl Pearson熱衷于從基礎數(shù)據(jù)歸類得到表征變量,然后使用這些變量研究事物的關系[16]。通過2個隨機變量的聯(lián)合分布表達它們之間的聯(lián)系。這當然取得了極大成功,奠定了數(shù)理統(tǒng)計基礎。但這種聯(lián)系說明了何種問題?例如交通事故和時間的對應分布關系,6:00~8:00和17:00~19:00時間范圍內(nèi)交通事故達到峰值,并正態(tài)分布。說明交通事故與時間存在聯(lián)系,但這種關系并非因果關系。因為聯(lián)合分布得到的因果關系具有雙向性[16]。即由甲推斷乙,同時由乙也可以推斷甲。那么這個例子就變成了時間與交通事故存在聯(lián)系,這顯然難以解釋。在數(shù)理統(tǒng)計發(fā)展中也有類似爭論。以父親身高推斷兒子身高,發(fā)展相關橢圓的主軸向自變量軸偏轉(zhuǎn)說明具有遺傳回歸性,即兒子身高與父親身高相關;有人用兒子身高推斷父親身高,得到了同樣現(xiàn)象[16],說明兒子身高與父親身高互為因果。這使得Pearson的追隨者們難以理解,并從此在數(shù)理統(tǒng)計研究中回避這類問題,一直影響到現(xiàn)在。
正如上述問題,交通事故與時間之間有一個人流的因素,上班時間人流多,而人流多造成交通事故多;父親與兒子存在內(nèi)在的基因聯(lián)系,他們的身高也與環(huán)境相關。因此只用數(shù)理統(tǒng)計方法研究故障數(shù)據(jù)中的各種原因和故障關系是不充分的。這將直接導致故障原因控制不當,甚至原因本身就是錯誤的。正如本文提出的空間故障網(wǎng)絡理論描述系統(tǒng)故障演化過程得到的結(jié)論,原因和結(jié)果之間可能存在多條通路,錯誤的因果分析將造成通路上事件控制不能阻止結(jié)果發(fā)生。這是由于沒有分析故障發(fā)生的本質(zhì)原因。
相關性和關聯(lián)性在日常生活中是相近甚至相同的,但本文要進行區(qū)分。汪培莊教授[17]提出的因素空間理論是智能科學的數(shù)學基礎。該理論認為,關聯(lián)性層次要高,存在于概念層面;而相關性較低,存在于變量層面。因素空間中的“因”不是原因而是影響因果關系的因素。故障的原因和結(jié)果實際上是籠統(tǒng)的,其中蘊含了很多影響原因和結(jié)果的因素。
關聯(lián)性存在于概念,是很多知識,包括本能、經(jīng)驗、規(guī)范和常識等的集合。它可以獨立于數(shù)據(jù)通過人或是人工智能直接得到,是對象狀態(tài)或?qū)傩詫用娴氖挛铩1热缂椎腁狀態(tài)增加,乙的B狀態(tài)增加,因此它們是關聯(lián)的。最通俗的例子是雞鳴和天亮的關系。雞鳴可推天亮,天亮可推雞鳴。前者說明雞鳴是雞的本能因素,天亮則是條件因素;可以說成天亮是原因,雞鳴是結(jié)果。后者則不能說成雞鳴是原因,天亮是結(jié)果。但因素空間在廣義上承認后者的因果關系,即廣義因果關系。后者在人工智能方面可能更具效用,是人們對自然界規(guī)律的總結(jié)。人們不會關心天亮了雞為什么打鳴,而會關心雞打鳴預示著天亮。因此關聯(lián)性取決于知識和概念層面的意義。基于狀態(tài)和因素層面的關聯(lián)性是廣義因果論。
相關性在于具體的數(shù)據(jù)層面,是通過數(shù)據(jù)分析得到的不同類型數(shù)據(jù)之間的關系。最簡單的例子,在線性代數(shù)中2組數(shù)據(jù)有聯(lián)系稱為線性相關。正如上節(jié)提到的交通事故與時間存在正態(tài)分布關系,即為兩者相關。相關性分析往往用于比較復雜和數(shù)據(jù)量較大且經(jīng)驗不足情況下的兩事物關系分析。如上節(jié)使用數(shù)理統(tǒng)計方法的不足一樣,只能得到數(shù)據(jù)分布的相關性。可能根本不具有因果關系或者有中間事件傳遞了因果關系。基于數(shù)據(jù)層面得到的相關性是狹義因果論。
因素空間承認狹義因果論和廣義因果論,在因素層面上討論因果關系。因素是表征事物和區(qū)別事物的特征要素,因果關系可能存在眾多因素的影響。這將導致同因不同果,或者同果不同因,甚至因果相同時經(jīng)歷完全不同的發(fā)展過程。這使因果關系存在多樣性,即使在表面上是相似的。所以因果分析應基于數(shù)據(jù)的狹義因果論和基于狀態(tài)的廣義因果論,即從因素的關聯(lián)性和相關性兩方面尋找對結(jié)果最有影響的因素,進而找到基本原因。
圖靈獎得主珀爾于2018年出版的《為什么—關于因果關系的新科學》[16]中提到:因果性研究有3個層次:1)研究關聯(lián)與相關,是統(tǒng)計學和人工智能現(xiàn)行的廣義因果性研究;2)干預研究,當有第3方因素影響時,研究剔除該因素后兩者之間的關系;3)反事實推理,認為數(shù)據(jù)是事實記錄,機器學習把學習和推理局限在事實世界,但人腦思維能跳出事實進行假想。基于作者對故障數(shù)據(jù)及因果分析,特別是智能分析的研究[9-15],認為故障因果分析可分為4個層次,它們是數(shù)據(jù)驅(qū)動、因素驅(qū)動、數(shù)據(jù)?因素驅(qū)動、數(shù)據(jù)?因素?假設驅(qū)動。如圖1所示[18-19],左側(cè)為系統(tǒng)運動空間和系統(tǒng)映射論的表示,右側(cè)為4個層次關系。

圖1 4個層次的關系Fig. 1 Relationships of four levels
目前各門類科學一般以數(shù)據(jù)作為基礎建立理論體系。在提出各種理論的同時也需要找到相應的數(shù)據(jù)進行驗證,因此數(shù)據(jù)成為現(xiàn)代科學發(fā)展的基礎。但正如第1節(jié)所述,數(shù)據(jù)本身就是難以解決的問題。因為系統(tǒng)存在是通過數(shù)據(jù)的波動表現(xiàn)出來的。如果系統(tǒng)數(shù)據(jù)恒定則很難被認知,比如存在于宇宙中的微波背景輻射。這類數(shù)據(jù)一直存在,人類無從分辨。或者另一情況,系統(tǒng)散發(fā)數(shù)據(jù)且不斷變化,但人的現(xiàn)有技術無法探測。這對于人而言系統(tǒng)是不存在的,因為沒有對應的數(shù)據(jù)。如黑洞,光無法逃離因此看不到,但它確實存在。第3種情況,數(shù)據(jù)變化且能被探測,但可能無法處理,即無法通過現(xiàn)有方法進行處理或得不到需要的科學結(jié)果。這種情況是目前最普遍的,正如數(shù)理統(tǒng)計理論。它是基于現(xiàn)有數(shù)據(jù),通過數(shù)據(jù)分析找到不同因素之間的關系。這種關系通常只是數(shù)據(jù)層面的現(xiàn)象關系,既不是因果邏輯關系,也不是推理得到的關系,甚至是假象。目前的智能科學大數(shù)據(jù)技術也是基于數(shù)據(jù)的,相較于數(shù)理統(tǒng)計其數(shù)據(jù)量規(guī)模更大,可區(qū)分和挖掘的結(jié)果更多。但大數(shù)據(jù)技術是否有效取決于其數(shù)據(jù)完整性和因素的全面性。如果數(shù)據(jù)不完整、冗余和錯誤,或因素不完整、不相關或冗余,大數(shù)據(jù)分析也無法得到真實的因果關系。
這些對安全領域的故障研究十分不利,無論是使用數(shù)理統(tǒng)計、智能或者大數(shù)據(jù)技術,只依賴于數(shù)據(jù)而不重視因素都難以分析故障的因果關系。因此數(shù)據(jù)驅(qū)動是故障因果分析的第1階段。
因素是區(qū)分事物狀態(tài)的基本要素,從因素角度可劃分事物。方法一般是定性分析,如主成分分析、差分分析、分解分析等。因素驅(qū)動的分析以因素作為基礎,對同一系統(tǒng),通過分析因素及其量值差異可獲得該系統(tǒng)的狀態(tài)、發(fā)展趨勢、發(fā)生故障的可能性等;對多個不同系統(tǒng),可通過區(qū)分因素及其量值來區(qū)分系統(tǒng),進行聚類分析;也可通過因素的合取與析取,將因素進一步拆分或合成,前者細化因素增加系統(tǒng)特征,后者減少因素形成關鍵字以示區(qū)別。基于因素驅(qū)動的方法很多,因素空間理論是其中之一[20-22]。將安全科學與因素空間結(jié)合,特別是空間故障樹理論與因素空間的結(jié)合,為安全理論的智能化發(fā)展提供了一條途徑。目前基于因素空間分析了礦業(yè)、機械、人因和電氣系統(tǒng)故障過程,研究得到了原因與系統(tǒng)故障之間的關系[9-15]。提出了針對故障數(shù)據(jù)的因素分析法。作為因果故障分析的第2階段。
文獻[18-19]給出了更為抽象的系統(tǒng)故障變化過程表述,提出了系統(tǒng)運動空間及系統(tǒng)映射論。系統(tǒng)運動空間用于度量系統(tǒng)運動,即系統(tǒng)運動的特征和趨勢等。系統(tǒng)映射論是在系統(tǒng)運動空間中,研究數(shù)據(jù)流和因素流之間的關系。認為人工系統(tǒng),包括人工智能都是在實現(xiàn)自然系統(tǒng)的功能。即人設計、建造和運行的系統(tǒng)都是在完成人設定條件下的預定功能,而這種基本是替代人了解自然和改造自然的功能。那么將人工智能系統(tǒng)與自然系統(tǒng)對應,自然系統(tǒng)客觀存在,同時在變化過程中發(fā)散數(shù)據(jù),這些數(shù)據(jù)體現(xiàn)了自然系統(tǒng)的特征;另一方面人工智能是后天產(chǎn)物,是基于人的意識創(chuàng)造的,只能被動接受自然散發(fā)出來的數(shù)據(jù)。人工智能的工作在于分析數(shù)據(jù),將數(shù)據(jù)分類形成對應的因素;分析改變這些因素后自然系統(tǒng)的反應,即得到自然規(guī)律;然后人工智能根據(jù)目標調(diào)整因素進而調(diào)整自然系統(tǒng)達到人的要求。進一步的,人工智能實際上實現(xiàn)了數(shù)據(jù)到因素的映射。這里的數(shù)據(jù)是人們能感知、能檢測、能處理的數(shù)據(jù);因素則是人們通過現(xiàn)有技術能改變量值的因素。對應地,自然系統(tǒng)作用是在變化過程中發(fā)散數(shù)據(jù),然后接受人工智能系統(tǒng)通過改變因素對自然的干預。自然系統(tǒng)實際上是從因素到數(shù)據(jù)的映射。表面上人工智能系統(tǒng)與自然系統(tǒng)的映射應該相同,但實則存在區(qū)別。人工智能系統(tǒng)與自然系統(tǒng)對于數(shù)據(jù)和因素的映射方向是相反的,因此得到的結(jié)構(gòu)是逆結(jié)構(gòu);另外人工智能系統(tǒng)得到的數(shù)據(jù)是自然系統(tǒng)數(shù)據(jù)的子集甚至很少一部分,人工智能系統(tǒng)可調(diào)節(jié)的因素也是自然因素的子集。所以人工智能系統(tǒng)得到的系統(tǒng)映射結(jié)構(gòu)完成的功能只是自然系統(tǒng)功能的一部分,功能只能無限接近但不能達到。
因此基于數(shù)據(jù)?因素驅(qū)動的分析方法所得因果關系仍是不全面的,但也較數(shù)據(jù)驅(qū)動和因素驅(qū)動更全面。數(shù)據(jù)驅(qū)動依賴于現(xiàn)實,大數(shù)據(jù)能體現(xiàn)最廣泛的相關性,但不具備深入了解本質(zhì)原因的能力。因素驅(qū)動能從現(xiàn)象了解本質(zhì),進行邏輯推理,基于因素的不同了解系統(tǒng)的不同,但缺少廣泛的現(xiàn)象聯(lián)系。因此數(shù)據(jù)-因素驅(qū)動更能發(fā)現(xiàn)廣泛的故障聯(lián)系并深入分析故障因果關系。
數(shù)據(jù)驅(qū)動基于事實的廣泛數(shù)據(jù),因素驅(qū)動解釋內(nèi)在因果聯(lián)系,數(shù)據(jù)?因素驅(qū)動結(jié)合了2種優(yōu)勢,更適合系統(tǒng)故障分析和故障因果關系推理。但人對自然的理解與目前人工智能處理問題的一個區(qū)別在于人可以假設。人可假設未來可能出現(xiàn)的因素及其變化,判定系統(tǒng)故障的可能性。基于人知識的假設可加入到系統(tǒng)故障分析過程中,即是Pearl提出的反事實推理。至于如何讓智能系統(tǒng)具有假設能力是人工智能領域的任務。在安全領域分析系統(tǒng)故障時,這種假設是重要的。假設也體現(xiàn)在系統(tǒng)設計階段給定的運行條件,即在給定的假設條件下系統(tǒng)是安全的,不發(fā)生事故或概率很低。假設是高級智能,合理給定假設將有效地收集數(shù)據(jù)并判別因素。更進一步的,如果人工智能能在假設數(shù)據(jù)和因素情況下分析系統(tǒng)故障的因果關系,那么將更接近于人。因為故障數(shù)據(jù)是實際產(chǎn)生的,不是所有故障都能發(fā)生并產(chǎn)生數(shù)據(jù);即使發(fā)生人們也不可能識別和記錄所有數(shù)據(jù)。所以理論上的數(shù)據(jù)假設是必要的,以分析更為廣泛的故障數(shù)據(jù)和情況。因素更是有限的,實際缺少和出現(xiàn)新的因素都將導致系統(tǒng)故障及因果關系變化。人工智能應該較人更為全面和深入地分析系統(tǒng)故障,其全面性來源于數(shù)據(jù)及數(shù)據(jù)假設,深入性來源于因素和因素假設。因此數(shù)據(jù)?因素?假設的方式是目前較優(yōu)的人工智能系統(tǒng)故障數(shù)據(jù)及故障因果關系分析方法。
這4個層次對系統(tǒng)故障數(shù)據(jù)和因果關系分析的能力逐次提升,表示的因果關系越來越廣泛和深入,也越來越智能。因素空間理論作為人工智能的數(shù)學基礎,目前仍有較大發(fā)展空間。特別是在安全科學領域?qū)τ诠收蠑?shù)據(jù)及故障因果關系分析方面擁有巨大的發(fā)展?jié)摿Α?/p>
1)論述了目前分析系統(tǒng)故障數(shù)據(jù)面臨的問題。基于數(shù)理統(tǒng)計的故障數(shù)據(jù)分析應用廣泛,但只能得到數(shù)據(jù)層面的因果關系。可能只是表面關系,不是本質(zhì)關系,也可能是經(jīng)過了多次因果傳遞后表現(xiàn)出來的關系。這不利于系統(tǒng)故障的預測、預防與治理。
2)論述了系統(tǒng)故障因果關系的關聯(lián)性和相關性。關聯(lián)性存在于概念,取決于知識和概念層面的意義,是廣義因果論。相關性在于具體的數(shù)據(jù)層面,通過數(shù)據(jù)分析得到不同類型數(shù)據(jù)之間的關系,是狹義因果論。因素空間承認狹義因果論和廣義因果論,并在因素層面上討論因果關系。
3)將系統(tǒng)故障分析的智能系統(tǒng)劃分為4個層次,數(shù)據(jù)驅(qū)動、因素驅(qū)動、數(shù)據(jù)?因素驅(qū)動、數(shù)據(jù)?因素?假設驅(qū)動。數(shù)據(jù)驅(qū)動能獲得廣泛的故障因果關系,因素驅(qū)動深入了解故障因果關系,數(shù)據(jù)?因素驅(qū)動兼顧兩者,數(shù)據(jù)?因素?假設驅(qū)動更接近于人的思維。