崔鐵軍,李莎莎
(1. 遼寧工程技術大學 安全科學與工程學院,遼寧 阜新 123000; 2. 遼寧工程技術大學 工商管理學院,遼寧 葫蘆島 125105)
面對無人化、智能化、信息化和數據化的復雜系統,目前系統故障分析方法存在明顯不足,特別是智能科學和技術涌現后問題更加嚴重。首先是故障數據分析。故障數據特點在于難以提取、存在較多的冗余和錯誤,通過數理統計方法不易獲得準確而深入的故障因果關系;其次是在故障數據基礎上只能通過分析數據得到故障因果關系。但這種關系完全基于數據,雖然能廣泛了解故障因果關系,但深入研究基本影響因素較為困難。這將進一步導致故障預測、預防和治理的困難;三是面向復雜系統故障的智能管控系統的基礎數學理論不充分。單純基于故障大數據和因素,而不考慮數據與因素關系和人的假設條件,難以通過智能系統管控分析復雜系統故障。
目前關于系統故障數據的智能處理及因果關系研究的文獻不多,較新的研究包括:光纖通信故障數據智能檢測[1];故障因果信息的故障智能診斷[2];空間故障樹與因素空間融合的智能可靠性分析[3];自適應選擇融合智能故障分類技術[4];智能變電站網絡設備故障定位[5];智能電表運行故障監控[6]與預測[7];智能電網監控大數據模型構建[8]等。這些研究在各自領域取得了較好成果,但并沒有解決故障數據處理和故障因果關系分析等本質理論問題。
作者根據對故障信息轉換[9]、故障狀態[10]、故障對象分類[11-12],故障的因素影響[13-15]及故障演化[16]等的研究,對上述3個問題提出了解決方案。對上述3個問題提出了一些看法。論述了通過數理統計方法分析故障數據的弊端;給出了系統故障原因及結果的相關性和關聯性區別;最后論述了智能系統對故障因果關系分析的4個層次。希望能為復雜系統故障分析提供智能方法。
廣義的數據包含了各種數據形式。系統存在對人而言就是能獲得系統發散出來的數據。數據是系統存在的表現形式。但人受限于技術方法,在不能獲得數據時將難以判斷系統存在,更難以了解系統特性。這是系統層面的問題,但專業技術領域可能更加嚴重。
安全科學相對而言較新,涉及到社會的方方面面。與其他科學相同,其基礎理論的建立需要大量數據支持。雖然安全理論多數來源于相關學科但也需要這些數據。人們對系統的要求是在規定時間內、規定條件下完成預定功能,即系統的可靠性;與之對應的是系統失效性。通常情況在給定條件下,系統都具有可靠性。那么系統的可靠狀態是一種通常狀態;當系統遇到意外作用時可能出現失效狀態。這種失效是人們關心的問題,因此研究系統安全主要關注于系統失效狀態。
如上所述,對系統失效的研究也立足于數據。系統運行時散發的數據可分為正常數據和異常數據。可靠性和失效性就蘊含在這些數據之中。失效性特征蘊含在異常數據,即故障數據中,正常數據也有作用但不直接。因此研究系統安全的主要基礎就是故障數據。那么問題是如何監測、收集、篩選、分析和處理故障數據。
本文不論述監測和收集問題,因為這些偏重于硬件。當獲得故障數據后如何處理才是關鍵問題。系統故障一般具有因果關系,即哪些事件導致了故障,故障又導致了哪些事件發生。因此安全科學,特別是故障研究最終需要揭示故障之間的因果關系。另一方面,處理故障數據的方法很多,但目前最常用的是數理統計。數理統計之父Karl Pearson熱衷于從基礎數據歸類得到表征變量,然后使用這些變量研究事物的關系[16]。通過2個隨機變量的聯合分布表達它們之間的聯系。這當然取得了極大成功,奠定了數理統計基礎。但這種聯系說明了何種問題?例如交通事故和時間的對應分布關系,6:00~8:00和17:00~19:00時間范圍內交通事故達到峰值,并正態分布。說明交通事故與時間存在聯系,但這種關系并非因果關系。因為聯合分布得到的因果關系具有雙向性[16]。即由甲推斷乙,同時由乙也可以推斷甲。那么這個例子就變成了時間與交通事故存在聯系,這顯然難以解釋。在數理統計發展中也有類似爭論。以父親身高推斷兒子身高,發展相關橢圓的主軸向自變量軸偏轉說明具有遺傳回歸性,即兒子身高與父親身高相關;有人用兒子身高推斷父親身高,得到了同樣現象[16],說明兒子身高與父親身高互為因果。這使得Pearson的追隨者們難以理解,并從此在數理統計研究中回避這類問題,一直影響到現在。
正如上述問題,交通事故與時間之間有一個人流的因素,上班時間人流多,而人流多造成交通事故多;父親與兒子存在內在的基因聯系,他們的身高也與環境相關。因此只用數理統計方法研究故障數據中的各種原因和故障關系是不充分的。這將直接導致故障原因控制不當,甚至原因本身就是錯誤的。正如本文提出的空間故障網絡理論描述系統故障演化過程得到的結論,原因和結果之間可能存在多條通路,錯誤的因果分析將造成通路上事件控制不能阻止結果發生。這是由于沒有分析故障發生的本質原因。
相關性和關聯性在日常生活中是相近甚至相同的,但本文要進行區分。汪培莊教授[17]提出的因素空間理論是智能科學的數學基礎。該理論認為,關聯性層次要高,存在于概念層面;而相關性較低,存在于變量層面。因素空間中的“因”不是原因而是影響因果關系的因素。故障的原因和結果實際上是籠統的,其中蘊含了很多影響原因和結果的因素。
關聯性存在于概念,是很多知識,包括本能、經驗、規范和常識等的集合。它可以獨立于數據通過人或是人工智能直接得到,是對象狀態或屬性層面的事物。比如甲的A狀態增加,乙的B狀態增加,因此它們是關聯的。最通俗的例子是雞鳴和天亮的關系。雞鳴可推天亮,天亮可推雞鳴。前者說明雞鳴是雞的本能因素,天亮則是條件因素;可以說成天亮是原因,雞鳴是結果。后者則不能說成雞鳴是原因,天亮是結果。但因素空間在廣義上承認后者的因果關系,即廣義因果關系。后者在人工智能方面可能更具效用,是人們對自然界規律的總結。人們不會關心天亮了雞為什么打鳴,而會關心雞打鳴預示著天亮。因此關聯性取決于知識和概念層面的意義。基于狀態和因素層面的關聯性是廣義因果論。
相關性在于具體的數據層面,是通過數據分析得到的不同類型數據之間的關系。最簡單的例子,在線性代數中2組數據有聯系稱為線性相關。正如上節提到的交通事故與時間存在正態分布關系,即為兩者相關。相關性分析往往用于比較復雜和數據量較大且經驗不足情況下的兩事物關系分析。如上節使用數理統計方法的不足一樣,只能得到數據分布的相關性。可能根本不具有因果關系或者有中間事件傳遞了因果關系。基于數據層面得到的相關性是狹義因果論。
因素空間承認狹義因果論和廣義因果論,在因素層面上討論因果關系。因素是表征事物和區別事物的特征要素,因果關系可能存在眾多因素的影響。這將導致同因不同果,或者同果不同因,甚至因果相同時經歷完全不同的發展過程。這使因果關系存在多樣性,即使在表面上是相似的。所以因果分析應基于數據的狹義因果論和基于狀態的廣義因果論,即從因素的關聯性和相關性兩方面尋找對結果最有影響的因素,進而找到基本原因。
圖靈獎得主珀爾于2018年出版的《為什么—關于因果關系的新科學》[16]中提到:因果性研究有3個層次:1)研究關聯與相關,是統計學和人工智能現行的廣義因果性研究;2)干預研究,當有第3方因素影響時,研究剔除該因素后兩者之間的關系;3)反事實推理,認為數據是事實記錄,機器學習把學習和推理局限在事實世界,但人腦思維能跳出事實進行假想。基于作者對故障數據及因果分析,特別是智能分析的研究[9-15],認為故障因果分析可分為4個層次,它們是數據驅動、因素驅動、數據?因素驅動、數據?因素?假設驅動。如圖1所示[18-19],左側為系統運動空間和系統映射論的表示,右側為4個層次關系。

圖1 4個層次的關系Fig. 1 Relationships of four levels
目前各門類科學一般以數據作為基礎建立理論體系。在提出各種理論的同時也需要找到相應的數據進行驗證,因此數據成為現代科學發展的基礎。但正如第1節所述,數據本身就是難以解決的問題。因為系統存在是通過數據的波動表現出來的。如果系統數據恒定則很難被認知,比如存在于宇宙中的微波背景輻射。這類數據一直存在,人類無從分辨。或者另一情況,系統散發數據且不斷變化,但人的現有技術無法探測。這對于人而言系統是不存在的,因為沒有對應的數據。如黑洞,光無法逃離因此看不到,但它確實存在。第3種情況,數據變化且能被探測,但可能無法處理,即無法通過現有方法進行處理或得不到需要的科學結果。這種情況是目前最普遍的,正如數理統計理論。它是基于現有數據,通過數據分析找到不同因素之間的關系。這種關系通常只是數據層面的現象關系,既不是因果邏輯關系,也不是推理得到的關系,甚至是假象。目前的智能科學大數據技術也是基于數據的,相較于數理統計其數據量規模更大,可區分和挖掘的結果更多。但大數據技術是否有效取決于其數據完整性和因素的全面性。如果數據不完整、冗余和錯誤,或因素不完整、不相關或冗余,大數據分析也無法得到真實的因果關系。
這些對安全領域的故障研究十分不利,無論是使用數理統計、智能或者大數據技術,只依賴于數據而不重視因素都難以分析故障的因果關系。因此數據驅動是故障因果分析的第1階段。
因素是區分事物狀態的基本要素,從因素角度可劃分事物。方法一般是定性分析,如主成分分析、差分分析、分解分析等。因素驅動的分析以因素作為基礎,對同一系統,通過分析因素及其量值差異可獲得該系統的狀態、發展趨勢、發生故障的可能性等;對多個不同系統,可通過區分因素及其量值來區分系統,進行聚類分析;也可通過因素的合取與析取,將因素進一步拆分或合成,前者細化因素增加系統特征,后者減少因素形成關鍵字以示區別。基于因素驅動的方法很多,因素空間理論是其中之一[20-22]。將安全科學與因素空間結合,特別是空間故障樹理論與因素空間的結合,為安全理論的智能化發展提供了一條途徑。目前基于因素空間分析了礦業、機械、人因和電氣系統故障過程,研究得到了原因與系統故障之間的關系[9-15]。提出了針對故障數據的因素分析法。作為因果故障分析的第2階段。
文獻[18-19]給出了更為抽象的系統故障變化過程表述,提出了系統運動空間及系統映射論。系統運動空間用于度量系統運動,即系統運動的特征和趨勢等。系統映射論是在系統運動空間中,研究數據流和因素流之間的關系。認為人工系統,包括人工智能都是在實現自然系統的功能。即人設計、建造和運行的系統都是在完成人設定條件下的預定功能,而這種基本是替代人了解自然和改造自然的功能。那么將人工智能系統與自然系統對應,自然系統客觀存在,同時在變化過程中發散數據,這些數據體現了自然系統的特征;另一方面人工智能是后天產物,是基于人的意識創造的,只能被動接受自然散發出來的數據。人工智能的工作在于分析數據,將數據分類形成對應的因素;分析改變這些因素后自然系統的反應,即得到自然規律;然后人工智能根據目標調整因素進而調整自然系統達到人的要求。進一步的,人工智能實際上實現了數據到因素的映射。這里的數據是人們能感知、能檢測、能處理的數據;因素則是人們通過現有技術能改變量值的因素。對應地,自然系統作用是在變化過程中發散數據,然后接受人工智能系統通過改變因素對自然的干預。自然系統實際上是從因素到數據的映射。表面上人工智能系統與自然系統的映射應該相同,但實則存在區別。人工智能系統與自然系統對于數據和因素的映射方向是相反的,因此得到的結構是逆結構;另外人工智能系統得到的數據是自然系統數據的子集甚至很少一部分,人工智能系統可調節的因素也是自然因素的子集。所以人工智能系統得到的系統映射結構完成的功能只是自然系統功能的一部分,功能只能無限接近但不能達到。
因此基于數據?因素驅動的分析方法所得因果關系仍是不全面的,但也較數據驅動和因素驅動更全面。數據驅動依賴于現實,大數據能體現最廣泛的相關性,但不具備深入了解本質原因的能力。因素驅動能從現象了解本質,進行邏輯推理,基于因素的不同了解系統的不同,但缺少廣泛的現象聯系。因此數據-因素驅動更能發現廣泛的故障聯系并深入分析故障因果關系。
數據驅動基于事實的廣泛數據,因素驅動解釋內在因果聯系,數據?因素驅動結合了2種優勢,更適合系統故障分析和故障因果關系推理。但人對自然的理解與目前人工智能處理問題的一個區別在于人可以假設。人可假設未來可能出現的因素及其變化,判定系統故障的可能性。基于人知識的假設可加入到系統故障分析過程中,即是Pearl提出的反事實推理。至于如何讓智能系統具有假設能力是人工智能領域的任務。在安全領域分析系統故障時,這種假設是重要的。假設也體現在系統設計階段給定的運行條件,即在給定的假設條件下系統是安全的,不發生事故或概率很低。假設是高級智能,合理給定假設將有效地收集數據并判別因素。更進一步的,如果人工智能能在假設數據和因素情況下分析系統故障的因果關系,那么將更接近于人。因為故障數據是實際產生的,不是所有故障都能發生并產生數據;即使發生人們也不可能識別和記錄所有數據。所以理論上的數據假設是必要的,以分析更為廣泛的故障數據和情況。因素更是有限的,實際缺少和出現新的因素都將導致系統故障及因果關系變化。人工智能應該較人更為全面和深入地分析系統故障,其全面性來源于數據及數據假設,深入性來源于因素和因素假設。因此數據?因素?假設的方式是目前較優的人工智能系統故障數據及故障因果關系分析方法。
這4個層次對系統故障數據和因果關系分析的能力逐次提升,表示的因果關系越來越廣泛和深入,也越來越智能。因素空間理論作為人工智能的數學基礎,目前仍有較大發展空間。特別是在安全科學領域對于故障數據及故障因果關系分析方面擁有巨大的發展潛力。
1)論述了目前分析系統故障數據面臨的問題。基于數理統計的故障數據分析應用廣泛,但只能得到數據層面的因果關系。可能只是表面關系,不是本質關系,也可能是經過了多次因果傳遞后表現出來的關系。這不利于系統故障的預測、預防與治理。
2)論述了系統故障因果關系的關聯性和相關性。關聯性存在于概念,取決于知識和概念層面的意義,是廣義因果論。相關性在于具體的數據層面,通過數據分析得到不同類型數據之間的關系,是狹義因果論。因素空間承認狹義因果論和廣義因果論,并在因素層面上討論因果關系。
3)將系統故障分析的智能系統劃分為4個層次,數據驅動、因素驅動、數據?因素驅動、數據?因素?假設驅動。數據驅動能獲得廣泛的故障因果關系,因素驅動深入了解故障因果關系,數據?因素驅動兼顧兩者,數據?因素?假設驅動更接近于人的思維。