王棟,羅亞斌,唐斌,楊鵬
(1.中國航天員科研訓練中心,北京 100094; 2.國防科技大學,長沙 410000)
航天器某子系統是環境控制系統的組成部分,主要實現器上CO2去除功能。由于航天器長期在軌運行,一旦發生CO2無法去除等故障,將會造成及其嚴重的后果。需要對子系統進行在線監測,及時發現故障并快速隔離,以方便維修和更換,使系統恢復至正常狀態。
受航天器載荷、可靠性以及測試性設計能力等多重因素的制約,目前該子系統已有的BIT裝置和嵌入式傳感器僅實現部分關鍵參數的在線檢測,無法實現對系統的全面檢測和隔離。簡單故障可以自動定位;大部分故障發生后,僅僅送出故障碼,并使系統進入待機狀態等待人工處理。
BIT和嵌入式傳感器可實現在線并行檢測[1-13],周期地將監測數據發送至地面監控系統,屬于周期工作模式;需要人工參與,由人工進行檢測和隔離的測試模式,屬于啟動工作模式。與兩種測試模式相對應,該子系統的診斷模式分為周期模式和啟動模式。所謂周期模式,是指監控系統實時收集來自各BIT的監測數據,及時作出判斷和推理;所謂啟動模式,是指在周期模式下發現子系統存在故障,而利用現有BIT無法實現有效隔離的情況下,根據已有的診斷結論推理下一步要實施的人工測試,然后走一步看一步,直至隔離出故障點。
目前國內針對這兩種診斷方式均有一定的研究,如張世剛等人研究了基于貝葉斯網的診斷方法[14],基于統計概率來推理出故障點;楊鵬等人研究了基于相關性矩陣的診斷推理方法[15-17]。
本文基于目前已有的研究,進一步分析了實際可能出現的各種異常情況,并對此進行推理得到準確的結論。
系統診斷推理的基本要素如下:
1)故障集X,由系統各組成單元(LRU)的故障和單元間的故障構成,X={f1, ...,fm}。
2)測試集T= {t1,t2, … ,tn},本文所指測試數據并非傳感器原始測量數據,而是經過預處理得到指示的數據,該數據可以直接用于診斷推理。根據事先設定的測試判據,測試tj有pj種輸出,包括指示正常和若干故障指示,正常指示記為tj0,第k種故障指示記為tjk。
3)故障-測試相關性矩陣[18-20]其中行表示故障單元,列表示測試。當fi發生時tj輸出為tjk,則bijk=1。
本文把系統在工作中可能存在的正常或故障狀態稱為系統真實狀態,理論上,系統真實狀態有種。診斷過程就是根據測試數據來推斷系統狀態究竟是哪一種。由于測試數據的不完備以及其他因素影響,診斷中往往不能唯一確定系統真實狀態,而是存在一定的模糊性和不確定性,隨著測試數據的不斷更新和完備,推斷的系統狀態將逐漸逼近真實狀態。本文把上述推斷得到的系統狀態稱為系統推斷狀態,不妨用一個四元組(X1,X2,X3,X4)來表示。其中,X1表示確定已經發生的故障集合,X2表示疑似發生的故障集合,X3表示未知是否發生的故障集合,X4表示確定未發生的故障集合。這四個集合服從以下邏輯關系:
在診斷初期,反映推斷狀態不確定性的集合X2和X3規模較大,隨著診斷的不斷深入,X2和X3不斷變小,直到變成空集時,診斷結束。
本文首先把對復雜系統的診斷過程分解為一系列的基本診斷推理過程,其輸入包括已知的系統推斷狀態(X1,X2,X3,X4),測試tj的檢測結果,以及相關性矩陣B;其輸出為更新后的系統推斷狀態,它與測試結果相對應,當測試結果為第k種故障指示,則系統推斷狀態更新為若為正常指示,則更新為
根據系統可靠性理論,系統中同時發生多個故障的概率遠遠低于一個故障。而通常,當測試系統發現系統有故障以后,人們會將系統停機并進行維修使之恢復正常,即某一時刻系統中最多只存在一個故障。基于此,本文提出單故障診斷推理邏輯:①在未獲取任何測試數據時,不能推斷系統是否發生故障也不能推斷發生哪個故障;②當有測試指示正常,可推斷該測試所覆蓋的故障必未發生,而該測試未覆蓋的故障不能確定是否發生;③一旦有測試指示故障,可推斷該測試所覆蓋的故障中必定發生了某個故障,而該測試未覆蓋的故障必未發生;④若幾個測試均指示故障,則故障必定存在于它們所覆蓋故障的交集中,且交集之外的部分必未發生;⑤若這些測試唯一地檢測出某個故障,則可推斷其余故障必未發生。在推理過程有以下幾種情況(如圖1):
1)在未獲取任何測試結果之前,系統推斷狀態為(? ,?,X,?),此時獲取到tj的檢測結果,且指示為正常,即tj0,將更新后的推斷狀態記為其推理如下:
發生前后推理矛盾的原因主要有以下幾個:①在測試推理過程中系統狀態突然發生改變,比如突然從無故障狀態變為故障狀態,或者在已有故障未排除的情況下發生新的故障,由于之前的測試數據反映的是變化前的系統狀態,而當前測試tj反映的是變化后的系統狀態,那么推理時極可能發生前后矛盾;②測試數據發生錯誤,既可能是BITE或ATE本身故障造成測試錯誤,也可能是BITE或ATE受到干擾造成測試錯誤;③相關性矩陣錯誤,導致由矩陣得到的Xjk或Xj0與實際情況不符,這也會造成推理矛盾。矩陣錯誤無法在推理過程中予以糾正,只能通過反復試驗和分析找到并修正錯誤,對此情形下文不予考慮。在基本的診斷推理中,輸入數據只有狀態(X1,X2,X3,X4)和Xjk(或Xj0),沒有足夠的數據來判斷究竟是什么原因造成的,也無法進行糾正,只能停止推理。后文將結合診斷模式對這種矛盾情形進行詳細分析。
圖1 狀態集合示意圖
基于上述基本診斷推理方法,即可構建較為復雜的診斷推理程序。本文把復雜系統的診斷分為周期和啟動兩種模式。周期診斷模式在系統運行的同時進行診斷推理,其測試項目是固定的,主要是系統中的周期BIT,周期BIT以固定的時間間隔將監測到的系統狀態參數發送至監控系統進行診斷推理,相應地,診斷過程也是周期的。啟動診斷模式一般在系統停止運行后對故障模糊組進行專項的測試和診斷,其測試項目主要是啟動BIT,而所要執行的測試項目并非固定的,而是要根據當前推斷的系統狀態來選擇下一步要啟動的測試項目,因此這是一種視情啟動測試項目的診斷過程。
復雜系統的周期BIT數量較多,各周期BIT數據未必同步,間隔周期也未必相同,為了便于診斷推理,本文定義診斷周期的概念,假定在一個診斷周期內,系統各周期BIT均只發送一次數據,診斷系統接收到數據后完成一次診斷推理。具體方法如下:
首先,設定初始的系統推斷狀態,通常令初始狀態為(? ,?,X,?),設定周期診斷中所獲取的所有測試項目,并指定測試的先后順序。然后以初始狀態為根節點進行推斷,假定第一個測試tj,它有正常和故障兩種輸出,根據基本診斷推理方法得到兩個與測試結果相對應的系統推斷狀態,把它們作為上一節點的子節點,然后選擇其中一個子節點,結合第二個測試得到孫節點,同理另一個子節點也得到相應的孫節點;以此類推,將節點逐漸向下伸展,直到最后一個測試項目,最后得到一個倒狀樹結構,本文稱之為診斷樹。
診斷樹實際上就是一個指引故障推理的引導樹,當跟尋測試序列到達葉節點,即完成一個周期的推理。在一個診斷周期中,診斷程序獲取到一組周期BIT數據,從診斷樹的根節點開始向下檢索,到達樹的底部,給出系統推斷狀態,即該周期的診斷結論;當下一個診斷周期來臨時,診斷程序獲取新一組周期BIT數據,返回診斷樹的根節點,重新檢索,最后給出診斷結論;這樣周而復始,直到控制程序視情終止循環。
前文分析了在基本診斷推理中可能出現的三種矛盾情形,下面針對前兩種情形展開討論。
情形一,在一個診斷周期中系統狀態突然改變。又分為以下兩種情形:①系統從無故障到有故障,當前診斷周期會產生推理矛盾,但當進入下一診斷周期后,系統狀態穩定下來,推理矛盾隨即消除,診斷結論以最新診斷周期為準;②系統在已有故障未排除的情況下突發新故障,即發生多故障,如果采取單故障推理方法,則即便進入到下一診斷周期,推理矛盾依然存在,若采取多故障推理方法,則推理矛盾消除。
情形二,測試數據發生錯誤。又分為以下兩種情形:①測試系統自身發生故障造成測試錯誤,此時矛盾會一直存在,直到測試系統故障排除;②測試系統受干擾造成測試錯誤,一般干擾是短暫的,當干擾消失,測試數據相應恢復正確,則矛盾自動消除,如果干擾始終存在,則可以認為該測試系統自身存在缺陷,需要排除。
綜上,當采取單故障推理時,若僅出現短暫矛盾,則可能是系統發生單故障,或者測試受到干擾,若矛盾持續,則可能發生多故障或者測試系統發生故障;當采取多故障推理時,若出現短暫矛盾,則可能是系統狀態變化或者測試系統受干擾,若矛盾持續,則可能是測試系統故障。因此不論采取哪種推理方法,如果出現持續幾個診斷周期的矛盾,則需要停止診斷,分析可能出現異常的測試。
在子系統實際運行過程中,故障發生后,由于傳輸鏈路等問題,可能會出現某幀故障數據丟失的現象。一旦測試數據缺失,通常應中斷診斷推理,檢查原因。但子系統不能停止運行,必須在數據缺失的情況下繼續推理。
在這種情況下的解決方法:在數據缺失的測試節點假定一個輸出,然后向下檢索,如果發現存在矛盾,則返回該測試節點,再假定另一個輸出向下檢索,直到無矛盾地到達診斷樹底部。
上述方法適用于缺失單個測試數據且其他測試數據均無錯的情況,如果缺失多個數據或者存在測試數據錯誤時,則有可能得到一個錯誤的診斷結論。
啟動模式的特點是不事先指定測試項目,而是根據當前系統推斷狀態來選擇下一步要啟動的測試。假定某時刻,系統推斷狀態為(X1,X2,X3,X4),下面給出一個啟發函數來選擇下一步測試:
式中:
x?—系統推斷狀態為(X1,X2,X3,X4)時,下一步最佳測試為tx;
cj—測試tj所耗費的時間;
由上所述,該子系統的診斷推理為診斷模式的組合,其測試包括加電BIT、周期BIT、啟動BIT及少量輔助測試,相應地,其診斷模式分為加電、周期和啟動三種。其診斷模式之間的轉換關系和診斷流程如圖2所示。
1)系統開機,進行開機自檢。此時診斷程序進入加電模式,利用加電BIT信息進行診斷推理。由于加電BIT也是實現固定的,所以我們可以將加電模式視為只有一個推理周期的周期診斷模式,由于加電模式之后是周期模式,所以將兩種模式合并建立診斷樹,具體方法見下文。若得到的系統推斷狀態為(X1,? ,?,X4),說明已隔離出故障,診斷結束;否則進入周期模式。
2)進入周期模式后,周期BIT開始運行。因為此前已有加電BIT檢測數據,所以此時要同時利用加電BIT和周期BIT進行診斷推理,具體方法是:首先以加電BIT在前、周期BIT在后的順序構建診斷樹;然后開始周期診斷,第一個診斷周期自診斷樹的根節點開始檢索,第一個周期結束后,自第一周期的最后一個加電BIT的子節點開始檢索,且后續周期診斷始終自該節點開始。若得到的系統推斷狀態為(X1,? ,?,X4),說明已隔離出故障,診斷結束;若得到的系統推斷狀態為(? , ? ,?,X4),說明系統正常,進入下一個診斷周期;若X2或X3≠?,說明故障尚未全面檢測或隔離,進入啟動模式。
3)進入維護模式后,根據3.2節的方法選擇下一步測試,可利用加電BIT、周期BIT、啟動BIT和外部輔助測試進行故障推理,當無法進一步隔離故障時,診斷結束。
4)診斷結束。
基于上述診斷方法,開發了診斷推理軟件,其工作界面如圖3所示。
其中,可在線監測的傳感器有壓力傳感器、電流值、溫度傳感器等。在線BIT根據傳感器值,根據文中周期模式下診斷推理進行故障定位,但是有部分故障無法定位,需要人工測試,開啟啟動模式下診斷推理過程,具體見下述案例1和案例2。
圖2 系統診斷推理流程
圖3 診斷系統截圖
案例1:當真空回路發生泄漏故障,真空計指示壓力發生變化,系統自動判斷出真空泄漏故障,但無法定位到ORU(在軌可更換單元),系統進入待機狀態等待人工測試。真空泄漏故障的故障模糊組:真空回路上的切換閥e密封性能下降故障、切換閥g密封性能下降故障、再生吸附組件a密封性能下降故障。根據文中,啟動模式下推理過程,需要工作人員依次斷開這三件ORU與系統連接,并利用真空堵頭、節氣泵抽真空、看壓力變化,定位故障的ORU。
案例2:當通風回路中有堵塞,通風流量傳感器值發生變化,系統自動判斷出堵塞故障,但無法定位到ORU(在軌可更換單元),系統進入待機狀態等待人工測試。故障的故障模糊組:通風回路上的各個管路過濾器過濾網堵塞、吸附裝置過濾網堵塞、干燥裝置過濾網堵塞。根據文中,啟動模式下推理過程,需要工作人員將各管路過濾網依次更換,并啟動風機看壓力變化,定位到故障的ORU。
本文針對航天器某子系統具有的周期工作和啟動工作兩種測試模式,分別提出了周期和啟動兩種診斷推理方法,并解決了實際中可能會出現的數據缺失問題。為驗證推理方法,建立了子系統測試性診斷模型,給出了診斷推理程序,提高了子系統的故障快速檢測和隔離能力。