任廣皓 張桂剛 王 健
(中國科學院自動化研究所 北京 100190)
隨著人工智能、神經網絡等技術的興起,在航空信息系統的研究中,基于數據驅動的方法占據了科研與工程應用的主流[1~2],尤其是故障診斷、壽命預測等健康管理領域[3~5]。相比傳統的專家庫、人工判讀等方式[6~7],貝葉斯方法、支持向量機等機器學習算法不依賴于物理失效模型[8~10],對特定領域下的專家知識的需求也相對較低[11]。然而,基于數據驅動的方法對于數據質量的好壞異常敏感。因此,對于數據的有效挖掘不僅是各類基于數據驅動方法的實現基礎,也是影響其最終結果的關鍵因素。
目前,傳感器越加智能化、微型化,價格也越來越低廉[12]。通過配置的各類傳感器,可監測的參數數量呈爆炸式增長。據統計,空客A350飛機的監控參數達40萬個[13],波音787飛機約15萬個[14]。此外,需處理的數據體量也呈指數增加,資料顯示,針對空客A350這一機型,僅執行一個航班所采集到的數據就達到0.5Tb[15]。此外,飛機這一高度復雜的整體中,所采集的數據間本就存在著大量的冗余[16~17]。基于以上背景,高維度、高冗余的數據質量問題變得尤為嚴重。由此可見,針對海量參數下的數據挖掘對于航空信息系統有著重要的工程及研究意義。
論文聚焦于航空信息系統的數據層面,通過數據挖掘技術對參數進行場景敏感性挖掘以及參數間的冗余性分析,進而解決參數維度高、數據冗余而導致的算法效率低、精度差的問題,并通過真實場景下的案例研究,驗證處理方法的有效性,為新一代飛機等航空信息系統的故障診斷與健康狀態管理系統的設計與研制提供數據維度下的支撐。
針對于航空信息系統,數據質量問題主要體現在:由于諸多的采集傳感器所導致的數據維度過高的問題,以及由于系統間的高關聯性所引起的數據冗余性大問題。因此,其數據挖掘主要集中在場景敏感性以及冗余性分析。論文以故障診斷為應用背景,分別進行故障敏感性和數據冗余性挖掘分析。并基于真實的航空信息系統數據,構建完整的數據挖掘管道。論文中所使用的數據來源為某型號發動機100架次真實的飛行運行數據。其中每個采樣時刻包含發動機監測參數306個;不同故障場景18+7+6=31個,涵蓋故障類型3種。具體情況整理如表1所示。

表1 實驗中故障數據描述
數據挖掘管道流程圖如圖1所示。

圖1 數據挖掘管道路線圖
首先,對于所采集的信號,以采樣率16Hz進行采樣。通過發動機自身故障檢測開關量實現對于數據的自動標注。考慮到不同參數數量級與量綱的不同,對數據統一進行標準化處理。然后,對數據進行故障敏感性分析以及參數冗余性分析。對于敏感參數挖掘結果,考慮到特征空間以及模型泛化需求,以并集方式進行輸出;對于參數相關性挖掘結果,則聚焦于對展示出強相關的參數的刪除,選取模型結果的交集進行輸出。對于結果的有效性評估,通過專家驗證的方式,判斷真實的數據環境下,算法挖掘結果是否與實際情況相符。
在實驗過程中,對于3類故障模式(喘振、應急切加力、轉備份)數據均通過本文提出的數據挖掘方法進行了分析。本部分主要以喘振故障的有關結果作為展示。
故障敏感性分析分為淺層挖掘與深層挖掘,其中淺層挖掘包含單因素敏感性分析與基于可解釋性模型的敏感性分析。深層挖掘則聚焦于非特定模型下的樣本信息挖掘,包括基于邊際貢獻與排列重要性的敏感性分析。
3.1.1 故障敏感性淺層挖掘結果
故障敏感性淺層挖掘包括單因素敏感性分析與基于可解釋性模型的故障敏感性分析。其中,單因素敏感性分析是通過對參數的單一統計學指標進行量化實現對故障敏感性的淺層挖掘,如:參數均值、協方差的變化情況;可解釋機器學習法主要通過模型自身的可解釋性對參數的敏感性進行挖掘,本論文采用了工業屆常用的決策樹、支持向量機方法。針對某一故障場景下的故障敏感參數挖掘可視化結果如圖2、3所示。

圖2 某故障場景下故障敏感參數(僅以兩個為例)

圖3 某故障場景下非敏感參數結果(僅以兩個為例)
3.1.2 故障敏感性深層挖掘結果
考慮到可解釋模型對于模型的選擇具有一定約束,故障敏感性深層挖掘聚焦于非固定模型下的樣本信息挖掘,能夠實現針對深度不可解釋模型的樣本挖掘,包括基于邊際貢獻與排列重要性的敏感性分析。其中,基于邊際貢獻的敏感性分析計算了博弈論中的夏普利值;而基于排列重要性的敏感性分析則是通過對于樣本擾動,觀察結果的反應行為進而實現對參數的故障敏感性分析。具體實現上,本論文利用多層感知機進行故障識別,針對識別結果的混淆矩陣選取真陽性與真陰性結果進行分析。針對某一故障場景下的故障敏感參數挖掘可視化結果如圖4、5所示。

圖4 某故障場景下排列重要性敏感性挖掘部分結果
3.1.3 故障敏感性分析結果
本部分針對故障診斷這一場景,對含有故障的某發動機的真實運行數據,共計306個參數進行故障敏感性分析,最終成功獲得了17個故障敏感參數作為后續故障診斷模型的特征。該分析結果得到了專家知識的驗證。其中,針對喘振故障的故障敏感參數分析結果如表2所示。

表2 喘振故障敏感參數
數據冗余性分析計算了各參數之間的相關性,根據統計學定義,相關系數絕對值大于0.8的參數間具有強相關關系,可以選擇刪除。本論文中使用的方法包括了皮爾森相關性分析,皮爾曼相關性與肯德爾秩相關性分析以及多元回歸分析。相關性分析結果如下所示。
1)皮爾森相關性分析
高壓轉子轉速與低壓轉子轉速、風扇導葉角角度與低壓轉子轉速、壓氣機出口總壓與主燃油總管壓力、進口總溫與大氣總溫、低壓轉子轉速與壓氣機導葉角角度、風扇導葉角角度與壓氣機導葉角角度間顯示出較強相關關系。

圖5 某故障場景下基于邊際貢獻敏感參數挖掘部分結果
2)斯皮爾曼相關性分析
渦輪后排氣溫度與高壓轉子轉速、壓氣機出口總壓與主燃油總管壓力、進口總溫與大氣總溫間顯示出較強相關關系。
3)肯德爾秩相關性分析
進口總溫與大氣總溫間顯示出較強相關關系。其中,對于皮爾森相關性分析的可視化結果如圖6所示。
多元回歸分析通過構建參數間線性或非線性關系式來衡量參數間的相關性。本論文通過構建參數間的線性回歸模型實現對數據的相關性分析,可視化結果展示如圖7所示。

圖6 皮爾森相關性分析結果

圖7
可以看到,對于參數主燃油總管壓力(參數9),其與參數壓氣機出口總壓(參數7)之間存在較強的相關性。
本部分在故障敏感參數挖掘結果的基礎上進行數據冗余性分析,通過對于3類不同樣本的相關性分析,發現參數主燃油總管壓力和壓氣機出口總壓間存在著強相關關系,即數據間存在冗余,該結果亦得到了專家知識的驗證。
本文利用數據挖掘技術結合人工智能手段對航空信息系統中參數的場景敏感性以及數據冗余性進行挖掘。通過對真實案例的實驗,構建了針對于故障診斷這一應用場景的數據挖掘管道,且結果均通過專家知識的方式進行了驗證,所提出的方法能夠為之后的相關算法模型提供更優質的數據輸入,從源頭提高模型效率以及精度。