999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元學習的航空電子設備特征選擇算法推薦方法

2021-07-05 01:38:22李睿峰許愛強孫偉超王樹友
系統工程與電子技術 2021年7期
關鍵詞:特征方法

李睿峰, 許愛強, 孫偉超, 王樹友

(海軍航空大學, 山東 煙臺 264001)

0 引 言

在航空電子設備故障診斷中,由于測試項目眾多,導致原始數據維數較高,需要消耗大量的運算時間與存儲空間[1]。因此,如何去除冗余信息和不相關特征,對測試數據進行約簡,是航空電子設備故障診斷研究領域的一個基本問題[2-3]。

近年來,特征選擇一直是一個活躍的研究領域[4],一個好的特征選擇算法可以有效提取數據集中的關鍵信息[5-6]。文獻[7]在電子電路故障診斷中使用粗糙集約簡冗余特征。文獻[8]提出了一種考慮特征相關性構成的特征選擇算法。文獻[9]將粒子群優化方法應用于特征選擇過程。文獻[10]將超限學習機技術應用于特征選擇過程。文獻[11]研究了基于K-means聚類的特征選擇算法。

現有的特征選擇算法通常都是針對某一具體應用而開發的,在特定的學習任務上表現出了優于其他算法的性能,但這不能表明該算法總是“優越”的[12],不同的特征選擇算法可能會偏向于不同的數據集。因此,為了確定哪種特征選擇算法對當前任務最有效,需要事先發掘這些算法對于各類數據集的適用情況。

元學習是一種利用以往知識經驗來為新任務推薦有效學習算法的方法,目前已經在數據挖掘領域得到了廣泛的應用。通過元學習,可以提取歷史數據集和學習算法的元特征[13],在新的學習任務到來之時,結合與當前數據集最為相近的歷史數據集上各類算法的性能,推薦有效的學習算法[14]。因此,建立一個用于特征選擇算法推薦的元學習系統,可以直接為給定的故障診斷任務尋找最佳算法,有效避免因遍歷所有特征選擇算法導致的計算時間和空間上的開支。

此外,由于航空電子設備大部分時間處于正常狀態,歷史數據中故障樣本貧瘠,數據集具有嚴重的類別不平衡特點。因此,建立的特征選擇算法推薦系統應該能夠更好地適應數據集不平衡這一特點。

綜上,提出了一種基于元學習框架的航空電子設備特征選擇算法推薦方法。首先,分析了采用基于統計和信息論的元特征來描述歷史數據集的方法;然后,提出了考慮分類精度、查準查全率(precision recall curve, PRC)面積、算法運行速度和選擇特征數量的綜合指標,用于評價算法性能;最后,給出了特征選擇算法推薦方法的框架,以及對于新數據集的算法推薦過程。采用了自動測試系統(automatic test system, ATS)日常維護中采集到的42種航電設備的測試數據,結合13個過濾型特征選擇算法建立了元數據庫,采用留一法進行了交叉驗證。

1 元數據庫建立

根據前文分析,特征選擇算法在給定數據集上的性能和數據集特征密切相關。因此,建立元數據庫首先需要對數據集特征(元特征)進行提取,并明確用于衡量算法性能的評價指標。

1.1 元特征提取

高質量的元特征[15]才能保證為新數據集推薦的特征選擇算法更加合理。典型的元特征包括基于統計和信息論的元特征、基于基準分類器的元特征和基于模型的元特征等[16-19]。其中,基于統計和信息論類型的元特征被廣泛采用[12]。基于統計和信息論的元特征又可以分為3類:一般元特征、統計元特征和信息論元特征。

假設具有N個樣本的數據集表示為

(1)

1.1.1 一般元特征

一般元特征用于概述數據集的基本信息,包括:① 樣本數量N;② 特征維數K;③ 輸出值數量M;④ 數據維度dim=K/N。

1.1.2 統計元特征

統計元特征用來表征數值型特征向量的統計學特性,包括各類特征的分布特性以及特征之間的相關性。這些特征主要有以下內容。

(1) 標準差:σ(fk)。

(3) 協方差

(4) 相關系數

(5) 偏度

(6) 峭度

1.1.3 信息論元特征

基于信息理論的元特征更適用于描述離散特征,由于從航空電子設備采集的測試數據集中每類特征在每個樣本上都對應著獨立的取值,因此可以應用信息論元特征。

特征向量fk的熵用于度量其隨機性,表示為

(2)

式中:qi,k=P(xi,k)為特征向量fk對每個xi,k的取值概率。

(1) 規范化類熵

式中:πm=P(lm)為每個類輸出的取值概率。

(2) 規范化特征熵

(3) 聯合熵

(4) 互信息

MI(fk,y)=H(fk)+H(y)-H(fk,y)=

(5) 等價特征數

(6) 噪信比

1.2 算法性能評價

一個算法性能的優劣,可以從多個方面進行評價,數據挖掘領域通常采用多標準度量指標。文獻[20]結合學習算法準確性和總執行時間提出基于比率的多標準度量指標ARR多準則評估方法。文獻[14]在此基礎上針對特征選擇算法推薦問題的特點,將選出的特征數量考慮在內,提出了EARR(extend ARR)多標準度量指標。這兩種方法都采用了兩個算法指標間的比值進行計算,以消除指標間量綱差異帶來的影響。

航空電子設備面臨著測試數據不平衡的問題[18],正常樣本的數量常常是故障樣本數量的幾倍甚至幾十倍,因此僅僅依靠分類精度來衡量算法的性能是不全面的。而且,故障樣本的檢測率在航空電子設備故障診斷領域中更有意義,也更為重要,因此本文在衡量算法性能時考慮了PRC面積指標。PRC是以查準率和查全率(基于混淆矩陣得出)為坐標軸繪制的曲線,曲線下面積的大小在一定程度上表征了學習器在查準率和查全率上取得相對“雙高”的比例。在樣本數量不均衡的數據集里,PRC面積更能有效衡量分類器性能的好壞。

在EARR多標準度量指標的基礎上,進一步將PRC面積考慮在內,就可以得到一個綜合指標,即算法Ai相比Aj在數據集Dk上的綜合度量指數(multi-metric index, MMI):

(3)

進一步,用算法Ai相比于其余算法在數據集Dk上MMI值的算術平均值表示算法Ai在數據集Dk上的MMI值:

(4)

式中:N為特征選擇算法數量。

2 特征選擇算法推薦方法

2.1 方法框架

明確了元特征和算法性能指標之后,就可以基于歷史數據集建立元數據庫,進而開發出用于特征選擇算法推薦的元學習框架,如圖1所示。其主要思想是利用元特征來描述數據集,并學習不同算法的性能;然后針對給定數據集與歷史數據集的相似程度,利用元數據庫選出合適的特征選擇方法。

圖1 算法流程圖Fig.1 Algorithm flow chart

其中,元數據庫由歷史數據集的元特征和候選特征選擇算法在這些數據集上的MMI構成。新數據集到來之時,根據元特征尋找其近鄰數據集,推薦合適的特征選擇算法。

2.2 推薦過程

(5)

由于歐幾里得距離是數據挖掘領域常用的衡量數據集之間距離的指標,因此新數據集Dnew和歷史數據集Di之間的距離就可以表示為

(6)

通過式(6),可以找到新數據集Dnew的k個近鄰數據集。如果dist(Dnew,Ds)=0,則視為Dnew與歷史數據集Ds完全一致(這種情況的可能性極小,除非Dnew就是某個歷史數據集),直接從元數據庫中提取出候選特征選擇算法在數據集Ds上的MMI值排序,作為推薦結果。

在dist(Dnew,Di)≠0的情況下,從元數據庫中提取出候選特征選擇算法在這k個歷史數據集上的MMI值,利用Dnew和Di(i=1,2,…,k)之間的距離對其加權求和,則候選算法在Dnew上的綜合指標可估計為

(7)

根據式(7),可以評估每個特征選擇算法在Dnew上的綜合指標,進而將候選算法根據估計的指標值進行排序。整個推薦過程可以表示如下。

步驟 1提取數據集Dnew的元特征,并運用式(5)進行歸一化處理。

步驟 2根據式(6)計算Dnew和各歷史數據集Di之間的距離,并將距離值從小到大進行排序。

步驟 3如果存在dist(Dnew,Ds)=0,直接從元數據庫中提取出特征選擇算法在數據集Ds上的綜合指標排序,作為推薦結果。

步驟 4在dist(Dnew,Di)≠0的情況下,根據步驟2的結果找出Dnew的k個近鄰數據集,運用式(7)估計候選算法在Dnew上的MMI值。

步驟 5使用估計的MMI值對特征選擇算法進行排序,作為推薦結果。

3 實驗分析

3.1 評價指標

目前尚沒有統一的指標用來評價元學習方法的性能,但關注點通常在于衡量推薦結果與理想結果的差異性。文獻[20]采用Spearman秩相關系數衡量算法推薦排序與理想排序之間的一致性,以評估推薦排序的質量。文獻[14]采用了Friedman檢驗和Holm procedure檢驗判定各數據集上候選算法之間是否存在顯著性差異,進而提出了推薦命中率這一評價指標。此外,文獻[14]提出了推薦性能比例的概念,計算推薦算法與最優算法性能指標的比值,以衡量兩者的接近程度。為了對特征選擇算法的推薦結果進行有效評價,本文采用了推薦命中率和推薦性能比例兩個指標。

(1) 推薦命中率

(8)

進一步,推薦命中率可以表示為

(9)

式中:G表示全部數據集的數量。

(2) 推薦性能比例

通過推薦命中率,可以判定推薦的算法是否有效。在此基礎上,推薦性能比例能夠進一步展示推薦的算法與最優算法在性能上的差距。推薦系統在數據集Di上的推薦性能比例表示為

(10)

3.2 實驗設置

(1) 數據集

ATS在對航空電子設備日常維護中采集到的檢測數據,對于內場維修中的故障診斷具有重要意義[18],因此本文采用了某飛行部隊修理廠航電車間3年來對42個航空電子設備的檢測數據建立元數據庫。這些設備覆蓋通信導航、顯示控制、電子對抗等3個專業,各設備對應的測試項目和指標是根據履歷本要求來確定的,測試結果包含布爾型、整型、浮點型等數值型數據。在檢修過程中,如果遇到某個測試項目異常的情況,會通過返廠檢查的方式確定其故障類別。數據集信息如表1所示。

表1 航空電子設備數據集信息

續表1

ATS對設備施加的每個測試項目對應著數據集的一個特征。由表 1可以看出,這些數據集的特征數量從8 到229不等,實例數量從132到858不等。此外,由于航空電子設備大部分時間處于正常狀態,因此設備歷史數據中正常數據的規模遠大于故障數據。實驗采用留一法在這些數據集上對本文提出的特征選擇算法推薦方法進行評價,并與計算MMI值時不考慮PRC面積的方法進行了比較。

(2) 特征選擇算法

在Weka實驗環境下,選擇了13種特征選擇算法。這些算法是不同搜索策略和評價方法的組合,是以往研究者為解決特定領域的特征選擇問題而提出的,并且得到了廣泛的應用。其中,搜索策略包括順序搜索、遺傳搜索[21]、秩搜索[22]、散射搜索[23]、禁忌搜索[24]等。評價方法包括相關性指標[25-26]、一致性指標[27-28]等。具體介紹如表2所示。

表 2 采用的特征選擇算法

雖然Weka框架封裝的特征選擇算法遠多于13種,但是其他算法(例如用于特征評估的算法[29],貪婪搜索策略[30]等)只能給出特征排序,需要通過設置閾值的方式選出子集,閾值設定會涉及到多方面因素,故沒有將其作為候選算法。此外,新提出的特征選擇算法都可以在Weka框架內實現。

(3) 分類器

由于不同的分類器內部機制不同,對特征選擇算法的偏好程度也不同,為了對所提出的特征選擇算法推薦方法進行客觀評價,保證該方法并不只局限于某種類型的分類器,實驗選擇了4 種具有代表性的分類算法:基于決策樹的C4.5、基于概率的樸素貝葉斯(Naive Bayes)、基于規則的 PART和基于實例(instance-based)算法(其近鄰值設置為1,IB1)[14]。這些分類器代表了各自所屬的類型,在以往的相關研究中被廣泛采用。

(4) 參數設置

關于參數α和β對實驗結果的影響,相關領域的研究人員已經進行了深入分析,在α和β取10%的情況下,推薦系統已經很大程度地偏向于推薦運行速度快且選出的特征數量少的算法。為了充分發掘參數α和β對推薦系統性能的影響,實驗將參數α和β均設置為從1%到10%,以1%步長增長的取值序列,采用網格搜索法,以最大化推薦性能比例均值為目標,尋找最優參數設置。此外,文獻[14]通過研究指出,k近鄰值設置為歷史數據集數量的28%到47%之間會取得較好的推薦效果,故本文將k值設置為15。

3.3 實驗過程

針對每個數據集的特征選擇和分類過程均在Weka3.8.4實驗環境下進行,該階段可以得到分類精度、PRC面積、特征數量、運行時間等實驗結果。MMI值計算、確定最優算法集合、算法推薦和結果評價過程在MATLAB 2018a軟件中運行。實驗電腦配置為:Windows 10操作系統,Inter Core i7-7700HQ CPU,2.80 GHz主頻和8 G RAM。具體實驗過程如下。

(1) 建立元數據庫

首先,按照第1.1節給出的公式,采集所有數據集的元特征。然后,在這些數據集上應用第3.2節列舉的特征選擇算法,通過 5×10 折交叉驗證,收集分類精度、PRC面積、運行時間、特征數量等指標值,根據式(3)和式(4)計算MMI值。最后,將每個數據集的元特征和MMI值組合為二元組,添加到元數據庫。此處將5×10 折交叉驗證的結果分別計算MMI值,用于后面最優算法集合的確定,取其均值添加到元數據庫。

(2) 確定最優算法集

對于數據集Di,前面的計算中得到了50 組 MMI值。由于這些指標數據通常不能滿足正態性以及方差齊性,因此選擇非參數假設檢驗的Friedman檢驗來確定每個數據集上 13個算法是否存在顯著性差異。如果檢驗結果顯示這些算法的性能不存在顯著差異,那么這 13 個特征選擇算法均被加入到最優算法集合中。否則,在此基礎上進一步進行多重比較,將MMI均值最大的算法作為最優算法,挑選出其余算法中與之沒有顯著差異的算法加入到最優算法集合中。

(3) 算法推薦及結果評價

將每個數據集Di依次作為測試數據集,其余41個數據集構成元數據庫。首先,根據當前數據集Di的元特征,按照式(6)從元數據庫中識別出其k個近鄰數據集。然后,基于式(7)和k個近鄰數據集上的MMI值,估計各特征選擇算法在Di上綜合指標MMI值,并將這些估計值進行排序。最后,利用第3.1節中給出的評價指標對推薦結果進行評價。

為了確定最優參數組合,實驗過程中需要根據第3.2節設定的參數α和β取值范圍,重復計算MMI值,并根據推薦結果計算推薦性能比例均值。以取得最大推薦性能比例均值的α和β值作為最終的實驗參數。

3.4 結果分析

受文章篇幅限制,不再對參數尋優過程作詳細描述,只在實驗結果中備注了最終參數取值。

3.4.1 推薦命中率

在42個數據集上推薦排名第1位的算法如圖 2所示。4個子圖分別為4個分類器上的結果,“○”表示推薦命中,“×”表示推薦未命中。不考慮PRC面積指標的算法推薦結果如圖3所示。

圖2 算法推薦結果Fig.2 Algorithm recommendation results

在MMI值不考慮PRC面積的情況下,推薦結果如圖3所示。

圖3 不考慮PRC面積指標的算法推薦結果Fig.3 Algorithm recommendation results without considering PRC area index

根據圖2和圖3的結果,結合式(8),可以得到推薦系統在各個數據集上的推薦命中情況。進一步,運用式(9),可得兩種方法的推薦命中率,結果如表3所示。

表3 推薦命中率對比

由圖 2、圖 3和表 3可以得出以下結論。

(1) 本文提出的特征選擇算法推薦方法能夠為42個數據集中的大部分推薦合適的算法。在選用的4個分類器上,均取得了較高的推薦命中率,分別為40、38、39和39個數據集推薦了最優的特征選擇算法,說明該方法的泛化性能較好。另外,所提方法為每個數據集推薦的特征選擇算法各不相同,說明為數據集推薦最合適的特征選擇算法是非常必要的。

(2) 采用C4.5分類器的情況下推薦命中率最高,只有2個數據集沒有推薦命中,說明決策樹類的分類器對于處理當前問題更有優勢,在具體應用中建議采用決策樹類的分類器,為特定數據集推薦特征選擇算法。

進一步,將排名前兩位、前三位的算法作為推薦結果,如果其中至少有一個算法與最優算法無顯著差異,則表明推薦命中,結合式(8)確定推薦命中情況,進而運用式(9)計算推薦命中率,結果如表4所示。

從表4可以看出,以排名前三位的算法作為推薦時,推薦命中率已經達到一個相當高的水平,因此可以將實驗輸出設置為推薦排名前3位的算法。

表 4 推薦命中率對比

3.4.2 推薦性能比例

根據式(10)計算排名第1算法的推薦性能比例如圖4所示。

圖4 不同分類器推薦性能比例Fig.4 Recommendation performance ratio of different classifies

在不考慮PRC面積的情況下,推薦性能比例如圖5所示。由于在計算綜合指標時考慮PRC面積會進一步增大不同算法間MMI值的差距,因為不考慮PRC面積相當于統一認定算法間PRC面積的比值為1。為了消除這種影響,實驗中計算推薦性能比例時,根據兩種方法得出的算法排序,統一采用考慮PRC面積方法計算得到的MMI值來計算。

圖5 不考慮PRC面積不同分類器的推薦性能比例Fig.5 Recommendation performance ratio of different classifiers without considering PRC area

進一步,計算4個分類器上的推薦性能比例均值,結果如表5所示。

表 5 推薦性能比例均值

由圖 4、圖 5和表 5可以看出,本文提出的推薦方法在4個分類器上的推薦性能比例普遍較高,最低值也高于93%。且在相當一部分數據集上,推薦性能比例為100%,表明經過推薦得到的算法與最優算法完全一致或者性能基本一致。相比較而言,不考慮PRC面積指標的算法推薦性能比例普遍低于考慮PRC面積指標的推薦方法,且推薦性能比例為100%的數據集也少于后者。

由于航空電子設備測試數據集具有顯著的不平衡性特點,從表 5可以看出,考慮PRC面積的方法推薦結果更能接近最佳特征選擇算法。這說明采用推薦的特征選擇算法會取得較高的MMI值,實際上最終選出了哪些特征并不重要,因為MMI值高的特征選擇算法能夠更好地兼顧診斷精度、PRC面積這些正面指標和運行時間、特征數量這些負面指標,必將對后續的故障診斷產生有利影響。

當前應用于修理廠的ATS大多數只具備對航空電子設備的測試功能,部分ATS可以進行簡單的故障診斷,而缺乏對測試數據的深入分析和處理。本文提出的特征選擇算法推薦方法可以封裝到ATS,在日常的檢測和維護過程中,將采集到的測試數據提取元特征并添加到元知識庫中,在有緊急需要的情況下調用推薦方法,為當前故障診斷任務推薦合適的特征選擇算法,在保證后續故障診斷精度的前提下進一步提高效率,同時又能兼顧航空電子設備測試數據不平衡的特點。

4 結 論

(1) 本文提出的方法能夠為航空電子設備測試數據集中的大部分推薦合適的特征選擇算法。應用在4個不同類型的分類器上,以排名第一的算法作為推薦的命中率分別為95.24%、90.48%、92.86%和92.86%;以排名前三位的算法作為推薦輸出時,推薦命中率已經達到了一個相當高的水平。

(2) 針對航空電子設備測試數據集的類別不均衡性特點,推薦方法相比于不考慮PRC面積的方法,能更有效地推薦特征選擇算法。

(3) 本文提出的方法在航空電子設備測試數據集上的推薦性能比例普遍較高,應用在4個不同類型的分類器上,推薦性能比例均值分別為98.31%、97.48%、98.17%和97.25%,說明該方法能夠滿足航空電子設備故障診斷的應用需求。

實驗所使用的數據集覆蓋了通信導航、顯示控制、電子對抗等3個專業的大部分航空電子設備,隨著裝備的更新換代,在新的航空電子設備應用之后,同樣可以將其測試數據融入到元數據庫中,以增強數據庫的多樣性,提高推薦方法的推廣能力。

在未來的研究中,還應在ATS的測試平臺上開發出具體的應用模塊,在日常檢修中繼續收集各類航空電子設備的測試數據,結合本領域提出的各種特征選擇算法,進一步豐富元數據庫。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91精品亚洲| 亚洲欧洲日产国码无码av喷潮| 亚洲天堂在线视频| 欧美中出一区二区| 亚洲一级毛片在线观播放| 99国产精品一区二区| 新SSS无码手机在线观看| 亚洲AV无码一区二区三区牲色| 亚洲欧美另类中文字幕| 在线观看av永久| 福利在线一区| 97影院午夜在线观看视频| 国产精品美女免费视频大全| 国产成人亚洲精品蜜芽影院| 自拍中文字幕| 91青青视频| 久草中文网| 久久免费观看视频| 日日噜噜夜夜狠狠视频| 色网站在线视频| 亚洲浓毛av| 国产97公开成人免费视频| 免费午夜无码18禁无码影院| 91青青在线视频| 最新日本中文字幕| 中文无码精品A∨在线观看不卡| 国产女人在线观看| 亚洲国产成人精品一二区| 99精品国产自在现线观看| 五月丁香在线视频| V一区无码内射国产| 国产女人在线观看| 亚洲中久无码永久在线观看软件| 少妇极品熟妇人妻专区视频| 亚洲AV无码不卡无码| 亚洲第一区欧美国产综合| 亚洲天堂.com| 国产精品女熟高潮视频| 在线国产你懂的| 欧美全免费aaaaaa特黄在线| 自拍偷拍欧美| 色哟哟色院91精品网站 | 欧美精品啪啪一区二区三区| 亚洲欧美综合在线观看| 日韩一区二区在线电影| 91精品国产一区自在线拍| 91无码人妻精品一区| 日本一区高清| 国产主播在线一区| 国产成人综合亚洲网址| 国产av剧情无码精品色午夜| 亚洲一级无毛片无码在线免费视频| 国产视频久久久久| 精品综合久久久久久97| 成年网址网站在线观看| 久久精品日日躁夜夜躁欧美| 99久久精品久久久久久婷婷| 夜夜高潮夜夜爽国产伦精品| 国产亚洲视频中文字幕视频| 午夜久久影院| 伊人成人在线| 国产真实乱人视频| 在线不卡免费视频| 在线国产资源| 午夜福利网址| 一级高清毛片免费a级高清毛片| 在线观看亚洲精品福利片| 欧美久久网| 制服丝袜 91视频| 久久久久中文字幕精品视频| 激情网址在线观看| 国产99精品久久| 69av免费视频| 日韩在线视频网站| 日韩免费无码人妻系列| 无码在线激情片| 国产欧美在线视频免费| 免费a级毛片视频| 精品伊人久久久香线蕉| 女人爽到高潮免费视频大全| 色亚洲成人| 国产高清无码第一十页在线观看|