999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的航空異常著陸事件檢測

2022-07-21 04:12:14蘇志剛楊金鋒張海剛
計算機工程與設計 2022年7期
關鍵詞:特征檢測模型

楊 雄,蘇志剛,楊金鋒,張海剛

(1.中國民航大學 電子信息與自動化學院,天津 300300;2.中國民航大學 中歐航空工程師學院, 天津 300300;3.深圳職業技術學院 粵港澳大灣區人工智能應用技術研究院,廣東 深圳 518055)

0 引 言

快速存取記錄器(quick access recorder,QAR)即是一種常見的飛行數據記錄設備[1]。目前,QAR數據越來越被民航安全專家所重視,這標志著民航界從事故尋因這種預防航空危險的被動思維到日常監控提升航空安全水平的主動出擊思維的轉變。但目前實際應用的閾值方法面臨著機型多樣性、地理多樣性和氣候多樣性的挑戰,很難兼顧每種條件設定閾值[2],因此亟需一種有效的方法從航空高維數據中準確地檢測出異常事件。

目前國內外學術界對QAR數據應用于航空異常事件的研究可分為基于擬合回歸的方法、基于聚類的方法和基于分類的方法。基于擬合回歸的方法是無監督方法,不需要標簽。擬合的方法使用多個自變量參數來擬合一個因變量,從而找出自變量和因變量之間的關系[3,4]。基于聚類的方法也屬于無監督方法,與回歸方法不同的是基于聚類的方法首先會找一個聚類中心,計算其余點與中心點的相對距離,檢測出相對距離較大的點即為異常點[5,6]。基于分類的方法是有監督方法,使用分類器通過異常標簽來檢測異常[7,8]。基于擬合和聚類的方法根據不同的規則來分析航空數據,側重挖掘和利用數據間關系[9],但因為沒有標簽信息,無法統一比較這些算法的性能,因此很難評估這些算法在大規模數據應用上的有效性。在另一方面,基于分類的方法優勢在于可以充分利用標簽屬性和有監督模型學習到數據類別的判別邊界,但在航空領域標簽信息很難獲取。

為了比較每一種算法的性能,本文克服標簽獲取的困難,以飛機最常發生事故的著陸進近階段為檢測目標[10],通過數據源匹配得到異常標簽。針對航空高維數據的特點,提出了一種基于斯皮爾曼等級相關系數(spearman rank correlation coefficient,SRCC)特征處理、梯度提升樹(gradient boosting decision tree,GBDT)和遞歸特征消除(recursive feature elimination,RFE)經過交叉驗證(cross validation,CV)特征處理的混合特征選取方法,最后使用貝葉斯優化改進目標函數的極限梯度提升樹(extreme gradient boosting,XGBoost)的異常檢測模型。

1 航空異常著陸事件檢測方案

航空異常著陸事件檢測方案主要包括以下過程:首先將QAR數據和參數監控標準數據匹配,得到異常標簽;再對數據進行預處理,處理數據匹配和數據重抽樣;然后使用混合特征選取的方法選擇合適的特征;隨后使用貝葉斯優化的加權XGBoost算法訓練出模型;最后在未做任何改變的測試集上模型評估。整個檢測方案的流程如圖1所示。

1.1 數據匹配

本文選用同一天氣狀況下一個月份的波音737-800和737-900ER的QAR數據作為實驗基礎,總共861個航班。借助航空公司的譯碼軟件AirFase得到譯碼后的QAR數據和超限事件參數庫,超限事件參數庫是AirFase軟件根據民航法規設定的參數閾值[11]得到的航班超限異常,部分超限參數閾值見表1。

圖1 模型流程

表1 部分參數閾值及觸發條件

QAR數據中有航班注冊號、機型號、航班執行日期、飛行時間和各參數記錄,超限事件參數庫里面有航班注冊號、機型號、異常階段、異常事件發生事件及異常程度等。通過匹配兩個數據源中的航班注冊號和航空公司注冊號,搜索超限異常參數數據源中的異常事件發生的時間在QAR數據中的航班執行日期和時間,通過這些參數可以唯一確定哪個航班在哪個時間點發生了何種異常。最終通過正則化過濾、航班號匹配、異常時間定位等手段實現了QAR譯碼數據和標準超限參數庫的匹配從而得到異常標簽。整個過程如圖2所示。

圖2 數據源匹配得到異常標簽

將監控參數標準庫與每個航班的QAR數據匹配,得到每個異常發生的時間點。再將一個航班中第一秒發生異常的時間點和最后一秒發生異常的時間點中間的時間段全部打上異常標簽,即得到QAR異常參數數據集。

1.2 數據重抽樣

為了確保不同航班有相同的輸入長度,對每個航班的數據樣本進行重抽樣。對于每個航班f來說,樣本數據可以表示為式(1)

(1)

對每個航班按相同的規則進行重抽樣。飛機在剛著陸時,剎車會拉到最大以降低速度。將飛機剎車值突變的點設為著陸點,每個航班取著陸點前29點,著陸后取10點,每個航班總計40個時間戳,取值的范圍涵蓋了飛機在500英尺至在滑行跑道上的高度,因此總共有34 440行樣本。

1.3 航空著陸異常特征提取

在飛機飛行時,會有多個傳感器來記錄同一參數,以保證當一個傳感器發生故障時其它傳感器還能繼續工作。這種冗余機制一方面保障飛機的安全,但另一方面在數據分析時卻會帶來不必要的麻煩。因此本文結合3種特征選取方式:過濾法(Filter)、包裹法(Wrapper)和嵌入法(Embedding)[12],設計出一種針對航空高維數據的混合特征提取算法。混合特征選取算法首先對航空參數采取斯皮爾曼等級相關系數消除冗余特征,之后采用梯度提升算法選取與異常事件最相關的特征,其中使用遞歸特征消除。

1.3.1 斯皮爾曼冗余特征處理

斯皮爾曼等級相關系數特征處理是一種過濾的方法,它值的范圍從-1到1。值1表示強正相關,值-1表示強負相關,當相關系數接近于0時,表示特征之間不存在相關關系。在當前數據集種負相關和正相關都是相關,所以取相關矩陣的絕對值。斯皮爾曼等級相關系數表示為式(2)

(2)

其中,d為A、B兩個變量中元素對應相減得到一個排行差分集合,其中di=Ai-Bi,N為單個元素總個數,在這為QAR數據的行數。如果兩個變量的相關系數越接近1,說明兩個變量具有很強的相關性,可以認為是冗余的,本文經過實驗將相關閾值設為0.95。經過冗余值列處理后,著陸階段QAR數據的特征由152維降至78維。

圖3為原始數據和數據預處理后的熱力圖對比,右側從淺至深的漸變色表示相關系數從小到大的變化,顏色越深,說明兩個變量之間的相關系數越大,這兩個變量更有可能互為冗余列。通過圖3(a)、圖3(b)可以看出經過數據預處理之后,深色區域明顯變少,深色程度明顯變弱。

1.3.2 GBDT-RFE-CV關鍵特征選取

GBDT是集成學習Boosting的一種,Boosting方法以連續的方式訓練一堆單獨的模型,每個單獨的模型都從前一個模型的誤差中學習。而GBDT每個模型采用基于分類與回歸樹(classification and regression trees,CART),通過每個模型在上一輪模型的殘差基礎上進行學習,學習的方向是前一個模型損失函數的梯度下降方向[13]。GBDT特征選取是一種基于模型的方法,設有K個CART樹的決策空間F,通過訓練數據集,GBDT的每顆CART樹fk在不同特征上分裂節點(node)的次數之和為不同特征的重要度,之后通過設定特征數目閾值或者選取性能指標選取合適的特征子集。

RFE[14]是一種Wrapper特征選取的方法,它的目標是通過遞歸地考慮越來越小的特征集來選擇特征。首先,在初始特征集上訓練估計器,得到每個特征的重要性。然后,從當前的特征集合中剔除最不重要的特征。這個過程在修剪集上遞歸地重復,直到最終達到需要選擇的特征數。

GBDT特征選取和RFE方法組成了一組嵌入法特征選取方法。首先,GBDT模型在原始特征上訓練,每個特征得到一個權重即特征重要度。之后,那些擁有最小絕對值權重的特征被移出特征集空間。如此遞歸重復,直至剩余的特征數量達到設定的特征數量閾值。為了讓算法自動地選取合適的特征,本文采取交叉驗證的方法,能夠自動調整特征子集空間的特征數量,具體的算法流程如下所示。

圖3 數據預處理前后熱力圖對比

算法1:GBDT-RFE-CV特征選取

輸入:含有M個特征的訓練集S,n折交叉驗證,特征選取設定的閾值L

輸出:最佳特征子集

(1)將訓練集分層抽樣劃分為n輪數據集,每輪n-1份為訓練集,1份為測試集

(2)每一份數據集通過GBDT訓練得到決策空間F

(4)根據每棵樹上特征node數目得到特征重要度

(6)在M特征空間遍歷刪除最不重要的特征,得到新的子集空間Mi

(7)使用Mi特征子集執行交叉驗證,得到驗證分數,并丟棄最不重要的特征,得到新的子集空間Mi+1

(8)end for

(9)end for

(10)統計最高的交叉驗證分數得到最佳特征子集

1.4 貝葉斯優化的改進XGBoost

1.4.1 改進XGBoost

XGBoost的也是集成學習Boosting的一種,相比于GBDT,XGBoost對代價函數進行二階泰勒展開,并在代價函數中引入了正則項,用于控制模型的復雜程度。因此從原理上XGBoost的性能更好,更適合用作最終的異常檢測器。XGBoost的目標函數[15]是由訓練損失和正則化兩部分組成,訓練損失函數的定義如式(3)所示,正則化即樹的復雜度定義如式(4)所示,目標函數的定義如式(5)所示

(3)

(4)

(5)

對于二分類問題,XGBoost的默認損失函數為交叉熵損失(cross entropy loss,CE),定義為

(6)

交叉熵損失明確了誤差越大損失越大的準則,但是對于非平衡數據而言,總的交叉熵損失在多數類別樣本中更容易降低,對整個分類器性能卻沒多大提高。為了提高模型對少數類別樣本的學習能力,本文通過改變分類器的目標函數,引入代價敏感學習(cost sensitive learning,CS)函數[16]和聚焦損失(focal loss,FL)函數,從而改進分類器的性能。

代價敏感學習函數的定義為

(7)

(8)

式中:w為負例(negative,neg)多數樣本比正例(positive,pos)少數樣本的比例。代價敏感學習平衡了正負類的重要性,使得模型更加重視正樣本。

聚焦損失函數是由Lin等[17]提出,旨在解決one-stage目標檢測器樣本的類別不平衡問題和不同難易程度的樣本學習不平衡問題,聚焦損失函數的定義為

(9)

式中:γ為調節因子,降低容易分類樣本的權重,使分類器聚焦于難樣本的訓練。當γ等于0時,聚焦損失函數為一般的交叉熵函數。

本文將代價敏感度學習函數與聚焦損失函數結合,因此整個模型的損失函數為

(10)

損失函數的一階導gi和二階導hi為

(11)

(12)

此時對應近似的目標函數為

(13)

將式(5)代入式(9)進一步簡化得到

(14)

式中:Gj和Hj分別是關于近似損失函數一階偏導數和二階偏導數的累加之和。

1.4.2 貝葉斯參數優化

對于XGBoost的其它參數,如果單純靠手工調節參數,不但繁瑣復雜,而且算法也無法發揮出最好的性能。本文借助貝葉斯算法自動調節參數使算法達到最好的效果。貝葉斯優化[18]通過建立目標函數的代理概率模型,利用它來選擇最優的超參數,以對真實目標函數進行評估。貝葉斯優化在選擇超參數集時會考慮到以往的評估,通過以這種有先驗信息的方式選擇參數組合,模型將關注最有希望的驗證分數的參數空間區域。這種方法只需要較少的迭代次數就能獲得最佳的超參數值集,因為它忽略了那些不會帶來任何影響的參數空間區域。改進目標函數后的XGBoost的流程如圖4所示。

圖4 貝葉斯優化流程

2 實驗結果與分析

2.1 評價指標

本文研究的是航空異常事件的檢測與識別,因此真陽性(true positive,TP)即為航空異常事件樣本預測為異常的實例數量,假陰性(false negatives,FN)即為航空異常事件樣本預測為正常事件的實例數量,真陰性(true negatives,TN)即為航空正常事件樣本預測為正常著陸事件的實例數量,假陽性(false positive,FP)即為航空正常事件樣本預測為異常事件的實例數量。混淆矩陣說明見表2。

表2 混淆矩陣說明

對于非平衡數據而言,單一的準確率指標不足以反映模型的好壞,需要綜合考慮多數樣本和少數樣本分類的準確性[19]。因此本文采用靈敏性和特異性來分析混淆矩陣,使用ROC曲線和PR曲線圍成的面積來評估分類器的性能。所有的指標范圍都在[0,1]之間,越靠近1說明算法性能越好,反之則說明算法性能較差。各指標說明見表3。

表3 評價指標說明

2.2 實驗過程

本文的GBDT-RFE-CV算法在特征選取過程中設置了不同特征數子集,圖為不同特征子集的數目和交叉驗證分數,圖中豎線與曲線交叉的點為交叉分數最大的點,豎線所對應的橫坐標為所選取的最佳特征子集,在圖5中可以看出算法選取的最佳特征子集數為18,選取的特征參數如圖6所示,選取的特征反映了航空器的飛行狀態、飛機操縱和發動機狀態。飛行狀態的參數如垂直下降速率、俯仰角、加速度、雷達高度等,飛機員操作參數如剎車、操縱舵等,飛機發動機參數如低壓轉子N1、高壓轉子N2。

本文經過貝葉斯參數調節后的XGBoost超參數見表4。

本文改進XGBoost目標函數是在原始XGBoost的基礎上導入由式(11)、式(12)推導出的一階導數和二階導數,最終w取5,γ取2實驗效果最好。

圖5 GBDT-RFE-CV特征選取的分數與特征值數量

圖6 GBDT-RFE-CV選取的關鍵特征

表4 貝葉斯優化后的參數值及含義

2.3 實驗結果與分析

為了展示特征選取的必要性和對比經過貝葉斯調參后的改進XGBoost算法在航空異常事件檢測中的優越性,本文統計了各算法的精度、查準率、查全率、F1分數、ROC_AUC、PR_AUC、特征選取時間和各模型運行時間,繪制出各模型的ROC曲線和PR曲線。

2.3.1 改進對比

表5和圖7展示了算法改進的對比實驗,總共分為6組改進對比,分別為了對比混合特征選取、經過目標函數改變后的XGBoost和貝葉斯調參后的效果,其中本文的模型使用的是混合特征選取和貝葉斯優化的改進目標目標函數的XGBoost,整個模型流程首先使用SRCC刪除航空數據冗余特征,再結合異常標簽使用GBDT-RFE-CV以提取關鍵特征,然后通過導入由式(11)、式(12)自定義XGBoost的目標函數,最后使用貝葉斯算法來調節XGBoost的超參數。從表中可以從兩個方面看出算法改進后的提升效果。首先是特征選取時間和算法訓練時間,提升效果最明顯的對比是直接使用GBDT-RFE-CV關鍵特征選取和先使用SRCC刪除冗余再使用GBDT-RFE-CV混合的特征選取,特征選取時間從1 h 20 min降低到23 min 52 s,運行時間降低了71%。且經過特征選取后,對比原始數據模型訓練時間和測試時間都有所縮短,原始數據需66.82 s才能訓練模型,本文經過特征提取后訓練時間僅需24.56 s,訓練時間縮短了63%。這些都顯示出混合特征算法的必要性。第二從算法性能上對比,可以看出SRCC雖然在性能方面提升不明顯,但是特征選取耗費的時間上,SRCC僅需15 s就能刪除冗余特征,能很好降低特征選取時間。對比經過混合特征選取、改進XGBoost和貝葉斯調參后F1分數分別較XGBoost在原始數據的模型提升了0.09、0.19和0.22,ROC曲線圍成的面積分別提升了0.007、0.011和0.017,PR曲線圍成的面積提升了0.034、0.051和0.068,說明這3種改進方式層層遞進,顯示出這些改進的有效性。

表5 算法改進對比

圖7 改進對比的ROC曲線和PR曲線

2.3.2 不同模型性能對比

表6展示了改進目標函數后的XGBoost模型和其它機器學習算法的對比。為了對比本文模型的有效性,在航空著陸異常數據集上通過相同的混合特征提取,選用經典的5組機器學習算法作為對比實驗,這些算法及改進算法已經在航空數據異常檢測中初步應用,分別是K最近鄰[20](K-nearest neighbor,KNN)、決策樹(decision tree,DT)、隨機森林[6](random forest,RF)、多層感知機(multilayer perceptron,MLP)和邏輯回歸[3](logistic regression,LR)算法。對比算法都是直接從sklearn庫[21]中直接調用,本文的模型是在原始XGBoost庫的基礎上自定義目標函數后經過貝葉斯超參數調節得到。從中可以看出KNN、MLP、LR這些算法的Recall、F1分數很低,說明這些算法不能很好檢測出全部的異常。再對比幾種樹模型,可以看出單一樹來做異常檢測的決策樹算法在查準率和查全率都比不上基于Bagging模型的隨機森林算法和基于Boosting模型的XGBoost算法,說明單一的決策樹算法在航空數據異常檢測上效果并不好。此外還可以看出基于Bagging方式的隨機森林算法能大幅提升檢測效果,但是相對比于基于Boosting方式的XGBoost算法,隨機算法除了查全率之外其它指標都比XGBoost要差。表6中也可以看出本文提出的模型異常檢測性能均優于其它算法。

表6 不同模型性能對比

3 結束語

本文提出了一種基于機器學習的航空著陸異常事件檢測模型。相比于民航業常用在單維數據中使用閾值分析的方法,本文通過提取多維數據的特征,使用機器學習模型從航空數據中檢測異常。本文方法包括數據預處理、刪除冗余特征、提取關鍵特征、改進XGBoost模型的目標函數、超參數優化、建模評估一系列過程。實驗使用了數據匹配得到異常標簽從而統一的評估各算法模型性能。經過實驗對比可以看出,本文提出了混合特征選取的方法對于航空高維數據是有效且必要的,節省了特征提取的時間。在異常檢測模型評估中,本文引入代價敏感學習函數和聚焦損失函數來改進XGBoost目標函數,并通過貝葉斯參數優化XGBoost模型,實驗結果表明,本文模型能夠有效的檢測出航空異常著陸事件。然而本文的工作仍存在一些不足,本文的工作僅僅是檢測異常,而從數據中發現可能導致異常的因素,從而挖掘出更有價值的信息是下一步的工作。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 3D动漫精品啪啪一区二区下载| 国产精品一区二区久久精品无码| 欧美三级视频在线播放| 欧美有码在线观看| 国产综合网站| 超碰免费91| 国产浮力第一页永久地址| a天堂视频| 无码专区在线观看| 欧洲成人免费视频| 国产欧美一区二区三区视频在线观看| 中文字幕调教一区二区视频| 成人免费黄色小视频| 狠狠综合久久| 3344在线观看无码| 熟妇丰满人妻av无码区| 国内熟女少妇一线天| 国产亚洲欧美日韩在线一区二区三区| 69免费在线视频| 亚洲人成色77777在线观看| 国产青青操| A级全黄试看30分钟小视频| 亚洲人妖在线| 国产视频 第一页| 日本久久免费| 九色在线视频导航91| 国产午夜精品鲁丝片| 亚洲婷婷丁香| 国产成人精品高清不卡在线| 国产小视频在线高清播放| 丁香六月激情婷婷| 性色一区| 亚洲欧洲日韩综合| 99国产精品国产高清一区二区| 欧美全免费aaaaaa特黄在线| 亚洲首页国产精品丝袜| 欧美日韩精品综合在线一区| 午夜高清国产拍精品| 538国产在线| 亚洲精品色AV无码看| 国产精品99一区不卡| 五月天香蕉视频国产亚| 毛片免费网址| 超清无码一区二区三区| 国产另类乱子伦精品免费女| 久精品色妇丰满人妻| 免费高清毛片| 日本高清在线看免费观看| 日韩精品一区二区深田咏美 | 素人激情视频福利| 欧美第九页| 久久久国产精品无码专区| 国产成人狂喷潮在线观看2345| 强奷白丝美女在线观看| 国产99免费视频| 三上悠亚一区二区| 99国产精品一区二区| 亚洲日韩AV无码一区二区三区人| jizz国产在线| 国产69囗曝护士吞精在线视频| 国产欧美在线观看视频| 欧美精品综合视频一区二区| 综合社区亚洲熟妇p| 午夜精品区| 国产无码高清视频不卡| 久久狠狠色噜噜狠狠狠狠97视色| …亚洲 欧洲 另类 春色| 91久久精品国产| 日韩毛片视频| 九九热视频精品在线| 成人午夜免费观看| 国内熟女少妇一线天| 无码精品福利一区二区三区| 国产AV无码专区亚洲A∨毛片| 一区二区在线视频免费观看| 亚洲精品第五页| 十八禁美女裸体网站| 高清亚洲欧美在线看| 精品自拍视频在线观看| 亚洲熟女中文字幕男人总站 | 国产精品综合久久久| 无码人妻免费|