陳靜杰,梁國棟,劉家學
(1.中國民航大學 電子信息與自動化學院,天津 300300;2.中國民航大學 中國民航環境與可持續發展研究中心(智庫),天津 300300;3.中國民航大學綜合交通大數據應用技術國家工程實驗室,天津 300300)
國際民航組織要求飛機運營人聘請第三方核查上報油耗數據的合理性,第三方可采用區間估計方法篩選出合理性較高的數據,然而,隨著油耗數據基數增大,區間外的截尾油耗數據量也隨之升高,且其分布的稀疏性及非正態性導致傳統的油耗區間估計方法[1,2]不再適用,因此,有必要建立針對航段截尾油耗數據的核查方法。
飛機油耗估計是建立相關核查方法的基礎。當前,國內外學者對飛機油耗估計的研究主要有兩個方面,其一,針對特定飛行階段的油耗估計,如滑行[3]、爬升[4]、巡航[5]、下降[6]等。其二,基于飛行數據驅動飛機性能模型[7,8]、深度學習模型[9,10]的全航程油耗估計。特定飛行階段的油耗估計方法較難直接應用于油耗數據核查,而將全航程油耗估計方法應用于油耗數據核查的難點在于:特征選擇和建立快速、準確的估計模型。傳統的飛行特征選擇方法以經驗分析、相關性系數為主,具有局限性,其它特征選擇及改進方法包括:卡方檢驗[11]、最小冗余最大相關性(mRMR)[12]、基于樹的方法[13]等,主要是單獨衡量數據集中每個特征與目標值相關性的大小。然而,存在某些特征在樣本集整體上與目標值的相關性較弱,但在樣本集局部上卻與目標值表現出較強的相關性。因此,常規的特征選擇方法容易遺漏重要的局部特征。此外,諸多全航程油耗估計方法對于飛機處在正常運行條件范圍內的估計效果較好,但航段截尾油耗數據分布于低油耗和高油耗區間,其運行條件相對特殊,傳統油耗估計方法對該類數據的估計準確度不高。
針對上述問題,本文提出了基于分類和沙普利加性解釋(classification and Shapley additive explanations,C-SHAP)的改進分位數回歸森林區間估計方法(quantile regression forest,QRF),可提高估計區間質量。
由于航段截尾油耗數據的特殊性,基于單因素的油耗估計方法難以對該部分數據的合理性做出正確判斷。因此,需考慮其它與油耗相關的飛行特征,建立基于多因素的油耗估計方法,進而從多個角度核查該部分數據,而選擇合理的輸入特征集對估計方法至關重要。本文提出通過對特征、樣本集分類并結合SHAP模型的方法篩選出最優的飛行特征集。
SHAP模型[14]計算特征重要性的核心思想來源于博弈論,即確定各輸入特征對估計結果的貢獻程度。設:M維的初始特征集為F={x1,x2,…,xM}, 其中,xi代表飛行特征i的值,SHAP通過一種加性特征歸因方法解釋模型的估計值
(1)
式中:f(x) 是模型的估計值;g是解釋模型;z′∈{0,1}M, 即當輸入特征xi存在時z′i為1,反之為0;φ0是訓練樣本中目標變量的平均值,本文的目標變量是油耗;φi是特征i的SHAP值,SHAP值的具體計算步驟如下:
(1)根據初始候選飛行特征集F構建其冪集S,M維的特征集F共有2M個冪集。
(2)在所有冪集S上訓練基線模型,由于本文采用的油耗估計模型是分位數回歸森林,因此,其基線模型是隨機森林回歸。可得到在冪集S上的估計fS,fS∪{i}是在該冪集中引入新的特征i而構建的新冪集上的估計。進而計算特征i在該冪集模型上的邊際貢獻fS∪{i}(xS∪{i})-fS(xS), 其中,xS是該冪集S的所有特征值。
(3)特征i的SHAP值φi是所有可能邊際貢獻的加權均值

(2)

(4)根據SHAP模型的核心思想,具有較大SHAP值的特征更為重要,特征i的重要性(FI)表示為
(3)
式中:n為訓練樣本的數目。
C-SHAP方法進行特征選擇的步驟如下:
(1)首先,將候選飛行特征按其性質分為全航程和飛行階段油耗影響特征兩類。由于全航程特征與飛機油耗間具有明確的強相關性,全部予以保留。
(2)其次,將樣本集按航段分類。采用SHAP模型分別在各航段樣本子集上選擇給定閾值數量下的飛行階段特征子集。
(3)再次,將各航段的飛行特征選擇結果取并集,計算各特征的權值,并進行重要性排序,進一步選擇出給定閾值數量的最優飛行階段特征子集。
(4)最后,綜合全航程特征集與最優飛行階段特征子集獲得最優輸入飛行特征集。
對航段截尾油耗數據進行區間估計時,由于樣本集中的航段截尾油耗樣本相對較少(注:本文將每個航段油耗樣本集中小于0.05分位、大于0.95分位油耗值的樣本定義為航段截尾油耗樣本),而QRF進行估計的原理如圖1所示,需通過Bootstrap抽樣方法得到多個樣本子集以建立不同的決策樹,進而構建森林。在這種情況下,每棵決策樹葉子中的航段截尾油耗觀測樣本數目進一步減少,導致QRF模型對該類數據的估計結果偏高或者偏低。因此,本文采用在解決高維樣本類別不平衡問題中相對有效的隨機過采樣算法[15](random oversampling,ROS)重構樣本集,即增加訓練集中航段截尾油耗樣本的權值,以提高模型在面向航段截尾油耗數據估計時的準確性。
由于訓練集中航段截尾油耗樣本相對較少,需使用較高的過采樣率,然而隨著過采樣率的增大,會引入噪聲,造成過擬合問題,因此,在盡可能提高航段截尾油耗樣本權值的同時要確定最大過采樣率。本文提出基于網格搜索的過采樣率尋優方法,其原理如圖2所示,其核心思想在于通過遍歷網格中的過采樣率,不斷重構訓練集進行區間估計和評價,在保證滿足可靠性的前提下尋找最大過采樣率。

圖2 網格搜索確定最大過采樣率原理框架
本文在采用C-SHAP方法進行特征選擇、隨機過采樣方法重構訓練集的基礎上,建立了QRF航段截尾油耗區間估計模型,通過輸入飛行特征數據,估計該航班油耗的條件分位數,進而構建一定置信度的油耗估計區間。
QRF由隨機森林結合分位回歸理論發展得到,可獲得因變量的全部條件分布信息,相較于深度學習模型具有運算速度快、魯棒性強等優點。
隨機森林算法可看作是一個適應性近鄰分類和回歸的過程。設:訓練集 {Xi,Yi},i=1,2…n, 其中,Xi=[Xi,1,Xi,2,…,Xi,M] 是M維的輸入飛行特征向量;Yi是在該飛行特征條件下的油耗目標值;n是樣本量;隨機森林由k棵決策樹構成,本文采用的決策樹是CART回歸樹;θ是決定森林中每棵樹生成的參數向量,則該決策樹可表示為T(θ); 其葉子節點為。 當給定新的飛行特征輸入向量x,按照T(θ) 的劃分規則,可確定唯一的葉子節點(x,θ), 該葉子中每個觀測樣本的權重為
(4)
式中:R是該葉子節點對應的特征空間。對于森林而言,每個觀測樣本在k棵樹上的權重均值為
(5)
隨機森林對條件期望E(Y∣X=x) 的估計是由k棵樹上相應葉子中觀測樣本的加權平均近似
(6)
類比隨機森林對條件期望的近似過程,目標值y的條件分布估計可表示為
F(y∣X=x)=P(Y≤y∣X=x)=
E(1{Yi≤y}∣X=x)
(7)
利用觀測樣本的權重均值來逼近目標值的條件分布,其分布函數為
(8)
由此,QRF對α分位下的條件分位數估計為

(9)
航段截尾油耗數據區間估計方法流程如圖3所示。利用航班QAR(quick access recorder)數據作為初始數據源,獲得油耗及相關的飛行特征數據。首先通過C-SHAP方法選擇給定閾值數量的輸入飛行特征集。隨后,通過對航段截尾油耗訓練樣本隨機過采樣以增加該類樣本在訓練集中的權重,并通過網格搜索法確定最大過采樣率。

圖3 航段截尾油耗數據區間估計方法框架
QRF模型通過估計給定上、下限油耗條件分位數構建估計區間,基于重構訓練集,通過網格搜索和k-折交叉驗證的方法獲得模型的最優超參數,完成航段截尾油耗數據區間估計模型的建立。
最后,基于航段截尾油耗測試數據得到各航班油耗的估計區間,并采用相應的評價指標對估計區間質量進行評價。
采用估計區間可信度(estimation interval coverage probability,EICP)、估計區間歸一化平均帶寬(normalized mean estimation interval width,NMEIW)以及綜合指標(coverage width based criterion,CWC)[16]評價模型的估計性能。
(1)估計區間可信度
EICP指真實值落入估計區間的概率,是估計區間可靠性的表征
(10)
(11)
式中:Ui和Li是估計區間的上、下限;n為測試集的樣本量。
(2)估計區間歸一化平均帶寬
如果僅追求EICP,估計區間的上下包絡線將接近極值,那么得到的估計區間對決策者毫無意義。在相同的EICP下,較窄的估計區間質量更高,為此,引入NMEIW來衡量估計區間的寬窄
(12)
式中:R為測試集的變化范圍,用于對平均帶寬做規范化處理。
(3)綜合指標
區間估計的目標是較高的EICP和較窄的NMEIW,然而從理論上看,這兩個目標相互矛盾,因為一旦NMEIW減小,EICP理應隨之減小,為合理評價估計區間的質量,引入綜合指標定量表示二者的權衡情況。
CWC=NMEIW×(1+γ×e(-η×(EICP-μ)))
(13)
(14)
式中:μ表示置信度,本文取μ=0.9;η用于EICP小于μ時施加的懲罰量,本文取η=50;γ判斷是否需要對當前估計區間懲罰。
本文使用某飛機運營人2012年、2013年A330機型共8152次航班的QAR數據作為初始數據源,使用其提取、計算油耗及相關的飛行特征參數見表1。由于滑行階段、離場起飛階段、著陸滑跑階段的飛機油耗占比相對其它飛行階段較少,對油耗總量影響不顯著。因此本文未考慮這些階段的飛行特征。候選飛行特征選取原則是:從飛機性能、運行方式以及飛行環境等角度盡可能多提取與油耗相關的特征。

表1 候選飛行特征及計算該特征所需的QAR參數
將油耗及初始候選飛行特征集按大圓距離劃分為不同航段子集,分別取每個航段中小于0.05分位和大于0.95分位油耗值的數據作為航段截尾油耗樣本集,并取其20%作為測試集,共116次航班,測試集外的其余數據作為訓練集,共8036次航班。
SHAP模型的基學習器為隨機森林,其參數設置為:決策樹數目為100;隨機特征數為輸入特征數的平方根;葉子尺寸為1。C-SHAP方法對飛行階段特征的重要性排序如圖4所示。

圖4 飛行階段特征重要性排序
設置飛行階段特征選擇的重要性閾值為6,再綜合全航程飛行特征,則基于C-SHAP方法得到的最優特征子集為:大圓距離、輪擋時間、起飛重量、飛行距離、巡航地速、巡航總溫、巡航高度、巡航馬赫數、下降距離、爬升距離。

基于網格搜索確定的最大過采樣率為3,即生成2511個航段截尾油耗樣本,其余油耗樣本數目不變,則重構訓練集共包含9730個樣本。
為了得到估計性能較好的QRF模型,需尋找相對較優的主要超參數組合:決策樹數目、隨機特征數目和葉子尺寸。隨機特征數目一般按經驗設置為全部特征數的平方根;其余較優的超參數通過網格搜索和5-折交叉驗證獲得,且將CWC作為交叉驗證的評價指標,超參數網格設置見表2。

表2 超參數網格設置
得到較優的超參數組合為:決策樹數目是500;隨機特征數是3;葉子尺寸是5。90%置信度的估計區間下限、上限的分位點設置為:0.05、0.95。
在90%置信度下,本文所提方法基于航段截尾油耗測試集的區間估計結果如圖5所示,為了清晰展示油耗區間估計結果,將航段截尾油耗測試樣本按油耗值升序排列。

圖5 區間估計結果
為驗證本文所提方法的有效性,另選取常規的特征選擇方法:斯皮爾曼秩相關系數(Spearman)、最小冗余最大相關性(mRMR)、隨機森林(RF),在給定特征閾值數目為10的條件下進行特征選擇,結果見表3。

表3 各方法的最優特征選擇結果
然后,結合QRF方法構建3種航段截尾油耗區間估計對比方法,即Spearman-QRF、mRMR-QRF、RF-QRF,以驗證本文所提特征選擇方法的有效性。在使用隨機過采樣方法重構訓練集前,通過測試集得到各方法的估計區間評價結果見表4。

表4 重構訓練集前各方法的估計區間評價結果
表4顯示,3種對比方法的EICP均低于90%置信度,造成相對較高的CWC,估計區間質量較差,本文方法的EICP高于90%置信度,雖然NMEIW相對較高,但具有相對較小的CWC,估計區間質量較好。究其原因,是對比模型的特征選擇不夠合理造成,從表3可以得知,各種特征選擇方法均選取了所有全局特征,這是由于全航程特征對航班油耗影響顯著且各特征間沒有冗余,然而,在飛行階段特征的選擇上卻不盡相同,一個顯著的區別在于巡航地速,3種對比方法認為巡航地速特征的重要性較小,而C-SHAP方法認為巡航地速對油耗影響顯著。可直接應用航段截尾油耗測試集來分析模型進行估計時巡航地速特征對其影響情況。對于一個航段內的測試樣本,巡航地速特征與其SHAP值的關系如圖6所示,具有較強的線性相關性,其值越小,SHAP值越大,對模型估計結果起正向作用,即模型的油耗估計值越大,而其值越大,SHAP值越小,對模型估計結果起負向作用,即模型的油耗估計值越小,驗證了巡航地速特征對模型估計及飛機油耗量具有重要影響。

圖6 巡航地速與其SHAP值關系
巡航地速對油耗的影響也可從理論上進行說明,如圖7所示,根據飛機的地速、空速、風速的矢量三角關系,在巡航過程中,飛機的空速會穩定在一個定值附近波動,這時如果飛機順風,地速相對較高,完成一定的地面距離時油耗較少,如果飛機逆風,則地速相對較低,完成一定的地面距離油耗較高。因此,巡航地速可謂是間接反映了飛機飛行過程中受風的影響情況,與油耗密切相關,這也說明了采用C-SHAP方法進行特征選擇的合理性。
利用隨機過采樣方法重構訓練集后,基于航段截尾油耗測試集得到各方法的估計區間評價結果見表5。

表5 重構訓練集后各方法的估計區間評價結果
從表5可以看出,經過隨機過采樣處理后,縮小了4種方法的估計區間寬度,并且3種對比方法的EICP并未因此減少,從而在一定程度上降低了CWC,而本文方法的EICP雖有所減少,但可保證大于90%置信度,在滿足估計可靠性的前提下,縮小了區間寬度,提高了估計區間質量。
(1)本文首先針對飛機油耗估計中存在特征選擇不夠合理的問題,提出了C-SHAP特征選擇方法,相較于傳統以及改進的特征選擇方法,可識別出重要的局部特征。其次,利用隨機過采樣方法在數據層面上改進了QRF模型,使該模型的估計更有針對性。
(2)C-SHAP方法適用于特征集和樣本集可分類的特征選擇問題上。基于隨機過采樣改進的QRF方法可應用于非正常情況下目標值的區間估計問題。
(3)目前,采用隨機過采樣方法處理高維類別不平衡樣本相對有效,也可研究其它更為精確的采樣方法。