李剛 杜冬 翟羽佳


摘要:飛行數據分析是進行飛行品質評估的基礎,通過對Garmin-1000航電系統中數據的研究,發現飛行氣壓高度數據存在野值的情況,通過閱讀相關處理野值的文獻以及根據飛行訓練中的飛行特點,文章建立合適階數的多項式擬合方程對進行高度數據擬合,由于高度數據不符合萊特準則判斷野值的標準,提出利用區間平均殘差進行野值判斷,通過樣本擬合運算的結果發現,此方法可以很好的將野值點判斷出來。
Abstract:? Flight data analysis is the basis for flight quality evaluation. Through the study of the data in the Garmin-1000 avionics system, it is found that there are outliers in the flight pressure and altitude data. By reading the relevant documents dealing with outliers and according to flight training, the article establishes a polynomial fitting equation of suitable order to fit the altitude data. Since the altitude data does not meet the wright criterion for judging the outliers, it proposes to use the interval average residuals to judge the outliers. Through the sample fitting operation of the results, it is found that this method can well judge the outliers.
關鍵詞:Garmin-1000;多項式回歸;飛參數據;最小二乘法
Key words: Garmin-1000;polynomial regression;flight data;least square method
中圖分類號:V355.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)27-0152-03
0? 引言
近些年隨著通用航空的發展,飛行訓練數據也被廣泛應用,例如飛行品質的評估,超限事件判斷,分析發動機數據輔助機務維修等,這些都是基于飛行數據的分析,但是飛行數據在研究時需要對數據的可用性進行研究,比如數據中常出現漏采集和出現野值的情況。野值是指在對實際記錄的飛參數據的檢查中發現,經常有部分參數值存在明顯的異常值,而通過檢查相關設備又證明工作情況未出現異常,我們把這類數據稱為野值[1]。對于野值識別的研究早先姚本軍提出了關聯參數法,但是這種方法總體上還是從宏觀的角度進行分析[1],后來康健利用最小二乘和多項式結合的方法擬合飛機油量數據曲線剔除曲線中的野值[2]。李映穎采用了多項式、RBF神經網絡與最小二乘相結合的方法擬合發動機轉速數據,剔除野值并利用Matlab實現[3]。王玉偉改進了經典最小二乘法對預測值和真實值之間的距離進行限定,針對擬合數據起伏較大的情況[4],效果良好。他們研究的總體的思想都是利用殘差和標準差之間的數量關系進行野值判斷或是對小樣本數據的野值進行判斷,基于的原理是當數據符合正太分布時可以使用萊特準則對野值進行判斷,萊特準則是指當數據服從正態分布時可以利用殘差和標準差進行野值的判斷,但是通過lillietest檢驗(p<0.5),高度數據不符合正太分布,基于這種情況本文提出利用等區間的方法擬合數據并且利用區間殘差的平均值與單個點的殘差值判斷野值,通過運算對比,發現可以較好的將野值點識別出來。
1? 最小二乘多項式回歸擬合
在閉區間內任何確定性連續函數,都可以用區間內的代數多項式按要求精度一致逼近,進行非線性擬合[6],為了更好地擬合各個點一般采取同時結合最小二乘法的思想對系數進行求解。最小二乘法在工程中處理數據被廣泛引用,目的是設定一個擬合數據方程使其所估算的數據和實測數據之間的差值平方和最小[7],尋求最優的方程參數解。以m次多項式為例,求解過程如下:
1)
以時間tk為自變量,則高度時刻數據就可以用如下公式表示:
(2)
將式(2)利用系數矩陣B和時間變量矩陣X表示,轉化為公式(3)
(3)
令方差為S,目標方程:
將B看做變量取極值,則式(3)的最小二乘解就是:
這就是最小二乘法的原理,利用估計出B^的對數據進行預測,殘差。
2? 等區間計算法
Garmin-1000航電系統是cessna-172等小飛機常裝備的一款航電系統,在飛行過程中該系統會把飛行數據、發動機數據、通信、導航頻率等數據都會記錄在其自帶的Secure Digital Card中(下文簡稱SD卡數據),記錄的時間間隔是1秒,通過對所記錄的飛行數據可視化發現在飛行高度數據存在野值的情況,并且野值奇異特點比較明顯,與正常值差距大。由于飛行訓練過程中一次SD卡所記錄的數據是3-4小時的數據,數據量大,如果進行一次擬合將會造成數據擬合精度差導致誤差對野值進行識別的情況,所以文章利用等區間的計算方法對數據進行處理。
飛行高度數據分為起飛、爬升、平飛和降落等幾個階段,在起飛和爬升、降落等階段高度曲線是近似直線的狀態,在平飛中由于氣壓數據的不穩定性數據呈現出起伏連綿的曲線,基于總體飛行高度曲線的狀態以及防止過擬合的出現,本文選用二次多項式對數據進行分段擬合,對于二次方程方程的求解直接利用matlab中的函數即可,但SD卡中的飛行數據記錄的一般是一個上午或下午的飛行數據,這會造成數據量大、維數高,如果進行一次擬合顯然得出的結果會非常差而且預測精度也會受影響,所以在計算過程中設定5秒為一個間隔,先取時刻[t1,t2…t5]和其對應的高度對此階段的回歸系數行估算,然后利用所得出的系數通過擬合方程估算對應時刻的值,在計算得出的值中取中間值作為擬合方程的第3個值,接著選取下一個區間[t2,t3…t6]估算第4個值,以此類推后會得到,最后的和直接利用和進行估算。
野值判斷:
最小二乘法在一個區間內進行擬合時目的是使這一區間的殘差最小,導致同一區間的殘差存在關聯性,不能直接在預測區間進行判別。文章提出利用整體數據的區間平均殘差來進行判斷,假設擬合的區間為N個,則N個區間的平均值即為公式(4)所示。工程中常使用3?啄-5?啄為參考值區間,根據SD卡數據野值的特點以及本文選擇的擬合階數,本文規定當tk時刻的殘差?駐H屬于[-5?啄,5?啄]時判斷為正常值,這個區間之外的即判斷為野值,并利用相鄰時刻的高度數據的中值進行代替,如公式(5)所示。
3? 實現過程與結果對比
利用matlab對SD卡中的數據進行提取并處理,SD卡數據主要以csv格式的方式對數據進行儲存,數據類型有時間數據類型、字符串類型和數值類型并以逗號隔開,整體數據類型多樣,可以利用fopen函數和textscan函數將整體數據以二進制的方式訪問讀取,并matlab內置函數對數據進行計算,實現過程以某csv文件為例如圖1所示。
通過以上的計算流程對高度數值進行擬合,計算得出的每秒的殘差如圖2所示,由于受到野值的影響在野值時刻附近的殘差變成了負值。計算得出的?啄值為0.0269,大于5?啄的兩個點的殘差分別為351.0342和59.0428下標簽分別是14:32:03和15:25:38,這兩個時刻的高度分別是2201英尺和6615英尺,通過比較確實是對應野值的兩個點,同時利用公式(4)對野值進行代替,得到的結果如圖3所示。
4? 總結
文章分析了garmin-1000系統中的SD卡中的飛參數據格式和類型,利用matlab對csv格式的數據進行提取,由于數據量大維數高的特點,利用等區間處理數據的方法對數據進行擬合。為了降低野值對擬合區間的影響以及防止過擬合選用了2次多項式作為擬合函數,利用最小二乘的方法對預測函數的系數進行求解,從結果中可以看出利用區間平均殘差對野值進行判斷效果良好。
參考文獻:
[1]李映穎,姚本軍,鄭衛東,殷合香.飛參數據的野值與故障值的判別研究[J].計量與測試技術,2009,36(09):3-4.
[2]康健.一種利用飛參數據優化計算燃油量的方法[J].技術與市場,2017,24(07):126-127.
[3]李映穎,譚光宇,曲建嶺,殷合香,姚海燕.飛行參數野值點的預處理[J].計量與測試技術,2008(08):17-18.
[4]王玉偉,高永.基于穩健回歸算法的無人機數據預處理技術研究[J].艦船電子工程,2018,38(11):38-41.
[5]陳韋名.曲線擬合原理及其應用研究[D].長沙理工大學,2018.
[6]邸亞洲,秦永元,尚希良,曲建嶺.基于多項式回歸算法的飛參記錄數據預處理研究[J].測控技術,2008(04):21-22.
[7]張強.最小二乘法原理及其處理方法的探討[J].計量與測試技術,2020,47(04):75-76.
基金項目:2019年大學生創新創業項目(項目編號S201910624109)。
作者簡介:李剛(1994-),男,安徽馬鞍山人,碩士研究生,主要研究方向為飛行數據分析。