






摘 要: 針對飛行器動力系統中固體發動機性能實驗的諸多限制, 如高成本、 專業設備需求、 特定實驗環境、 高風險性等問題, 本文提出了一種基于深度元學習的人工智能方法, 用于發動機性能預測。 該方法采用模型不可知元學習(Model-Agnostic Meta-Learning, MAML)和深度卷積神經網絡(Deep Convolutional Neural Networks, DCNN)模型, 首先根據不同實驗條件劃分推力-時間數據為不同訓練任務, 通過內循環訓練得到各任務最佳模型參數, 在外循環中更新模型初始化參數, 內外循環迭代優化后, 獲得了能夠高精度預測固體發動機總沖的模型, 最后用新任務進行測試。 測試結果顯示, 相較于無元學習的DCNN, 該方法在測試集上的誤差顯著下降, 百分比誤差最大為2.27%。 證明了元學習模型在小樣本條件下對固體發動機性能的高精度預測能力。
關鍵詞: 固體發動機; 發動機性能; 元學習; 模型不可知元學習; 深度卷積神經網絡
中圖分類號: TJ760; V23
文獻標識碼: A
文章編號: 1673-5048(2024)05-0110-05
DOI: 10.12132/ISSN.1673-5048.2024.0089
0 引 言
固體發動機作為飛行器動力系統的重要組成部分, 為飛行器提供了強大的推力, 確保了飛行器的穩定飛行和高效性能。 固體發動機具有操作簡單、 存儲方便、 可靠性高等優點, 廣泛應用于火箭、 導彈以及宇宙飛船等領域。 固體發動機的總沖是衡量其性能的一個關鍵指標[1], 總沖是指發動機在一個工作循環中所做的功, 是提供給飛行器的總動量, 從而影響到整個飛行器的飛行性能和射程。 通常情況下, 對發動機進行推力實驗, 由傳感器采集發動機推力數據, 再將其處理成推力-時間曲線, 推力對工作時間進行積分, 從而得到發動機總沖。
由于固體發動機地面實驗的成本較高, 在實驗中很難采集到足量有用的推力數據, 所以難以通過推力-時間數據得到總沖。 傳統的深度學習對數據量依賴較大, 導致采用深度學習模型的效果并不理想。 為能得到泛化能力較好的人工智能模型以及更準確的預測性能, 引入深度元學習方法, 開展了基于深度元學習的人工智能發動機性能預測方法。
元學習也稱“學會學習”(Learning to learn), 是一種基于任務的學習方式, 目的是發現并合理利用已有的先驗知識, 在面對新任務時能取得良好表現。 相對于元學習, 傳統的深度神經網絡雖然在擁有大量數據集和足夠的計算資源時, 能夠取得很好的效果, 但是其可擴展能力差、 對新任務處理困難、 需要大量數據訓練模型, 在快速學習新概念方面的能力很有限。 而元學習模型能夠較好地推廣到訓練新環境上, 并且在小樣本數據的任務上也有很好的表現[2-4], 能夠將深度神經網絡與具有自我學習能力的元學習聯系起來, 使網絡學會怎樣去學習。 Luo等[5]提出了一種三元組關系網絡(TRNet), 通過迭代學習幾個相關的元任務進行跨組件的小樣本故障診斷。 Rivas-Posada等[6]提出了XC8XK1cOoS7fa7jxwjRdkg==一種元無監督算法, 通過解決任務來獲取知識, 以此推薦初始參數來解決其他新任務。 Vettoruzzo等[7]提出了一種新的元學習框架, 該框架可以通過當前任務調節模型來處理多模態任務, 從而更快地適應新任務。 萬鵬等[8]提出了一種基于元學習的刀具磨損預測方法, 采用元學習算法來優化融合模型的損失函數以最大化利用數據和機理所提供的信息。 結果表明,
所采用方法能有效提高在不同工況下的刀具磨損預測精度和穩定性。 Wang等[9]引入了元學習來增強所采用模型
收稿日期: 2024-05-24
基金項目: 遼寧省屬本科高?;究蒲袠I務費專項資金資助
作者簡介: 崔研(1998-), 女, 遼寧大連人, 碩士研究生。
*通信作者: 楊慧欣(1985-), 女, 遼寧沈陽人, 博士, 副教授。
在多任務領域的泛化能力, 實驗結果表明, 元學習方法能夠有效適應多任務, 并提高了刀具磨損的預測結果值。 Huang等[10]將元學習引入到工業的視覺檢測中以解決異物數據難以采集和積累的問題, 同時通過參數優化策略更新模型權重, 使得元學習模型在面對樣本較少的新任務時也能夠更有效地學習。 夏鵬程等[11]將元學習引入到故障診斷領域以解決難以獲取充足故障數據樣本的問題。 結果表明, 在所有故障中, 僅僅提供非常少的樣本(如1個、 5個)均能達到較高的準確率。 Minot等[12]利用元學習方法來克服蛋白質工程中嘈雜和標記不足的數據, 并加快抗體工程的工作流程。 航空兵器 2024年第31卷第5期
崔 研, 等: 基于深度元學習的固體發動機性能預測方法研究
由此可知, 元學習方法適合于難以用深度學習直接解決的小樣本問題。 具體的方法主要有三類: 基于度量的元學習、 基于模型的元學習、 基于優化的元學習。 基于度量的元學習是一種通過度量來學習不同新舊任務之間的相似性以達到模型快速適應新任務的目標。 其主要代表模型是Vinyals等[13]開發的MatchingNet模型。 主要通過在嵌入特征空間時利用余弦距離進行度量相似度來實現, 使得在特征空間中, 相似的數據點靠得更近, 不相似的數據點離得更遠。 基于模型的元學習的核心思想是能夠快速將模型收斂到適用于每個任務的最優結構, 其中代表模型是Ravi等[14]開發的Meta-Learner LSTM模型, 主要通過LSTM模型學習一個用于更新另一個神經網絡模型內部結構的優化算法。 基于優化的元學習的核心思想是學習一種優化策略, 從而幫助模型在新任務上更快速地收斂到最優解。 其主要代表模型是Finn等[2]開發的MAML模型。 主要通過尋找對所有任務都較為敏感的初始化模型參數, 使模型能夠在新任務上快速適應, 提高學習效果。
然而, 到目前為止, 元學習還沒有被用于預測固體發動機的總沖問題。 傳統的總沖預測方法通常需要大量的標記數據來進行訓練和參數調整, 以及大量的數據樣本來實現最佳的網絡預測性能, 同時還需要大量的計算資源。 本文提出了一種基于元學習深度卷積神經網絡(Meta-learning Deep Convolutional Neural Networks, MDCNN)的人工智能方法, 能夠有效解決飛行器動力系統由于實驗成本較高而無法采集到大量有效數據的問題, 同時可以在不需要額外數據采集的情況下, 減少在面對新任務時訓練模型所需的時間, 有效提高模型的性能、 泛化能力以及魯棒性。
1 基本原理
1.1 MAML的基本原理
模型不可知元學習方式(Model Agnostic Meta- Learning, MAML)是一種與模型無關的元學習算法。 它適用于任何使用梯度下降法更新參數的模型, 通過從多個相關任務中快速學習并適應新任務來優化模型的性能。 與傳統的機器學習方法相比, MAML更注重利用不同任務間的共性知識, 以加速新任務的學習過程。 MAML算法不是針對特定任務進行訓練, 而是通過對多個相關任務的學習, 不斷更新模型參數, 優化模型性能, 使得模型在面對新任務時, 能夠迅速適應并表現出良好的性能。
MAML 的關鍵思想是得到最優的模型初始化參數。 MAML訓練過程中, 通過對大量任務進行訓練, 對每一個任務都進行參數更新, 最終得到一個最優的初始化參數, 使得模型在新任務上通過少量的梯度下降步驟就能快速適應, 并在新任務上表現出最好的性能。 MAML的訓練流程如圖1所示。
MAML算法通常由內循環與外循環構成。 內循環中先初始化模型參數, 然后在每個任務的支持集上對模型進行訓練, 更新模型參數, 最后在查詢集測試, 計算損失, 檢測模型在新的樣本上的性能。 外循環中MAML根據所有任務的查詢集損失的平均值或總和, 使用梯度下降法更新模型初始化參數。
對于幾個訓練任務進行元訓練, 在內循環上的參數更新過程如下:
θ′i=θ-αΔθLTi(fθ)(1)
式中: θ′i是任務; Ti的最優參數; θ為初始化參數; α為內循環學習率; ΔθLTi(fθ)為任務Ti的梯度。
在外循環上的參數更新過程如下:
θ=θ-βΔθ∑Ti-p(T)LTi(fθ′i) (2)
式中: θ為適合所有任務的最優初始化參數; β為外循環學習率; Δθ∑Ti-p(T)LTi(fθ′i)為所有任務累計的梯度。
1.2 DCNN模型
深度卷積神經網絡(Deep Convolutional Neural Networks, DCNN)是人工智能領域中一種重要的前饋神經網絡。 DCNN通常由多個卷積層、 激活函數層、 池化層以及全連接層組成。 卷積層負責提取數據的局部特征; 激活函數層引入非線性因素, 增強模型的表達能力; 池化層則進行下采樣操作, 降低數據的維度和計算復雜度; 全連接層通常位于網絡的末端, 用于整合前面層提取到的特征并進行最終的分類或回歸任務。
DCNN的工作原理可以概括為前向傳播和反向傳播兩個過程。 在前向傳播階段, 輸入數據經過多個卷積層、 激活函數層和池化層的處理, 逐層提取出從低級到高級的特征表示; 在反向傳播階段, 通過計算損失函數對模型參數的梯度, 利用優化算法更新網絡權重, 以最小化預測輸出與實際標簽之間的差異。
模型的超參數設置會影響其性能表現, 并決定了模型在訓練過程中的學習行為以及最終的預測能力。 本文模型的超參數設置如表1所示, 采用的DCNN模型示意如圖2所示。 本文采用的DCNN模型加入了Dropout層, 這一策略在訓練過程中隨機地將網絡中的一部分神經元置為不活躍狀態, 有效減少了網絡中的參數數量, 降低了模型的復雜度, 從而有助于防止過擬合現象的發生, 并且增加了模型的多樣性, 有助于提升模型的泛化能力。
1.3 MDCNN模型訓練流程
本文以DCNN模型作為預測器搭建了元學習的框架, 所使用的數據集來自不同溫度條件下的固體發動機地面試車實驗, 這些數據通過傳感器測量并經過后處理得到推力-時間曲線。 該數據集由90組高溫實驗數據、 80組低溫實驗數據以及25組常溫實驗數據所構成。 為了優化模型訓練過程, 通過降低采樣減少數據集大小, 降低模型對計算資源的依賴, 減少計算所需的時間, 以此去除大量難以提取特征和信息的相似數據, 降低模型過擬合的風險, 數據處理前后如圖3所示。 本文將高溫與低溫實驗數據設為元訓練任務, 并將其按照9∶1的比例隨機劃分為支持集與查詢集, 以供元訓練階段的模型訓練與性能評估。 同時, 將常溫實驗數據設為元測試任務, 以4∶1的比例劃分為支持集與查詢集, 用于元測試階段的模型訓練與性能測試。
元訓練階段, 在內循環中, 輸入訓練任務中的支持集并使用DCNN模型來進行訓練, 以此對DCNN模型的參數進行第一次更新, 更新之后在每個任務查詢集進行測試, 計算查詢集的誤差。 在外循環中, 通過查詢集誤差的梯度, 并使用梯度下降法對沒有MDCNN模型的參數進行二次更新, 直到得到在不同任務中共同的最優MDCNN模型參數。
在元測試階段, 利用MDCNN模型對測試任務的支持集進行訓練并更新MDCNN模型參數, 訓練完畢后, 利用5組查詢集進行測試, 評估MDCNN模型的性能。
2 結果分析
2.1 收斂速度分析
通過比較DCNN模型在訓練過程中以及MDCNN模型在元測試階段支持集訓練過程中的損失函數值Loss的變化趨勢, 分析使用元學習方法前后對固體發動機性能預測的收斂速度。 損失值變化如圖4所示。
如圖4所示, 相比于未采用元學習的DCNN模型, 所提出的MDCNN模型更快地達到了收斂狀態。 同時, 所提出模型在訓練200步時, 誤差降低至1×10-3。 而傳統DCNN則需要將近1 300步才能達到相同的精度。 由此可見, MDCNN在訓練到相同精度所需的步數遠遠小于傳統DCNN模型。 結果表明, 通過元學習模型可以從最優模型參數出發, 使用更少的梯度步驟達到收斂。
2.2 誤差對比
通過比較百分比誤差、 均方誤差(Mean Square Error, MSE)、 均方根誤差(Root Mean Square Error, RMSE)、 平均絕對誤差(Mean Absolute Error, MAE)以及平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE), 分析使用元學習方法前后的預測效果。
DCNN與MDCNN誤差對比如表2所示。
由圖表可以看出, 在5組測試集上MDCNN的百分比誤差都要小于DCNN。 其中, DCNN最大的百分比誤差為4.43%, 而MDCNN模型最大百分比誤差僅為2.27%。 表明元學習方法在預測結果的準確性上遠遠高于傳統的DCNN模型。
2.3 預測結果分析
在5組測試集上的預測結果如圖6和表4所示, MDCNN模型的預測值明顯要比DCNN模型更逼近實際值。 結果表明, MDCNN模型在不同測試集上預測結果的準確性上遠遠高于傳統的DCNN模型, 從而證明了MDCNN在面對復雜數據時更強的適應性和魯棒性, 不僅能夠更有效地從訓練數據中學習、 提取出關鍵特征, 還能更好地適應新的、 未見過的數據。
3 結 論
通過搭建元學習框架, 開發了一種基于深度元學習的人工智能方法, 該方法采用了MDCNN模型對飛行器動力系統中的發動機性能進行預測, 解決了傳統發動機性能計算的固有復雜性以及傳統人工智能方法數據依賴性大、 泛化能力差等問題, 為未來固體發動機性能預測提供了新方向, 不僅有助于提升發動機本身的效能, 同時也將為飛行器動力系統的整體優化和設計提供有力的支持。 利用MDCNN通過內外循環從不同的推力-時間數據上學習元知識, 并利用新的任務對MDCNN模型進行測試。 與未采用元學習的DCNN模型進行對比, 得出以下結論:
(1) 通過元學習模型, 可以使模型從最優模型參數出發, 使用更少的梯度步驟達到收斂, 并提高模型的收斂速度。
(2) 相對于傳統的DCNN模型, MDCNN模型展現出了更高的準確性和穩定性, 在5種誤差的比較中都全面小于DCNN模型。
(3) 在5組測試集上, MDCNN的曲線明顯要比DCNN模型更逼近實際值, 證明了MDCNN在面對復雜數據時的有效性和魯棒性, 能更好地適應新的、 未見過的數據。
參考文獻:
[1] 蔡淑芬, 張玉成, 胡克嫻, 等. 固體火箭發動機總沖精度預示與分析[J]. 推進技術, 1996(2): 27-31.
Cai Shufen, Zhang Yucheng, Hu Kexian, et al. Accuracy Prediction and Analysis of Totnj4DsFwE+34/RE9VUh1GOw==al Impulse for Solid Rocket Motor[J]. Journal of Propulsion Technology, 1996(2): 27-31.(in Chinese)
[2] Finn C, Abbeel P, Levine S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks[C]∥International Conference on Machine Learning, 2017.
[3] Mahalakshmi V, Sandhu M, Shabaz M, et al. Few-Shot Learning-Based Human Behavior Recognition Model[J]. Computers in Human Behavior, 2024, 151: 108038.
[4] Liao R, Zhai J, Zhang F. Optimization Model Based on Attention Mechanism for Few-Shot Image Classification[J]. Machine Vision and Applications, 2024, 35(2): 1-14.
[5] Luo M C, Xu J, Fan Y Q, et al. TRNet: A Cross-Component Few-Shot Mechanical Fault Diagnosis[J]. IEEE Transactions on Industrial Informatics, 2023, 19(5): 6883-6894.
[6] Rivas-Posada E, Chacon-Murguia M I. Meta-Learning Methodology Based on Meta-Unsupervised Algorithm for Meta-Model Selection to Solve Few-Shot Base-Tasks[J]. Neural Computing and Applications, 2024, 36(15): 9073-9094.
[7] Vettoruzzo A, Bouguelia M R, Rgnvaldsson T. Multimodal Meta-Learning through Meta-Learned Task Representations[J]. Neural Computing and Applications, 2024, 36(15): 8519-8529.
[8] 萬鵬, 李迎光, 華家玘, 等. 基于元學習和PINN的變工況刀具磨損精確預測方法[J]. 南京航空航天大學學報, 2022, 54(3): 387-396.
Wan Peng, Li Yingguang, Hua Jiaqi, et al. Accurate Prediction Method of Tool Wear Under Varying Cutting Conditions Based on Meta Learning and PINN[J]. Journal of Nanjing University of Aeronautics and Astronautics, 2022, 54(3): 387-396. (in Chinese)
[9] Wang D D, Liu Q Y, Wu D Z, et al. Meta Domain Generalization for Smart Manufacturing: Tool Wear Prediction with Small Data[J]. Journal of Manufacturing Systems, 2022, 62: 441-449.
[10] Huang H, Luo X, Yang C. Industrial Few-Shot Fractal Object Detection[J]. Neural Computing and Applications, 2023, 35(28): 21055-21069.
[11] 夏鵬程, 黃亦翔, 王譽翔, 等. 基于數據增強的判別元學習方法在跨設備少樣本故障診斷中的應用[J]. 中國科學: 技術科學, 2023, 53(11): 2003-2004.
Xia Pengcheng, Huang Yixiang, Wang Yuxiang, et al. Augmentation-based Discriminative Meta-Learning for Cross-Machine Few-Shot Fault Diagnosis[J]. Scientia Sinica: Technologica, 2023, 53(11): 2003-2004.(in Chinese)
[12] Minot M, Reddy S T. Meta Learning Addresses Noisy and Under-Labeled Data in Machine Learning-Guided Antibody Engineering[J]. Cell Systems, 2024, 15(1): 4-18.
[13] Vinyals O, Blundell C, Lillicrap T, et al. Matching Networks for One Shot Learning[C]∥ Proceedings of the 30th International Conference on Neural Information Processing Systems, 2016: 3637-3645.
[14] Ravi S, Larochelle H. Optimization as a Model for Few-Shot Learning[C]∥International Conference on Learning Representations, 2017.
Research on Solid Motor Performance Prediction Method
Based on Deep Meta-Learning
Cui Yan, Lou Bixuan, Yu Pengcheng, Yang Huixin*
(College of Aerospace Engineering, Shenyang Aerospace University, Shenyang 110136, China)
Abstract: Addressing the numerous limitations in solid motor performance experiments for aircraft power systems, such as high costs, specialized equipment requirements, specific experimental environments, and high risks, this paper proposes an artificial intelligence method based on deep meta-learning for engine performance prediction. This method employs model-agnostic meta-learning (MAML) and deep convolutional neural networks (DCNN) models. Firstly, thrust-time data is divided into different training tasks according to varying experimental conditions. The optimal model parameters for each task are obtained through inner-loop training, and the model initialization parameters are updated in the outer-loop. After iterative optimization of the inner-loop and the outer-loop, a model predicted the total impulse of solid engines with high accuracy is obtained, and finally it is tested for new tasks. The test results demonstrate that compared to DCNN without meta-learning, this method reduces the error on the test set significantly, with a maximum percentage error of 2.27%. This verifies the high-precision prediction ability of the meta-learning model for solid motor perfor-mance under small sample conditions.
Key words: solid motor; motor performance; meta-learning; model-agnostic meta-learning; deep convolutional neural networks