999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

遙測參數數據載荷狀態判別集成學習方法*

2021-12-14 11:53:30郭國航楊甲森董振興
國防科技大學學報 2021年6期
關鍵詞:特征模型

李 虎,郭國航,胡 鈦,楊甲森,董振興

(1. 中國科學院國家空間科學中心 空間科學衛星運控部, 北京 100190; 2.中國科學院大學, 北京 100049; 3. 中國科學院國家空間科學中心 復雜航天系統電子信息技術重點實驗室, 北京 100190)

有效載荷是實現航天任務目標的關鍵組成部分,直接決定任務的成敗。遙測數據是地面運管人員判斷有效載荷在軌運行狀態最重要的依據[1]。傳統地面運管系統主要提供基于門限的常規參數級判讀,狀態判別則需要專家系統支持。航天任務中有效載荷功能各異,設備參數更多,工作方式更復雜,地面運管系統面臨載荷設備遙測參數維度高、數據量大、類別不平衡和無法直觀判別設備運行狀況等新問題。如何進行高效在軌任務監視、載荷任務調度和參數優化設計等,決定了有效載荷運行的科學性和有效性。

基于遙測數據的航天器統計學習方法,可構建不完全依賴于航天器領域知識[2],由數據驅動的分析模型和方法。當前國內外學者主要的研究方向是面向在軌航天器故障異常發現[3]和衛星平臺參數判讀,其中海量遙測參數數據降維和特征選取方面主要采用主成分分析(Principal Component Analysis, PCA)[4]方法,即主要采用基于時間序列[5]的相似性度量和回歸預測。文獻[6]采用主成分分析理論對高維遙測數據進行降維處理,從高維數據集中提取低維特征組合,設計了航天器故障定位檢測算法。文獻[7]針對衛星姿態故障類型和故障源難以辨識問題,利用主成分分析測量衛星姿態與傳感器之間遙測數據特征值比例變化進行故障判斷。文獻[8]對運載火箭飛行過程積累的歷史數據進行分析,提出一種基于歷史數據統計特性的遙測緩變參數自動判讀方法。文獻[9]在“天繪一號”01星任務中提出一種基于數據庫軟件的遙測數據快速處理方法和衛星重點參數監視判讀方法。文獻[10]以極限學習機(Extreme Learning Machines, ELM)預測模型為基礎,采用集成學習方法對目標參數在時間維度上的變化趨勢進行預測和判讀。文獻[11]采用仿真模型對大型充液衛星的在軌模式進行識別。上述文獻基于遙測參數處理分析應用研究,圍繞航天器通用分系統故障和衛星平臺參數判讀積累了豐富的經驗,所采用的主成分分析方法屬于“壓縮式”降維,主要存在以下問題:①缺乏對有效載荷設備狀態判別的研究;②所使用的方法、模型對類別不平衡支持不夠友好;③對面向主題的高維數據特征選擇缺少可解釋性;④分析結果無法提供影響因素的豐富信息。一方面,航天器任務分析對解釋性有較高要求,分析方法和結果要能按遙測量進行準確的人工一致性驗證。另一方面,載荷儀器的高精密性、復雜性和任務安排的高靈活性,要求地面運管工作盡可能全面地覆蓋載荷領域知識。這些對地面運管系統和運管人員提出了挑戰。因此,本文提出一種將信息增益特征篩選方法和集成學習相結合,實現應用于航天任務運行工作的遙測參數數據載荷設備狀態判別方法,以支持面向載荷設備任務模式的遙測參數數據自適應學習和判別。

1 問題模型

1.1 遙測參數數據和載荷狀態張量表示

定義1TM={tmj|j=1,2,…,n}為載荷遙測參數集合,tmj為第j維遙測參數。

(1)

定義3P={pk|k=1,2,…,l}為任務有效載荷設備集合,pk表示第k載荷設備狀態。

定義4載荷設備狀態向量U(i):

(2)

1.2 基于遙測參數數據的載荷單機設備狀態判 別問題模型

h:ΩTM→ΩP1×ΩP2×…×ΩPl

(3)

給定多標簽訓練樣本集D={(TM(i),P(i))|1≤i≤s},對于每條樣本記錄(TM(i),P(i)),TM(i)∈ΩTM為記錄的n維特征向量,P(i)∈ΩP1×ΩP2×…×ΩPl為記錄TM(i)對應的標簽。則給定樣本記錄數據集D中學習到多標簽分類器為:

h(TM(i))=P(i)

(4)

1.3 標簽相關性和遙測參數數據類別不平衡

標簽相關性是指多標簽問題中,數據集中樣本所屬的標簽類別之間具有的相關性[13],例如互相獨立或互斥。基于遙測參數數據的載荷設備狀態判別時,由于航天器任務載荷間的協作關系,航天器任務多載荷單機設備狀態對應的多標簽之間存在相關性,高維度標簽和分類數量會影響學習訓練的復雜度和運算量,而借助載荷單機設備間的協作相關性,可實現多標簽空間的降維,將問題轉化為多分類問題。

類別不平衡是指分類問題中出現有些類別的樣本量非常少,呈現出不同類別所對應的樣本量分布不均勻。類別不平衡會影響以樣本量權重為依據的模型分類準確率。遙測參數數據在載荷工作狀態中類別不平衡現象較普遍,航天任務工作模式調度決定了處于特定工作狀態的載荷遙測參數樣本占比比較低,這些狀態的判別不能出現漏判或誤判。在遙測數據的載荷設備狀態判別領域,需要能夠準確判別各類狀態,載荷設備狀態擬合能覆蓋到不均勻的樣本集。

2 基于遙測參數數據的載荷單機設備狀態 判別

設計基于遙測參數原始數據進行載荷單機設備狀態判別,步驟如下:

步驟1:依據定義2和定義4所提遙測參數數據向量和載荷設備狀態向量對樣本數據建立多標簽,按照時標形成問題模型中對應的記錄組。

步驟3:根據任務調度時間表對記錄組進行采樣,分別建立訓練集、測試集。

2.1 算法框架

基于問題模型和遙測參數數據分析設計算法框架,見圖1。首先,根據航天器分包遙測得到的海量載荷遙測原始數據集和載荷任務狀態文件,進行原始數據數值化、合并和解析處理等;然后采用3σ原則一階數據差分[14]進行野值剔除,并根據遙測數據星上時和載荷狀態進行時間對標和分段篩選得到樣本特征集;最后基于樣本統計的性質、信息增益和任務屬性進行特征篩選和多標簽特征問題轉化。其中,載荷狀態數據以可擴展標記語言(eXtensible Markup Language, XML)格式組織。

2.2 算法模型

梯度提升樹是集成學習的主要方法之一,其綜合了加法模型、回歸樹模型和梯度提升算法,可更好地擬合訓練數據。這種線性組合分類器通過改變樣本的權重可以適應類別不平衡問題,并引入bagging和正則化項方法應對樣本數據中的噪聲。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)基于弱學習器,經多次迭代得到特征切分點構成強分類器,并在迭代的每一步構建沿梯度最陡的方向降低損失的學習器來彌補已有模型的不足,每個弱學習器記錄損失函數的梯度殘差[15]。梯度提升決策樹見圖2。

圖1 算法框架Fig.1 Algorithm framework

圖2 梯度提升決策樹Fig.2 Gradient boosting decision tree

文中設計的算法是基于梯度提升的集成學習算法,最終構建遙測參數原始數據與載荷狀態的映射關系。將1.2節定義的多標簽遙測參數數據集D作為輸入,多標簽分類器h(·)為輸出。梯度提升決策樹模型表示為弱分類器的加法模型:

(5)

其中,T(tm;Θm)為弱分類器,Θm為弱分類器的參數,M為弱分類器的個數。

式(5)中第m個弱分類器在第i個樣本的梯度殘差為:

(6)

其中,L為損失函數。

2.3 特征選擇與降維

模型特征降維的可解釋性要求為獲得的新特征集能與人工歸因一致,模型解釋的關鍵在于特征貢獻度,因此需要特征選擇方法盡可能保留參數信息并不失可解釋性。本文根據樣本特征集的統計量性質,借助信息增益分析載荷狀態樣本特征集分布特性,剔除與目標問題相關性低和參數間相關度高的冗余特征,完成特征篩選和降維,保留重點參數特征以提高載荷單機狀態判別模型的訓練效率和準確度。方法主要包括皮爾遜相關系數[16]、方差和信息熵增益計算等,與主成分分析、互信息方法相比,效率更高并可以保留載荷參數信息。

1)航天器任務皮爾遜相關系數,即

(7)

其中:ρ2(a,b)=1表示兩變量相關,ρ2(a,b)=0表示變量不相關;ρ2(a,b)接近1,表示兩變量線性關系密切,ρ2(a,b)值越小表示兩變量的線性相關越弱。

對遙測數據特征樣本集計算兩者間的相關系數,若滿足|ρ2(a,b)-1|≤ε,則保留其中之一特征。

2)遙測數據的一個特點是有大量的恒定值或緩變值,這些值給分類模型帶來運算量,也會干擾模型的準確率,需根據樣本方差性質去除該類遙測數據。由于特征方差小表示該特征中多數樣本值接近,分類效果不足;特征方差大表示該特征樣本值差別較大,因此設計刪除低方差的特征。

3)信息增益。熵可表示隨機變量的不確定性,根據隨機變量的概率分布將熵定義為

(8)

其中,pi是隨機變量的概率。熵只依賴于隨機變量的分布,與Pi取值無關。

根據隨機變量的條件概率可得條件熵

(9)

特征A對訓練數據集D的信息增益定義為集合D的經驗熵H(D)與特征A給定條件的經驗條件熵H(D|A)的差,見式(10)。

g(D,A)=H(D)-H(D|A)

(10)

根據載荷狀態標簽特征集和遙測參數特征樣本特征集,遍歷各參數特征對載荷狀態標簽的信息增益,獲得增益排序Rank,選擇信息增益大的特征。

通過皮爾遜相關系數、方差和信息增益計算等處理,可盡可能保留遙測參數的原始信息,并實現特征維度的降低,同時兼顧可解釋性和模型有效性。

2.4 基于遙測數據的載荷狀態判別算法流程

根據1.2節中問題模型和2.2節中算法模型,設計基于遙測數據的載荷狀態判別算法如下:

步驟2:計算遙測參數特征集任意二者間的Pearson相關系數,對線性相關度高的特征參數進行處理,保留其中之一特征,得到本步驟篩選后的遙測參數特征集TM′。

步驟4:使用GBDT算法進行迭代:

1)初始化弱學習器:

(11)

2)m=1,2,…,M,M即弱學習器數目上限,迭代流程如下:

①對樣本特征集TM″,計算負梯度殘差

(12)

②將殘差作為新樣本值得到下棵樹的數據集{TM″,rmi},得到新的回歸樹hm(tm)對應的葉子節點區域Rjm(j=1,2…,J),J為該回歸樹的葉子節點數目。

③根據經驗風險最小化準則對回歸樹的葉子區域進行計算最佳擬合

(13)

④更新學習器

(14)

3)得到最終學習器

(15)

3 實驗結果與分析

實驗驗證在Python集成開發環境Pycharm,采用Scikit-learn機器學習庫實現算法,以量子科學實驗衛星6臺載荷的在軌運行數據為樣本,對基于遙測參數數據的載荷單機設備狀態判別算法進行驗證。實驗中遙測數據特征集是根據任務分包遙測從遙測原始數據中抽取,6臺載荷單機設備的載荷設備狀態向量對應5種工作模式組合,將這些模式轉化成多標簽分類問題。經過實驗驗證,提取特征維度為p=6,弱分類器個數為150時,可以得到最優的載荷單機狀態識別效果。

模型評價指標采用準確率(Acc)和F1-Score。Acc計算正確預測樣本占總樣本的百分比,代表所有類的整體分類表現;F1-Score通過精確率(Precision)和召回率(Recall)對分類器進行整體評價,高F1-Score意味著分類器對少數類別和多數類別均能識別。對于K個類別:

(16)

(17)

式(16)和式(17)為準確率和F1-Score的計算方法。TPi、TNi、FPi、FNi分別代表樣本i識別為樣本i,非樣本i識別為非樣本i,非樣本i識別為樣本i,樣本i識別為非樣本i。

實驗從三個方面進行:①將遙測原始數據按照2.3節所述方法處理,計算每維數據相對于標簽的信息增益(Information Gain, IG),構建特征樣本集,并劃分為訓練集和測試集;②對比不同特征參數組合下GBDT模型實驗性能,選擇最優特征參數;③和其他算法進行對比實驗,驗證所提方法的有效性。

3.1 數據準備

選取量子科學實驗衛星2017年至2019年的運行數據來進行算法驗證,經過2.4節步驟1和步驟2的預處理后,共獲得579維特征,76 699條數據樣本。將其中的70%作為訓練集,剩余30%作為測試集。本實驗的載荷單機狀態識別問題,歸約為多標簽分類問題之后,采用文獻[13]中的方法,將多標簽分類問題轉化為多分類問題來進行求解。轉化成多分類問題后的數據分布如圖3所示,易見其存在著嚴重的載荷工作模式類別不平衡,可采用GBDT模型,通過集成多個弱分類模型,能很好地擬合該數據分布。

圖3 載荷工作模式數據分布Fig.3 Data distribution of payload mode

3.2 IG-GBDT算法實驗結果與分析

載荷單機狀態與各組件運行狀態息息相關,數據上反映為遙測參數數據與載荷單機狀態的相關。因此,采用信息增益作為特征提取的依據。

實現基于IG-GBDT算法的載荷單機狀態判別,采用3.1節中數據完成算法訓練和測試,需確定模型中兩個參數:應用IG算法篩選的特征維度;GBDT模型中弱分類器集成個數。

首先,選用對數損失函數,固定其他參數,改變特征參數維度,構建GBDT分類器,分別計算訓練集和測試集數據的損失;之后,選取分類損失最低的特征參數集合作為IG-GBDT模型的特征集。本實驗中,隨特征維度變化,IG-GBDT模型損失變化如圖4所示。當特征參數維度p=6時,模型損失達到最小值,特征維度增加未能明顯降低模型損失,確定該模型特征參數維度為6。模型在訓練集和測試集中的損失都較小,兩者的損失曲線差別不大,顯示了該模型具有較低的方差和偏差。

圖4 訓練集和測試集損失值與特征參數維度的關系Fig.4 Relation between loss of training & testing sets and feature dimension

其次,確定GBDT模型規模,即GBDT模型中弱分類器的集成個數。參照篩選確定的特征參數集,調整模型中弱分類器個數,觀察訓練集與測試集損失變化,如圖5所示。隨著弱分類器數量的增加,訓練集和測試集的損失值都在下降,起初損失值下降速率很快,當達到一定數目后,損失值變化幅度趨于平緩,繼續增加弱分類器會導致計算復雜度的增加。從損失值變化曲線可知,當弱分類器數量達到150時,損失值的變化趨于穩定,考慮到模型計算資源消耗,確定弱分類器個數為150。

圖5 訓練集和測試集損失值與弱分類器個數的關系Fig.5 Relation between loss of training & testing sets and number of base classifiers

在確定特征參數維度和GBDT規模后,將該IG-GBDT算法用于載荷單機狀態識別問題,利用訓練集中的樣本數據訓練載荷單機狀態判別模型,再利用測試集中的樣本數據驗證該模型效果。訓練所得模型對訓練數據和測試數據的分類結果如表1和表2所示,表示5種模式預測結果和真實值之間的關系。其中,訓練集準確率為99.36%,測試集的準確率為99.27%。由混淆矩陣可知,IG-GBDT算法對于各個模式都能較準確地進行識別。

表1 IG-GBDT算法-訓練集混淆矩陣

表2 IG-GBDT算法-測試集混淆矩陣

3.3 IG-GBDT與PCA-GBDT算法結果對比

將IG-GBDT算法與基于PCA特征提取的GBDT算法(PCA-GBDT)對比,考慮到數據分布不均衡,采用F1值來進行模型精度的衡量,兩種算法的F1值對比如圖6所示。

圖6 F1值與特征參數維度的關系Fig.6 Relation between F1-score and feature dimension

由圖6可知,隨著篩選的特征參數維度增加,兩個算法的擬合精度均有提升。當維度p=6時,IG-GBDT算法的精度達到最大值,隨著參數的增加,其F1值不再顯著變化,這與3.2節中所得結論一致。對于PCA-GBDT算法,當特征參數維度p=12時,其精度達到最大值,算法精度不再隨p值的增加而提升。兩條曲線在達到各自的最優值之后,繼續增加p值,會引入冗余特征,因此曲線不再有上升的趨勢。對比兩種算法最優情況下的F1值,兩者的最優F1值基本相同,但IG-GBDT能夠用非常少的特征去表征問題,為了達到同樣的效果,PCA-GBDT則要用2倍的參數量。

有效載荷單機狀態判別對時效性提出了較高的要求,因此對IG-GBDT和PCA-GBDT算法執行效率進行了對比。圖7為IG-GBDT和PCA-GBDT算法運行時間隨特征參數維度p的變化情況,特征參數增多時,兩種算法的運行時間均在不斷增加,PCA-GBDT相比IG-GBDT的運行時間增長較慢。結合圖6和圖7,當兩個算法準確度達到最優時,IG-GBDT的參數維度為p=6,PCA-GBDT的參數維度為p=12,此時IG-GBDT的運行時間為56 s,PCA-GBDT的運行時間為175 s,可見在相同的準確率下,PCA-GBDT耗時是IG-GBDT的3倍。因此,IG-GBDT算法較PCA-GBDT算法具有較高的執行效率。

圖7 算法運行時間與特征維度的關系Fig.7 Relation between runtime and feature dimension

對比上述IG-GBDT和PCA-GBDT兩種方法。首先,二者均能準確判別載荷單機狀態,而IG-GBDT篩選出的特征數更少,計算資源消耗少,處理速度快,更能滿足有效載荷在軌狀態快速識別對時效性的要求;其次,PCA特征降維會對原始遙測參數進行組合,這樣改變了參數的含義,不具可解釋性,無法對載荷參數進行人工一致性驗證,而IG篩選得到的特征參數能確定載荷運行狀態判別對應的載荷遙測參數,模型結果具有可解釋性;再次,IG-GBDT所得到的特征參數集,可供地面運控系統重點監視參數選擇。

4 結論

本文提出了一種基于載荷遙測參數數據的載荷狀態判別方法,將多標簽分類集成學習方法應用到載荷設備狀態識別問題,并采用真實衛星任務數據進行了應用驗證。首先,根據載荷按分包遙測抽取遙測原始數據和任務數據,經合并、解析、數值轉換等處理得到數據樣本集。其次,在對遙測數據野值剔除的基礎上,分別構建遙測參數特征向量和載荷標簽特征向量,并以星上時為基準分段對標得到特征集,分析實際問題對多標簽特征進行轉化,根據特征樣本集統計量性質篩選特征和降維,計算遙測數據特征數據集對標簽特征的信息增益并排序,用于構建樣本最終的特征向量集。再次,利用各樣本的特征向量訓練基于IG-GBDT集成學習的載荷狀態判別模型。通過量子科學實驗衛星任務真實數據驗證,本文提出的IG-GBDT算法具有很高的狀態識別準確率。本文提出的載荷狀態判別模型和方法能在不依賴于載荷復雜背景知識的情況下適用于載荷遙測數據量大、參數眾多、樣本分類不平衡等問題,基于IG的參數特征降維和集成學習模型將可解釋性和擬合效果好的優勢相結合,能滿足航天任務的高準確度要求,在實際應用驗證中表現出良好的性能和適用性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品福利一区二区免费视频| 国产偷国产偷在线高清| 青青草国产精品久久久久| 亚洲一级色| 伊人激情综合| 国产精品夜夜嗨视频免费视频| 五月激情婷婷综合| 欧美中文字幕一区| 亚洲综合二区| 亚洲狼网站狼狼鲁亚洲下载| 美女内射视频WWW网站午夜 | 日韩毛片在线视频| 亚洲第一色视频| 一级毛片基地| 亚洲午夜综合网| 激情午夜婷婷| 成人在线观看一区| 99热国产这里只有精品无卡顿" | 人人爱天天做夜夜爽| 国产成人精品日本亚洲77美色| 欧美天堂在线| 麻豆精品在线视频| 国产精品永久不卡免费视频| 国产成人午夜福利免费无码r| 狠狠亚洲五月天| 尤物在线观看乱码| 丝袜无码一区二区三区| 毛片在线看网站| 色综合久久88色综合天天提莫| 99re在线免费视频| 成年人福利视频| 69精品在线观看| 国产拍揄自揄精品视频网站| 久久熟女AV| 自拍欧美亚洲| 成人国产一区二区三区| 国产精品刺激对白在线| 日本国产精品| 亚洲91精品视频| 国产精品开放后亚洲| 少妇人妻无码首页| 成人午夜视频在线| 国产99精品久久| 亚洲国产天堂在线观看| 亚洲综合18p| 国产黄网永久免费| 亚洲国产精品一区二区高清无码久久| 99在线观看国产| 国产青榴视频| 天天做天天爱天天爽综合区| 精品国产美女福到在线不卡f| 91九色国产porny| 五月婷婷综合色| 国产jizz| 日本午夜精品一本在线观看| 69av在线| 视频一本大道香蕉久在线播放 | 尤物特级无码毛片免费| 国模粉嫩小泬视频在线观看| 成人在线综合| 另类综合视频| 精品国产中文一级毛片在线看| 亚洲人成人伊人成综合网无码| 最新国语自产精品视频在| 91成人在线免费视频| 一级毛片免费高清视频| 亚洲中文字幕无码爆乳| 国产成人夜色91| 最新日韩AV网址在线观看| 亚洲一区精品视频在线| 亚洲中文字幕无码爆乳| 色综合久久无码网| 欧洲免费精品视频在线| 黄色网页在线观看| 91无码人妻精品一区| 亚洲第一成年人网站| 国内老司机精品视频在线播出| 色婷婷成人| 免费av一区二区三区在线| 欧美黄色a| 真实国产乱子伦高清| 亚洲欧洲AV一区二区三区|