虞業濼,施敏華,鄧洛鳳,楊 萍,鄭倩云
(1.中國科學院微小衛星創新研究院,上海 201203;2.上海微小衛星工程中心,上海 201203;3.中國人民解放軍63921部隊,北京 100094)
衛星裝備試驗鑒定階段包括性能試驗、作戰試驗、在役考核,每個階段均會產生大量重要的試驗數據,由于衛星裝備的這些試驗鑒定數據分散保存在不同單位、不同部門、不同計算機和存儲介質上,且數據類型多樣、數據格式不一致,導致試驗鑒定數據的有效利用率低,原始數據與試驗相關其它數據信息脫節,大量的試驗數據無法利用或無法有效關聯使用,存在嚴重的信息孤島現象,并且試驗鑒定數據中包括了有效數據及大量無效數據[1-2]。而衛星裝備的試驗鑒定評價工作的開展對于裝備能力、性能滿足度、在役適用性等多項指標具有實際意義,因此需針對衛星裝備試驗鑒定數據確定健全合適的數據質量檢驗方法,剔除無用數據,確保衛星試驗鑒定數據干凈整齊高質量;并進一步建立數據質量的評價的體系和方法,使用合理的數據質量評價方式完成多維數據質量評價,為后續衛星裝備試驗鑒定評估工作獲得準確的結果提供前期保障。
衛星裝備試驗鑒定數據來源多樣且存在數據缺失、數據異常、數據冗余、數據格式不規范或精度不統一等問題,無法直接通過常規質量評價方式方法完成評價[3-4]。因此,針對衛星裝備試驗鑒定數據的特點,提出兩級遞進式的數據質量評價流程,如圖1所示。第一級規定需要進行計算評價的數據集合,通過批處理和流模式兩種數據質量初檢方式從多個維度對目標數據進行統一、規整并給出初步質量評價;第二級以衛星試驗鑒定數據質量評價體系為基礎,建立針對某種衛星的具體評價指標,根據選取的評價指標建立評價規則,按照指標權重確定的方法確定指標權重和期望,并計算數據質量綜合評估得分。通過定性定量結合的方式完成衛星裝備試驗鑒定數據質量的評價。
整個數據質量評價實現主要分為以下兩個步驟:
第一步是初檢-數據質量篩選評價:多源異構衛星裝備試驗鑒定數據在完成格式統一轉換后并不能直接進行數據質量評價,需要在該過程下從數據完整性、準確性、一致性、冗余性和及時性等多個維度對數據質量進行篩選評價,從而提升后續使用數據的準確性、可信度[5-7]。
其工作流程如下所示:
1)數據注冊。將轉換后或能夠支持試驗鑒定工作開展的待使用數據進行統一注冊;
2)數據度量標準。制定數據質量度量標準,針對單一裝備或衛星關鍵器部件人為設定數據度量或準入標準;
3)數據質量篩選。在統一的數據度量標準下,利用自定義數據質量篩選算法,從:完整性、準確性、一致性、冗余性、及時性等維度對數據開展定性定量相結合的質量篩選;
4)數據檢查評價。對完成質量篩選后的數據進行二次檢查,以原始數據為參考,對數據處理前后各維度下的量化值進行打分評價,評價準則支持定性定量兩種方式;
5)數據下放。對完成初檢的數據給出第一次維度質量評價,并對符合篩選標準的數據進行下放至第二步數據復檢使用。
初檢流程實現如圖2所示。
第二步是復檢-數據質量評價體系及方法:影響衛星裝備試驗鑒定數據質量評價的因素多而復雜,較之前述第一步中完整性等有限維度評價而言,試驗鑒定數據的后續評價仍然涉及到多個方面,因此引入多層樹形指標體系來分析,數據質量評價指標的選取可以依據實際衛星裝備特性、平臺甚至試驗任務等進行調整,指標的設立能夠全面地反映數據的客觀真實情況,且合理和可操作性。完成指標體系構建之后,采用多因素層次分析法,并確定多因素模糊隸屬度,最終進行評價,最后完成綜合評價[8-9]。
數據質量評價體系及方法具體實現步驟如下所示:
1)確定評價數據對象。按照衛星裝備特性、衛星平臺、試驗任務等不同,對評估的數據質量對象進行梳理劃分。
2)評價指標的選取。根據被評價數據對象,選取合適的指標,形成數據質量評價指標體系。
3)確定評價指標權重及隸屬度。利用層次分析法來計算數據質量判斷時所用的指標的權值,其與數據質量的關聯度成正比。結合衛星裝備試驗鑒定各項數據關聯度極高的特點,選取多因素模糊隸屬度集合。
4)試驗鑒定數據評價。根據數據質量的評價指標和規則集中的每條評價規則,計算得到最終試驗鑒定數據的評價結果。
5)試驗鑒定數據質量分析。依據第一、二項的數據結果,給出試驗鑒定數據質量綜合分析結果。
圍繞衛星裝備試驗鑒定數據質量評價所涉及的初檢及復檢兩個過程開展數據質量評價算法實現。初檢數據質量篩選評價,主要包括從數據完整性、準確性、一致性、冗余性、有效性和及時性等多個維度對數據質量進行篩選評價。結合衛星裝備試驗鑒定數據多維關聯性極強的實際特點,選取關聯決策樣本計算、數據完整檢測計算等方法實現;復檢數據質量評價則包含基于多因素模糊推理及綜合層級分析等算法[10-12]。
衛星裝備試驗鑒定過程中產生的數據完整性的判別主要通過星-地數據發送-接收數據完整檢測來實現。由于通信干擾、數據丟失等原因造成的部分試驗鑒定數據丟失或無法使用的情況,需要對實際數據進行完整性計算。設定星上實際下傳數據包(數量)為D,實際采集(解析)得到的數據為D1,采集(解析)得到但為空值數據為D2,在完成數據統計后,可以得到數據的完整性占比為:
式中,CWZ為數據完整性,其結果表針衛星裝備試驗鑒定待評價數據的完整性占比,可以通過專家經驗或總師定義數據完整性占比下限,若數據完整性不達標,則直接對該組數據進行棄用,不進入后續數據質量復檢評價。
衛星裝備試驗鑒定數據的準確性計算需要將數據與具體裝備特性進行結合并建立關聯判別。算法首先完成裝備與其對應標準數據范圍信息值獲取,并將多類數據進行樣本集合,將樣本集劃分為k個不同的類Li(i=1,2,…,k),每個不同的類Li含有的樣本數目為ni,所有的樣本數目ni均代表該數據所對應在準確范圍內的值。計算得到衛星裝備試驗鑒定數據D按照準確性劃分為k個類的對應信息熵計算值為:
式中,pi=ni/n為衛星裝備試驗鑒定數據D樣本中第i個類Li對應在準確范圍內的概率。
考慮到衛星裝備試驗鑒定數據的需要按照不同的衛星、平臺及試驗任務會具備不同的分類屬性Ti(i=1,2,…,m),Dj是D中屬性Ti樣本值有j個的樣本子集,則屬性Ti的信息熵為:
式中,Info(Dj)為Dj劃分到各個試驗鑒定數據落于準確性屬性的信息熵。
利用結合具體裝備特性關聯后獲取的數據準確度信息熵及對應試驗屬性Ti的信息熵,可以得到進一步計算得到試驗鑒定數據的準確度占比為:
式中,CZQ為衛星試驗鑒定數據的準確性。
分析衛星裝備試驗鑒定數據的特點,以遙測數據為例,橫向為具體的遙測量,縱向為遙測量對應的遙測數據量,該數據量會根據衛星運行時間產生一定的變化,但變化都在一定閾值范圍中,不會特別大,當運行過程中存在變化非常大的值時,可以在大概率上判斷為異常值。因此,衛星試驗鑒定數據一致性的判別主要依據衛星試驗數據的偏離度大小來實現。實現步驟如下:
1)利用最小二乘法對相應遙測量的數據按照時間順序進行排序;
2)利用基于多項式的最小二乘曲線擬合模型完成排序后的衛星試驗數據擬合。
建立擬合結果與真實遙測值之間的偏離度,最后根據偏離的情況來判斷衛星試驗鑒定數據的一致性。
偏離度序列Dei的計算如下所示:

式中,DFY為試驗數據集中參照一致性計算后異常個數;D為試驗數據總數,CYZ為衛星試驗鑒定數據的一致性計算結果。
衛星試驗鑒定數據及時性的判別根據數據更新的時間與規定更新時間的差值來實現。各個數據包的規定的更新時間存在一定測差異,如平臺實時1 s包更新時間為1 s,平臺實時4 s包更新時間為4 s,設定一個時間差閾值ΔTSJ,當實驗數據的更新時間與規定更新時間差值大于指定時間差閾值ΔTSJ,則將該試驗數據判斷為傳輸不及時,最終統計得到試驗數據及時度占比:
式中,DSJ為數據在指定時間差閾值ΔTSJ下更新不及時的個數;D為數據樣本總數,CJS為衛星試驗鑒定數據的及時性。
分析衛星裝備試驗數據,以遙測數據為例可知每一行的數據不可能完全相同,主要表現在時間的不同,通過對時間的判斷確定是否為冗余數據,在記錄冗余后,統計得到試驗鑒定數據的記錄冗余占比如下所示:
式中,DRE為試驗鑒定數據集中的得到的冗余數據個數;D為試驗數據綜述,CRY為數據冗余性計算結果。
針對衛星裝備試驗鑒定數據質量復檢評價需求,結合衛星試驗鑒定多項數據存在的潛在多級關聯因素。如,試驗任務過程下的衛星姿控星敏與陀螺、太敏與帆板等數據之間。引入多因素模糊推理,較之常規單因素模糊推理只對所屬同一上級指標進行橫向模糊隸屬度實現不同,多因素模糊推理以衛星裝備實際多關聯特性,在單因素模糊推理基礎上全面考慮整個同層級所有指標間的相互關聯性。多因素模糊隸屬度指標:
D1={D11,D12,…,D1j}(j=12,…,n)
以標準樹形指標拓撲體系為例,假設構建其第二層級具有2項單列指標A1、A2,同時A1指標對應所屬下級指標為A11、A12;A2指標對應所屬下級指標為A21、A22。先根據單因素模糊推理分別完成A11、A12及A21、A22進行排列,再在此基礎上,利用多因素模糊推理,對A11、A12、A21、A22這4個所屬兩類分項指標下的不同指標分別進行兩兩比對得到比對定量值,記該層級模糊隸屬度值D3為:D31、D32、D33、D34、D35、D36。同時將所得結果按照大小順序進行排序,最后獲得的多因素模糊隸屬度集合D3={D34,D31,D32,D36,D35,D33}(D34>D31>D32>D36>D35>D33)。
待對衛星裝備試驗鑒定數據建立指標體系后,通過多因素模糊推理算法完成隸屬度計算后,計算實現按照自底向上進行,假設最底層指標權重分配矩陣為Z、單因素模糊隸屬矩陣為N,同時利用多因素模糊推理下經過兩兩比較后所獲取的差異量化加權值Q對單因素模糊隸屬矩陣進行最優至最劣對應加權值調整,最終得到該層綜合評價結果為S*=Z×(N+“Q”)。同時將下一層級計算獲得的綜合評價結果S作為上層級計算所需的權重矩陣Z。向上層級運算直至頂層,最終所獲取的定量綜合評判結果為Sfin[10]。
選取某衛星在同等試驗任務條件背景下產生的試驗鑒定數據為例,對數據進行質量評價。
數據:測試時間為2019年6月2日,試驗數據為衛星遙測數據1 s包,數據長度為82 431點,周內秒從45 001~116 999,反應的為衛星執行某試驗任務時的衛星轉臺信息。數據如圖3所示。
利用所提出的初檢-復檢相結合的二級試驗鑒定數據質量評價方法對上述某衛星裝備試驗鑒定數據進行指令評價實現。
基于數據本身特性,由型號總師預設數據接收各項閾值。
完整性閾值:ΔTWZ≥95%;
準確性閾值:ΔTZQ≥96%;
一致性閾值:ΔTYZ≥99.5%;
及時性閾值:ΔTJS≥90%;
冗余性閾值:ΔTRY≤0.5%。
在此閾值基礎上,分項計算各項初檢數據篩選值。數據在一秒包記錄單項數據的情況下,設定標準長度為83 000點,實際數據經檢查獲取長度為82 431點,其中空值61點,數據量值完整性計算值為:
(82 431-61)/83 000*100%≈99.2%
1 s包數據包含試驗數據類型17類,每類含有的樣本數目約為4 848,經與型號各項標準閾值比對,所獲取的17類數據落于標準閾值范圍內的概率:
p17={0.996,0.991,0.994,0.994,0.989,0.992,0.999,0.990,0.997,0.996,0.994,0.994,0.996,0.991,0.988,0.996,0.995}
計算獲得對應信息熵計算值:
Info(D)=0.085, Info(D,T)=0.082
進一步計算得到準確性計算值為:
(0.082/0.085)*100%≈96.4%
通過最小二乘法對該試驗鑒定數據進行計算,選取4次多項式擬合函數,α0=3,α1=2,α2=-1,α3=0.5,α4=0.8,即:
y=0.8x4+0.5x3-x2+2x+3
擬合計算得到偏離度Ai處于{0,0.007}范圍內,對應數據樣本計算得到:
CYZ=(1-577/82431)*100%≈99.3%
檢查衛星遙測1 s包數據星地傳輸時間欄信息,配合指定時間差閾值ΔTsj=0.000 01,計算得到CJS=100%,當前處理數據全部符合時間閾值約束;同時,與遙測標準幀結構比對得到,該組數據中不存在重復數據,CRY=0。全部初檢數據篩選值與預先設置的閾值比較均滿足,通過初檢,可以進入復檢階段。
針對所選取的某衛星試驗任務數據,在復檢過程中先進行指標體系預建,如圖4所示。
利用所建設的指標體系進行評價計算,首先分配各層級所對應的任務指標權重矩陣,設定二級、三級指標權重矩陣為W2,W3。其具體權重值設定如表1、表2所示。將數據質量分為“I、II、III、VI、V”5個層次。分別對應模糊推理中的{很好、好、一般、較差、差},本例設定三級指標層模糊向量的單因素評判矩陣R3如表3所示。

表1 二級指標權重向量劃分

表3 單因素評判矩陣R2
計算過程自底向上進行,以最底層模糊向量隸屬度為行,并作為其上一級指標評判矩陣,即:
Rn-1=Rn×Wn(n≥2)
同時通過專家或經驗系統梳理多指標因素之間的加權數值為多因素模糊隸屬度量化加權指標,本例設定Q3={0.25(R34),0.02(R32),0.01(R37),0.00(R31),-0.01(R35),-0.02(R33),-0.25(R36)}。依據S*=Z×(N+“Q”)層層計算,最終得到評價結果Sfin={0.171,0.324,0.138,0.131,0}。分析最終結果,得到其最終評價隸屬度項表示約32.4%的專家認為經過二級數據質量評價后,該組衛星裝備試驗鑒定數據結果為II級對應“好”。可以根據實際定義最終確定是否將數據繼續用于后續試驗鑒定工作使用。
數據質量評價技術的探索是以提高衛星裝備試驗鑒定數據質量為目的,對試驗鑒定過程中需要使用的數據進行二級質量評價,通過標準化數據質量篩選初檢及構建數據質量評價指標,并對評價指標進行配置,從不同試驗目標對衛星裝備試驗鑒定數據進行整體把關。不過,數據質量評價應用于試驗鑒定領域仍然需要結合裝備特性、數據本身特性在方法側、指標側等多方面進行繼續研究。二級數據質量評價方法的提出不一定能100%應對所有衛星裝備試驗鑒定數據的質量評價工作,但該方法的提出是對傳統分立、單一且不成體系的數據質量評價的一種創新嘗試,具有一定的新意及實際研究價值。