張少杰,榮海軍,楊朝旭,侯凱振
(1. 西安交通大學機械結構強度與振動國家重點實驗室,710049,西安;2. 西安交通大學陜西省先進飛行器服役環境與控制重點實驗室,710049,西安;3. 西安交通大學航天航空學院,710049,西安)
臨近空間的物質構成、能量輸運以及相互作用極其復雜,對飛行器的長期駐空飛行帶來了挑戰。利用遙測數據實時監測飛行器飛行狀態,是確保高可靠長航時穩定飛行的有效手段[1]。飛行器的能源、姿控、載荷等分系統之間接口交互,決定了遙測數據之間存在相關性。全參數的數據分析不僅導致信息冗余,增加了飛行器狀態監測的工作量,而且難以檢測出遙測數據之間相關關系的多元異常,使異常檢測存在盲目性[2]。遙測數據之間關聯復雜,任何一種飛行參數可能與多種參數之間存在相關關系,并且相關關系隨時間而變化。人工通過物理知識獲取相關性模型耗時且費力,并且一旦飛行器結構和環境發生變化,通常要重新分析相關性。借助相關性分析算法能實時分析遙測數據相關性,獲取數據的潛在關系,便于監測飛行器狀態[3]。歐洲太空局正是利用遙測數據之間的統計相關性進行異常檢測,挖掘出與異常事件相關的遙測參數[4]。因此,分析飛行器遙測數據的相關性有助于監測飛行器在軌運行狀態,保障飛行器正常運行。
圍繞遙測數據相關性,國內外學者提出了多種分析方法,包括Pearson相關系數[5]、互信息[6]、最大信息系數(MIC)[7]和距離相關系數[8]等方法。Zhe等[9]利用Pearson相關系數,分析了飛行器遙測數據相關性,能夠快速檢測出與艙門泄漏率相關的參數。Pearson系數計算復雜度低,對隨機噪聲的魯棒性強,但Pearson系數由于正態分布假設導致計算結果易受異常數據的影響。互信息不要求變量分布,但是難以計算概率密度函數,在互信息基礎上學者提出了MIC方法[10]。崔樹銀等利用MIC對多元負荷數據進行相關性分析,篩選出相關變量。MIC能刻畫數據間非線性關系,但是受網格劃分數和方式的影響,計算時間復雜度高[11]。孫宇豪等采用距離相關系數對遙測數據進行自變量選擇,提高了模型的預測性能[12]。距離相關系數通過特征函數距離衡量變量之間的相關關系,相比MIC時間復雜度低,但計算結果易受噪聲數據的影響。此外,上述方法在遙測數據相關性分析的實踐中存在結果沖突的問題。
由于現有的單一相關性方法存在一定的局限性,如果將不同優勢的相關性分析方法融合,則能夠提高分析結果的可靠性,因此考慮將優勢互補的相關性分析方法融合。D-S證據理論具有堅實的理論基礎,能在先驗概率和條件概率都未知的情況下處理信息,提高判決結論的正確度和可信度[13]。考慮到D-S證據理論具有上述優勢,本文采用D-S證據理論進行融合。但是當存在高度沖突證據時,D-S證據理論融合結果往往與常理相悖。Zhao等將證據沖突部分作為未知信息概率以處理證據沖突,但該方法會導致未知信息概率增加,無法獲得有效融合結果[14]。孫全等使用證據的可信度處理證據之間的沖突部分,但由于可信度直接定義,導致結果存在主觀性[15]。Shang等計算出n個證據的平均值,并使用D-S證據理論組合規則融合平均值[16]。該方法能夠處理沖突,然而未考慮到證據之間的權重。利用證據權重修正證據源,能夠降低沖突證據的影響。趙靜等利用Jousselme距離計算證據權重,并對證據加權平均后再采用D-S證據理論組合規則融合[17]。該方法通過Jousselme距離考慮了證據間的關聯性,利用焦元的交集與并集比值反映證據之間的相似性,但是證據焦元彼此獨立,焦元的比值并不能充分利用各證據之間的信息。Lin等采用相容系數計算證據之間的權重并修正證據,考慮了證據之間的相互支持度,但是無法有效處理高度沖突證據下的一票否決和合成規則失效問題[18]。
為了解決臨近空間飛行器的狀態監測與相關性分析問題,考慮到現有單一的相關性分析方法的局限性,以及相關性分析實踐中的證據沖突問題,本文在相關系數分析評價與優勢組合的基礎上提出了基于支持因子的證據理論融合算法。首先,選取優勢互補的Pearson相關系數、Spearman 相關系數與距離相關系數,分析遙測數據的相關性,并根據分析結果,構建相關性證據的初始基本概率賦值函數。其次,利用支持因子計算出各證據之間的權重并對證據進行修正,使修正后的證據具有相同的重要程度,計算證據命題的分布權重,分配修正證據的沖突基本概率賦值函數,從而獲得融合結果。最后,開展臨近空間飛行器遙測數據相關性分析實驗,結果表明所提方法提高了遙測數據相關性分析的可信度。
存在證據沖突的遙測數據相關性分析方法包括相關性評價和證據融合兩部分內容,如圖1所示。考慮到現有單一的相關性分析方法的局限性,選取能夠優勢互補的Pearson相關系數、Spearman相關系數與距離相關系數,對臨近空間飛行器遙測數據進行相關性計算,根據計算結果構造各相關性證據的初始基本概率賦值函數。考慮到相關性分析實踐中存在沖突問題,在相關系數分析評價與優勢組合的基礎上,提出了基于支持因子的證據理論融合算法。利用支持因子計算出各初始證據之間的支持度,獲得證據的權值并對初始證據進行修正,使修正后的證據具有相同的重要程度;根據證據支持度計算證據可信度,并獲得證據命題的分布權重;最后分配修正證據的沖突基本概率賦值函數,獲得相關性證據融合結果。

圖1 遙測數據相關性分析方法框圖Fig.1 Correlation analysis method for telemetry data
本節考慮到臨近空間飛行器遙測數據之間關聯復雜、數據量大、伴有隨機噪聲和擾動等特征,因此從隨機噪聲魯棒性、異常數據抗干擾和數據非單調性角度,分別選取了Pearson相關系數、Spearman相關系數與距離相關系數進行分析對比。
2.1.1 Pearson相關系數
Pearson相關系數ρx, y用于衡量數據間線性相關程度[19],表示為
(1)

2.1.2 Spearman相關系數
Spearman相關系數rs本質在于根據原始數據的排序位置進行相關性分析[20]。對兩個集合(X,Y)進行升序或降序排序,并獲得排行集合X′、Y′,元素xi、yi分別為Xi在X中的秩以及Yi在Y中的秩。將個數為n的集合X′、Y′中的元素xi、yi(1≤i≤n)對應相減,獲得一個排行差分值di(=xi-yi),rs表示為
(2)
rs采用單調變換描述集合之間的相關性,不會因個別異常數據影響整體排序,故抗干擾能力強。
2.1.3 距離相關系數
距離相關系數通過X與Y間聯合特征函數與各自邊際特征函數的差量化相關程度[21]。距離相關系數R(X,Y)表示為
(3)

(4)
(5)
(6)

(7)
(8)

本節開展臨近空間飛行器的遙測數據相關性評價實驗。受傳輸環境影響,遙測數據下發時不可避免出現噪聲,以連續分布的高斯噪聲和不同時刻下的脈沖噪聲為例分析噪聲魯棒性。同時,遙測數據之間關聯復雜,本節也從非單調性角度進行評價。
2.2.1 高斯噪聲魯棒性評價
數據噪聲模型可表示為
y(i)=x(i)+αn(i)
(9)
式中:x(i)是不加任何噪聲的遙測數據;y(i)是加入噪聲后的混合數據;α為噪聲強度系數,α∈[0, 1],通過調節α去控制信噪比。隨著α增大,信噪比減小,數據的噪聲程度也隨之增大。圖2表示不含高斯噪聲的原始遙測數據和含高斯噪聲的遙測數據(信噪比為40 dB)。

圖2 含或不含高斯噪聲的遙測數據示意圖Fig.2 Telemetry data with Gaussian noise
隨著信噪比降低,數據之間的關聯性減小,意味著相關系數的值隨著噪聲程度的增加而下降。因此,增加噪聲程度,并比較相關系數的下降程度,若下降程度最小,則說明噪聲魯棒性最強。圖3反映了不同高斯噪聲下的相關系數,可見隨著噪聲程度的增加,相關系數在逐漸下降,但是下降程度卻不同。圖3中Pearson相關系數下降程度最低,表明其高斯噪聲魯棒性最強。因為Pearson相關系數適合描述隨機分布的數據相關性,雖然加入了高斯噪聲,但是數據整體依然服從隨機分布,所以Pearson相關系數相比其他兩種方法受高斯噪聲影響更小。

圖3 不同高斯噪聲下的相關系數Fig.3 Correlation coefficients under different Gaussian noises
本節通過下降率衡量各相關系數的高斯噪聲魯棒性,下降率為不加噪聲相關系數和加入噪聲后相關系數之間的差值與不加噪聲的相關系數的比值,計算結果如表1所示。Pearson、Spearman以及距離相關系數在不同高斯噪聲下的下降率之和分別為0.59,0.939 1和1.050 0。因為下降率越小,噪聲魯棒性越強。因此,上述3種相關系數的高斯噪聲魯棒性排序為Pearson相關系數最高,Spearman相關系數次之,距離相關系數最低。

表1 不同高斯噪聲下的相關系數下降率
2.2.2 異常數據抗干擾評價
脈沖噪聲的魯棒性體現了對異常數據的抗干擾能力。圖4是加入不同時刻脈沖噪聲下的經度遙測數據。圖5反映了不同脈沖噪聲下的相關系數,圖中Spearman相關系數下降程度最低,表明其抗干擾能力最強。因為Spearman相關系數通過數據的秩進行相關性分析,個別擾動數據并不會改變整體數據的秩,所以Spearman相關系數相比其他系數抗干擾能力更強。

圖4 含脈沖噪聲的遙測數據示意圖Fig.4 Telemetry data with impulse noise

圖5 不同脈沖噪聲下的相關系數Fig.5 Correlation coefficients under different impulse noises
本節依然通過下降率對比各相關系數的異常數據抗干擾能力,計算結果如表2所示。Pearson、Spearman以及距離相關系數在不同脈沖噪聲下的下降率之和分別為0.488、0.042 5和0.220 6。因此,上述3種相關系數的異常數據抗干擾能力排序為Spearman相關系數最高,距離相關系數次之,Pearson相關系數最低。

表2 不同脈沖噪聲下的相關系數下降率
2.2.3 復合噪聲魯棒性評價
向原始遙測數據中加入含脈沖噪聲和高斯噪聲的復合噪聲,比較各相關系數的復合噪聲魯棒性。圖6為不同信噪比下的含復合噪聲的遙測數據。圖7反映了不同復合噪聲下的相關系數,圖中Spearman相關系數下降程度最低,表明其對復合噪聲的魯棒性最強。Pearson相關系數受到其中脈沖噪聲影響,在三者中的魯棒性最差,距離相關系數位居中間。

圖6 含復合噪聲的遙測數據示意圖Fig.6 Telemetry data with composite noises

圖7 不同復合噪聲下的相關系數Fig.7 Correlation coefficients under different composite noises
表3反映了相關系數對復合噪聲的魯棒性。Pearson、Spearman以及距離相關系數在不同復合噪聲下的下降率之和分別為2.141 8、1.544 8和1.755。因此,上述3種相關系數的復合噪聲魯棒性排序為Spearman相關系數最高,距離相關系數次之,Pearson相關系數最低。

表3 不同復合噪聲下的相關系數下降率
2.2.4 非單調性評價
遙測數據之間關聯復雜,多種復雜關系并存。數據之間也存在非單調關系。本節通過距離相關系數,與Spearman相關系數描述遙測數據之間的非單調關系。圖8反映了平臺北速(飛行器平臺沿正北方向的運動速度)與平臺俯仰角之間的非單調關系。分別用距離相關系數和Spearman相關系數計算兩者相關性,距離相關系數的計算結果是0.975 3,Spearman相關系數的計算結果是0.180 4。由于Spearman相關系數需要通過數據的單調變化獲得數據的秩,所以當數據非單調變化時,會影響Spearman相關系數的分析結果,而距離相關系數不需要對數據進行單調變化,因此距離相關系數相比Spearman相關系數更能夠準確描述數據之間的非單調關系。

a)平臺北速

(b)平臺俯仰角
評價分析結果表明:Pearson相關系數計算復雜度低,對隨機噪聲的魯棒性強,但異常數據抗干擾能力差;Spearman相關系數對異常數據抗干擾能力強,但不能準確識別數據之間的非單調關系;距離相關系數能夠更準確地描述數據之間非單調關系,但是對隨機分布的高斯噪聲魯棒性差。因此,Pearson相關系數、Spearman相關系數與距離相關系數相互互補,三者融合結果能夠更全面體現遙測數據相關性。
Pearson相關系數、Spearman相關系數與距離相關系數相互互補,本節分別采用上述3種相關系數作為相關性證據對遙測數據進行相關性分析。表4是Pearson、Spearman和距離相關系數的遙測參數相關性分析結果。分析表4可知,3種相關系數在分析懸浮高度與大氣壓、懸浮高度與表面溫度時,分析結果都趨于1,表明懸浮高度與大氣壓以及表面溫度相關。在飛行器運動速度與氦氣囊內的氦氣溫度相關性分析結果中,Pearson、Spearman相關系數結果表明二者不相關,距離相關系數的分析結果與Pearson、Spearman相關系數分析結果差異不大,但認為二者存在一定相關性。在空氣溫度與氦氣體積的相關性分析結果中,Pearson相關系數結果表明二者不相關,而Spearman和距離相關系數結果表明二者強相關,此時3種相關系數的分析結果不一致,產生了沖突。上述方法在遙測數據相關性分析實踐中存在結果沖突的問題,需要融合算法有效抑制證據沖突對分析結果的影響。

表4 遙測數據相關性結果
在相關系數分析評價與優勢組合的基礎上,提出了基于支持因子的證據理論融合算法。首先,由于Pearson、Spearman和距離相關性證據的分析角度不同,各相關性證據重要程度不一定相同。所以,采用支持因子計算出各證據之間的權重并對證據進行修正,使修正后的證據重要程度相同。其次,為了解決D-S證據理論存在的一票否決和合成規則失效問題,通過計算證據命題的分布權重,分配修正證據沖突基本概率賦值函數,從而獲得融合結果。
辨識框架Θ={A1,A2},命題A1表示相關,A2表示不相關。對于任意兩個證據mi與mj(1≤i,j≤3)之間支持因子Sij為
(10)
式中:At?Θ,t=1或2,代表上述相關性證據的結果,即相關和不相關。支持因子既能夠表征證據之間的支持程度和一致性,也從側面反映了證據之間的沖突程度。式(10)所計算的支持因子保留了各證據之間的初始信息,同時綜合考慮到證據的所有命題At,能直接體現出證據整體之間的相互支持程度。Sij取值范圍為[0, 1],Sij若接近0,表明證據之間支持程度低,沖突性強;Sij若接近1,表明證據之間支持程度高,沖突性弱。

步驟1通過式(10)計算證據支持因子Sij,并依據Sij計算證據的支持度p(mi)。在計算出相關性證據mi與mj之間的支持因子Sij后,構造出一個3×3的支持因子矩陣S如下
(11)


m′i(A)=wimi(A),A≠Θ
(12)
m′i(Θ)=mi(Θ)+1-wi
(13)
式(12)、(13)獲得了修正后的基本概率賦值函數m′i(1≤i≤3)。式(12)使證據權重小的相關性證據對命題A所提供的確定性信息減小;式(13)使證據權重小的相關性證據所提供的不確定性信息增加。因此,減小了證據權重小的證據對整個融合系統的影響。經過式(12)、(13)修正后,各相關性證據的重要程度相同。
步驟3計算證據的命題分布權重并改進組合規則。通過命題分布權重分配修正證據的沖突基本概率賦值函數,獲得融合結果[25],表示為

(14)

本節基于表4的相關性結果,構造相關性證據并開展證據融合,從證據沖突大和證據沖突小兩種情況分別進行相關性分析。
飛行器懸浮高度與其表面溫度的相關性證據及融合結果如表5所示。上述基本概率賦值函數相關概率都接近1,表明懸浮高度與表面溫度相關,證據分析結果一致。圖9是懸浮高度與表面溫度的變化過程曲線,表面溫度隨懸浮高度的增加而增加。圖9與表5都充分體現出二者的相關性。飛行器在上升過程中表面溫度升高,兩者整體上呈現強相關關系,但上升階段初期懸浮高度出現振蕩,導致不是嚴格線性相關關系。

(a)懸浮高度

(b)表面溫度
飛行器運動速度與氦氣溫度的相關性證據如表6所示。Pearson、Spearman相關性證據結果表明速度與氦氣溫度不相關,但是距離相關性證據結果表明二者存在一定相關性。此時存在證據沖突,采用式(10)計算支持因子,可得S12=0.998 9,S13=0.859 9,S23=0.834 4,由此可得支持度分別為1.858 8、1.833 4和1.694 3。分析表4中速度與氦氣溫度的Pearson與Spearman相關系數,可得出兩者支持度接近。選擇支持度最高的證據進行修正,m1的支持度最高,故為關鍵證據。

表5 飛行器懸浮高度與表面溫度相關性證據及融合結果

表6 飛行器運動速度與氦氣溫度的相關性證據


表7 修正的飛行器運動速度與氦氣溫度相關性證據及融合結果


表9 修正的空氣溫度與氦氣體積的相關性證據及融合結果

表8 空氣溫度與氦氣體積相關性證據

(a)空氣溫度
為驗證本文所提方法的有效性,與其他文獻方法進行對比,結果如表10所示。經典D-S證據理論融合結果極易受到沖突證據的影響;文獻[14]方法在處理沖突時,將沖突部分全部賦給未知信息,導致未知信息過大,分析結果造成偏差;文獻[16]方法對平均證據進行D-S證據理論組合,但忽略了證據之間的支持度,結果并不理想;文獻[18]方法采用相容系數計算證據權重,考慮了證據之間的相互支持度,融合結果相對較好。本文方法的相關概率計算結果相比文獻[18]計算結果提高了約6.55%,比文獻[16]計算結果提高了約26.84%,故本文利用基于支持因子的證據理論融合算法使相關性分析結果的可信度進一步提高,有效解決了相關性分析中的證據沖突。

表10 空氣溫度與氦氣體積的相關性證據融合結果對比
臨近空間飛行器長時間滯空飛行,狀態發生異常甚至系統故障的頻率大大增加。遙測數據相關性分析結果有助于監測飛行器的狀態及檢測故障。
(1)針對實際工程中遙測數據關聯復雜、數據量大,實時下發伴有噪聲等特點,考慮現有的單一相關性分析方法無法同時解決上述問題,采用融合優勢互補的相關性分析方法,以提高分析結果的可靠性。評價實驗證明,Pearson相關系數、Spearman相關系數與距離相關系數性能互補,3種相關系數融合有助于更全面地分析遙測數據的內在關聯。
(2)由于Pearson相關系數、Spearman相關系數與距離相關系數在遙測數據相關性分析的實踐中存在結果沖突的問題,因此在相關系數分析評價與優勢組合的基礎上,提出了基于支持因子的證據理論融合算法,通過支持因子計算權重及修正相關性證據,并分配修正證據的沖突基本概率賦值函數,解決了證據沖突,取得了更客觀的融合結果。
(3)實驗結果表明,本文所提方法能夠有效解決證據沖突問題,提高了臨近空間飛行器遙測數據相關性分析結果的可信度。