任會娟,黃麗霞,張雪英,李鳳蓮,杜海文,于麗君
(1.太原理工大學 信息與計算機學院,太原 030024;2.山西省中電科新能源技術有限公司,太原 030024)
由于生產環境、生產次數,測量誤差等諸多因素,沉積數據往往具有顯著的不確定性。D-S證據理論作為一種處理不確定性問題的理論方法,及其在不確定信息的表示、處理和組合等方面的優勢,已經廣泛使用于決策融合的不確定性推理系統中[1]。但是D-S證據理論在處理沖突證據時,容易產生與事實相悖的結果,不利于實際生產應用。
針對上述問題,現有研究方向主要包括:改變Dempster組合規則[2-3]和修正原證據體[4-5]。前者認為組合規則本身存在缺陷需要修改,但修改破壞了D-S證據理論的完整性[6],在處理大量證據時,效果并不理想;后者認為悖論的出現主要是由于證據本身的缺陷導致,即存在一個或多個沖突證據,而解決沖突問題關鍵是通過折扣系數對證據進行修正,減小沖突證據的占比,削減證據的沖突程度,最大程度上保留了D-S證據理論的完整性。因此,本文將折扣系數的確定方式作為研究的重點。
目前,折扣系數的確定方法分兩種:一種是利用距離衡量證據的不確定性;另一種是基于相關系數描述沖突程度[7-8]。前者又可分為兩類:一類是點到點距離。文獻[9]通過分析Jousselme距離提出廣義證據距離,但是很難用一個點衡量不確定區間,不可避免地造成信息的丟失;另一類是區間距離[10-11]。文獻[12]利用基于定積分的區間距離衡量證據的不確定性并得到很好的融合效果。關于后者,文獻[13]使用Pearson相關系數對證據進行修正,但Pearson相關系數適用于符合正態分布的數據,對數據源的要求很高。文獻[14]使用Spearman相關系數有效的解決了這一問題,但沒有考慮到證據的不確定性,造成了部分信息的丟失。
綜上所述,本文在相關性和置信區間的基礎上,引入Spearman相關系數和基于定積分的區間距離來分別描述和計算證據間的支持度以及各證據的不確定度,并根據這兩個指標,確定新的折扣系數以修正原證據體。以此為基礎,建立一種基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型,為碳/碳復合材料的沉積過程提供有效參考。
碳/碳復合材料,是一種具有較好物理性能和力學性能的新型復合材料,廣泛應用于航空航天、導航、核能等高科技領域[15]。但是目前國內外絕大多數的研究主要針對致密技術進行實驗和研究[16-17],而隨著生產數據的增多和實際生產的需要,對致密化過程產生的數據進行智能分析,發現各工序之間的關系及最后的作用效果,對于開展碳/碳復合材料沉積質量預測的研究具有重要意義。
下面給出D-S證據理論相關定義:
定義1 設Θ為識別框架,基本信任分配函數m是一個從集合2Θ到[0,1]的映射,A表示識別框架Θ的任一子集,記為A?Θ,且滿足[8]:

(1)
式中:m(A)稱為命題A的基本概率分配(Basic Probability Assignment,BPA)函數,表示證據對的信任程度。
定義2 假設Θ為識別框架,m為BPA函數,則

(2)
Bel(A)為信任函數,表示命題A所有子集的BPA之和。

(3)
Pl(A)為似然函數,表示命題A非假的信任程度。[Bel(A),Pl(A)]為置信區間或不確定區間,區間的長度反映了命題A的不確定程度[15]。
定義3 設m1,m2,…,mn是同一識別框架Θ上的n個BPA函數,焦元分別為Ai(i=1,2,…,N),則D-S證據理論的合成規則為:
(4)

本節針對Spearman相關系數的規范性問題進行說明并加以改進,并對支持度和不確定度對于沖突度量的必要性進行分析;最后,提出融合支持度和不確定度的D-S證據理論,并詳細介紹所提理論對于沖突證據融合流程。
雖然Spearman相關系數在非正態分布的樣本上表現優異,但將其引入到D-S證據理論進行證據修正時,仍存在以下問題:
1) 忽略了相關系數為[-1,0)和0時的區別;
2) 默認樣本值無重復。
下面將給出原始的Spearman相關系數定義,如定義3,并對以上兩個問題分別展開討論并舉例說明:

(5)
為變量x和y之間的Spearman相關系數。其中,di為變量x和y之間的等級差。r取值范圍為[-1,1],r的值越大,x、y相似性越高。當r=1時,x和y在函數上嚴格單調遞增。當r=-1時,x和y在函數上嚴格單調遞減。當r=0時,x和y的單調關系在函數上并不明顯[17]。
針對Spearman相關系數取值無法滿足基本概率分配函數要求的情況,即m(A)>0且∑A?Θm(A)=1.文獻[17]將Spearman相關系數為[-1,0]的全部歸零,即r=0;認為r為負數的證據完全沖突,忽略了r為負數的證據的沖突程度也有區分,以下進行舉例說明。
例1:設辨識框架Θ={A,B,C},3個證據的基本概率分配如下:
m1∶m1(A)=0.8,m1(B)=0.2,m1(C)=0;
m2∶m2(A)=0,m2(B)=0.8,m2(C)=0.2;
m3∶m3(A)=0.3,m3(B)=0.5,m3(C)=0.2.
推理m1對命題A的信度較高,且m1和m2對命題B的均有信度,即具有一定的相關性;較m2,m3對命題A的信度有所上升,且對命題B的信度有所下降,m1和m3的相關性應大于m1和m2的相關性。
根據文獻[17]的計算方式得,m1和m2之間的Spearman相關系數r12=0,m1和m3的r13=0,與上述推理結果不符。
針對這一問題,對Spearman相關系數計算公式(5)進行改進,由于原始Spearman相關系數的取值范圍為[-1,1],對其進行加1處理,使其取值范圍變[0,2];再次對整體除以2,為使之取值范圍變為[0,1],改進后的Spearman相關系數計算公式,如式(6)所示:
(6)
其中,n為焦元個數,di為焦元之間的等級差。改進之后的Spearman相關系數既考慮了相關系數為[-1,0)和0時的區別,又滿足了基本概率分配函數的要求。
根據公式(6)計算得,m1和m2的r12=0.25,m1和m3的r13=0.75,與上述推理結果完全吻合。
另外,針對Spearman相關系數默認樣本值要求無重復的缺陷,考慮證據的BPA無法保證無重復。因此,在計算時,對存在重復值的部分取等級均值。以下進行舉例說明:
例2:設辨識框架Θ={A,B,C},兩個證據的基本概率分配如下:
m1∶m1(A)=0.5,m1(B)=0.2,m1(C)=0.3;
m2∶m2(A)=0.6,m2(B)=0.2,m2(C)=0.2.
若不對等級取均值,由公式(6)計算可得,m1和m2的r12=0.75.對重復值的部分取等級均值得m1的等級分別為1,3,2;m2的等級分別為1,2.5,2.5.則m1和m2的r12=0.937 5.對存在重復值的部分取等級均值,m1和m2之間的支持度相對較高。
支持度是從證據間的相互性出發,描述證據間的變化趨勢是否相關,而證據的不確定度是以證據本身特性作為依據,用來反映證據的聚集程度,不確定度越高,說明證據的聚集程度越低,對自身的BPA分配越不認可;反之,對自身的BPA分配的認可度越高。所以,證據間的支持度和證據自身的不確定度互不影響,且都屬于證據自身所擁有的信息。僅考慮其中之一,都將破壞證據信息的完整性,不利于對沖突證據的有效修正。
因此本文的研究重點是相關系數和區間距離在證據體上的具體應用以及新的折扣系數的確定。
由上述研究可知,綜合考慮證據間的支持度和證據的不確定度,可以有效描述證據間的信任程度,并且對證據的聚集程度也得以體現,最大程度上利用了證據信息。以此為基礎,構建融合支持度和不確定度的D-S證據理論。通過證據間的支持度和證據的不確定度,確定新的折扣系數,修正原證據體,削減證據的沖突程度以達到正確融合的效果。具體的流程如圖1所示。

圖1 沖突證據融合流程圖Fig.1 Conflict evidence fusion flowchart
多證據融合方法和步驟具體如下:
1) 利用式(6)計算兩兩證據之間的相關系數rij,并構成證據體的相關性矩陣
(7)
其中,n為證據體的證據個數。
2) 根據相關性矩陣,確定證據體對各證據的支持度。定義證據體對證據mi(i=1,2,…,n)的支持度:
(8)
其中,Ri的取值范圍為[0,1].
3) 將證據的支持度Ri作為折扣公式:
(9)
中的折扣系數αi,對原證據體進行第一次修正。
4) 在考慮了證據體對各證據支持度的基礎上,結合修正后證據體中各證據的置信區間和基于定積分的區間距離:
(10)
確定修正后證據體中各證據自身的不確定度Ui.
公式(10)中,E、F為兩個區間,表示為[eu,el]、[fu,fl],D(E,F)的取值范圍為[0,1],本文對p取1.有關基于定積分區間距離的其他性質,參考文獻[15].
各證據自身不確定度Ui的計算步驟如下:
①使用Dempster組合規則對第一次修正后的證據體進行融合,得到結果中BPA最大的焦元A′(A′?A);


5) 根據各證據的支持度和不確定度計算新的折扣系數:
wi=Ri×(1-Ui) .
(11)
式中,wi的取值范圍為[0,1].證據的支持度越大,不確定度越小,則證據的可靠性越強,即折扣系數越大。當證據的支持度Ri=0或Ui=1時,證據的折扣系數wi=0,即該證據與其他證據完全沖突或者該證據對融合結果完全不信任,將從證據體剔除。當證據的支持度Ri=1并且Ui=0時,證據的折扣系數wi=1.
6) 將新的折扣系數帶入式(9),對原證據體進行第二次修正。
7) 使用Dempster組合規則對第二次修正后的證據體進行融合,對應BPA最高的焦元為最終的融合結果。
以文獻[18]中提到的4種常見悖論的BPA函數為數據源,如表1所示。從方法的有效性方面,對比幾個經典改進算法,對比結果如表2所示。

表1 四個常見悖論的BPATable 1 BPA of four common paradoxes
由表2易知,在完全沖突下,D-S證據理論失效、Yager組合規則將沖突完全給全集,認為證據完全無知;孫全等[2]雖有所改善,但全集的BPA仍然很高,不利于實際判斷。在0信任悖論下,D-S證據理論和Yager組合規則對A的信任度對0,與實際不符;Sun仍存在全集的BPA仍然過高問題。在1信任悖論下,D-S證據理論、Yager組合規則、Sun仍然存在上述問題。在高沖突悖論下,D-S證據理論、Yager組合規則和Sun仍然存在上述問題。Murphy組合規則[3]、鄧勇等[4]和本文方法在四個沖突悖論下都能得到正確的結果,但本文方法具有更高的基本概率分配,收斂更快。實驗結果證明了本文方法有效性。
由于本文的不確定性的度量方法參考了文獻[12]中的基于定積分的區間距離。因此,使用文獻[12]的實驗數據,如表3所示,與本文方法進行對比。相比文獻[12],本文綜合考慮了證據間的支持度以及證據的不確定度,對沖突的度量較為全面,很大程度上證據信息的缺失;并且本文采用Dempster組合規則對修正后的證據體進行融合計算,較文獻[12]采用PCR5組合規則,計算過程更為簡單、快速,便于生產實踐應用。兩個方法的對比結果,如表4所示。

表2 四個常見悖論合成結果Table 2 Four common paradox synthesis results
結果表明,文獻[12]和本文方法都能有效地融合證據體。較文獻[12]融合結果,本文方法得到的結果具有較高的基本概率分配。

表3 沖突證據體的BPATable 3 BPA of conflict evidence

表4 沖突證據體合成結果Table 4 Conflict evidence synthesis results
D-S證據理論以其在不確定推理方面的優勢,被廣泛應用于許多信息融合系統中,然而如何確定基本概率分配仍是必要環節。考慮到基于正態分布模型的嵌套結構BPA函數[19]無需大量的訓練數據集,且沒有復雜的計算,方法實現容易;考慮到碳/碳復合材料沉積數據量有限,因此參考文獻[19]的方法確定每個測試樣本的基本概率分配。結合本文所提出的融合支持度和不確定度的D-S證據理論,構建基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型。為驗證所提模型的準確性與實用效果,選取了山西省中電科新能源技術有限公司沉積數據進行實驗。在調查研究其沉積重量影響因素和碳/碳復合材料沉積產品等資料后,結合實地可測數據和鄰域粗糙屬性約簡結果,確定了以沉積時間、爐內溫度、甲烷流量,氮氣流量,耗電量,裝爐位置等共6個屬性,作為碳/碳復合材料沉積質量的特征因素,將量化之后的單位沉積質量作為碳/碳復合材料致密性的評價指標。隨后,收集碳/碳復合材料不同的沉積工藝數據,建立質量預測樣本數據庫。
在本節中,利用第二節中所提的方法構建一個基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型。模型框架如圖2所示。首先,將碳/碳復合材料相關的某個數據集,分為訓練集和測試集;然后,使用文獻[19]提到的基于正態分布模型的BPA函數,獲取每個屬性對于每個測試樣本的BPA;值得注意的是,為了避免高沖突問題的產生,文獻[19]采用嵌套結構來構建BPA函數,但是這一定程度上加大了沖突證據對于結果的影響。因此,本文將歸一化的結果直接作為各焦元的BPA,避免了這一問題,并且本文提出的融合支持度和不確定度的D-S證據理論能夠很好的融合沖突證據,無需在確定BPA的時候避免沖突的出現。其次,對每組BPA使用本文提出的基于支持度和不確定度的沖突證據融合方法,對每組BPA進行折扣修正并得到融合結果;最后,將最大值對應的焦元作為最終碳/碳復合材料沉積質量預測結果。

圖2 模型框架圖Fig.2 Model framework diagram
在本節中,選取部分樣本作為測試樣本,以驗證模型的有效性。限于篇幅,表5僅列出5組典型樣本,其中,標簽列中的“1”表示樣本不合格,“2”表示樣本合格。
根據訓練集建立正態分布模型后,測試樣本通過基于正態分布模型的嵌套結構BPA函數得到每個屬性的基本概率分配,每個樣本得到n個證據,其中,n為屬性個數。因為每個屬性對于樣本的預判有合格和不合格兩種情況,因此每條證據有兩個焦元。所得的BPA函數,如表6所示。

表5 典型樣本Table 5 Typical sample
觀察表6發現,若以各屬性BPA函數中最大值對應的標簽,作為第一次的預測結果,則預測結果存在一定概率的誤判。如樣本3中,甲烷流量出現了誤判的情況;樣本5中,耗電量、裝爐位置兩個屬性都出現了誤判的情況。因此,應用單一屬性進行質量預測存在較大的不確定性。而將多個屬性的基本概率分配作為融合支持度和不確定度的D-S證據理論的賦值進行融合,最終預測結果正確率則有很大提高。在應用融合支持度和不確定度的D-S證據理論的過程中,使用新的折扣系數對沖突證據的占比進行調整,同時引入不確定信息,更加接近和符合實際生產情況。經新的折扣系數修正后的基本概率分配,如表7所示。

表6 典型樣本的BPATable 6 BPA for typical samples

表7 典型樣本BPA修正結果Table 7 Typical sample BPA correction results
觀察表7發現,每個樣本沖突證據的BPA函數值減小,證據體的沖突程度得到了一定程度的削減。經Dempster組合規則融合后的結果,如表8所示。對比測試樣本的實際標簽,模型的預測結果正確,證明了基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型的有效性。

表8 典型樣本預測結果Table 8 Typical sample predictions
由于不同的沉積工藝有相應的生產工序,而每個生產工序的致密度不同,所以對不同生產工序的數據進行實驗分析,表9為整理的生產工序的數據集信息。

表9 生產工序的數據集信息Table 9 Data set information for production operations
采用十折交叉驗證,對比懷卡托智能分析環境[19](Waikato environment for knowledge analysis,WEKA)中的支持向量機、K近鄰、決策樹、隨機森林等經典分類器以及文獻[19]的模型,結果如表10所示,預測模型準確率提高了5%~13%,證明了所提模型的有效性。

表10 不同方法的預測準確率Table 10 Predicts the accuracy of different methods %
本文從證據間支持度和各證據不確定度的角度對D-S證據理論存在的證據沖突問題進行改進,并建立了基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型。實驗對比主要結論如下:
1) 引入Spearman相關性限制,并對其進行改進,使之取值范圍限制在[0,1],為后續將其用于具有取值限制的相關算法提供了參考。
2) 對沖突證據體進行二次修正,并將第一次修正后組合結果的置信區間作為證據不確定度量的參考,充分發揮了度量方式的優勢,為區間信度研究提供了新的思路。
3) 與經典改進算法和引入基于定積分區間距離改進的算法相比,本文算法能有效地融合沖突證據,并且都表現更高的基本概率分配。
4) 建立了基于改進D-S證據理論的碳/碳復合材料沉積質量預測模型,結果表明,綜合考慮證據間的支持度和各證據的不確定度將提高決策的準確性。