任博, 岳珠峰, 崔利杰, 王新河, 張峰
1.西北工業大學 力學與土木建筑學院, 陜西 西安 710072;2.空軍工程大學 裝備管理與無人機工程學院, 陜西 西安 710051
可靠性分析設計、優化的基礎在于輸入、輸出不確定性的精確描述及傳遞。在航空、航天領域,各類結構、機構系統受到幾何尺寸不準確性、材料參數分散性、載荷環境波動及儀器測量誤差等不確定性因素影響,其零部件的性能、輸出響應也存在一定變異特性。其中,有些參數因樣本充足可構建精確概率分布,而有些參數難以評價,測量難,且樣本缺乏(如航空安全、毀傷概率、健康指數)只能給定其變化區間[1]。為此,研究混合不確定性分析對可靠性設計、安全評價具有重要工程意義。
區間數據來源分為:①故障或者不確定性設備參與試驗取得的數據;②來自不同專家的意見[2]。關于區間不確定性描述,Ferson等[3-4]將基于離散點概率分布估計推廣至區間處理中,提出用概率盒描述區間數據。Zaman等[5]提出求解區間數據四階矩的優化方法,并以此為約束用Jonson分布族描述區間數據。Williamson和Montgomery[6-7]分別在其博士論文討論了貝葉斯概率盒以及用于概率盒區間計算的法則。Sankararaman等[8]用參數分布和非參數概率分布描述區間數據,并將其應用到區間不確定性傳遞。對于多類型數據混合不確定性分析,Elishakoff和Colombi[9]研究了不確定性概率模型和凸模型混合問題。曹鴻鈞和段寶巖[10]提出一種非概率可靠性的度量指標,可用于橢球凸模型與區間變量并存情形。Qiu等[11]將區間分析方法引入傳統概率理論中,研究了隨機參數與區間參數并存結構可靠性問題。目前,概率理論可靠性模型發展比較成熟,而概率-區間混合模型的可靠性研究仍處于起步階段,不確定性融合模型、模型求解算法等都值得深入研究。
根據極大熵原理[12]推斷,在約束條件下描述變量不確定性的概率分布中熵值最大的分布具有最少偏見性。鑒于此,本文提出信息熵函數可用來度量離散點和區間數據包含的不確定性信息,且熵值越大,該組數據不確定性越大;反之,則越小。在此基礎上,本文基于改進最大熵函數方法描述混合區間和離散數據的混合不確定性,得到包含混合不確定性信息的非參數概率分布,并在概率理論框架內,將不確定性由輸入向輸出傳遞,完成可靠性分析。
隨機不確定性模型以概率統計數學為基礎,能夠處理各種復雜環境下的不確定性傳遞問題,是目前使用范圍最廣、發展最為完善的不確定性理論。隨機不確定性描述模型中當變量樣本數據積累到足以精確確定變量概率密度函數時,可用概率密度函數形式定義[13]:
1) 連續型變量隨機模型
假定隨機變量X為連續型,且服從分布類型(正態、對數正態等)概率分布,概率密度函數為fX(x|θ),其中θ為概率分布參數,獨立于隨機變量。針對連續變量中單個離散點數據xi,視其為上下限幾乎相等的退化區間,則單個離散點數據xi發生概率為:
式中,ε為任意小量(ε>0)。
若連續型變量總體為X={X1,X2,…,Xn},{X1,X2,…,Xn}是來自X的離散點樣本,則{X1,X2,…,Xn}的聯合分布律為
式中:θ為待估計概率分布參數;k為正比例系數,其中k≠0。
2) 離散點數據隨機模型
若總體X={X1,X2,…,Xn}屬于離散型變量,且{X1,X2,…,Xn}是來自X的樣本,則{X1,X2,…,Xn}的聯合分布律為

(3)
式中:θ為待估計參數;P為變量X取其實現值x時的概率。
對離散點的不確定性描述,最大似然函數法是常用的一種參數估計方法,基本思想是從模型總體隨機抽取K組樣本觀測值,尋找最合理的參數估計量,能使抽取的該K組樣本觀測值的概率最大[14]。
傳統最大似然函數法確定最優概率分布函數簡要步驟具體見文獻[14]。
傳統方法處理離散點(樣本規模較大時)不確定性,具有以下局限性:①需要人為確定數據概率分布類型,而數據絕大多數分布于密度函數“中部”(如正態分布),分布尾部是由“中間”分布外推得到;②在結構可靠性分析中,起主要作用的恰是分布函數尾部,可靠性分析結果對變量分布尾部極為敏感。
因此,當要求可靠性較高(如失效概率Pf≤10-5)或缺乏數據時,假定概率模型方法適用性較差。
熵可用作為不確定性的度量[15]。改進最大熵函數法繼承概率和信息熵優點,其優勢在于通過構造不同類型數據不確定性的聯合熵函數,將由插值技術得到的非參數概率密度函數在原始數據空間上下限內均勻離散點處的概率密度值,作為優化自變量,建立優化模型,確定均勻離散點處的最優概率函數密度值,得到非參數概率密度函數。
熵是物質系統混亂和無序程度的測度,可用來描述信息不確定程度[15-17]。本文使用熵作為隨機事件不確定性和信息量的量度。信息熵[16]認為隨機變量不確定性越大,其熵值越大。因此,根據概率密度函數為fX(x)連續隨機變量X,熵定義為

(4)
式中:DX表示隨機變量變化范圍或支撐;fX(x)為隨機變量X概率密度函數。
針對區間[ai,bi],(i=1,2,…,n)變量的熵,根據(4)式對多個混合區間聯合熵函數定義

(5)
針對包含m個離散點的隨機變量X={X1,X2,…,Xm},其觀測樣本{x1,x2,…,xm},離散點可看作上下限近似相等退化區間,因此,單個離散點xi熵定義
式中,ε是任意小量(ε>0)。
根據(5)式和(6)式2種類型數據的熵定義,m個離散點x={x1,x2,…,xm}和n個區間[ai,bi],
(i=1,2,…,n)包含的混合不確定性熵函數可寫為

(7)
變量包含區間和離散點數據信息的混合不確定性,(7)式聯合熵函數可衡量原始數據包含不確定性信息量大小。
文獻[17]認為描述隨機事件概率分布fX(x)在約束條件下使得該組隨機事件熵值最大,則該概率分布具有最少偏見。
相比于傳統不確定性描述方法,本文優勢在于基于極大熵[17]建立描述區間和離散點數據不確定性大小的聯合熵函數優化模型,并巧妙地將優化變量轉化為插值點的概率密度值。所提方法將傳統對既定概率分布的參數估計轉化為對原始數據空間自定義離散點處概率密度值估計優化,計算量和精度可通過自定義離散點數量控制,對原始數據不確定性信息挖掘更充分。在此基礎上確定最少偏見概率密度函數fX(x),完成對多類型數據混合不確定性描述。本文應用插值技術得到非參數改進聯合熵函數,將傳統假定概率分布類型,分布參數估計尋優過程轉化為在原始數據空間內對自定義隨機離散點處的概率密度值優化,進而使用插值技術得到描述區間和離散點數據混合不確定性的最少偏見概率密度函數。具體過程如下:


4) 基于最大熵原理,建立優化模型如(8)式所示
式中:f∈Rm是概率密度函數在原始數據空間內上下限之間均勻離散點處的概率密度函數值,為設計變量;H(·)為目標函數。


采用序列二次規劃算法求解(8)式中涉及的優化問題,在Matlab R2010b中,fmincon可實現該算法[18]。
為了方便理解,將上述過程繪制成流程圖,說明基于改進最大熵函數法描述混合不確定性的具體思路,如圖1所示。

圖1 改進最大熵函數描述混合不確定性方法優化流程圖
在區間和離散點混合數據不確定性優化過程中,將傳統針對假定分布類型概率分布參數的優化,轉換為原始數據空間上下限內均勻離散點處概率密度值的優化,計算效率和精度可通過所選區間離散點的規模來控制。同時,所提方法是非參數的,避免了根據數據直方圖判定分布類型,減少了人為誤差。
本節通過2個算例說明所提方法對混合數據信息下不確定性描述的合理性。
討論一組區間與離散點的組合數據:X={[3.5,4],[3.9,4.1],[5,6],4.1,5.6,3.8},其總區間為[3.5,6],該組區間數據內包含離散點,本節將其視為上下限相等的退化區間。
針對算例1,取Q=11為例,在原數據區間上下限上均勻離散后的樣本為x=[3.5,3.75,4.0,4.25,4.5,4.75,5.0,5.25,5.5,5.75,6.0],基于改進最大熵函數法描述混合區間數據和離散點數據的不確定性,通過對聯合熵函數進行最大值優化,得到均勻離散點處最優概率密度函數值為f*=[0.073 1,0.120 3,0.178 0,0.007 7,0.119 3,0.142 4,0.203 9,1.735 4,1.167 1,0.172 5,0.486 6]。按照上述步驟,取Q=15進行優化,得到類似結果。為更直觀地表現該組區間和離散點數據的分布特點,用三次樣條插值得到描述區間數據和離散點混合數據不確定性的概率密度函數,如圖2所示。

圖2 算例1基于改進最大熵函數描述混合不確定性的最優概率密度函數
圖2中分別給出了在原始數據區間內均勻離散點數為11和15情況下的優化結果。可以看到2種優化得到的概率密度函數都是雙峰函數,峰值分別出現在[3.6,4.4]和[5.3,5.8]內,且其他區間內的概率密度明顯小于峰值區間的概率密度值,這是因為長區間數據落在[3.6,4.4]和[5.3,5.8]內,造成概率集中。其中Q=15相比于Q=11,所得概率密度函數在對[3.9,4.1]分布描述上更加精細。同時,在區間[5,6]和5.6離散點數據情況下,Q=15受到5.6離散點影響,概率密度函數右移,相比于Q=11更加科學。
此外,原始數據在[3.5,4.2]區間內也有離散點數據和短區間數據分布,而圖3中概率密度函數在該處的概率密度值并不高,這是因為基于改進最大熵函數方法對區間數據包含的不確定性信息量給予了充分的熵值分配,認為區間數據包含不確定性信息量大于離散點數據的不確定性信息量,而且有學者認為區間數據可以看作是離散點數據的密集集合。注意到與初始數據相比,概率密度函數范圍中包含了原數據中未包含的數據點,例如在4.5和3.0處其概率密度值并不等于零,而原數據中不包含該點。這是已經預見到的,因為基于改進最大熵函數的不確定性描述方法是依據原數據的統計分布特征對原數據樣本進行合理擴展,生成的概率密度函數是描述原數據事件發生熵值最大的情況,即不確定性最大的情況,最大熵原理認為事物常處在最混亂無序的狀態。此外,由于該方法使用了插值技術,在遵從原數據統計分布特征的前提下合理拓展了數據點,使其生成的概率密度函數具有更光滑的統計特征。
討論一組Ferson等研究過的區間數據[3]:X={[3.5,6.4],[6.9,8.8],[6.1,8.4],[2.8,6.7],[3.5,9.7],[6.5,9.9],[0.15,3.8],[4.5,4.9],[7.1,7.9],3.8,4.9,6.3},原數據區間為[0.15,9.9]。
針對算例2,取Q=11,則在原數據區間上下限上均勻離散的樣本為x=[0.15,1.125,2.1,3.075,4.05,5.025,6,6.975,7.95,8.925,9.9],基于改進最大熵函數方法描述混合區間數據和離散點數據的不確定性,得到區間內自定義離散點處最優概率密度函數值f*=[0.012 7,0.061 1,0.122 1,0.183 6,0.048 1,0.093 2,0.150 5,0.078 1,0.023 0,0.004 1,0.004 6]。按照上述步驟,取Q=15進行優化,得到類似結果。分別根據2次優化所得均勻離散點及其在離散點處的最優概率密度函數值,使用三次樣條插值得到描述區間數據和離散點混合數據不確定性的概率密度函數,如圖3所示。

圖3 算例2改進最大熵函數描述混合不確定性的最優概率密度函數
圖3中分別給出了在原始數據區間內均勻離散點數為11和15情況下的優化概率密度函數,2個函數趨勢大體是一致的,與原始數據分布特征相吻合。2種優化結果所得概率密度函數都是雙峰函數,峰值分別出現在[2,3.5]和[5.5,7]內,且[2,3.5]內的概率密度略大于[5.5,7]區間,兩者都明顯大于其他區間內的概率密度值。這是因為在原始數據中有更多的數據落在[2,3.5]和[5.5,7]內,造成概率集中,符合原始數據的統計分布特征。根據圖3所示概率密度函數計算原始區間數據和離散點數據聯合熵函數值最大,說明在該概率密度函數條件下,原始區間數據和離散點數據包含的不確定性信息最大,根據最大熵原理,這種數據狀態出現的可能性最大。
Sandia國家實驗室曾召開主觀不確定性會議[19-20],研究者們討論并交流了關于區間不確定性描述和傳遞問題的多種思路和方法。本節在對混合類型不確定性描述的基礎上,嘗試使用蒙特卡羅數值方法研究混合類型數據不確定在概率可靠性模型中的傳遞。事實上,若區間和離散點數據混合不確定性的概率化描述成功,則概率可靠性理論中眾多成熟方法均可用于區間不確定性的傳遞[21-22]。
考慮不確定性經典算例[19-20]y=(a+b)a,輸入變量a和b均為離散點和區間類型混合,分別為{[0.5,0.7],[0.3,0.8],[0.1,1.0]}和{0.6,[0.4,0.85],[0.2,0.9],[0.0,1.0]}。該問題是Sandia國家實驗室召開區間不確定性會議討論的實際問題之一,研究者們曾基于不同方法得到結果。
針對輸入變量a和b中包含離散點和區間數據的混合不確定性,用改進最大熵函數法得到描述輸入變量a和b不確定性的非參數概率密度函數,然后,根據輸入變量概率密度函數進行蒙特卡羅數值模擬,獲取輸入變量a和b的隨機樣本。在概率可靠性理論框架下,對輸入不確定性向輸出傳遞,根據功能函數計算輸出。最后,使用核密度法[23-24]估計輸出的概率密度函數,對輸出進行統計特征分析。具體過程如下:
1) 基于改進最大熵函數法分別建立輸入變量a和b的不確定性描述模型,得到輸入變量a和b的非參數概率密度函數如圖4和圖5所示。

圖4 輸入變量a的概率密度函數

圖5 輸入變量b的概率密度函數
圖4和圖5顯示,輸入變量a和b的概率密度函數均為單峰函數,峰值均出現在區間[0.4,0.8]內,符合2組數據的統計特點,直觀地顯示了2組混合類型數據的分布狀態。其中,輸入變量a的概率密度函數有負值的出現,是因為插值技術保持數據統計特征的平滑所致。
2) 針對輸入變量a和b,根據其非參數概率密度函數,進行蒙特卡羅模擬,得到輸入變量a和b的5 000個隨機樣本。
a=[0.357 0,0.358 0,…,0.643 0]; (1×5 000);
b=[0.472 0,0.473 0,…,0.616 0]; (1×5 000);
3) 在概率理論框架下,根據功能函數y=(a+b)a,將輸入變量不確定性向輸出傳遞,獲取輸出響應量y的隨機樣本。
y=[0.904 0,0.818 2,0.802 7,0.926 7,0.892 0,
0.869 8,0.916 1,…,0.802 0](1×5 000)
4) 針對輸出響應量樣本y,用核密度法估計輸出響應量的概率密度函數,得到輸出響應量的統計規律。核密度法[23-24]作為核估計理論中的分支在統計數據的非參數估計方面具有廣泛的應用。對隨機樣本{X1,X2,…,Xn},其概率密度函數估計為

(9)

圖6 響應量y的概率密度函數

工程實際中,多數變量信息豐富能得到其概率分布,然而個別變量信息缺乏,只能確定其區間。因此,對不同類型變量的混合不確定性分析是十分必要的。針對該問題,本文研究了區間和離散點混合情況下聯合不確定性描述,建立了混合類型不確定性數據聯合熵函數,通過對基于插值技術的非參數概率密度函數在原始數據空間內均勻離散點處概率密度值的優化,得到混合不確定性的統一的概率化描述。相比于傳統方法,所提方法是非參數的,將傳統對假定分布的概率密度函數參數估計轉化為對原始數據空間自定義離散點處概率密度值的優化,計算量和精度可通過自定義離散點數量控制,更充分地挖掘數據不確定性信息。
此外,對于區間不確定性傳遞,目前并沒有公認的通用方法。研究者們曾分別從非概率和概率角度嘗試提出了多種處理區間不確定性方法,值得注意是不同方法得到的結果盡管存在差異,但是在絕大多數情況中這種差異可接受。本文嘗試將所提方法用于混合類型不確定性傳遞,分析輸出響應的統計規律,完成可靠性分析,得到較合理結果。說明了所提方法在處理混合不確定性描述傳遞問題中具有一定潛力,值得進一步研究。