柯肇捷, 周文雅
(1.大連理工大學 石油與化學工程學院, 遼寧 盤錦 124221; 2.大連理工大學 航空航天學院, 遼寧 大連 116024)
武器裝備試驗鑒定是武器裝備全壽命管理中的一個重要環節,隨著武器裝備的網絡化、體系化、智能化發展,試驗目的復雜多樣,試驗成本越來越高,致使試驗鑒定難度越來越大,通常只能進行少量的外場對抗性試驗[1],小樣本試驗數據的參數估計、基于小樣本試驗數據的評估等技術已成為裝備試驗鑒定領域急需解決的關鍵難題。
目前的小樣本數據處理主要采取兩個思路:
1) 概率統計法,包括經典的統計方法和Bayes方法。經典的統計方法對樣本分布模型進行假設,基于數學期望對原始試驗數據進行點估計,但是由于試驗過程的動態性和不確定性,原始試驗數據在本質上未必屬于同一總體,難以滿足關于獨立、同分布的前提,使得統計處理出現較大的風險。Bayes方法在小子樣處理領域獲得了較為廣泛的應用[1-4],如:文獻[3]利用Bayes理論和驗前信息,提出了利用序貫驗后加權檢驗方法以及截尾序貫驗后加權檢驗方法對維修性指標進行驗證評定;文獻[4]基于Bayes可靠性理論建立某挖掘機小樣本數據的可靠性模型。Bayes方法能在保證決策風險盡可能小的情況下綜合利用多種信息類型,但是需要利用驗前信息,而如何獲得驗前信息并確定其概率分布形式是應用的難題。
2)基于不確定性理論的非統計法包括兩種模式:一種是直接利用不確定理論相關方法,如文獻[5]結合泛函的范數理論和灰色系統[6]的灰色關聯原理,提出了灰色距離信息方法來進行電子裝備試驗數據的參數估計處理,這種方法不能給出參數估計的置信度;另一種是利用不確定理論相關方法產生虛擬總體樣本[7],通過數據融合進行參數估計。如:文獻[8]提出一種乏信息空間機械臂隨機振動數據估計的灰自助方法[9-10],以解決經典的統計學方法無法解決的乏信息數據評估問題,該方法不涉及原始數據的概率分布問題;文獻[11]提出一種適用于小樣本巖土參數區間估計的改進灰自助方法。
本文基于灰自助和未確知數學方法[12-13],提出小樣本數據處理的一種新途徑,介紹處理流程和實現模型,并進行算例驗證。
在武器裝備試驗中,假設針對某一測試指標得到的測量數據集合為
X={x(t);t=1,2,…,N},
(1)
式中:x(t)為第t個測量數據;N為測量數據總數。N個小樣本數據所攜帶的信息不足以確定測試指標的真實狀態和數量關系,決策者只能部分地認識測試指標的真實狀態。按照灰色系統理論的觀點,這種認知呈現出典型的“部分已知、部分未知”的灰色狀態。
自助抽樣原理的基本思路是從測量數據集合X中等概率可放回地隨機抽取1個數據,記為x1(1),該抽取過程重復m次即可得到第1個自助樣本,記為
X1={x1(1),x1(2),…,x1(m)}.
(2)
將上述獲得自助樣本的整體抽取過程連續重復A次,會得到A個自助再抽樣樣本,再抽樣樣本集合可記為
Y={X1,X2,…,Xi,…,XA},
(3)
式中:Xi={xi(1),xi(2),…,xi(m)}。
針對自助樣本Xi建立灰色模型GM(1,1),假設其一次累加生成序列為
(4)

(5)

(6)
(7)
式中:k=1,2,…,m.
在(7)式中令k=m-1,m,通過一次累減生成算法即可得到自助樣本Xi中第m+1個預測值,記為
(8)
于是得到新的測試指標測量數據集合為
X={x(1),…,x(N),x(N+1),…,x(N+A)}.
(9)
由此可以看出,使用灰自助方法可以對原始乏信息數據序列進行充分挖掘,擬合生成較多的系統信息,且生成過程不依賴于原始數據序列的概率分布信息。需要指出的是:并非所有小樣本試驗數據均適用灰自助再抽樣方法,需要根據發展系數等參數的取值范圍確定模型GM(1,1)是否適用;另外,模型GM(1,1)具有明確均值GM(1,1)模型(EGM)、原始差分GM(1,1)模型(ODGM)、均值差分GM(1,1)模型(EDGM)等多種基本形式,實際建模過程中需要根據數據形態選擇合適的GM(1,1)模型形式[14]。
第1節挖掘生成的測量數據集合X中N+A個數據不能使決策者完全把握測試指標的真實狀態,對測試指標真實狀態的認知在性質上還是“部分已知、部分未知”,但是相比于N個數據所表征灰色信息的“部分已知、部分未知”,它們又有重要的區別,前者“部分已知、部分未知”中已知部分要多于后者。對N+A個數據進行參數估計,如果采用常規的統計方法,則首先必須假設數據的分布特征,但是這個假設的合理性和可行性難以驗證。而表征測試指標真實狀態的N+A個數據在本質上屬于未確知信息的范疇,是純主觀上、認識上的不確定性信息,未確知信息通常用未確知有理數進行描述。因此本文直接引入未確知有理數方法,避免對生成數據進行分布規律的假設。
針對(9)式所示挖掘生成的測量數據集合X,可以利用N+A個數據來構造一個k(k a=min{x(1),…,x(N),x(N+1),…,x(N+A)}, (10) b=max{x(1),…,x(N),x(N+1),…,x(N+A)}, (11) (12) 很顯然,(12)式中a≤xi≤b,通常對區間[a,b]進行2k個等值劃分,使得該區間數據值xi的領域控制半徑均相等,則可得到試驗數據取值xi的表達式為 (13) 可信度αi則用試驗數據值xi控制半徑內數據出現的頻率進行表示,即有 (14) 利用未確知有理數對挖掘生成后的測量數據集合進行表達,較好地反映了測試指標的數據值分布情況,可信度αi只是表明了取值xi的不確定性程度。信息論中熵被定義為信息的均值,不確定性越大,熵也越大。針對測量數據集合,將未確知有理數中k個取值所提供的平均信息量定義為可信度熵,則可信度熵反映了對該測試指標認識的不確定性程度。區間[a,b]上取值xi的頻率越均勻(即取值越分散),對測試指標的刻畫越復雜,不確定性程度就越大,未確知有理數的可信度熵也就越大。為了從不確定的事情中獲取最大的信息量,所構造未確知有理數的可信度熵越大就越能刻畫測試指標。因此,當可信度熵取最大值時,可以估計未確知有理數的最佳階數。 對于(12)式構造的k階未確知有理數,其可信度熵定義為 (15) 基于2.1節的構造與2.2節的優化過程,將描述測量數據集合X的k*階未確知有理數A記為[[a,b],φ(x)],其中 (16) 通過k*階未確知有理數A的構造,實際上有了測試指標樣本總體的離散化值x1,…,xk*,通過小樣本的灰自助生成已求得其中每一個xi的出現頻率,但仍然不能確定樣本總體的分布類型。基于矩估計法,稱下列1階未確知有理數 (17) 為未確知有理數A的數學期望,也稱E(A)為未確知期望或均值。 用方差D(A)來描述未確知有理數A到E(A)的離散程度,即 D(A)=E(A-E(A))2. (18) (19) (20) 則定義上述點估計的置信度為 (21) 除了用上述點估計給出測試指標的近似值外,還可以用區間估計法給出其取值范圍,即將估計誤差用醒目的形式標示出來。但是區間估計需要假設樣本總體的分布特征,對于武器裝備的測試指標數據,一般假設其服從正態分布。需要指出的是,區間估計中的置信水平反映了估計的可靠性(與未確知有理數中的可信度有本質的區別),表達了待估參數落入估計區間的概率大小,概率越大,可靠性越高。 給定置信水平1-β,從表1所示的常用標準正態分布上側β分位點表中查詢u(β/2),基于(22)式計算給定置信水平下的置信區間半長度ε: (22) 表1 常用標準正態分布上側β分位點表Tab.1 Upper β quantilesTable of standard normal distribution 針對挖掘生成的N+A個數據,假設有t個數據位于上述置信區間之外,則定義置信水平1-β下區間估計的置信度為 (23) 基于灰自助和未確知有理數的小樣本數據估計方法,就是將灰色自助方法和未確知有理數處理方法有機地結合起來,對小樣本數據進行點估計和區間估計,其原理如圖1所示。 圖1 基于灰自助和未確知有理數的數據估計原理Fig.1 Data estimation principle based on grey bootstrap method and unascertained rational number 為了驗證算法的有效性,對某型裝備試驗中的干擾功率測試數據X={93.5,92.6,93.7,92.5,93.1,93.5}進行參數估計。 利用灰自助方法獲得新的測試指標測量數據集合為{93.5, 92.6, 93.7, 92.5, 93.1, 93.5, 93.1, 92.7, 93.2, 93.6, 92.8, 94.0, 93.0, 92.5, 93.4, 93.0, 92.7, 92.2, 92.9, 92.1, 93.1, 93.4, 93.0, 92.5, 93.4, 92.8, 92.1, 92.9, 92.6, 94.0}、總共30個數據,其中最大值為94.0,最小值為92.1. 分別構造k階未確知有理數,其對應的可信度熵Sk如表2所示。 表2 不同階數未確知有理數的可信度熵Tab.2 Credibility entropies of unascertained rational numbers of different orders 根據表2中計算結果和未確知有理數階數優化原理,本算例構造3階未確知有理數[[92.1,94.0],φ(x)],其中 假設置信水平為0.99,則β=0.01,計算給定置信水平下的置信區間半長度ε=0.93,則得到置信區間為[92.07,93.93],這時生成數據集合有2個點位于上述區間之外,覆蓋全部原始測試數據,區間估計的置信度為pi=93.3%. 本文提出了基于灰自助和未確知有理數的小樣本數據估計方法,給出了其點估計、區間估計以及估計置信度模型,并進行了算例驗證。得出以下結論: 1) 同一置信水平下,相比于灰自助方法,基于本文方法的估計區間能更多地覆蓋生成數據集合和原始測試數據。例如置信水平0.99時,本文方法覆蓋生成數據集合28個點和全部原始測試數據,灰自助方法僅覆蓋生成數據集合11個點和1個原始測試數據。 2) 相比于Bootstrap方法,本文方法有效地擴展了原始觀測數據。 3) 該方法不假設原始數據的概率分布特征,能有效地解決裝備測試數據的參數估計問題。 4) 針對本方法的推廣應用,下一步可對灰自助抽樣生成數據的精度問題、生成數據的樣本量優化問題等進行深入研究。

2.2 未確知有理數階數的優化

3 基于未確知有理數的參數估計
3.1 基于未確知有理數的點估計



3.2 基于未確知有理數的區間估計


4 小樣本試驗數據估計算例




5 結論