楊文光, 吳云潔, 王建敏
(1.華北科技學院 基礎部 河北 三河 065201;2.北京航空航天大學 自動化科學與電氣工程學院 北京 100191)
?
基于熵權法的小樣本灰色置信區間估計
楊文光1, 2,吳云潔2,王建敏2
(1.華北科技學院 基礎部河北 三河 065201;2.北京航空航天大學 自動化科學與電氣工程學院北京 100191)
摘要:針對小樣本數據的灰色點估計和灰色區間估計問題,將樣本誤差均值、樣本誤差標準差引入到灰色距離測度中,改進了已有灰色估計算法.在對小樣本數據進行密集擴充過程中,可以提高灰色估計的區分度.該算法利用數據本身分布特點,設計了數據間的灰色距離矩陣,提出了基于熵權法的灰色點估計權重計算方法.最后結合小樣本數據進行了參數估計的仿真實例驗證,在對小樣本數據進行Bootstrap重抽樣法作用下進行了不同灰色點估計和區間估計的比較,突出了所提算法的有效性,驗證了理論分析結果的正確性.
關鍵詞:灰色估計; 小樣本; 熵權法; 區分度
0引言
仿真模型驗證是VV&A工作的主要內容,是確保仿真模型可信的重要保證.沒有經過驗證的模型,是不能據此做出任何有價值的決策.仿真模型的有效性直接影響仿真系統的可信性與仿真結果的應用程度.隨著研究的不斷深入,復雜系統的仿真可信性驗證工作正面臨著數據收集困難和模型參數難以確定的問題.考慮到一些系統的實驗操作的復雜性和困難性以及實驗成本,我們往往只能觀測到系統運行的有限數據,即小樣本數據.小樣本數據可能是系統運行的一些狀態,也可能是系統運行參數的有限參考數據.如何通過小樣本數據進行仿真系統的可信性驗證,以及如何對仿真系統關鍵參數進行估值,成為仿真可信性驗證的主要工作.吳利豐等探討了離散灰色模型,說明原始序列樣本量大小與解的擾動界大小呈正相關性,弱化了原始數據序列的隨機性[1].文獻[2]利用正態分布小樣本相容性理論建立了一種小樣本情況下的彈道一致性評定方法,減少了因樣本容量小而帶來的計算誤差.文獻[3]研究了復雜系統的環境、功能、狀態等因素的隨機性,構建了小樣本條件下的基于變動統計的復雜系統可靠性綜合評估方法,擴大了樣本量,提高了評估精度.
參數估計是統計推斷的主要組成部分,進行未知參數估值并確定參數估值滿足可信度要求的取值區間是確保后續數據處理成功的重要保證.面對復雜的仿真系統,我們往往因實驗條件與實驗環境的限制,只能獲得一些關鍵節點運行條件下的小樣本數據,這給仿真系統的可信性驗證帶來了一定的障礙.為了保障仿真的順利進行,提高仿真系統的有效性和精確性就需要進行由小樣本數據確定的被估計仿真參數的可信性驗證工作.建立在大數定理和分布已知基礎之上的傳統參數估計方法,對小樣本數據的參數估計顯得無能為力.小樣本作為一個典型的灰色系統[4—5],表現出系統部分信息已知與部分信息未知的特點.當系統存在信息缺失和觀測不全等信息不完備情況時,對系統參數的估計就會存在較大的誤差,采用貝葉斯網絡參數學習算法為解決小樣本條件下的模型可信性和有效性提供了一種解決思路[6—7].文獻[4]使用小樣本數據的拓撲關系和距離關系,定義了灰色距離測度,建立了基于灰色生成的灰色區間估計.文獻[5]在分布未知的情況下,基于灰色關聯理論和范數理論,給出了反映灰色距離信息量化與平均灰色距離量化的點估計與區間估計算法.文獻[8]針對小樣本數據的區間估計問題,將Bootstrap重抽樣[9—10]引入到灰色估計理論中,對小樣本數據進行了重抽樣擴充,比較了3種不同灰色區間估計的性能.然而上述文獻在具體處理小樣本數據時都忽略了樣本數據聚集與離散程度對數據關系度量的重要性.
本文考慮到小樣本數據分布的密集程度,建立基于數理統計概念的新的灰色距離測度,以便確定包含信息更全面的灰色置信區間,在數據向密集方向變化時具有更好的區分度.對于灰色點估計問題,建立了全面衡量小樣本數據稀缺性和有效性的灰色距離矩陣,據此改進熵權法確定更客觀的權值.考慮到Bootstrap重抽樣是一種重要的數據擴充法,本文引入Bootstrap重抽樣,比較重抽樣之前之后,采用本文方法所建立的灰色點估計和灰色置信區間的差異性.最后通過實例,驗證了本文方法的有效性.
1改進的灰色測度距離
設X={x1,x2,…,xn}為小樣本數據,它構成數據樣本空間.設x0為被估計參數,下面討論通過數據樣本空間X來確定被估計參數x0的取值區間和取值可信度大小.

下面選擇樣本誤差均值來表征不同數據間的距離差異,其中xj(j=1,2,…,n)與數據樣本空間X的總體距離差異標記為

(1)
為了表示數據xj與X中其他數據的離散與聚集程度的差異性,選擇樣本誤差標準差來表征數據的離散與聚集的程度,描述為

(2)
注1:若總體距離差異ej取值越大,說明xj與X中其他數據的距離差異越大,反之,距離差異越??;若距離差異標準差sj取值越大,則xj與數據樣本空間X中其他數據分布越分散,反之,分布越集中.
文獻[4]定義的灰色距離測度考慮到了數據xj與數據樣本空間總體距離差異問題,卻沒有反映出數據分布的離散與聚集的程度,鑒于距離差異ej與距離差異標準差sj的相互依存和相互作用關系,下面定義一種新的關于數據樣本xj與被估計參數x0間的灰色距離測度

(3)


(4)

(5)
dr(x0,xj)取值越大,說明xj與x0越接近,當xj=x0時,dr(x0,xj)=1,當dr(x0,xj)取值越小時,說明xj與x0的差異越大.特別地,當xj與小樣本數據空間X的數據分布中心越接近,且s(x0,X)取值越小,則xj與x0也就越接近,此時dr(x0,xj)取值越大,反之,則dr(x0,xj)取值越小.文獻[4]提出的數據樣本xj與被估計參數x0間的灰色距離測度為

(6)
其中:‖d(X,x0)‖}.


S(X)取值減小時,dr(x0,X)(或dr′(x0,X))的增長量可用于度量其區分度,下面使用V(x0)(或V′(x0))來標記在樣本數據空間X的S(X)減小時對應的被估計參數x0關于樣本空間X的灰色距離測度區分度.

證明由于x0由X確定,x0的真值取值不變,X沿著數據密集方向變化,即在X基礎上,獲得了更多的數據,生成新的樣本數據X′,為X?X′.對X′中的數據重新進行排序,X′與X中相同的數據采用相同的標記,新數據順次進行標記,得X′={x1,x2,…,xn,xn+1,…,xm}.
因為,

(7)

(8)
考慮到,




又因為,




e(x0,X)>e(x0,X′),s(x0,X)>s(x0,X′),i=1,2,…,n,j=1,2,…,m.
所以,


注2:其中V(x0)表示依據公式(3)構建的灰色距離測度的區分度,V′(x0)表示依據公式(6)構建的灰色距離測度的區分度,二者各自代表著相應的灰色距離測度的總和的增長量.
2基于熵權法的灰色估計值計算


步驟2計算各指標xi的信息熵:

(9)
其中:H(xi)為指標xi的信息熵;k為調節參數,一般取k=1/lnn,i=1,2,…,n.
步驟3計算各指標xi的權重,將評價指標xi的信息熵轉化為權重值:

(10)



(11)

3灰色置信區間的確定



當小樣本數據不是完全有效覆蓋參數真值取值范圍時,則需要對小樣本數據進行擴容,使其成為覆蓋被估計參數取值范圍的完備數據.目前,常見的數據重抽樣方法是Bootstrap重抽樣法.該方法在無法確定數據樣本空間X={x1,x2,…,xn}的確切分布的情況下,通過對X不斷的重復有放回抽樣,從而獲得與X分布相一致的涵蓋參數取值的大樣本數據.Bootstrap重抽樣法是本文所構建的灰色點估計與灰色區間估計的補充.下面在實例驗證時將給出區分度明顯增大的仿真實例,以佐證定理1.
4實例驗證與方法比較
定理1表明新的灰色距離測度是有效的,表現出更好的區分度,據此進行的灰色點估計和灰色區間估計是有效的.下面分別選擇能夠有效表示參數取值范圍的小樣本數據在Bootstrap重抽樣前后為例進行灰色點估計與區間估計,對灰色區間估計方法做出相應的區分度說明.



例2使用Bootstrap重抽樣法對例1中數據進行Bootstrap重抽樣1 000次,與原數據一起構成新的樣本數據,并進行灰色點估計和灰色區間估計.
Bootstrap重抽樣法是小樣本數據較好的數據補充方法,本文獲得的灰色估計值與傳統數理統計方法計算的樣本均值更接近,比較符合大數定律.在使用Bootstrap重抽樣法對小樣本數據進行密集采集數據情況下,顯現出更好的區分度.圖2給出了在給定灰色置信度0.95下的灰色置信區間與參數取值之間的關系,表2給出了本文方法與參考文獻[4]法采用Bootstrap重抽樣法進行灰色估計值、灰色置信區間、區間長度與區分度之間的比較.在選擇相同置信度情況下,表1、表2說明本文方法區間長度更短,精度更高,區分度更好.

圖1 灰色置信度比較Fig.1 The comparison of grey confidence

圖2 重抽樣下灰色置信度變化曲線比較

方法類型估計值置信區間區間長度數理統計法50.375(50.042,50.711)0.669參考文獻法50.3826(50.354,50.411)0.057本文方法50.3763(50.354,50.399)0.045

表2 仿真結果比較(α=0.95)
5結論
在工程實際中,隨著處理問題復雜程度和未知因素的增多,有時僅能獲得一些參數的小樣本數據,據此進行參數的點估計和區間估計就成為一個非常重要的問題.本文從小樣本數據本身出發,利用數據間的樣本誤差均值、樣本誤差標準差生成了新的灰色距離測度,討論了算法在數據朝密集方向變化情況下對數據處理的區分度,理論上顯示本文算法更有效.在進行灰色點估值時,設計了基于樣本數據間內在信息熵關系的樣本權重新方法,使得灰色點估值更客觀.最后結合小樣本數據進行了算法的有效性與正確性的驗證工作,結果顯示在使用Bootstrap重抽樣法對小樣本作用前與作用后都是合理的.
參考文獻:
[1]吳利豐,劉思峰,姚立根. 基于分數階累加的離散灰色模型[J]. 系統工程理論與實踐, 2014, 34(7): 1822—1827.
[2]張領科,趙峰,余永剛. 一種小樣本情況下的彈道一致性評定方法[J]. 兵工學報, 2014, 35(12): 2124—2128.
[3]張海瑞,洪東跑,趙宇,等. 基于變動統計的復雜系統可靠性綜合評價[J]. 系統工程與電子技術,2015, 37(5): 1213—1218.
[4]劉義,王國玉,柯宏發. 一種基于灰色距離測度的小樣本區間估計方法[J]. 系統工程與電子技術,2008,30(1):116—119.
[5]CHEN Y G, KE H F, LIU Y. Grey distance information approach for parameter estimation of small samples[J]. IEEE transaction on instrumentation and measurement, 2008, 57(6): 1281—1286.
[6]任佳,高曉光,茹偉. 數據缺失的小樣本條件下BN參數學習[J]. 系統工程理論與實踐,2011, 31(1):172—177.
[7]任佳,高曉光,白勇. 信息不完備小樣本條件下離散DBN參數學習[J]. 系統工程與電子技術,2012, 34(8): 1723—1728.
[8]劉恒,梅衛,單甘霖. 小樣本數據的三種區間估計方法性能分析[J]. 系統工程與電子技術,2014, 36(10): 1929—1933.
[9]XU L W, YANG F Q, CHEN R R, et al. A parametric bootstrap test for two-way ANOVA model without interaction under heteroscedasticity[J]. Communications in statistics-simulation and computation, 2015, 44: 1264—1272.
[10] PETER A D, EULOGIO P I, JUAN J E. The total bootstrap median: a robust and efficient estimator of location and scale for small samples[J]. Journal of applied statistics, 2015, 42(6): 1306—1321.
(責任編輯:王浩毅)
Grey Confidence Interval Estimation of Small Samples Based on Entropy-weight Method
YANG Wenguang1, 2,WU Yunjie2,WANG Jianmin2
(1.DepartmentofBasic,NorthChinaInstituteofScienceandTechnology,Sanhe065201,China;2.SchoolofAutomationScienceandElectricalEngineering,BeihangUniversity,Beijing100191,China)
Abstract:In order to solve the problem of small samples data of gray estimation and grey interval estimation, the sample average error and sample error standard deviation were introduced into the grey distance measure, and the existing grey estimation algorithm was improved. In the process of intensive expansion of small samples data, the gray degree of the estimation could be improved. Based on the distribution of the data itself, the gray distance matrix of data was designed, and the weight of grey point estimation was proposed. Finally the small samples data of parameter estimation was tested to examing the simulation results. The results highlighted the effectiveness of the proposed algorithm, and verified the correctness of the theoretical analysis .
Key words:grey estimation; small samples; entropy-weight method; distinguish degree
收稿日期:2015-08-29
基金項目:國家自然科學基金資助項目(91216304, 61472137);中央高校基本科研業務費資助項目(3142015022, 3142014127);華北科技學院重點學科項目(HKXJZD201402).
作者簡介:楊文光(1981—),男,河北保定人,講師,博士研究生,主要從事智能信息處理研究, E-mail:yangwenguang@buaa.edu.cn.
中圖分類號:N945.13
文獻標志碼:A
文章編號:1671-6841(2016)01-0051-06
DOI:10.3969/j.issn.1671-6841.201508009
引用本文:楊文光,吳云潔,王建敏.基于熵權法的小樣本灰色置信區間估計[J].鄭州大學學報(理學版),2016,48(1):51-56.