許 岷
(北京航空航天大學 經濟管理學院,北京市 100191)
隨著大數據時代的到來,數據量級爆發式增長,數據維度不斷增高,數據類型越來越復雜、多樣。許多基于傳統點數據的統計分析方法不再適用,亟待進一步更新與擴展。1987年,分類學家Diday[1]提出了符號數據的概念,即通過“數據打包”思想,將海量、高維數據按類打包成一個“符號”。區間數據是一類典型的符號數據。
近年來,基于區間數據的經典統計分析方法被廣泛研究,區間數據的線性回歸模型已發展的相當成熟。Billard和Diday[2]利用區間的中心表示區間數據,并建立了區間中心的線性回歸模型。為了進一步挖掘區間內部信息,Lima Neto和Carvalho[3]提出了中心半長法,即使用區間的中心和半長表示區間,并分別建立區間中心和半長的線性回歸模型。該方法的提出打開了區間數據分析的新局面,一系列基于中心半長法的模型相繼被提出,如Lasso回歸模型[4]、非參數模型[5]和考慮內部散點的回歸模型[6]等。
從統計決策理論角度看,現有的區間數據回歸模型的參數求解過程是通過最小化平方損失函數得到參數的估計。例如,在基于中心半長法的區間回歸模型中,通過最小化平方損失得到回歸系數的最小二乘估計[3]。平方損失是一種常用的對稱損失函數,已經廣泛使用在統計建模的各個領域。
對稱的損失函數對高估或者低估某個參數賦予相同的風險測度,但在醫學分析、可靠性分析、金融數據分析研究中,高估或者低估某一特定值常常會產生更大的風險。例如,股票投資中股民對股票價格的波動非常敏感,過高或過低的預測估計都會影響股民的投資決策和投資利益[7]。在可靠性分析領域,高估某件器材的平均壽命要比低估該器材的平均壽命帶來的風險更大[8]等。此時,需要引入新的非對稱損失函數解決參數高估或者低估問題。
Varian[9]提出的線性指數(linearexponential,LINEX)函數是一種典型的非對稱損失函數。Zellner[10]將其拓展到貝葉斯數據分析領域。如今,各類基于LINEX損失函數的貝葉斯估計已被廣泛研究。王茹和周菊玲[11]提出了復合LINEX對稱損失下Kumaraswamy分布參數的貝葉斯估計。王理峰[12]研究了在LINEX損失下,多元正態分布熵的Stein型和Brester-Zidek型貝葉斯估計等。
利用區間數據刻畫醫學、地質學數據時也會遇到刻畫參數高估或低估風險的問題。因此提出基于LINEX損失的區間線性回歸模型有重要的理論與現實意義。

本節闡述基于LINEX損失函數的回歸系數貝葉斯估計值的求法。首先介紹模型的矩陣表示及貝葉斯框架;其次求解回歸系數的后驗邊緣分布,并在LINEX損失條件下求解貝葉斯估計值。





本節利用模擬數據,比較基于LINEX損失函數的貝葉斯估計值和最小二乘估計值的風險。依次介紹模擬數據的生成方法和不同預測指標,最后對試驗結果進行比較和討論。
本節參照已有文獻生成模擬數據,中心和半長數據可以按均勻分布生成,回歸系數可以看成固定的常數。具體步驟如下:對第 i(i=1,2,…,n)個樣本,

對每種樣本量 n=20,50,100的模擬數據重復M=1000次,計算平均風險比較基于LINEX損失的貝葉斯估計值和最小二乘估計。本文選取在LINEX損失函數研究領域常用的LINEX風險及比率作為評價指標,設θ為真實參數值,則風險值R定義為:

風險值R越低表示估計值越有效。分別利用RLINEX和RLS表示基于LINEX損失的貝葉斯估計值和基于LINEX損失的貝葉斯估計值和最小二乘估計值。定義二者的比率RE:

其中,RE<1表示貝葉斯估計值的風險比最小二乘估計值小,即貝葉斯估計值更有效。反之,最小二乘估計值更有效,當RE接近于1時,表示兩個估計值的有效性相近。
表1和表2展示了基于LINEX風險的比較結果。

表1 基于LINEX損失的風險比較(a=-2,-1)

表2 基于LINEX損失的風險比較(a=1,2)
由表1和表2可知,無論樣本量n和參數a取何值,在LINEX損失下,基于LINEX損失的貝葉斯估計值的風險均小于最小二乘估計的風險。例如,當a=-2,n=100時,RLINEX和RLS值分別為2.405和4.457,二者的比值RE=0.54;當a=1,n=20時,RLINEX和RLS值分別為3.898和11.336,二者的比值RE=0.344。圖1展示了不同參數a和樣本量n條件下RE的變化,進而比較不同參數a和樣本量n條件下風險的變化。

圖1 基于LINEX損失的風險比較
圖1中,隨著參數a絕對值的增加,RE的值在降低,即當|a|較小時,基于LINEX的貝葉斯估計值與最小二乘估計相對比較接近,這與LINEX損失函數的性質保持一致。例如,當n=20時,a=-2時,比率RE=0.0123;但當n=20,a=-1時,比率RE增加到0.3968。
隨著樣本量n的增加,無論a取何值,比率RE都呈上升趨勢,即在樣本量較大時,基于LINEX的貝葉斯估計值與最小二乘估計相對比較接近。例如,當a=1,n=20 時,比率 RE=0.344,但當 a=1,n=50、100 時,比率RE逐步增加,分別為0.701和0.891。綜上,在LINEX損失下,本文提出的貝葉斯估計相對優于已有的最小二乘估計。
本文提出了基于LINEX損失函數的區間回歸系數的貝葉斯估計。主要研究包括:(1)推導區間數據回歸系數的后驗邊緣分布;(2)利用蒙特卡洛方法求解基于LINEX損失的回歸系數估計值;(3)比較該估計與現有最小二乘估計的風險測度。模擬研究表明,本文提出的貝葉斯估計在LINEX風險測度下明顯優于最小二乘估計。