基于Alpha穩定分布的二元響應變量回歸模型

2017-03-08 04:01:09錢夕元

華東理工大學學報(自然科學版) 2017年1期

關鍵詞：方法模型

許哲, 錢夕元

(華東理工大學理學院,上海 200237)

基于Alpha穩定分布的二元響應變量回歸模型

許哲, 錢夕元

(華東理工大學理學院,上海 200237)

Logit模型是常用的針對二元響應變量的回歸模型,當0-1響應變量不平衡時,Logit模型將會帶來連接函數設定錯誤。為了更靈活地捕捉帶偏和厚尾特征,提出了以Alpha穩定分布作為連接函數的二元響應變量回歸模型,稱之為穩定分布模型。借助期望傳播-近似貝葉斯計算(EP-ABC)方法,克服了Alpha穩定分布由于沒有概率密度函數解析表達式所帶來的困難,同時也解決了高維運算所導致的低接收率的問題。結果表明該模型對平衡或不平衡二元響應變量數據擬合和預測的效果均明顯優于Logit、Probit、Cloglog和GEV模型。

Alpha穩定分布模型; EP-ABC方法; 廣義線性回歸模型; 不平衡數據

在針對二元響應變量建立回歸模型時,由于Logit模型潛在變量的概率響應曲線是對稱的,一般性假設響應變量中的各類樣本數目基本均衡,而當0-1響應變量樣本數差異明顯時,繼續使用Logit模型,將會產生連接函數設定錯誤(Link misspecification),為參數的估計帶來較大的偏差和均方誤差[1]。同時,Cloglog模型只有固定的偏度,GEV模型的形狀參數同時控制偏度和尾部厚度,偏度特征與尾部特征相互制約,使得模型擬合的靈活性并沒有完全放松[2]。

因此,針對不平衡的二元響應變量,應當選擇更加靈活的連接函數來捕捉數據的偏度特征,用以達到更好的擬合效果。鑒于Alpha穩定分布可以很好地刻畫數據偏度和尾部特征,本文采用Alpha穩定分布作為連接函數構建了二元響應變量回歸模型,稱為穩定分布模型。

1 穩定分布模型

假定二元響應變量yi是取值為0、1的隨機變量,yi=1表示事件在第i個樣本下發生,而yi=0表示事件在第i個樣本下不發生。因此,判斷事件在第i個樣本下發生概率的表達式為

(1)

其中：xi為k維自變量向量；βc為k維回歸系數；F為累積分布函數,而F-1稱為連接函數。Logit模型中F-1(pi)=lg(pi/(1-pi));在Probit模型中F-1(pi)=Φ-1(pi),Φ表示標準正態分布的累積分布函數;Cloglog模型中F-1(pi)=lg(-lg(1-pi));GEV模型中F-1(pi)=G-1(pi),G表示標準GEV分布的累積分布函數。

除了高斯分布(α=2)、柯西分布(α=1,β=0)和Lévy分布(α=1/2,β=1)等少數幾種情況外,Alpha穩定分布的概率密度函數和累積分布函數沒有解析表達式,通常可以用如下的特征函數來表示:

(2)

依據特征函數的性質,穩定分布擁有連續且單調的概率密度函數和累積分布函數[3],因此,根據式(1),穩定分布模型可以表示為

(3)

2 EP-ABC方法

EP-ABC方法是綜合了ABC方法和EP方法而形成的一種貝葉斯推斷方法[4]。

ABC方法的提出是為了解決在似然函數難以計算或表達情況下貝葉斯估計的困難[5]。它主要通過對模型的模擬產生人工數據集,以選定的概要統計量s(·)(Summary statistics)作為度量,比較人工數據集與實際觀測數據在這個度量上的距離,如果它們足夠接近(小于設定的誤差ε),則認為用于模擬人工數據集的參數來自與真實后驗分布相同的分布,這樣后驗分布就可以直接通過數值模擬進行估計,從而省去了似然函數的計算。ABC方法成功的關鍵取決于概要統計量s(·)和誤差ε的選取,這對穩定分布模型參數估計構成了一定的挑戰;另外,標準ABC方法計算還存在效率不高的缺點。

對于穩定分布模型,似然函數沒有解析的表達式,這會使混合分布也同樣不能被解析表達,最小化KL散度的運算是十分困難的。EP-ABC方法就是利用ABC方法替代最小化KL散度的過程來估計混合分布的矩。令概要統計量取s(yi)=yi,則在EP-ABC方法下,參數為θ=(βc,α,β)的穩定分布模型聯合后驗分布表示為

(4)

3 數值模擬實驗

3.1 模擬數據集

在二元響應變量回歸模型中,線性回歸部分模擬產生1個截距項X1和4個解釋變量(X2,X3,X4,X5),對應的回歸系數設為βc=(β1,β2,β3,β4,β5),其中,設定X2為服從標準正態分布的連續變量,X3為服從伯努利分布的二元0-1虛擬變量,X4和X5為三分類的類別變量,且令樣本容量為n=200。分別模擬產生兩組服從n維伯努利分布的二元響應變量:一組為基于Cloglog模型產生的不平衡數據集,回歸系數設為βc=(0.5,1,1,0.5,-2),稱為模擬數據集1;另一組為基于Probit模型產生的平衡數據集,回歸系數設為βc=(0.5,2,-1,1.5,-2),稱為模擬數據集2。

為了驗證穩定分布模型對不平衡的模擬數據1和平衡的模擬數據集2都能進行很好的估計,從而進一步展示Alpha穩定分布連接函數的靈活性,將穩定分布模型的估計結果與Logit、Probit、Cloglog和GEV模型進行比較。這里所有的模型均采用EP-ABC算法估計,并且每個待估參數都選取標準正態分布作為先驗分布。對于穩定分布模型,待估參數為θ=(βc,α,β),即先驗分布βc～N(05,diag(1,1,1,1,1)),Φ-1(α/2)～N(0,1),Φ-1(β+1/2)～N(0,1)。

3.2 實驗結果與分析

圖1 回歸系數參數βc的估計誤差分布箱線圖

穩定分布模型在擬合Cloglog模型模擬產生的不平衡數據集1時,模型連接函數中的特征參數α和對稱參數β的估計值和95%置信區間(HPDI)分別為α=1.635(1.435,1.834),β=-0.129(-0.559,0.301),由于Cloglog函數和Alpha穩定分布并不來自相同分布族,在Alpha穩定分布中與Cloglog函數同等的分布的真實參數未知,因此這里只通過構建Cloglog函數分位數和Alpha穩定分布分位數的Q-Q圖來評價穩定分布模型的參數估計效果。從圖2(a)中可見,數據點在[-2,4]的區間內均落在一條直線上,可以認為以估計值α=1.635和β=-0.129為形狀參數的穩定分布模型對Cloglog連接函數已經提供了較好的擬合效果。

穩定分布模型在擬合Probit模型模擬產生的平衡數據集2時,模型連接函數中的特征參數α和對稱參數β的估計值和95%置信區間(HPDI)分別為α=1.879(1.838,1.920),β=-0.057(-0.304,0.190)。當n=200時,真實值β=0已經包含在95%的HPDI置信區間中,而對于α而言,真實值α=2是α取值范圍(0,2]的邊界,因此α的估計取不到真實值,α=2也不可能包含在95%的HPDI置信區間中,盡管如此,估計值α=1.879已經相當接近真實值α=2,可以認為α的估計是比較精確的。與此同時,還可以通過構建高斯分布分位數和Alpha穩定分布分位數的Q-Q圖來評價穩定分布模型對高斯分布連接函數的擬合效果,從圖2(b)中可見,數據點幾乎都落在一條直線上,說明以估計值α=1.879和β=-0.057為形狀參數的穩定分布模型對高斯分布的連接函數擬合效果較好,α和β的估計是精確的。

圖2 穩定分布模型對Cloglog模型(a)和Probit模型(b)近似效果的Q-Q圖

綜上所述,穩定分布模型的連接函數可以靈活捕捉和描述數據峰度、尾部及偏度的特征,對平衡或不平衡的數據集都能做到較為精確的估計。

3.3 模型比較與預測

參數估計以外,本文還將穩定分布模型的估計能力與Logit、Probit、Cloglog和GEV模型進行對比。依據表1的模型比較結果,在DIC準則方面,穩定分布模型的DIC值都明顯小于Probit,Cloglog和GEV模型,說明穩定分布模型的復雜度優于其他3個模型。

表1 模型比較結果

為了比較不同模型對于不平衡數據集的預測能力,計算各模型5折交叉驗證的均方根誤差(RMSE)并繪制其接收者操作特性曲線(ROC),由表1可知穩定分布模型的均方根誤差最小,圖3顯示穩定分布模型ROC曲線下的面積(AUC值)最大,說明穩定分布模型具有最佳的預測能力。

由此可見,穩定分布模型的擬合和預測效果都優于其他3個模型,是二元響應變量回歸模型在GEV模型基礎上的合理改進。

圖3 模擬數據集1中各模型ROC曲線和AUC值

4 結論

本文對廣義線性模型進行推廣,給出了穩定分布模型,針對不平衡二元響應變量回歸分析時,擁有更多偏度和拖尾厚度上的靈活性。針對穩定分布概率密度和累積分布函數沒有解析表達式的特點,還給出了EP-ABC的估計方法。最后通過數值模擬實驗,驗證了穩定分布模型對二分類不平衡數據的估計效果與預測能力優于Logit,Probit,Cloglog以及GEV模型,該模型可以廣泛地應用于經濟、金融、信號處理等領域。

[1]CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference[J].Journal of Statistical Planning and Inference,1992,33(2):213-231.

[2]WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption[J].The Annals of Applied Statistics，2010,4(4):2000-2023.

[3]NOPAN J P.Stable Distribution:Models for Heavy Tailed Data[M].Washington D C:Birkhauser,2010.

[4]BARTHELME S,CHOPIN N.Expectation-propagation for likelihood-free inference[J].Journal of the American Statistical Association,2014,109(505):315-333.

[5]TURNER B M,ZANDT T V.A tutorial on approximate Bayesian computation[J].Journal of Mathematical Psychology,2012,56(2):69-85.

[6]SKAR C.The expectation propagation algorithm for use in approximate Bayesian analysis of latent gaussian models[D].Norway:Institutt for Matematiske Fag,2010.

Alpha-Stable Distribution Based Regression for Binary Response Data

XU Zhe, QIAN Xi-yuan

(School of Science,East China University of Science and Technology,Shanghai 200237,China)

Logit model is the most popular binary regression models for modelling binary response data.When dealing with unbalanced data,Logit model will cause link misspecification.A more flexible model of alpha-stable model,is introduced to fit unbalanced data by setting alpha-stable distribution as the link function.For model estimation,since alpha-stable distribution admits no closed-form expression for the density,we employ expectation propagation with approximate Bayesian computation (EP-ABC) algorithm.It overcomes the difficulties that high dimensionality results in low acceptance rate through data partitioning.According to the simulation results,alpha-stable model performs better than Logit,Probit，Cloglog or GEV model in fitting both balanced and unbalanced data.

Alpha-stable model; EP-ABC algorithm; generalized regression model; unbalanced data

1006-3080(2017)01-0129-04

10.14135/j.cnki.1006-3080.2017.01.020

2016-04-19

國家高技術發展研究“863”計劃項目(2015AA20107);上海市經信委“軟件和集成電路產業發展專項資金”(140304)

許哲(1991-),女,江蘇南京人,碩士生,研究方向為統計計算。E-mail:belle_910803@163.com

錢夕元,E-mail:xyqian@ecust.edu.cn

O212.1

基于Alpha穩定分布的二元響應變量回歸模型

1 穩定分布模型

2 EP-ABC方法

3 數值模擬實驗

4 結 論

4 結論