999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Alpha穩定分布的二元響應變量回歸模型

2017-03-08 04:01:09錢夕元
關鍵詞:方法模型

許 哲, 錢夕元

(華東理工大學理學院,上海 200237)

基于Alpha穩定分布的二元響應變量回歸模型

許 哲, 錢夕元

(華東理工大學理學院,上海 200237)

Logit模型是常用的針對二元響應變量的回歸模型,當0-1響應變量不平衡時,Logit模型將會帶來連接函數設定錯誤。為了更靈活地捕捉帶偏和厚尾特征,提出了以Alpha穩定分布作為連接函數的二元響應變量回歸模型,稱之為穩定分布模型。借助期望傳播-近似貝葉斯計算(EP-ABC)方法,克服了Alpha穩定分布由于沒有概率密度函數解析表達式所帶來的困難,同時也解決了高維運算所導致的低接收率的問題。結果表明該模型對平衡或不平衡二元響應變量數據擬合和預測的效果均明顯優于Logit、Probit、Cloglog和GEV模型。

Alpha穩定分布模型; EP-ABC方法; 廣義線性回歸模型; 不平衡數據

在針對二元響應變量建立回歸模型時,由于Logit模型潛在變量的概率響應曲線是對稱的,一般性假設響應變量中的各類樣本數目基本均衡,而當0-1響應變量樣本數差異明顯時,繼續使用Logit模型,將會產生連接函數設定錯誤(Link misspecification),為參數的估計帶來較大的偏差和均方誤差[1]。同時,Cloglog模型只有固定的偏度,GEV模型的形狀參數同時控制偏度和尾部厚度,偏度特征與尾部特征相互制約,使得模型擬合的靈活性并沒有完全放松[2]。

因此,針對不平衡的二元響應變量,應當選擇更加靈活的連接函數來捕捉數據的偏度特征,用以達到更好的擬合效果。鑒于Alpha穩定分布可以很好地刻畫數據偏度和尾部特征,本文采用Alpha穩定分布作為連接函數構建了二元響應變量回歸模型,稱為穩定分布模型。

1 穩定分布模型

假定二元響應變量yi是取值為0、1的隨機變量,yi=1表示事件在第i個樣本下發生,而yi=0表示事件在第i個樣本下不發生。因此,判斷事件在第i個樣本下發生概率的表達式為

(1)

其中:xi為k維自變量向量;βc為k維回歸系數;F為累積分布函數,而F-1稱為連接函數。Logit模型中F-1(pi)=lg(pi/(1-pi));在Probit模型中F-1(pi)=Φ-1(pi),Φ表示標準正態分布的累積分布函數;Cloglog模型中F-1(pi)=lg(-lg(1-pi));GEV模型中F-1(pi)=G-1(pi),G表示標準GEV分布的累積分布函數。

除了高斯分布(α=2)、柯西分布(α=1,β=0)和Lévy分布(α=1/2,β=1)等少數幾種情況外,Alpha穩定分布的概率密度函數和累積分布函數沒有解析表達式,通常可以用如下的特征函數來表示:

(2)

依據特征函數的性質,穩定分布擁有連續且單調的概率密度函數和累積分布函數[3],因此,根據式(1),穩定分布模型可以表示為

(3)

2 EP-ABC方法

EP-ABC方法是綜合了ABC方法和EP方法而形成的一種貝葉斯推斷方法[4]。

ABC方法的提出是為了解決在似然函數難以計算或表達情況下貝葉斯估計的困難[5]。它主要通過對模型的模擬產生人工數據集,以選定的概要統計量s(·)(Summary statistics)作為度量,比較人工數據集與實際觀測數據在這個度量上的距離,如果它們足夠接近(小于設定的誤差ε),則認為用于模擬人工數據集的參數來自與真實后驗分布相同的分布,這樣后驗分布就可以直接通過數值模擬進行估計,從而省去了似然函數的計算。ABC方法成功的關鍵取決于概要統計量s(·)和誤差ε的選取,這對穩定分布模型參數估計構成了一定的挑戰;另外,標準ABC方法計算還存在效率不高的缺點。

對于穩定分布模型,似然函數沒有解析的表達式,這會使混合分布也同樣不能被解析表達,最小化KL散度的運算是十分困難的。EP-ABC方法就是利用ABC方法替代最小化KL散度的過程來估計混合分布的矩。令概要統計量取s(yi)=yi,則在EP-ABC方法下,參數為θ=(βc,α,β)的穩定分布模型聯合后驗分布表示為

(4)

3 數值模擬實驗

3.1 模擬數據集

在二元響應變量回歸模型中,線性回歸部分模擬產生1個截距項X1和4個解釋變量(X2,X3,X4,X5),對應的回歸系數設為βc=(β1,β2,β3,β4,β5),其中,設定X2為服從標準正態分布的連續變量,X3為服從伯努利分布的二元0-1虛擬變量,X4和X5為三分類的類別變量,且令樣本容量為n=200。分別模擬產生兩組服從n維伯努利分布的二元響應變量:一組為基于Cloglog模型產生的不平衡數據集,回歸系數設為βc=(0.5,1,1,0.5,-2),稱為模擬數據集1;另一組為基于Probit模型產生的平衡數據集,回歸系數設為βc=(0.5,2,-1,1.5,-2),稱為模擬數據集2。

為了驗證穩定分布模型對不平衡的模擬數據1和平衡的模擬數據集2都能進行很好的估計,從而進一步展示Alpha穩定分布連接函數的靈活性,將穩定分布模型的估計結果與Logit、Probit、Cloglog和GEV模型進行比較。這里所有的模型均采用EP-ABC算法估計,并且每個待估參數都選取標準正態分布作為先驗分布。對于穩定分布模型,待估參數為θ=(βc,α,β),即先驗分布βc~N(05,diag(1,1,1,1,1)),Φ-1(α/2)~N(0,1),Φ-1(β+1/2)~N(0,1)。

3.2 實驗結果與分析

圖1 回歸系數參數βc的估計誤差分布箱線圖

穩定分布模型在擬合Cloglog模型模擬產生的不平衡數據集1時,模型連接函數中的特征參數α和對稱參數β的估計值和95%置信區間(HPDI)分別為α=1.635(1.435,1.834),β=-0.129(-0.559,0.301),由于Cloglog函數和Alpha穩定分布并不來自相同分布族,在Alpha穩定分布中與Cloglog函數同等的分布的真實參數未知,因此這里只通過構建Cloglog函數分位數和Alpha穩定分布分位數的Q-Q圖來評價穩定分布模型的參數估計效果。從圖2(a)中可見,數據點在[-2,4]的區間內均落在一條直線上,可以認為以估計值α=1.635和β=-0.129為形狀參數的穩定分布模型對Cloglog連接函數已經提供了較好的擬合效果。

穩定分布模型在擬合Probit模型模擬產生的平衡數據集2時,模型連接函數中的特征參數α和對稱參數β的估計值和95%置信區間(HPDI)分別為α=1.879(1.838,1.920),β=-0.057(-0.304,0.190)。當n=200時,真實值β=0已經包含在95%的HPDI置信區間中,而對于α而言,真實值α=2是α取值范圍(0,2]的邊界,因此α的估計取不到真實值,α=2也不可能包含在95%的HPDI置信區間中,盡管如此,估計值α=1.879已經相當接近真實值α=2,可以認為α的估計是比較精確的。與此同時,還可以通過構建高斯分布分位數和Alpha穩定分布分位數的Q-Q圖來評價穩定分布模型對高斯分布連接函數的擬合效果,從圖2(b)中可見,數據點幾乎都落在一條直線上,說明以估計值α=1.879和β=-0.057為形狀參數的穩定分布模型對高斯分布的連接函數擬合效果較好,α和β的估計是精確的。

圖2 穩定分布模型對Cloglog模型(a)和Probit模型(b)近似效果的Q-Q圖

綜上所述,穩定分布模型的連接函數可以靈活捕捉和描述數據峰度、尾部及偏度的特征,對平衡或不平衡的數據集都能做到較為精確的估計。

3.3 模型比較與預測

參數估計以外,本文還將穩定分布模型的估計能力與Logit、Probit、Cloglog和GEV模型進行對比。依據表1的模型比較結果,在DIC準則方面,穩定分布模型的DIC值都明顯小于Probit,Cloglog和GEV模型,說明穩定分布模型的復雜度優于其他3個模型。

表1 模型比較結果

為了比較不同模型對于不平衡數據集的預測能力,計算各模型5折交叉驗證的均方根誤差(RMSE)并繪制其接收者操作特性曲線(ROC),由表1可知穩定分布模型的均方根誤差最小,圖3顯示穩定分布模型ROC曲線下的面積(AUC值)最大,說明穩定分布模型具有最佳的預測能力。

由此可見,穩定分布模型的擬合和預測效果都優于其他3個模型,是二元響應變量回歸模型在GEV模型基礎上的合理改進。

圖3 模擬數據集1中各模型ROC曲線和AUC值

4 結 論

本文對廣義線性模型進行推廣,給出了穩定分布模型,針對不平衡二元響應變量回歸分析時,擁有更多偏度和拖尾厚度上的靈活性。針對穩定分布概率密度和累積分布函數沒有解析表達式的特點,還給出了EP-ABC的估計方法。最后通過數值模擬實驗,驗證了穩定分布模型對二分類不平衡數據的估計效果與預測能力優于Logit,Probit,Cloglog以及GEV模型,該模型可以廣泛地應用于經濟、金融、信號處理等領域。

[1]CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference[J].Journal of Statistical Planning and Inference,1992,33(2):213-231.

[2]WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption[J].The Annals of Applied Statistics,2010,4(4):2000-2023.

[3]NOPAN J P.Stable Distribution:Models for Heavy Tailed Data[M].Washington D C:Birkhauser,2010.

[4]BARTHELME S,CHOPIN N.Expectation-propagation for likelihood-free inference[J].Journal of the American Statistical Association,2014,109(505):315-333.

[5]TURNER B M,ZANDT T V.A tutorial on approximate Bayesian computation[J].Journal of Mathematical Psychology,2012,56(2):69-85.

[6]SKAR C.The expectation propagation algorithm for use in approximate Bayesian analysis of latent gaussian models[D].Norway:Institutt for Matematiske Fag,2010.

Alpha-Stable Distribution Based Regression for Binary Response Data

XU Zhe, QIAN Xi-yuan

(School of Science,East China University of Science and Technology,Shanghai 200237,China)

Logit model is the most popular binary regression models for modelling binary response data.When dealing with unbalanced data,Logit model will cause link misspecification.A more flexible model of alpha-stable model,is introduced to fit unbalanced data by setting alpha-stable distribution as the link function.For model estimation,since alpha-stable distribution admits no closed-form expression for the density,we employ expectation propagation with approximate Bayesian computation (EP-ABC) algorithm.It overcomes the difficulties that high dimensionality results in low acceptance rate through data partitioning.According to the simulation results,alpha-stable model performs better than Logit,Probit,Cloglog or GEV model in fitting both balanced and unbalanced data.

Alpha-stable model; EP-ABC algorithm; generalized regression model; unbalanced data

1006-3080(2017)01-0129-04

10.14135/j.cnki.1006-3080.2017.01.020

2016-04-19

國家高技術發展研究“863”計劃項目(2015AA20107);上海市經信委“軟件和集成電路產業發展專項資金”(140304)

許 哲(1991-),女,江蘇南京人,碩士生,研究方向為統計計算。E-mail:belle_910803@163.com

錢夕元,E-mail:xyqian@ecust.edu.cn

O212.1

A

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲人成电影在线播放| 亚洲欧美不卡中文字幕| 日韩成人在线一区二区| 亚洲综合经典在线一区二区| 国产免费怡红院视频| 国产精品无码AV片在线观看播放| 久久天天躁狠狠躁夜夜2020一| 国产玖玖玖精品视频| 综合色区亚洲熟妇在线| 亚洲国产成人久久精品软件| 久久精品日日躁夜夜躁欧美| 国产熟女一级毛片| 国产免费久久精品44| 91在线一9|永久视频在线| 亚洲大尺码专区影院| 五月天福利视频| 夜夜操狠狠操| 亚洲婷婷丁香| 理论片一区| 福利在线不卡| 亚洲视频免费在线| 国产乱人伦偷精品视频AAA| 欧美在线导航| 国产精品深爱在线| 亚洲永久精品ww47国产| 97久久超碰极品视觉盛宴| 欧美精品伊人久久| 亚洲成人动漫在线| 亚州AV秘 一区二区三区| 免费毛片a| 国产乱子伦一区二区=| 国产JIZzJIzz视频全部免费| 青青青国产视频| 日韩亚洲综合在线| 色偷偷男人的天堂亚洲av| 99在线视频网站| 国产精品爆乳99久久| 久久99精品久久久久久不卡| 极品av一区二区| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品原创不卡在线| 亚洲国产精品美女| 日韩人妻无码制服丝袜视频| AV无码一区二区三区四区| 亚洲中文字幕97久久精品少妇| 亚洲精品人成网线在线| 噜噜噜综合亚洲| 国产在线视频二区| 亚洲无限乱码一二三四区| 天堂岛国av无码免费无禁网站| 亚洲av无码人妻| 精品无码视频在线观看| 日韩欧美成人高清在线观看| 亚洲日本在线免费观看| 久久精品最新免费国产成人| 成人毛片在线播放| 幺女国产一级毛片| 精品国产免费观看| 在线精品自拍| 久久永久免费人妻精品| 日韩人妻少妇一区二区| 天堂va亚洲va欧美va国产| 亚洲精品成人7777在线观看| 亚洲精品少妇熟女| 亚洲天堂在线视频| 亚洲一区二区三区麻豆| 日韩A级毛片一区二区三区| 亚洲Va中文字幕久久一区| 中国黄色一级视频| 国产极品粉嫩小泬免费看| 国产毛片网站| 久久情精品国产品免费| 成年A级毛片| 91久久大香线蕉| 欧美午夜一区| 韩日免费小视频| 色网站免费在线观看| 国产一区二区在线视频观看| 手机永久AV在线播放| 综合色在线| 亚洲精品视频免费看| av无码一区二区三区在线|