999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分位回歸基于最優去相關得分的子抽樣算法

2024-01-01 00:00:00黃小峰鄒雨浩袁曉惠
吉林大學學報(理學版) 2024年5期

摘要:針對海量數據下高維分位回歸模型,首先,構造基于去相關得分函數的子抽樣算法,以估計感興趣的低維參數;其次,推導所提估計的極限分布,并根據漸近協方差矩陣求出L-最優準則下的子抽樣概率,給出高效的兩步算法.模擬和實證分析結果表明,最優子抽樣方法顯著優于均勻子抽樣方法.

關鍵詞:去相關得分;高維;海量數據;分位回歸;子抽樣

中圖分類號:O212.2文獻標志碼:A文章編號:1671-5489(2024)05-1102-11

Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score

HUANG Xiaofeng,ZOUYuhao,YUAN Xiaohui

(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)

Abstract:For the high-dimensional quantile regression model with massive data,firstly,a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly,we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix,giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.

Keywords:decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling

目前海量數據的處理方式主要有三類方法:分布式計算[1-3]、子抽樣算法[47]和數據流估計[8-0],其中子抽樣方法可減少資源消耗,提高處理速度,降低成本,保持數據代表性,因而受到廣泛關注,并已取得了許多研究結果.例如:Fithian等[4]將子抽樣方法推廣到邏輯回歸中;Ma等[0]探討了子抽樣算法在線性回歸中參數估計的統計特性;Ai等和Fan等[2]分別將子抽樣算法應用到廣義線性模型和線性分位回歸中,并在一般抽樣方法下建立了估計量漸近正態性的理論基礎;袁曉惠等[基于D-最優準則構造了分位回歸中信息陣的最優子抽樣方法;Wang等4構造了基于L-最優準則下分位回歸模型的最優子抽樣方法.雖然子抽樣算法在研究低維參數估計問題方面取得了一些成果,但對高維海量數據分析方法的研究目前仍處于探索階段,例如,Gao等5]研究了廣義線性模型中在干擾參數影響下對關注的低維參數實施最優子抽樣估計及推斷的統一框架,但其研究主要集中在廣義線性模型參數的估計,并未涉及其他類型的模型.

在眾多數據分析模型中,分位回歸6]因其能揭示響應變量的全方位特征并從中獲取豐富信息而備受關注.它通常采用加權最小絕對差方法進行估計,因而對離群點不敏感,能提供更穩健的結果,從而得到廣泛關注.例如,Wang等]分析了縱向數據中部分線性變系數模型的分位估計;袁曉惠等在部分協變量隨機缺失機制下的分位回歸模型中,提出了回歸參數的誘導光滑加權估計及其漸近協方差估計;Wang等[s]針對刪失分位回歸提出了一種新的基于多重穩健傾向得分的估計方法;Cheng等[20]提出了正則化的投影評分方法,以解決高維混雜協變量存在下分位回歸的參數估計問題.但在高維海量數據下進行分位回歸模型參數估計的研究目前文獻報道較少。鑒于此,本文考慮將去相關得分方程推廣到高維分位回歸最優子抽樣中,對感興趣的低維參數進行估計,并利用子抽樣方法提升計算效率,同時降低因干擾參數導致精度下降的問題。

1方法

1.1高維分位回歸模型的去相關得分估計

在高維回歸模型中,參數的維度通常較高,但與響應變量相關的協變量可能很少.那些非顯著影響響應變量的協變量可視為混雜協變量.如何在高維回歸模型中有效地估計低維參數,是近年來統計學領域的研究熱點.Zhang等[21]提出了一種半參數有效得分方法,用于構建高維線性模型中低維系數的估計和置信區間;Ning等[22]提出了一種可用于稀疏高維模型中假設檢驗和置信區間的去相關得分估計方法;Cheng等[20]提出了一種正則化投影得分方法,在存在高維混雜協變量的情況下,用于估計高維分位回歸中的低維感興趣參數.

假設響應變量為y,協變量為x=(uT,zT)T,其中u是已知的維數為d的低維感興趣協變量,z是維數為p的在預測響應變量時可能產生干擾的高維混雜協變量.觀測數據為Fn={y1,u1,z}=1.本文考慮分位回歸模型:

其中Q(y|u1,z1)表示在給定協變量u和z1時y的r條件分位數,0表示感興趣的低維系數,γ表示干擾參數.Cheng等[20]基于投影法構造了0的去相關得分估計方程.與經典的分位回歸方程不同,去相關得分方法可有效處理高維干擾參數的影響,得分方程為

其中函數ゅ(t)=I(lt;0)為p2(t)=ーI(lt;0)}關于t的導數.通過求解V(Hp,p6)=0,可得未知參數0的估計0g.

當z的維數p較小時,矩陣H,可由下式得到:

未知參數γ的估計?F由下式得到:

當z的維數p非常大時,可使用Lasso擬合多響應線性回歸得到矩陣H的估計:

其中參數h,表示矩陣H∈Rd的第j列.未知參數γ的估計由如下懲罰估計算法得到:

計算過程的關鍵是求解式(1)中的和Hp.在低維情形下,通過迭代求解Ψ(Hg,7,0)=0計算.該算法僅在低維情形下有理想的估計效果,但對于高維情形,該方法性能欠佳.針對高維情形,Cheng等[20]引入了一步估計法對式(1)進行修正,得到如下去相關得分函數:

其中表示基于方程(2)得到的初始估計.設y=y-(Hz)T0-zr,則求解關鍵問題n(HF,p,0)=0即等價于求解

估計0的漸近正態分布為

其中Q1=E[f(0|u,z)(u-Hoz)uT],f(·|u,z)是ε=y-uT0o-zTYo的密度函數,D1=r(1-r)×E[(u-Hz)(u-H)].修正得分函數后由一步算法得到的估計6n的淅近正態分布為

其中Q2=E[f(0|uz)(u-Hz)(u-H)].

1.2基于去相關得分函數的一般子抽樣算法

在海量數據情形下,傳統子抽樣算法不能直接應用于得分方程中.Gao等[5]將去相關得分方法推廣到海量數據下的高維廣義線性模型中,構造了關于感興趣低維參數的最優子抽樣估計,提出了基于去相關得分函數的子抽樣算法.受此啟發,本文考慮海量數據下高維分位回歸模型參數的估計問題,利用去相關得分函數降低不精確的干擾參數估計帶來的影響,并通過子抽樣算法提升收斂速率.以概率(滿足=1)抽取樣本容量為的子樣本集合相應的概率為在去相關得分函數構造中,如何尋找基于子樣本的投影矩陣H是關鍵,從理論上保證基于子樣本的參數估計的相合性和漸近正態性是一個難點.對于z的維數p較小的情形,H*的估計*可由下式得到:

未知參數γ的估計?可由下式計算得到:

得到基于子樣本的初始分位回歸系數?*和投影矩陣H后,0的子抽樣去相關得分函數定義為

最后,根據式(4)求解方程(H,y,0)=0,得到未知參數0的估計0.

假設:

定理1假設條件(H1)~(H5)成立,則當n→∞且r→∞時,在給定數據F的條件下,有

其中

證明:首先證明給定完全數據Fn時,H-H=O(r-1V2).令

則可得E(H“Fn)=Hm,E(H2”Fn)=H2.將矩陣-的第j行第k列元素記為△,A,則E(△1.|Fn)=0.下面計算條件二階矩:

根據Chebyshev不等式可知,△,k=Op(r-12),從而-m=O(r-12).類似地,可證明2-H2=O(r-12).由于

因此可得

根據文獻[23]中定理1可知,0-0=O(r-12),y2-=O(r-2).

下面證明:給定全數據Fn時,(H,2,02)=O(r-12).計算可得

根據Chebyshev不等式可知,(H,Y0,0P)=O(r-2).同理可證明

因此(H,7,02)=O(r-12).下面證明(H,,0)的漸近正態性.記

則rn在給定全數據的條件下(1……)立同分布且E(n1|Fn)=Op(n-1/2),Var(n;|Fn)=D-o(1).下面驗證Lindeberg-Feller條件,對某個δgt;0及任意的gt;0,有

由Lindeberg-Feller中心極限定理可知,D-12(H,,0)→N(0,1).根據式(5)和Slutsky定理可知,D-2(H,7F,0P)→N(0,I).用重期望公式可得

因此

從而可得(Q-1DQ-T)-12(0-0)→N(0,1).證畢.

當p非常大時,H的估計效果可能會較差.可使用Lasso擬合多響應線性回歸模型,估計投影矩陣H.對任何H*∈Rd,用h;表示其第j列,并通過下式估計H:

類似地,可通過懲罰估計γ:

在得到基于子樣本的初始分位回歸系數”和投影矩陣后,基于子樣本的一步估計方法得到,其漸近性質如下.

定理2假設條件(H1)~(H4),(H。)成立,則當n→∞且r→∞,并給定數據F。時,有

其中=l)

定理2的證明類似定理1,故略.

由于去相關得分函數得到修正,所以定理2中的0與Q有差異.可將修改去相關得分函數后得到的估計量0me視為從初始估計θ的一步更新.

1.3最優去相關得分子抽樣概率

下面討論最優子抽樣概率的計算方法.首先,基于L-最優性準則提出一種子抽樣概率的確定方法;其次,討論該方法的實現策略;最后,總結一種兩步算法.

由于定理1和定理2中的漸近協方差矩陣依賴于子抽樣概率,因此下面通過選擇最優子抽樣概率,提出一種有效的子抽樣方法.通過最小化估計量0的漸近均方誤差獲取最優子抽樣概率,即在定理1中min‖Var(0)‖=mintr(Q-1DQ-T),由于Q-1DQ-T中只有D與抽樣概率π,有關,所以argmin tr()argmin tr(D).,等,因此考慮通過最小化tr(D)尋求最優子抽樣概率,即L-最優性準則,旨在優化子抽樣概率以提高估計效率.下面根據L-最優性準則確定最優子抽樣概率.

定理3假設定理1的條件成立,則在L-最優準則下,抽樣概率形式為

證明:在L-最優準則下,通過最小化tr(D)計算最優的子抽樣概率,

其中,最后一步源于Cauchy-Schwarz不等式,當且僅當πc|u一Hpz,時等號成立.證畢.

1.4兩步算法

根據定理3可知,最優子抽樣概率元是基于協變量的信息計算得出的,與響應變量y,無關.該最優概率不僅適用于低維情形,也適用于高維情形.式(7)中,最優抽樣概率依賴于感興趣協變量u、干擾協變量z;及投影矩陣Hp.由于該抽樣概率不能直接得到,因此本文提出如下兩步算法解決該問題.

算法1最優去相關得分子抽樣算法.

步驟1)執行均勻子抽樣以獲取r。個子樣本,基于該r。個樣本估計式(7)中的子抽樣概率,對于子抽樣概率中未知的Hr,由式(3)或式(6)計算得到.替換原定理3中的H,為H\",計算L-最優性準則下的近似最優子抽樣概率.

步驟2)根據步驟1)中計算得到的子抽樣概率,選取r個子樣本(y;u;,zi)-1,基于上述子樣本用式(4)求解方程;(H\",y,0)=0估計參數0.

2模擬研究

下面利用數值模擬評估本文估計方法在有限樣本容量下的性能,以驗證去相關得分子抽樣算法在實際應用中的可行性和準確性.本文主要考察干擾參數的影響,分為低維(p=10)和高維(p=700)兩種情形討論.

由下式生成大小為n=105的數據樣本:

其中u;表示低維感興趣協變量,z稱為干擾協變量,二者皆源自多元正態分布,(6,62,θ3)=(3,3,3)T和y分別為感興趣低維參數和干擾參數,p表示干擾維數,對式(8)的隨機誤差項e,,考慮以下3種分布類型:

誤差1)ε;服從正態分布,ε;~N(0,1);

誤差2)ε;服從自由度為3的t分布,ε~t(3);

誤差3)e;服從異方差正態分布,e,=(1+2Z2)Za,其中Za~N(0,1),Z2~Bernoulli(0.5),且Zn和Z,2相互獨立.

在產生隨機數前,先對未知干擾參數向量y設定一個真值,在低維情形下令(y1,y2,y3,.,y,)=(3,3,3,0,……,0),在高維情形下令(y1,Y2,Ya,……,Y,-1)=(0,0,0,……,0).

下面運行本文提出的兩步算法,在兩種干擾情形下算法1的步驟1)中,均先選取子樣本r。=200,以估計在L-最優準則下的近似最優子抽樣概率,再執行步驟2),分別考慮抽取r=200,400,600,800,1 000個樣本,完成抽樣后,利用算法1對參數進行估計,并重復實驗M=500次,計算參數估計的平均值.表1和表2分別列出了低維和高維情形下基于最優抽樣所得估計參數的偏差(Bias)和標準差(SD)(本文只列出了r=0.3時的結果,且保留四位小數).圖1~圖6分別為不同分位點處估計參數在兩種干情形和3種不同差下的總均方誤M中MSE-表示第m個子抽樣估計,0表示參數的真值.

在兩種不同干擾情形下,由表1和表2及圖1~圖6可見:本文提出的最優子抽樣方法得到的每個估計參數的SD均隨子樣本量的增加而不斷減小,說明該方法的估計性能隨樣本量的增加而變得更好,且估計結果是無偏的;在不同分位點r=0.3,0.5,0.7時,所估計參數的MSE均隨子樣本的增加而逐漸減小,且本文提出的最優抽樣方法得到估計的MSE均比基于均勻子抽樣得到的MSE小,這與定理3最小化估計量0的MSE理論結果一致.模擬結果表明,本文提出的最優子抽樣策略顯著優于均勻子抽樣.

3實證分析

下面將本文提出的子抽樣算法應用于來自UCI存儲庫的博客反饋數據集(https:/archive.ics.uci.edu/ml/datasets/BlogFeedback).該數據集收錄了2010-2011年期間的博客數據,其中包含n=52397個樣本和p=280個協變量.目標是預測給定博客的反饋數量與280個協變量之間的關系.

Wang等3分析該數據集的結果表明,博客的評論數(y)主要受3個特定協變量(在過去24h內對消息來源評論數量的中位數x1;消息來源在過去48~24h內的評論數與在過去24h內的評論數之間的平均差異x2;在過去24h內對消息來源的評論數x3)的顯著影響.本文在Wang等[23]實證分析的基礎上,在分位回歸模型中添加23個對響應變量預測精準度較低的協變量作為干擾協變量,在進行數據分析前,先對響應變量和所有協變量進行標準化處理.

在r=0.5分位點處,采用本文提出的算法對博客數據集進行建模分析.設r=400,r=200,400,600,800,重復計算500次并取均值.由于在真實的數據場景中,通常無法直接獲得模型參數的真實值,因此本文采取一種實用的替代方法:利用從全數據中得到的參數估計值替代未知的真實值.考察上述3個特定的協變量,并在全數據的基礎上對它們進行參數估計.根據全數據下的分析,這3個協變量在全數據下的參數估計值分別為0.0307,0.0582,0.2249.該結果表明,響應變量y與這3個協變量之間均存在正向的關聯性.即這些協變量的增加傾向于與響應變量y的增加相關聯,從而得到了對數據內在關系更深刻的理解.表3列出了最優子抽樣方法針對3個低維感興趣協變量參數估計的Bias和SD值.圖7為這些協變量參數估計的MSE隨子樣本大小變化的趨勢.由表3可見,隨著子樣本量的增加,基于最優子抽樣方法參數估計的標準差逐漸降低,該結果證實了所推導的漸近協方差矩陣在實際應用中的有效性.由圖7可見,無論哪種抽樣方法,估計值的MSE均隨子樣本量的增加而減少.此外,本文提出的最優子抽樣策略得到的MSE始終低于均勻子抽樣方法得到的MSE,該結果進一步驗證了最優子抽樣策略在實際應用中的顯著優勢.

綜上,本文將去相關得分方程推廣到了高維分位回歸模型的子抽樣中,該方法可估計高維分位回歸模型子抽樣中的低維預測參數.首先推導了一般去相關得分子樣本估計量的漸近性質,然后根據 L-最優準則給出了最優子抽樣概率,并提出了一種兩步算法來近似最優的去相關得分子抽樣概率.為節約計算成本,在模擬實驗中先固定算法第一步的較小子樣本量r0,再逐步增加算法第二步的子樣本量r.模擬研究結果表明,相比于均勻子抽樣方法, 本文方法優勢顯著.最后,將本文方法應用于真實的博客數據集,實證結果表明,本文提出的最優子抽樣策略可很好地在真實情形下估計感興趣低維參數.在實際應用中,推薦采用一步估計法,因為它能顯著提高海量高維數據分析的計算效率,能更有效地處理大規模數據集.

參考文獻

[1]LIN N,XI R B.Aggregated Estimating Equation Estimation[J].Statistics and Its Interface,2011,4(1):73-83.

[2] CHEN X Y.XIE M G.A Split-and-Conquer Approach for Analysis of Extraordinarily Large Data[J].Statistica Sinica,2014,24(4):1655-1684.

[3]XU Q F,CAI C,JIANG C X,etal.Block Average Quantile Regression for Massive Dataset[J].Statistical Papers,2020,61(1):141-165.

[4] FITHIAN W,HASTIET.Local Case-Control Sampling:Efficient Subsampling in Imbalanced Data Sets[J].The Annals of Statistics,2014,42(5):1693-1724.

[5]WANG Y,ZHU R,MA P.Optimal Subsampling for Large Sample Logistic Regression[J].Journal of the American Statistical Association,2018,113:829-844.

[6]YUAN X H,LIY,DONG X G,etal.Optimal Subsampling for Composite Quantile Regression in Big Data[J].Statistical Papers,2022,63(5):1649-1676.

[7]JONES L.H.Investigating the Properties of a Sample Mean by Employing Random Subsample Means[J].Journal of the American Statistical Association,1956,51:54-83.

[8]SCHIFANO E D.WU J,WANG C,etal.Online Updating of Statistical Inference in the Big Data Setting[J].Technometrics,2016,58(3):393-403.

[9]LUO L,ZHOU L.SONG P X K.Real-Time Regression Analysis of Streaming Clustered Data with Possible Abnormal Data Batches[J].Journal of the American Statistical Association,2023,118:2029-2044.

[10]MA P.MAHONEY W M,YU B.A Statistical Perspective on Algorithmic Leveraging[J].Journal of Machine Learning Research,2015,16:861-911.

[11]AI M,YU J,ZHANG H,etal.Optimal Subsampling Algorithms for Big Data Regessions[J].Statistica Sinica,2021,31(2):749-772.

[12]FAN Y.LIU Y K,ZHU L X.Optimal Subsampling for Linear Quantile Regression Models[J].Canadian Journal of Statistics,2021,49(4):1039-1057.

[13]袁曉惠,郭偉,王純杰.大數據分位數回歸下基于信息陣的最優子抽樣[J].東北師大學報(自然科學版),202355(3):30-36.(YUAN XH,GUO W,WANG C J.Information Matrix Based Optimal Subsampling for Big Data Quantile Regression[J].Journal of Northeast Normal University(Natural Science Edition),2023,55(3):30-36.)

[14]WANG H Y,MA Y Y.Optimal Subsampling for Quantile Regression in Big Data[J].Biometrika,2021.108(1):99-112.

[15]GAO J Z,WANG L W,LIAN H.Optimal Decorrelated Score Subsampling for Generalized Linear Models with Massive Data[J].Science China Mathematics,2024,67(2):405-430.

[16]KOENKER R,BASSETT G,Jr.Regression Quantiles[J].Econometrica,1978,46(1):33-50.

[17]WANG J H,MENDEL F.Inference for Censored Quantile Regression Models in Longitudinal Studies[J].The Annals of Statistics,2009,37(2):756-781.

[18]袁曉惠,劉天慶。協變量缺失下基于誘導光滑方法的加權分位數回歸[J].,2016,54(6):1314-1322.(YUAN X H,LIU T Q.Weighted Quantile Regression Based on Induced Smoothing Method with Missing Covariates[J].Journal of Jilin University(Science Edition),2016,54(6):1314-1322.)

[19]WANG X R,QIN G Y,SONG X Y,etal.Censored Quantile Regression Based on Multiply Robust Propensity Scores[J].Statistical Methods in Medical Research,2022,31(3):475-487.

[20]CHENG C,FENG X D,HUANG J,etal.Regularized Projection Score Estimation of Treatment Effects in High-Dimensional Quantile Regression[J].Statistica Sinica,2022,32(1):23-41.

[21]ZHANG C H,ZHANG SS.Confidence Intervals for Low Dimensional Parameters in High Dimensional Linear Models[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2014,76(1):217-242.

[22]NING Y,LIU H.A General Theory of Hypothesis Tests and Confidence Regions for Sparse High Dimensional Models[J].The Annals of Statistics,2017,45(1):158-195.

[23]WANG L,ELMSTEDT J,WONG W K,etal.Orthogonal Subsampling for Big Data Linear Regression[J].The Annals of Applied Statistics,2021,15(3):1273-1290.

(責任編輯:李琦)

主站蜘蛛池模板: 凹凸国产分类在线观看| 成人午夜久久| 又黄又爽视频好爽视频| 久久综合国产乱子免费| 久久一日本道色综合久久| 欧美自拍另类欧美综合图区| 欧美视频在线播放观看免费福利资源 | 欧美丝袜高跟鞋一区二区| 日本高清有码人妻| 少妇极品熟妇人妻专区视频| 亚洲无码精品在线播放| 日韩激情成人| 丰满的熟女一区二区三区l| 精品亚洲麻豆1区2区3区| 伊人久久精品无码麻豆精品 | 日韩中文字幕免费在线观看| 亚洲日本韩在线观看| 青青草原国产| 国产欧美日韩视频怡春院| 亚洲不卡av中文在线| 久久精品中文字幕免费| 人妻少妇久久久久久97人妻| 黄色网址免费在线| 免费一级α片在线观看| 四虎精品免费久久| 美女毛片在线| 99精品一区二区免费视频| 亚洲成在线观看| 国产尤物jk自慰制服喷水| 国产成人一区| 色AV色 综合网站| 国产剧情国内精品原创| 日本高清有码人妻| 国产小视频a在线观看| 亚洲精品第1页| 99精品久久精品| 亚洲毛片一级带毛片基地| 国产福利在线免费| 无码'专区第一页| 精品国产网站| 99热这里只有成人精品国产| www.亚洲一区二区三区| 亚洲综合色区在线播放2019| 欧美特黄一级大黄录像| 国产成人久久777777| 亚洲码一区二区三区| 欧美国产日韩在线观看| 久久免费观看视频| 色135综合网| 大香网伊人久久综合网2020| 亚洲αv毛片| 中文字幕永久在线看| 精品久久综合1区2区3区激情| 日本精品αv中文字幕| 国产成人在线无码免费视频| 露脸一二三区国语对白| 欧美日韩中文国产| 在线观看国产一区二区三区99| 亚洲一级毛片在线观播放| 欧美日韩精品一区二区视频| 任我操在线视频| 在线视频一区二区三区不卡| 一级一毛片a级毛片| 激情爆乳一区二区| 午夜视频免费试看| 第一区免费在线观看| 国产在线观看精品| 影音先锋亚洲无码| 最新国产成人剧情在线播放| 日本欧美视频在线观看| 国产精品手机在线观看你懂的| 精品国产自在现线看久久| 欧美国产在线看| 日韩毛片免费观看| 中文字幕不卡免费高清视频| 一本色道久久88| 精品91视频| 色悠久久综合| 91精品国产福利| 秘书高跟黑色丝袜国产91在线| 国产第八页| 999精品色在线观看|