999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

刪失數據下部分線性模型的貝葉斯P-樣條估計

2021-01-13 04:47:10王純杰羅琳琳李純凈袁曉惠
東北師大學報(自然科學版) 2020年4期
關鍵詞:模型

王純杰,羅琳琳,李純凈,袁曉惠

(長春工業大學數學與統計學院,吉林 長春 130012)

0 引言

近年來,卵巢癌的發病率逐年上升.由于早期卵巢癌不易察覺,故其對女性的身體健康產生了巨大的潛在威脅.由于其發病原因并不明確,因此,對卵巢癌數據的研究具有重大的實用價值.2009年,Cho和Shih[1]對卵巢癌進行了細致描述并給出了針對卵巢癌的一些可用模型;2012年,李陽敏等[2]就早期卵巢癌的診斷數據建立多元線性回歸模型,以期找到早期卵巢癌的病理特征;2018年,赫艷玲等[3]對卵巢癌各階段的治療方案進行了闡述.

線性回歸模型假定響應變量與協變量的關系是線性的,在實際研究中,如果數據的協變量與響應變量的關系為非線性時,線性回歸模型的擬合效果較差,于是便產生了易解釋且具有更好擬合效果的部分線性模型.部分線性模型最初由Engle等[4]提出,用于研究天氣對電力的影響.隨后很多學者對此類模型進行了拓展研究.1995年,黃四民和梁華[5]運用部分線性模型分析居民消費結構;2015年,Müller和Geer[6]將部分線性模型拓展到高維情形;2018年,Wu[7]在部分線性模型的DBE(Difference-Based Estimator)估計的基礎上進行改進,得到了估計效果更好的DBRE(Difference-Based Ridge Estimator)估計.

在醫療領域,學者們將部分線性模型與生存分析中的刪失數據相結合,并對此進行了大量研究.2002年,陳敏和朱力行[8]給出了隨機刪失數據下的部分線性模型的擬合優度檢驗;2018年,Wang[9]研究了右刪失數據下部分線性模型的經驗似然推斷.

相比于頻率學派,貝葉斯充分利用了先驗的信息,在小樣本情況下得到了更好的估計效果.2004年,Lang和Brezger[10]首次針對AM(Additive Model)模型提出貝葉斯P-樣條,隨后此估計方法得到了廣泛的運用;2006年,Brezger和Lang[11]將貝葉斯P-樣條應用于GAM(Generalized Additive Model)模型;2016年,Bruno[12]等人將貝葉斯P-樣條應用于完整數據的部分線性模型;2018年,William和Gholamreza[13]將貝葉斯P-樣條應用于RSM(Risk-Sharing Model)模型.

本文基于貝葉斯P-樣條,針對右刪失數據,運用部分線性模型分析一些因素對卵巢癌患者生存時間的影響,得到了有效的參數估計,為卵巢癌的防治提供了有效建議.

1 部分線性模型及貝葉斯P-樣條

部分線性模型最初由Engle等[4]提出,由于其可以處理非線性關系,因此具有很高的靈活性,其模型如下:

log(T)=g(Z)+αTX+ε.

其中:T為響應變量;X為p維變量;Z為一維變量;g(·)是未知函數;α為p維變量X的系數;ε為隨機誤差,滿足Eε=0,Eε2=σ2,其分布可取標準正態分布(Normal)、標準極值分布(Extreme)和標準邏輯斯諦分布(Logistic).

在生存分析中很難得到完整的數據,所以需要處理不完整數據,其中最為常見的為右刪失數據.令事件發生的確切時間為T,但一些病人在實驗結束后要觀察的事件仍然沒有發生,只知道事件發生的時間大于刪失點C.用δ=I(T≤C)表示數據是否刪失,故得到Y=min(T,C)的觀測數據,其數據結構為D={Y,δ,X,Z}.

部分線性模型中較為重要的部分在于如何估計非參數部分g(Z).自從部分線性模型提出后,出現了許多關于g(Z)的估計方法,如樣條估計、核估計、M估計等.在這些方法中較為成熟的估計方法是B-樣條估計.在B-樣條中假定協變量的定義域為[a,b],將協變量分成m段,a=k0

其中B(Z)為樣條基函數,其定義為

在B-樣條中,當m很大時,容易出現過擬合現象.為了確保其有效性,1996年Eilers和Marx[14]提出了P-樣條,即在每個樣條基函數的系數上定義一個粗略的懲罰項以保證擬合出的曲線充分光滑.根據Eilers和Marx[14]的文章得到的懲罰似然函數如下:

其中:Δtβ為β的t階差分;f(yi|Xi,Z,β,α)為在給定Xi,Z,β的條件下Yi的密度函數;F(Yi|Xi,Z,β,α) 為給定Xi,Z,β的條件下Yi的分布函數.在標準正態分布、標準極值分布和標準邏輯斯諦分布下的似然函數如下:

P-樣條在處理大樣本問題中具有很高的有效性,且相比于B-樣條而言,節點的選擇對估計的影響較小.但樣本量不夠多時,P-樣條的估計效果并不理想,于是Lang和Brezger[10]在P-樣條的基礎上加入了貝葉斯,得到的貝葉斯P-樣條方法在樣本量較小時仍有很好的估計效果.根據Lang和Brezger[10]的文章,對系數β取如下二階差分:

βj=2βj-1-βj-2+ωj.

其中ωj~N[0,τ/ψ],τ用于保證函數的平滑度,ψ用于保證每一段上的曲率是不同的.根據Song等[17]的研究結果,非線性部分有如下約束:

故在貝葉斯部分,對β取有約束的高斯先驗,各參數的先驗分布如下:

在模擬與實例中假定樣條的段數m=18,差分階數t=2,參考文獻[10],取α1=1,α2=0.005,v=1,α0=0.5,?=1.由此得出參數的后驗如下:

τ-1~Gamma(α1+(m-t)/2,α2+βTM(ψ)β/2),

ψ~Gamma((v+m-t)/2,v/2+(βj-2βj-1+βj-2)/2τ),

2 MCMC算法

(1) 給定初值α0,β0.

(3) 從U(0,1)中抽取u1t,若

則αt=α(new),否則αt=αt-1.

β(new)=β(e)-B(BTB)-1BTβ(e).

(5) 從U(0,1)中抽取u2t,若

則βt+1=β(new),否則βt+1=βt.

重復循環10 000次,為去除初始值的影響去掉開始的5 000次抽樣結果.剩余5 000次循環結果的均值即為β和α的估計值.

3 模擬研究

通過模擬檢驗貝葉斯P-樣條在刪失數據部分線性模型下的估計效果.部分線性模型的具體形式如下:

log(T)=g(Z)+αX+ε.

其中:g(z)=arctan(z),Z~U(0,1),α=2,X為成功概率為0.5的伯努利分布隨機數.對誤差ε取3種不同的分布(見表1).

表1 誤差分布

令刪失比為40%,算得3種情況下的刪失點分別為C=αX+g(Z)+U[0,0.15],C=αX+g(Z)+U[0,0.02],C=αX+g(Z)+U[0,0.1].考慮不同樣本量的右刪失數據.用來衡量α的估計好壞的指標為偏和均方誤差.具體計算結果見表2.

表2 兩種不同方法的估計效果比較

由表2的結果可以看到,貝葉斯P-樣條方法在不同的誤差分布下α均擁有較小的bias與MSE,且樣本量越大,bias與MSE的值越小.說明在不同的誤差分布下部分線性模型的參數部分擬合效果很好.而用B-樣條方法時,當樣本量較大時的估計效果與貝葉斯P-樣條結果類似,但在樣本量較小時貝葉斯的估計效果要優于B-樣條的方法,說明貝葉斯方法要優于普通的B-樣條方法.取不同誤差分布的貝葉斯P-樣條非參數的g(Z)部分的擬合結果如圖1所示.圖2為B-樣條方法得出的曲線圖.對比圖1—2可以看出,貝葉斯P-樣條的擬合圖像具有較好的擬合效果,而B-樣條在前端與真實曲線相差較大,且貝葉斯P-樣條估計出的曲線更為平滑.由此可以看出貝葉斯P-樣條得到的曲線更光滑且樣條節點的選擇對其影響更小.

圖1 貝葉斯P-樣條下g(z)的擬合圖

4 實證研究

本文將部分線性模型的貝葉斯P-樣條估計應用于一個醫學問題中.數據來自于Edmunson等[16]的研究,該研究記錄了對患卵巢癌的女性進行兩種不同的治療(化療與放療加化療)的療效,結合患者的自身因素,分析了不同的治療方案以及患者自身因素對卵巢癌患者生存時間的影響.該研究共收集了26例卵巢癌病人的有效數據,刪失比為46%.選取4個影響因素:患者的年齡X1,患者對治療的耐受能力X2,治療方案X3,患者是否有其他疾病X4.對生存時間的對數log(T)采用部分線性模型建模,非參數部分運用貝葉斯P-樣條的方法進行擬合.

圖2 B-樣條下g(z)的擬合圖

先對4個變量進行篩選,用生存時間的對數對4個協變量建立加速失效模型,結果見表3.由于發現有些變量的P值大于0.05,故進行逐步回歸篩選變量.逐步回歸結果見表4,逐步回歸過程剔除了患者對治療的耐受能力X2與患者是否有其他疾病X4,保留的患者的年齡與治療方案均有較小的P值,故接下來用這兩個變量建模.

表3 AFT模型估計結果

表4 逐步回歸后估計結果

患者年齡與生存時間對數圖像見圖3.由圖3可知,患者的年齡與生存時間的對數之間存在非線性趨勢,故令Z為患者的年齡,X為治療方案,建立如下部分線性模型:

log(T)=g(Z)+αX+ε.

由于誤差ε的分布未知,故分別選取標準正態分布,標準極值分布與標準邏輯斯諦分布進行擬合.線性部分治療方案的系數估計結果見表5.

表5 線性部分治療方案系數的估計

非線性部分的擬合結果見圖4.

圖4 g(·)的擬合圖

在有可能影響卵巢癌患者生存時間的4個因素中,年齡與治療時采取的治療方案對卵巢癌患者的生存時間影響顯著.對誤差分布取3種不同的形式建立部分線性模型.其中治療方案對卵巢癌患者生存時間的影響是線性的,且呈正相關,即化療的治療方法比化療加放療的治療方法好,可更好地延長患者的壽命.年齡對卵巢癌患者生存時間的影響呈現非線性關系,這也符合客觀規律.由圖4可知60歲以下卵巢癌患者的生存時間與年齡成正比,而60歲以上的卵巢癌患者生存時間與年齡成反比.

5 總結

本文運用部分線性模型的貝葉斯P-樣條估計方法分析了卵巢癌數據,在模擬中貝葉斯P-樣條方法擬合的未知曲線更為光滑且其具有較小的bias和MSE.因此貝葉斯P-樣條方法可用在部分線性模型中對未知曲線進行擬合.

卵巢癌大多發生在40歲以上的女性身上,且未婚未育女性發生卵巢癌的幾率更大.卵巢癌若早發現,早治療,痊愈的概率很大,但老年人由于年齡的增長,身體各項機能減弱,患病后很難痊愈,所以在實例中得出的結論是正確的.即對卵巢癌患者生存時間影響顯著的兩個變量是治療方案與患者年齡.其中患者年齡與卵巢癌患者的生存時間呈現非線性關系:當年齡小于60歲時,年齡與生存時間成正比;當年齡大于60歲時,年齡與生存時間成反比.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品欧美日本韩免费一区二区三区不卡 | 天堂在线www网亚洲| 欧美精品啪啪一区二区三区| 人妻中文字幕无码久久一区| 久久这里只精品热免费99| 无码日韩人妻精品久久蜜桃| 国产裸舞福利在线视频合集| 97se亚洲| 亚洲无线视频| 久久综合色播五月男人的天堂| 97国产精品视频自在拍| 精品欧美日韩国产日漫一区不卡| 成人欧美在线观看| 黄片一区二区三区| 伊人大杳蕉中文无码| 黄色不卡视频| a在线观看免费| 久久中文无码精品| 亚洲高清在线播放| 人妻出轨无码中文一区二区| 高清乱码精品福利在线视频| 97超爽成人免费视频在线播放| 国产精品lululu在线观看| 欧美午夜视频在线| 国产在线精彩视频二区| 97人人做人人爽香蕉精品| 国产欧美日韩综合一区在线播放| 中文字幕色在线| 欧美成人午夜影院| 久久综合色视频| 久996视频精品免费观看| 国产精品一线天| 午夜日b视频| 国产自在线拍| 波多野结衣一二三| 91国内在线视频| 国产女同自拍视频| 最新国产精品第1页| 人人91人人澡人人妻人人爽 | 1级黄色毛片| 日本久久久久久免费网络| 欧美一区精品| 国产女人在线观看| 国产网站免费观看| 奇米精品一区二区三区在线观看| 亚洲Av综合日韩精品久久久| 国产日韩丝袜一二三区| 欧美国产精品拍自| 久久综合结合久久狠狠狠97色| 伊人91在线| 欧美三级自拍| 囯产av无码片毛片一级| 国产夜色视频| 国产激爽爽爽大片在线观看| 色婷婷成人网| 538国产在线| 国产精品久久精品| 亚洲色大成网站www国产| 97在线观看视频免费| 人妻中文字幕无码久久一区| 久久一本精品久久久ー99| 国产精品第页| 日韩高清一区 | 精品视频一区二区三区在线播| 久久精品国产999大香线焦| 国产精品极品美女自在线网站| 国产福利微拍精品一区二区| 亚洲伊人天堂| 在线免费观看a视频| 免费亚洲成人| 国产精品开放后亚洲| 91美女在线| 看国产毛片| 亚洲国产系列| 亚洲中文无码av永久伊人| 久久国产精品夜色| 日韩精品成人网页视频在线| AV片亚洲国产男人的天堂| 国产精品私拍99pans大尺度| 亚洲天堂网视频| 国产特一级毛片| 香蕉在线视频网站|