999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復雜抽樣下截取因變量回歸系數方差估計的模擬研究*

2011-03-11 14:01:58山西醫科大學公共衛生學院030001王曉榮
中國衛生統計 2011年1期
關鍵詞:特征模型

山西醫科大學公共衛生學院(030001) 王曉榮 王 彤

在一些臨床觀察中,研究者常將能夠代表人群健康狀況的某個指標作為因變量來分析其影響因素,然而在測量該指標水平時由于儀器的檢測極限問題,在某個水平之上或之下的值我們觀測不到,在數據收集時通常會用這個極限水平的值來代替那些我們觀測不到的數值。這里的因變量在理論上是連續的,但由于測量時受到某種限制,在某一點上被刪失或稱截取(censoring)而用界值代替,因變量成為連續分布和離散分布的混合分布〔1〕。對此類數據可以采用tobit回歸,或更普通的截取回歸模型進行分析。實際工作中對于所涉及的研究總體較大的調查,在研究設計時往往會整合簡單隨機抽樣、分層抽樣、整群抽樣等多種基本的抽樣技術形成多階段復雜抽樣,涉及截取因變量數據的調查也不例外。如果此時仍采用常規數據分析方法來分析復雜的截取數據,忽略分層、整群及不等概率抽樣等因素所帶來的設計效應,即使樣本量足夠大,也可能得出錯誤的推斷結論〔2,3〕。故本次研究將模擬復雜抽樣設計下的截取數據,并用泰勒級數法估計待估參數及其標準誤,將其與不考慮復雜抽樣設計之結果進行比較。

基本原理與方法

1.tobit模型的基本形式:

該方程意味著當y*>0時,所觀測到的變量y=y*,當y*≤0時,則y=0。以上是將截取點設為零,事實上截取臨界點可以為ci,ci可以對所有的i都是一樣的,但在多數情況下將隨著i的不同而變化,并且ci既可以從左截取,也可以從右截取,還可以兩邊同時截取。在這些更廣泛的情況下我們稱模型為截取回歸模型。例如醫學隨訪研究中常遇到的生存分析數據大多數屬于右截取情況,而tobit模型事實上是截取回歸模型在左端截取點為0時的特殊情況〔1〕。

2.參數估計

在tobit回歸模型中,當誤差滿足正態同分布時,即u|x~N(0,σ2),估計回歸系數常用的是最大似然法,似然函數的表達式如下:

上述方法是針對于簡單隨機樣本而言的,對于復雜抽樣數據應考慮更恰當的處理方法,如本次研究采用的參數及其方差估計方法是泰勒級數法。泰勒級數法的基本思想就是通過泰勒級數展開式用線性估計去逼近非線性估計,給出方差這個非線性估計量的一個近似估計。然而泰勒級數法本身不能獨自地用于方差估計的構造,它只是提供了非線性估計量的一種線性逼近算法,有時需要結合其他的復雜抽樣(刀切法、平衡半樣本法等)技術進行分析〔4,5〕。

(1)泰勒級數展開式如下:

對于非線性函數Y=f(x),x0為一個給定點,則f(x)在x0的泰勒級數展開為:

其中,a0,a1,a2,…,ak,…為常數,如果僅保留常數項和一階導數項,就可以得到非線性函數f(x)在定點 x0處的線性化估計〔4〕。

(2)泰勒級數近似法估計方差〔6〕

現以分層整群抽樣為例探討復雜抽樣條件下tobit回歸系數的方差估計。假設現在有一組分層整群數據,共有H個層,每個層中有M個群,每個群內有B個觀察單位。從每個層內抽取m個群進行觀察。

在tobit回歸模型中,假定回歸系數B與變量y和x的關系用下面的函數表示:

2.2.2 概率敏感性分析結果 由成本效果可接受曲線(圖3)可以看出,當WTP小于60 000元時,仙靈骨葆膠囊具有成本效果優勢的概率更高;當WTP達到60 000元時,芪骨膠囊成為優選方案的概率為52.5%;當WTP超過60 000元時,芪骨膠囊具有成本效果優勢的概率更高。

B=f(y,x)

如果函數f(y,x)的二階偏導數存在,運用泰勒級數展開式中的線性項就可以得到一個近似的線性表達式。

這樣就將一個非線性函數比值的方差估計轉變成為由y和x的方差和協方差所組成的線性函數。

設計效應值越大,表明它的效率越低,若deff>1,表明所考慮的抽樣設計的效率比簡單隨機抽樣低,若deff<1,表明該抽樣設計的效率比簡單隨機抽樣高〔4〕.

模擬分析

1.模擬條件

預模擬一個10 000例的總體,總體中有兩個層,第一層中有6 000例觀察對象,將這6 000例觀察對象完全隨機地分配到100個群中,每群60例。第二層中有4 000例觀察對象,將這4 000例觀察對象完全隨機地分配到80個群中,每群50例。這樣分群可以使群內方差與總體方差近似相等,使得群內相關系數近似為0,保證群內數據的異質性〔4〕。

2.左截取數據的模擬及其參數模型分析結果

我們需要模擬三個變量:分別為x、y、u,其中x為自變量,y是應變量,u是誤差項,y=1+x+u,u取自均值為0標準差為1的正態分布。自變量x的產生如下:第一層的數據是來自(0,1)的均勻分布,例數為6 000。第二層的數據是來自均數為0.5,標準差為1的正態分布中隨機產生,例數為4 000。然后我們按照等比例抽取的方式,每層均隨機抽取1/10的群作為樣本(即第一層中抽取10個群,第2層中抽取8個群),重復上述過程,模擬1 000次,得到1 000個樣本,用這1 000個樣本的數據擬合左截取tobit回歸模型,每個樣本均可計算出一個回歸系數以及其標準誤,最后計算出這1 000個樣本的回歸系數的均數和標準差。在

(3)設計效應

為比較不同抽樣設計的效率,基什(L.Kish)提出了設計效應的概念,設計效應(design effect,簡記為deff)指的是一個特定的抽樣設計估計量的方差對相同樣本量下簡單隨機抽樣的估計量的方差之比,計算公式如下:模型擬合過程中,我們不斷變換截取數據的比例,回歸系數的均數及其標準誤會隨著截取數據比例的改變而改變。

我們采用按比例截取方式來截取數據,截取比例分別為5%、10%、15%,其結果見表1。

表1 不同截取比例下左截取tobit模型回歸系數的模擬分析

從表1中可以看出,回歸系數的均數和標準誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,左截取tobit回歸模型的回歸系數的均數越來越偏離真值1,且標準誤逐漸增大。當截取比例固定不變時,考慮抽樣特征的情況下回歸系數的標準誤要明顯低于不考慮抽樣特征,將數據作為完全隨機處理的情形。

左截尾數據比例為5%、10%、15%時,tobit模型的設計效應deff分別為0.8539、0.8937和0.9089,我們可以看出截取數據比例越小,模型的估計效率越高,估計結果真實性和準確性也越高。

3.右截取數據的模擬及其半參數模型分析結果

首先生成服從(0,1)均勻分布的隨機數S,令生存函數S(t)=S,第一層數據采用服從均數為0.5,標準差為1的正態分布數據作為自變量x,例數為6 000,第二層的數據采用服從均數為0.1,標準差為0.5的正態分布數據作為自變量x,例數為4 000.令總體回歸系數b=1,λ=1,利用來計算服從參數為λ的指數分布的生存時間t。然后我們按照等比例抽取的方式,每層均隨機抽取1/10的群作為樣本(即第一層中抽取10個群,第2層中抽取8個群),重復上述過程,模擬1 000次,得到1 000個樣本,用這1 000個樣本的數據擬合COX比例風險模型,每個樣本均可計算出一個回歸系數以及其標準誤,最后計算出這1 000個樣本的回歸系數的均數和標準差。在模型擬合過程中,我們不斷變換截取數據的比例,回歸系數的均數及其標準誤會隨著截取數據比例的改變而改變。

我們采用按比例截取方式來截取數據,截取比例分別為5%、10%、15%,其結果見表2。

從表2中可以看出,回歸系數的均數和標準誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,COX比例風險回歸模型的回歸系數的均數越來越偏離真值1,且標準誤逐漸增大。當截取比例固定不變時,考慮抽樣特征的情況下回歸系數的標準誤要明顯低于不考慮抽樣特征,將數據作為完全隨機處理的情形。

表2 不同截取比例下COX比例風險模型回歸系數的模擬分析

右截尾數據比例為5%、10%、15%時,tobit模型的設計效應 deff分別為 0.8827、0.9489 和 0.9662,我們可以看出截取數據比例越小,模型的估計效率越高,估計結果真實性和準確性也越高。

從上述模擬結果可以看出,不管是左截尾還是右截尾數據,考慮抽樣特征后模型回歸系數的標準誤明顯低于不考慮抽樣特征的情形。因此,對于大規模的抽樣調查,如果抽樣框清楚明確,在進行數據分析和處理時應盡可能的將抽樣特征考慮在內,如忽略分層整群等抽樣特征而一味地用簡單隨機假設條件下的方法來計算其回歸系數的標準誤,可能在一定程度上損失設計原有的估計效率〔4,5〕,這樣有時就會使得有統計學意義的因素變得無統計學意義。

討 論

1.截取數據的tobit回歸模型在醫學研究中的應用日漸廣泛,本次模擬研究中模型誤差項滿足正態分布,且方差齊,因此在不考慮抽樣特征的情況下采用最大似然估計來估計模型中的參數,但是最大似然估計的使用是有嚴格條件限制的,需要已知模型中數據誤差項的分布形式。如果我們調查所得的數據誤差項的分布未知,使用最大似然估計很可能得出錯誤的結論,這種情況下應考慮限制條件相對較松的半參數和非參數估計方法〔1〕。

2.從模擬試驗中可以看出,隨著截取數據比例的增大,模型回歸系數的均數越來越偏離真值,且標準誤逐漸增大,當截取數據的比例固定時,考慮抽樣特征情況下模型回歸系數的標準誤要低于不考慮抽樣特征的情形。因此在應用截取回歸模型處理問題時,首先需注意截取數據在整體數據中所占的的比例,如果截取數據的比例太大,直接使用該模型可能會得出有偏差的結論。其次,如果數據的抽樣框清楚明確,在數據分析和處理時應充分利用數據的抽樣特征,這樣得出的結果更加真實可靠。

3.本次數據模擬時是將兩層的數據完全隨機地分到各個群中,群內相關系數(intra-class correlation coefficient)接近于0,此時可以將群效應忽略,僅考慮分層的影響,因此考慮抽樣特征后,其回歸系數的標準誤要低于完全隨機的情形,但是在實際應用過程中,我們遇到的數據中群內相關系數往往是不可能忽略的,有時甚至很大,這樣會明顯降低估計效率,很多情況下會使設計效應遠遠大于1。這種情況下,筆者認為可結合非獨立數據的建模方法來解決,如GEE等混合效應模型。

4.tobit模型可以用于各種截取數據的處理和分析。通常使用的tobit模型中假定誤差項是服從正態分布的,但它還可以是指數分布、威布爾分布、對數正態分布等〔7〕。事實上,在醫學領域中,對于常見的右截取生存分析數據,我們只要指定tobit模型中的誤差項滿足指數分布或威布爾分布,就可以用來處理右截取生存分析資料,這樣也使tobit回歸模型在醫學中的應用得到了延伸。

5.本次研究復雜截取數據相關參數的方差估計采用的是泰勒級數近似法,對于大規模復雜抽樣調查來說,泰勒級數線性法一般能給出真實有效的近似方差估計。且只要偏導數存在,線性法總能給出統計量的方差估計量,但并非所有的統計量均能表示為平滑的線性函數。如果出現這種情況,可以考慮使用其他的數據處理技術如:平衡半樣本法,刀切法等技術來處理〔4,6〕。刀切法和平衡半樣本法都屬于樣本再利用法,可以重復利用一個樣本的信息,由于這些方法不依賴于估計量的形式,可以用于估計任何非線性估計量的方差,主要適用于總體中有多個層,每個層中抽取兩個群的情況,也可以用于更復雜的抽樣設計的估計量的方差估計〔8,9〕。

1.薛小平,史東平,王彤.受限因變量模型及其半參數估計.中國衛生統計,2007,24(2):211-213.

2.Rao JNK,Wu CFJ.Resampling inference with complex survey data.Journal of the American Statistical Association,1988,83,401,231-241.

3.Lee ES,Forthofer RN.Analyzing Complex Survey Dat,Sage Publications Inc,2005.

4.馮士雍,倪加勛,鄒國華.抽樣調查理論與方法.北京:中國統計出版社,1998.

5.Wolter KM著,王吉利,李毅主譯.方差估計引論.北京:中國統計出版社,1998.

6.Risto Lehtonen,Erkki Pahkinen.Practical methods for design and analysis of complex surveys.John Wiley$Sons Ltd,The Atrium,Southern Gate,Chichester,West Sussex PO198SQ,England,2004.

7.SASInstitute Inc.SAS/STAT0 9.1 User’s Guide.Cary,NC:SASInstltute Inc,2004.

8.Thomas Lumley.Analysis of complex survey samples.Department of Biostatistics in Univers-ity of Washington,2004.

9.KF Rust,Jnk Rao.Variance estimation for complex surveys using replication techniques,Statistical Methods in Medical Research,1996,5(3):283-310.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产在线视频福利资源站| 91麻豆精品国产91久久久久| 免费看久久精品99| 国产欧美又粗又猛又爽老| 亚洲 成人国产| 国产精品人莉莉成在线播放| 色婷婷亚洲综合五月| 精品国产Av电影无码久久久| 4虎影视国产在线观看精品| 亚洲综合片| 国产成人91精品| 久久人体视频| 亚洲Av激情网五月天| 国产青榴视频| 波多野结衣一二三| 97成人在线观看| 亚洲婷婷六月| 国产精品理论片| 性欧美在线| 精品国产香蕉伊思人在线| 中文字幕一区二区视频| 亚洲精品制服丝袜二区| 久热re国产手机在线观看| 宅男噜噜噜66国产在线观看| 久久久久免费看成人影片 | 免费国产高清精品一区在线| 亚洲美女操| 91视频精品| 激情无码视频在线看| 亚洲精品黄| 福利视频一区| 永久免费无码成人网站| 狠狠五月天中文字幕| 男人天堂伊人网| 青青青伊人色综合久久| 国产不卡网| 国产一区二区三区免费观看| 精久久久久无码区中文字幕| 黄色一级视频欧美| 亚洲成A人V欧美综合| 亚洲福利视频一区二区| 香蕉视频在线观看www| 亚洲成人黄色网址| 色综合天天综合中文网| 91亚洲精选| 精品久久综合1区2区3区激情| 中文字幕在线不卡视频| 久久久国产精品无码专区| AV不卡无码免费一区二区三区| 国产亚洲精品精品精品| 91久久性奴调教国产免费| 国产视频你懂得| 日本一区二区三区精品国产| 国产成人综合亚洲欧美在| 日本中文字幕久久网站| 一本一道波多野结衣av黑人在线| 欧美一区二区三区欧美日韩亚洲| 成人免费视频一区| 日本人妻丰满熟妇区| 久久一本精品久久久ー99| 美女啪啪无遮挡| 大香伊人久久| 成人在线视频一区| 国产人成乱码视频免费观看| 中文字幕日韩视频欧美一区| 国模私拍一区二区| 欧美性精品不卡在线观看| 91在线视频福利| 日本免费精品| 最新加勒比隔壁人妻| 精品欧美视频| 精品三级在线| 亚洲黄色网站视频| 日韩在线1| 婷五月综合| 国产一区亚洲一区| 国产交换配偶在线视频| 色男人的天堂久久综合| 青青国产视频| 中国美女**毛片录像在线 | 久久99精品久久久大学生| 午夜精品区|