999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本量及抽樣過程對線性模型中自變量重要性估計方法的影響研究*

2017-06-05 14:20:14伍立志賈孝霞沈其君
中國衛生統計 2017年2期
關鍵詞:優勢重要性方法

伍立志 賈孝霞 沈其君

樣本量及抽樣過程對線性模型中自變量重要性估計方法的影響研究*

伍立志1賈孝霞2沈其君3△

目的 通過從同一總體中抽樣產生不同樣本量及相同樣本量的重復抽樣數據集,來觀察并評價樣本量對重要性估計方法的影響以及重復抽樣過程對各方法估計穩定性的影響。方法 簡單介紹已有的幾種重要性評價方法,調用SAS中的PROC SURVEYSELECT 過程從同一總體中重復抽樣,觀察樣本量變化、重復抽樣過程對重要性估計結果的影響,評價各方法的穩定性。結果 樣本量較小時,各方法的重要性估計值變異較大,隨著樣本量增大估計值也逐漸趨于穩定。優勢分析、相對權重、乘積尺度(βr)的重要性估計值之和與模型R2之差,小于標準回歸系數平方(β2)、簡單相關系數平方(R2),優勢分析法的穩定性最好。結論 在現有的幾種常見重要性估計方法中,優勢分析法的重要性估計穩定性最好,相對權重法雖然與優勢分析法最為接近,但仍有不足之處。

線性模型 相對重要性 樣本量 抽樣過程 模擬研究

線性模型是在衛生、環境調查等領域中常用的一種數據分析方法,如何分析和解釋線性模型中自變量對因變量變異的貢獻,估計各自變量的相對重要性一直是研究者關注并爭論的話題,先后有數量眾多的評價方法被提出并推廣應用[1-2]。當研究中自變量之間相互獨立時,可以應用標準回歸系數、Pearson相關系數以及偏相關和半偏相關系數等指標。如果自變量之間互相存在關聯時,自變量相對重要性估計變得較為復雜,以上幾種指標已不再適用[3]。目前多數學者推薦的估計方法為乘積尺度法、優勢分析法和相對權重等方法。本次研究通過模擬隨機抽樣數據樣本,并調用SAS中的PROC SURVEYSELECT 過程從同一總體中重復抽樣,觀察樣本量變化、重復抽樣過程對重要性估計結果的影響,將學者推薦的這幾種方法與傳統的相關系數平方和標準回歸系數平方進行比較,評價各方法的穩定性。

自變量相對重要性估計方法簡介

1.乘積尺度法

Hoffman于1960年指出模型中自變量(x)的標準回歸系數(βx)與相應的簡單相關系數(rxy),兩者之積和即為決定系數R2,對應的以其乘積βxrxy為每一自變量對因變量變異的貢獻,Hoffman的這一方法被Bring等人命名為“乘積尺度”(product measure)[4]。這一方法明顯的缺點就是存在自變量實際對因變量變異有貢獻時卻出現0值或負值等無法解釋的情況。

2.優勢分析

1993年,Budescu首次提出了“優勢分析”這一方法,對于任意兩個自變量xi和xj,相對于余下p-2個自變量的任意子集xh,xi均能取得比xj更大的半偏相關系數平方,則稱xi對xj具有“優勢”[5],Azen和Budescu在2003年修訂了“優勢”這一定義。將優勢分析方法分為完全優勢分析、條件優勢分析和一般優勢分析[6],本文采用了一般優勢分析的方法和定義來估計各自變量的相對重要性[7]。

3.相對權重

Johnson提出了ε法即相對權重。它是將自變量Xj正交轉換得到的正交變量ZK,以因變量Y對Zk做回歸得到回歸系數βk,每個自變量Xj分別對Zk做回歸得到回歸系數λjk。要計算每個自變量的相對重要性,只需計算每個自變量對應兩組回歸系數的積和ε[8]。公式如下:

(1)

參數設置及實驗過程

為考察樣本量變化時對各重要性方法的影響,使用同一相關陣通過前述過程生成不同樣本量的模擬樣本,分別使用不同方法進行自變量相對重要性估計,觀測不同方法的估計結果差異。而在考察抽樣過程的影響時,先模擬一個樣本量為10000的數據集作為抽樣所用的總體,抽樣過程調用SAS中的PROC SURVEYSELECT 過程,樣本量大小100。研究所用的總體相關結構如下表所示:

表1 總體相關陣

生成模擬數據

Kaiser等人在1962年[11]提出一個矩陣分解過程,證明了將一個特定的矩陣左乘一個完全獨立隨機正態矩陣時,等價于從這一特定矩陣所代表的總體中進行隨機抽樣的過程。其基本過程如下:

(2)

結 果

1.不同樣本量對各方法重要性指標的影響

為考察樣本量變化時對各重要性方法的影響,使用同一相關陣通過前述過程生成不同樣本量的模擬樣本,分別使用不同方法進行自變量相對重要性估計,觀測不同方法的估計結果差異。本文所用的總體相關陣如下表所示:

表2 總體相關陣

各自變量重要性估計值之和應該等于總模型的R2,這是在評價自變量重要性估計方法時的一條重要準則[13],因此本文計算了各模擬樣本中各方法重要性估計值之和,將變量重要性指標和與R2之差的絕對值作為評價各方法估計偏差的統計量,如下表所列:

表3 各方法的重要性指標之和與模型R2之偏差

樣本量設置為從100到10000逐級增加,從上表可以看出,重要性的直接效應指標簡單相關系數平方R2對應的差值為0.4584±0.0391,而總效應指標標準回歸系數平方β2對應的差值為0.2810±0.0127,均不能滿足估計值之和應該等于總模型的r2這一基本準則。而優勢分析的偏差量為0.0000±0.0000,相對權重和乘積尺度法(βr)對應的差值分別為0.0019±0.0030和0.0079±0.0077,這三個方法的差值均比R2和β2小,且極接近0,尤以優勢分析為甚。此外,可見樣本量較小時,相對權重和乘積尺度法的重要性估計值之和與模型R2總仍有差距,當樣本量增大時,估計值之和與模型R2間差值縮小,但相對權重仍好于乘積尺度。而優勢分析則不受樣本量變化的影響。

由于各樣本均來自同一總體,因此各模擬數據集雖然樣本量不同,但自變量相對重要性估計值之間仍具有可比性。以各自變量估計方法對應的差值作圖如下,以觀察各方法隨樣本量增大而出現的變化趨勢:

圖1 不同樣本量的模擬樣本中自變量重要性估計值

從上圖可以看出,r2的估計值明顯偏大,β2的估計值明顯偏小,而優勢分析、相對權重以及乘積尺度三種方法的估計值相差無幾。雖然各樣本均來自同一總體相關陣,但可以看出,樣本量較小時,各方法的重要性估計值變異較大,隨著樣本量增大估計值也逐漸趨于穩定。

2.同一總體中重復抽樣對各方法重要性指標的影響

隨機抽樣是研究者為了研究目標人群總體參數的重要手段,眾所周知,隨機抽取的樣本并不能完全等價于總體。從上節的結果可以看出,當樣本量較小時,各重要性評價方法的估計結果并不穩定,因此,有必要觀察和比較從同一總體中重復抽樣時,各方法的穩定性。

本研究中,重復抽樣的總體仍沿用上節中的四各自變量相關陣,并模擬一個樣本量為10000的數據集作為抽樣所用的總體,抽樣過程調用SAS中的PROC SURVEYSELECT 過程,樣本量大小100。研究所用的總體相關結構和各自變量相對重要性見表4。

本次研究共完成1000次抽樣,使用以上五種方法對每一個抽樣樣本進行相對重要性評價,將樣本的估計值與總體參數相比較,并使用變異系數來評價各方法估計值的穩定性。結果如下:

表4 總體相關結構與自變量相對重要性

表5 抽樣樣本中X1的重要性指標估計值

表6 抽樣樣本中X2的重要性指標估計值

表7 抽樣樣本中X3的重要性指標估計值

表8 抽樣樣本中X4的重要性指標估計值

可以看出,優勢分析、相對權重、乘積尺度(βr)和標準回歸系數平方(β2)、簡單相關系數平方(R2)在評價各自變量的相對重要性時,前三種方法的變異系數均比后兩種方法小,表現出了更好的穩定性。從樣本指標均值與總體估計值間的偏差量來看,相對權重法的偏差量為0.0009~0.0085,簡單相關系數平方(R2)為0.0002~0.0080,變化較大。優勢分析的偏差量為0.0012~0.0048,乘積尺度和標準回歸系數平方的偏差量分別為0.0007~0.0028和0.0001~0.0032。

討 論

評價不同樣本量對重要性估計結果的影響時,研究結果顯示標準回歸系數平方的指標值之和明顯小于模型中R2,而簡單相關系數平方的指標值之和明顯大于模型R2,其原因在前文中已有討論,這也與其他研究者的結論一致。兩方法的指標值之和與模型R2的差值也未隨樣本量增大而表現出明顯的變化趨勢。乘積尺度、優勢分析、相對權重法三種方法的指標和與R2之差,均十分接近于0,其中優勢分析法的差值為0.0000±0.0000,且不隨樣本量大小變化而改變。而相對權重和乘積尺度法(βr)對應的差值分別為-0.0019±0.0030和0.0005±0.0111。此外,可見樣本量較小時,相對權重和乘積尺度法的重要性估計值之和與模型R2總仍有差距,當樣本量增大時,估計值之和與模型R2間差值縮小。

為了評估對同一總體的重復抽樣過程是否影響各方法的重要性估計結果,本研究使用了變異系數來作為評價指標,發現標準回歸系數平方的結果變異程度最大,簡單相關系數平方次之,而優勢分析的結果變異最小,重要性估計結果最為穩定。

在實際工作中,需估計自變量相對重要性時,如果自變量間存在共線性,不應使用標準回歸系數平方和簡單相關系數平方等傳統指標。相對權重法要好于乘積尺度法,但優勢分析法對模擬R2的估計最為貼近。盡管優勢分析法的計算較為復雜,但隨著計算機硬件的升級,這一問題不再突出。因此當研究數據樣本量較小時(<500)時,研究者應盡量使用優勢分析法來進行自變量的相對重要性估計,樣本量較大(>600)或為計算簡便,可選用相對權重法。

[1]賈孝霞,伍立志,楊文.對策理論在線性回歸模型自變量重要性估計中的分析及應用.第二軍醫大學學報,2014,25(8):865-869.

[2]代魯燕,張波,黃啟風.相對權重法在線性模型自變量相對重要性中的估計及其應用.中國衛生統計,2013,30(1):19-20.

[3]賈孝霞,伍立志,沈其君.線性回歸中自變量重要性估計的平均秩序方差分解法.中國衛生統計,2014,31(3):535-537.

[4]Bring J.A geometric approach to compare variables in a regression model.Am Stat,1996,50(3):57-62.

[5]Budescu DV.Dominance analysis A new approach to the problem of relative importance of predictors in multiple regression.Psychol Bull,1993,114(3):542-551.

[6]Azen R,Budescu DV.The dominance analysis approach for comparing predictors in multiple regression.Psychol Methods,2003,8(2):129-148.

[7]Huo Y,Budescu DV.An Extension of Dominance Analysis to Canonical Correlation Analysis.Mult Behav Res,2009,44(5):688-709.

[8]Johnson JW.A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression.Mult Behav Res,2000,35(1):1-19.

[9]Lebreton JM,Tonidandel S.Multivariate relative importance:Extending relative weight analysis to multivariate criterion spaces.J Appl Psychol,2008,93(2):329-345.

[10]張波,代魯燕,黃啟風.logistic回歸中自變量相對重要性的相對權重估計.中國衛生統計,2012,29(2):191-192.

[11]Kaiser HF,Dickman K.Sample and population score matrices and sample correlation matrices from an arbitrary population correlation matrix.Psychometrika,1962,27(2):179-182.

[12]Fan X,Felsovaly A,Sivp SA.SAS for Monte Carlo Studies A Guide for Quantitative Researchers.SAS Publishing,2003.

[13]Cjap YCE,Zhao Y,Kupper LL.Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies.J Occup Environ Hyg,2008,5(8):519-529.

(責任編輯:郭海強)

The Impact of Sample-size and Sample-process on Several Usual Importance Evaluate Methods

Wu Lizhi,Jia Xiaoxia,Shen Qijun

(SchoolofMedicine,NingboUniversity(315211),Ningbo)

Objective Implement random sample from a simulation population,to evaluate the The impact of sample-size and sample-process on several usual importance evaluate methods,observe the stability of those methods.Methods This study introduced existed importance methods,using PROC SURVEYSELECT procedure to sample a fixed population for 1000 times,generating 1000 same size sample,to evaluate the stability of relative importance methods.We sampled the population to generate datasets with different sample size to observe impact of sample-size on those methods.Results The sum of squared correlation coefficients′ estimator is bigger than model R-square,squared standardized regression coefficients′ sum is smaller.In contrary,sum of the Product Measure,Relative Weight and Dominance Analysis are extremely close to model R-square.When the sample size small than 1000,the estimator have obviously variation,but the variation decreased when the sample size rise up.Conclusion The dominance analysis has best stability,also has the best match of model R2in those methods.

Relative importance;Sample-size;Sample-process;Monte Carlo simulation

國家自然基金(81172771)浙江省醫藥衛生科技項目(2016KYB062)

1.浙江省疾病預防控制中心(310051)

2.浙江醫藥高等??茖W校

3.寧波大學醫學院預防醫學系

△通信作者:

猜你喜歡
優勢重要性方法
“0”的重要性
論七分飽之重要性
矮的優勢
趣味(語文)(2020年3期)2020-07-27 01:42:46
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
畫與話
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
談“五老”的五大特殊優勢
中國火炬(2014年11期)2014-07-25 10:31:58
主站蜘蛛池模板: 国产成人亚洲日韩欧美电影| 国产成人调教在线视频| 精品久久综合1区2区3区激情| 欧美在线黄| 国产亚洲精品va在线| 国产一区二区福利| 久久精品aⅴ无码中文字幕| 欧美国产综合色视频| 久草国产在线观看| 日韩精品毛片| 欧美日韩国产在线人| 国产精品一区在线观看你懂的| 国产自产视频一区二区三区| 在线亚洲天堂| 日韩中文字幕亚洲无线码| 欧美日韩高清| 亚洲h视频在线| 狠狠色噜噜狠狠狠狠色综合久 | 91久久偷偷做嫩草影院| 丝袜国产一区| 精品天海翼一区二区| 青青青国产免费线在| 国产成人av一区二区三区| 玩两个丰满老熟女久久网| 国产自在线拍| 91精品啪在线观看国产60岁 | 亚洲一区二区三区香蕉| 国产麻豆另类AV| 天天色天天综合网| 亚洲成人高清在线观看| 亚洲永久免费网站| 欧美精品不卡| 久久免费成人| 国产高清在线丝袜精品一区| 国产第八页| 99免费在线观看视频| 免费人成在线观看成人片| 亚洲国产成熟视频在线多多| 亚洲资源站av无码网址| 中文天堂在线视频| 亚洲视频二| 高清色本在线www| 国产对白刺激真实精品91| 毛片在线播放a| 亚洲精品无码抽插日韩| 日韩精品无码不卡无码| 久久久久久国产精品mv| 日韩天堂在线观看| 日韩激情成人| 久久精品人人做人人综合试看| 少妇精品网站| 国产欧美在线观看视频| 91一级片| 亚洲婷婷在线视频| lhav亚洲精品| 在线国产欧美| 国产一级做美女做受视频| 欧美日韩国产一级| 日韩无码视频播放| 亚洲天堂视频网站| 污视频日本| 永久免费精品视频| 91人人妻人人做人人爽男同| 91福利免费| 中文字幕久久精品波多野结| 九色综合伊人久久富二代| 波多野结衣爽到高潮漏水大喷| 亚洲国产精品成人久久综合影院| 天天摸夜夜操| 毛片在线看网站| 99久久精品美女高潮喷水| 亚洲日本中文字幕天堂网| 99精品伊人久久久大香线蕉| 99视频在线精品免费观看6| 亚洲成a人片77777在线播放 | 国产美女自慰在线观看| 99久久99这里只有免费的精品| 波多野结衣一区二区三视频 | 国产精品自拍露脸视频| 亚洲最大福利视频网| 日韩欧美中文在线| 制服丝袜一区二区三区在线|