999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

有序變量的相關性及其 R 實現

2022-04-29 20:16:50陳鼎姜雨昂
計算機應用文摘 2022年15期
關鍵詞:相關性

陳鼎 姜雨昂

摘要:在調查、醫學等研究中,有序變量的相關性都有所涉及,并且合理使用相關系數的計算方法得出正確的結論顯得尤為重要。文章介紹了有序變量相關系數的計算公式,通過R軟件編寫函數計算相關系數及其置信區間、p值,同時通過舉例說明有序變量相關性在教學研究、醫學研究、市場調查中的應用,總結了相關系數之間的差異以及適用范圍。

關鍵詞:非參數統計;相關性;有序變量;R軟件

中圖法分類號:0212文獻標識碼:A

Correlation of ordinal variables and its application by R software

CHEN Ding,JIANG Yuang

(School of Mathematics and Statistics,Suzhou University,Suzhou 234000,China)

Abstract:In various researches such as investigation and medicine, the correlation of ordinal variables is involved, and it is particularly important to use the calculation method of the correlation coefficient reasonably to draw the correct conclusion. This paper introduces the calculation formula of the correlation coefficient of ordinal variables, and uses R software to write functions to calculate the correlation coefficient, its confidence interval, and p value. Finally, through the application of the correlation of ordinal variables in teaching research,medical research,and market research,this paper explains the differences between the correlation coefficients and the scope of application.

Key words: nonparametric statistics, correlation, ordered variable, R software

在經濟、金融、醫學、氣象等各類科學研究中,研究兩個變量是否相互影響一直是人們關注的首要問題。研究變量間的相互影響,不僅關心兩個變量是否存在相關,更關心兩個變量間的相關強度。目前,常用的方法是連續變量采用散點圖或折線圖等圖表法直接觀察,或者使用 Pearson 相關系數、Spearman 相關系數等衡量相關關系[1~2],而名義變量的相關關系采用列聯表分析和獨立性卡方檢驗進行定性分析,或者采用φ系數、列聯系數、Cramer? s V 系數等進行定量分析[3]。在問卷調查、疾病成因和醫學衛生等研究領域,更關注的是定序名義變量間的相關程度[4~6],而大部分情況都是使用列聯表分析等方法去解決問題,這往往忽略有序變量的順序關系,甚至會得出錯誤的結論[7]。鑒于此,本文針對有序變量相關性度量,重點介紹了幾種常用的有序變量相關系數的計算方法及性質,并使用免費開源的 R 軟件編寫函數實現相關系數的計算。

1有序變量的相關性

1.1有序變量的相關系數

假設 X 和 Y 都是有序變量,分別有 r 個有序水平A1,A2,…,Ar 和 c 個有序水平 B1,B2,…,Bc ,而且觀測數據( Xi ,Yi ),i =1,2,…,n 能放入 r × c 的列聯表(表1)。

由于變量數據具有特殊性,常用 Kendall τb 和Kendall τc ,Goodman?Kruskal,s γ,Somers, d 等系數衡量兩個有序變量間相關性。記

,則有序變量間的相關系數可表示為如下形式:

(1)Kendall τ b 相關系數:

其漸進均方差為:

其中,vij=RiDr+CjDc 。

(2)Kendall τc 相關系數:

其漸進均方差為:

其中,q=min( r,c)。

(3)Goodman?Kruskal,s γ相關系數:

其漸進均方差為:

(4)Somers, d(C | R)相關系數:

其漸進均方差為:

(5)Somers, d(R | C)相關系數:

其漸進均方差為:

(6)Somers, d 相關系數:

其漸進均方差為:

Kendall τb 和 Kendall τc, Goodman?Kruskals γ, Somers d(C | R),Somers d(R | C)以及 Somers d 的取值范圍都介于?1 ~ 1 之間,其中系數的符號代表正相關和負相關,系數的絕對值大小代表相關程度,絕對值接近1時,相關性越強;絕對值接近0時,相關性越弱。Kendall τ b 和 Kendall τc ,Goodman?Kruskal,s γ,Somers, d 中變量的位置是對稱的,而 Somers, d ( C | R),Somers, d( R | C)是非對稱的,可以度量自變量對因變量的影響。

1.2有序變量相關性 R 軟件的實現

將有序變量的相關系數、區間估計和檢驗 p 值用 R 語言編寫函數 Ordinal,具體程序如下:

Ordinal=function( x)

{ n1=nrow( x)

n2=ncol( x)

C=D=matrix(NA,nrow=n1,ncol=n2)

for (i in 1:n1)

{ for (j in 1:n2)

{ C[i,j]=sum(( row( x )>i)?( col( x )>j)?x )+ sum(( row( x)

D[i,j]=sum (( row ( x )>i)?( col( x )j)?x)}

}

P=sum( x ?C)

Q=sum( x ?D)

n=sum( x)

Dc=n^2?sum(( apply( x,2,sum))^2)

Dr=n^2?sum(( apply( x,1,sum))^2)

Ri=matrix( apply( x,1,sum),n1,n2)

Cj=matrix( apply( x,2,sum),byrow=T,n1,n2)

V=Ri ?Dr+Cj ?Dc

Kendall taub=( P?Q)/sqrt ( Dc ? Dr )? #計算

Kendall taub 系數

ASE taub=1/(Dc ?Dr)? sqrt ( sum ( x ?(2? sqrt

(Dc ?Dr)?(C?D)+Kendall taub ?V)^2) -n^3?Kendall taub^2?(Dr+Dc)^2)

q=min( nrow( x),ncol( x))

Kendall_tauc=q ?(P?Q)/( n^2?( q?1))? #計

算 Kendall tauc 系數

ASE_tauc=2?q/(( q?1)?n^2)? sqrt ( sum ( x ?(C?D)^2)?(P?Q)^2/n)

Goodman gamma =( P ?Q)/( P +Q)? #計算

Goodman gamma 系數

ASE Goodman=4/(P+Q)^2? sqrt( sum( x ?(Q ? C ?P ?D)^2))

Somer d=2?(P?Q)/(Dc+Dr) #計算 Somers,

d 系數

ASE d=ASE taub ?sqrt(2?sqrt(Dc ?Dr)/(Dc+

Dr))

Somer dCR=( P?Q)/Dr? #計算 Somers, d( C |

R)系數

ASE dCR=2/Dr^2? sqrt ( sum ( x ?( Dr ?( C?D)?(P?Q)?( n ?Ri))^2))

Somer dRC=(P?Q)/Dc? #計算 Somers, d( R |

C)系數

ASE dRC=2/Dc^2? sqrt( sum ( x ?( Dc ?( C?D)?(P?Q)?( n ?Cj))^2))

coef= c ( Kendall taub,Kendall tauc,Goodman

gamma,Somer_d,Somer_dCR,Somer_dRC)

ASE=c(ASE taub,ASE tauc,ASE Goodman,ASE

_d,ASE_dCR,ASE_dRC)

pvalue=2?(1?pnorm ( abs ( coef/ASE))) #求檢驗 p 值

CI95=c( coef?1.96?ASE,coef+1.96?ASE) #

求95%的置信區間

result=matrix ( c ( coef,ASE,pvalue,CI95),nrow=6)

rownames ( result)= c ("Kendall taub","Kendall

tauc"," Goodman _ gamma"," Somer _ d"," Somer _

dCR","Somer dRC")

colnames( result)= c ("coef","ASE","pvalue"," CI95 low","CI95 up")

return( result)

}

在 R 程序中,輸入有序變量( X,Y)的列聯表數據,運行 Ordinal 函數,就可得出所有系數、95%的置信區間和檢驗 p 值[8~10]。

2實例分析

2.1有序變量相關性在教學研究中的應用

教育教學中常常研究學科成績之間的相關性,通常成績以具體分數呈現,可以使用連續型變量相關性系數研究學科成績間的相關性。但是,成績也會以等級形式呈現,這時不同學科成績就是有序變量,應該使用有序變量相關系數去研究不同學科成績間的相關性。以研究某班80名學生的數學成績(成績等級:不及格、及格、中等、良好、優秀)與物理成績的相關關系為例,具體數據如表2所列。

導入數據,運行 Ordinal 函數后,結果如表3所列。

根據表3可知,對稱的系數中 Kendall τ b 系數是0.760,Kendall τc 系數是0.689,Goodman?Kruskal,s γ系數是0.937,Somers, d 系數是0.760,且顯著性水平(p 值)都小于0.001。說明該班的數學成績與物理成績之間存在顯著的正相關性,并且相關性較強。非對稱系數中 Somers, d(C| R)系數是0.754,Somers, d(R | C)系數是0.766,且顯著性水平(p 值)都小于0.001,說明物理成績對數學成績的影響程度要比數學成績對物理成績的影響程度大。

2.2有序變量相關性在醫學研究中的應用

醫學上經??紤]有序變量間的相互影響,如吸煙的頻率與生存時間的關系、早晨起床時間段與胃病嚴重程度的關系等,這都需要使用有序變量相關系數去衡量變量間的相互影響。以嬰兒體重(低于平均水平、平均水平、高于平均水平)和嬰兒胎次(一胎、二胎、三胎、四胎及以上)為例研究有序變量間的關系,具體數據如表4所列。

導入數據,運行 Ordinal 函數后,結果如表5所列。

根據表5可知,對稱的系數中 Kendall τ b 系數是0.524,Kendall τc 系數是0.552,Goodman?Kruskal,s γ系數是0.676,Somers, d 系數是0.523,且顯著性水平(p 值)都小于0.001,說明嬰兒體重和嬰兒胎次存在顯著的正相關性。由于醫學上很多變量間有因果關系,而本例中主要考慮嬰兒胎次對嬰兒體重的影響,因此使用不對稱的 Somers,d(R | C)相關系數。Somers, d(R | C)的系數為0.497,顯著性水平( p 值)小于0.001,說明嬰兒胎次對嬰兒體重的有顯著的正影響,即嬰兒胎次越多,嬰兒的體重越容易高于平均水平。

2.3有序變量相關性在市場調查中的應用

在市場調查中,問卷是搜集調查數據的重要工具,而在問卷設計時,選項不可避免的出現順序,如五級量表:非常滿意、比較滿意、一般、比較不滿意、非常不滿意等。由于問卷的選項設置容易出現有序變量,因此問卷數據分析相關性時需要采用有序變量的相關系數。以研究被調查者的學歷(小學、初中、高中、本科、研究生)和收入水平(收入2000元及以下為組1、收入2001~3500元為組2、收入3501~5000元為組3、收入5001~10000元為組4、收入10000元以上為組5)兩有序變量間的相關關系為例,具體數據如表6所列。

導入數據,運行 Ordinal 函數后,結果如表7所列。

根據表7可知,對稱的系數中 Kendall τ b 系數是0.749,Kendall τc 系數是0.725,Goodman?Kruskal,s γ系數是0.864,Somers, d 系數是0.749,且顯著性水平(p 值)都小于0.001,說明學歷與收入水平間存在較強的正相關性。問卷設計中考慮變量間的相互影響,本例中考慮學歷對收入水平的影響,因此使用非對稱系數中 Somers, d(C | R)系數,其值是0.746,且顯著性水平( p 值)小于0.001,說明學歷越高,收入水平越高。

3結語

本文通過教學、醫學、市場調查三個實例,計算其有序變量的相關系數,可以發現以下結論:(1) Goodman?Kruskal,s γ系數要比其他系數大,而除 Goodman?Kruskal,s γ系數的5種相關系數相差不大;(2)在因果分析中,使用非對稱的 Somers, d( C | R ), Somers, d(R | C)系數可以得到正確的結果。因此,有序變量相關性度量使用不同的相關系數雖然數值不同,但可以得到相同的結論。若需要考慮兩個變量的因果關系,可以使用 Somers, d(C | R),Somers, d(R | C)系數,并且可根據系數對比兩個變量互為因果的強弱。在分析具體實際問題時,合理使用有序變量相關系數更容易分析有序變量間的相關關系。同時,可以使用 R 軟件編寫計算的函數程序,方便研究者使用。

參考文獻:

[1]李彥萍,楊紅霞.非參數統計中相關系數的計算及其應用[J].山西農業大學學報(自然科學版),2003(4):363?366.

[2]楊雨龍.相關性分析方法及其應用淺析[ J].課程教育研究,2019(7):134+138.

[3]王伏虎,趙喜倉.名義變量列聯表的相關統計量分析[J].統計與決策,2009(14):164?165.

[4]曹玉嬋,左映龍.調查問卷數據統計列聯表分析在 SPSS 中的實現[J].科技創新與應用,2018(26):9?11.

[5]趙鵬輝,崔蕊.列聯表檢驗在疾病成因中的應用[ J].大慶師范學院學報,2013,33(3):33?38.

[6]吳喜之,趙博娟.非參數統計(第五版)[ M].北京:中國統計出版社,2019.

[7]陸運清.列聯表資料檢驗的幾種常見錯誤辨析[J].統計與決策,2010(15):161?163.

[8]陳雪東.列聯表分析及在 SPSS 中的實現[ J].數理統計與管理,2002(1):14?18+40.

[9]董云朝.應用 SPSS 軟件分析名義變量之間的相關性[J].福建電腦,2019,35(12):16?19.

[10]薛毅,陳立萍.統計建模與 R 軟件[M].北京:清華大學出版社,2007.

作者簡介:

陳鼎(1993—),碩士,助教,研究方向:統計教學與研究、多元統計分析及其應用。

猜你喜歡
相關性
我國創意產業集群與區域經濟發展研究
商情(2016年42期)2016-12-23 14:25:52
淺析財務管理與稅收籌劃的相關性
商情(2016年42期)2016-12-23 13:35:35
醫學教育中基于蛋白質驅動的miRNA與疾病相關性研究
東方教育(2016年4期)2016-12-14 22:15:13
財務管理和稅收籌劃的相關性分析
基于Kronecker信道的MIMO系統通信性能分析
科技視界(2016年21期)2016-10-17 17:37:34
小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
腦梗死與高同型半胱氨酸的相關性研究(2)
腦梗死與高同型半胱氨酸的相關性研究
會計信息質量可靠性與相關性的矛盾與協調
主站蜘蛛池模板: 亚洲综合色吧| 亚洲欧美一区二区三区蜜芽| 女人一级毛片| 欧美日韩国产综合视频在线观看| www精品久久| 欧美中文一区| 亚洲中文在线看视频一区| 日韩av在线直播| 狠狠色成人综合首页| 国产一级α片| 亚洲自拍另类| 免费看美女自慰的网站| 精品无码一区二区三区电影| 久久久波多野结衣av一区二区| 国产成+人+综合+亚洲欧美| 欧美一级高清片欧美国产欧美| 精品久久香蕉国产线看观看gif| 丁香综合在线| 亚洲va欧美va国产综合下载| 深夜福利视频一区二区| 这里只有精品免费视频| 亚洲第七页| 国产精品对白刺激| 久久精品中文无码资源站| 亚洲av无码久久无遮挡| 国产精品一区不卡| 九九久久精品免费观看| 青青青国产精品国产精品美女| 自拍偷拍一区| 亚洲男人天堂2020| 高清无码不卡视频| 丁香五月激情图片| 国产亚洲美日韩AV中文字幕无码成人| 亚洲成a人片在线观看88| 91福利免费| 國產尤物AV尤物在線觀看| 伊人欧美在线| 色悠久久综合| 国产成人综合网| 午夜小视频在线| 免费A∨中文乱码专区| 亚洲av成人无码网站在线观看| 日韩AV手机在线观看蜜芽| 国产成人h在线观看网站站| 国产精品亚洲αv天堂无码| 亚洲av无码牛牛影视在线二区| 亚洲综合极品香蕉久久网| 日本不卡在线播放| 久久国产精品嫖妓| 亚洲天堂网在线视频| 亚洲清纯自偷自拍另类专区| 国产偷倩视频| AV不卡无码免费一区二区三区| а∨天堂一区中文字幕| 夜精品a一区二区三区| 欧美在线综合视频| 伊人国产无码高清视频| 欧美啪啪一区| yjizz国产在线视频网| 国产美女免费网站| 国产在线欧美| 欧美精品v日韩精品v国产精品| 57pao国产成视频免费播放| 精品一区二区三区水蜜桃| www.狠狠| 欧美亚洲香蕉| 欧美三级不卡在线观看视频| 伊人激情综合网| 超清无码一区二区三区| 久草网视频在线| 国产福利不卡视频| 欧美激情视频一区| 伊人久热这里只有精品视频99| 99热这里只有精品免费| 国产成人盗摄精品| 国产凹凸视频在线观看| 亚洲精品无码高潮喷水A| 四虎免费视频网站| 欧美日韩一区二区在线免费观看| 国产系列在线| 国产综合另类小说色区色噜噜| 中国一级特黄视频|