陳鼎 姜雨昂



摘要:在調查、醫學等研究中,有序變量的相關性都有所涉及,并且合理使用相關系數的計算方法得出正確的結論顯得尤為重要。文章介紹了有序變量相關系數的計算公式,通過R軟件編寫函數計算相關系數及其置信區間、p值,同時通過舉例說明有序變量相關性在教學研究、醫學研究、市場調查中的應用,總結了相關系數之間的差異以及適用范圍。
關鍵詞:非參數統計;相關性;有序變量;R軟件
中圖法分類號:0212文獻標識碼:A
Correlation of ordinal variables and its application by R software
CHEN Ding,JIANG Yuang
(School of Mathematics and Statistics,Suzhou University,Suzhou 234000,China)
Abstract:In various researches such as investigation and medicine, the correlation of ordinal variables is involved, and it is particularly important to use the calculation method of the correlation coefficient reasonably to draw the correct conclusion. This paper introduces the calculation formula of the correlation coefficient of ordinal variables, and uses R software to write functions to calculate the correlation coefficient, its confidence interval, and p value. Finally, through the application of the correlation of ordinal variables in teaching research,medical research,and market research,this paper explains the differences between the correlation coefficients and the scope of application.
Key words: nonparametric statistics, correlation, ordered variable, R software
在經濟、金融、醫學、氣象等各類科學研究中,研究兩個變量是否相互影響一直是人們關注的首要問題。研究變量間的相互影響,不僅關心兩個變量是否存在相關,更關心兩個變量間的相關強度。目前,常用的方法是連續變量采用散點圖或折線圖等圖表法直接觀察,或者使用 Pearson 相關系數、Spearman 相關系數等衡量相關關系[1~2],而名義變量的相關關系采用列聯表分析和獨立性卡方檢驗進行定性分析,或者采用φ系數、列聯系數、Cramer? s V 系數等進行定量分析[3]。在問卷調查、疾病成因和醫學衛生等研究領域,更關注的是定序名義變量間的相關程度[4~6],而大部分情況都是使用列聯表分析等方法去解決問題,這往往忽略有序變量的順序關系,甚至會得出錯誤的結論[7]。鑒于此,本文針對有序變量相關性度量,重點介紹了幾種常用的有序變量相關系數的計算方法及性質,并使用免費開源的 R 軟件編寫函數實現相關系數的計算。
1有序變量的相關性
1.1有序變量的相關系數
假設 X 和 Y 都是有序變量,分別有 r 個有序水平A1,A2,…,Ar 和 c 個有序水平 B1,B2,…,Bc ,而且觀測數據( Xi ,Yi ),i =1,2,…,n 能放入 r × c 的列聯表(表1)。
由于變量數據具有特殊性,常用 Kendall τb 和Kendall τc ,Goodman?Kruskal,s γ,Somers, d 等系數衡量兩個有序變量間相關性。記
,則有序變量間的相關系數可表示為如下形式:
(1)Kendall τ b 相關系數:
其漸進均方差為:
其中,vij=RiDr+CjDc 。
(2)Kendall τc 相關系數:
其漸進均方差為:
其中,q=min( r,c)。
(3)Goodman?Kruskal,s γ相關系數:
其漸進均方差為:
(4)Somers, d(C | R)相關系數:
其漸進均方差為:
(5)Somers, d(R | C)相關系數:
其漸進均方差為:
(6)Somers, d 相關系數:
其漸進均方差為:
Kendall τb 和 Kendall τc, Goodman?Kruskals γ, Somers d(C | R),Somers d(R | C)以及 Somers d 的取值范圍都介于?1 ~ 1 之間,其中系數的符號代表正相關和負相關,系數的絕對值大小代表相關程度,絕對值接近1時,相關性越強;絕對值接近0時,相關性越弱。Kendall τ b 和 Kendall τc ,Goodman?Kruskal,s γ,Somers, d 中變量的位置是對稱的,而 Somers, d ( C | R),Somers, d( R | C)是非對稱的,可以度量自變量對因變量的影響。
1.2有序變量相關性 R 軟件的實現
將有序變量的相關系數、區間估計和檢驗 p 值用 R 語言編寫函數 Ordinal,具體程序如下:
Ordinal=function( x)
{ n1=nrow( x)
n2=ncol( x)
C=D=matrix(NA,nrow=n1,ncol=n2)
for (i in 1:n1)
{ for (j in 1:n2)
{ C[i,j]=sum(( row( x )>i)?( col( x )>j)?x )+ sum(( row( x)
D[i,j]=sum (( row ( x )>i)?( col( x )
}
P=sum( x ?C)
Q=sum( x ?D)
n=sum( x)
Dc=n^2?sum(( apply( x,2,sum))^2)
Dr=n^2?sum(( apply( x,1,sum))^2)
Ri=matrix( apply( x,1,sum),n1,n2)
Cj=matrix( apply( x,2,sum),byrow=T,n1,n2)
V=Ri ?Dr+Cj ?Dc
Kendall taub=( P?Q)/sqrt ( Dc ? Dr )? #計算
Kendall taub 系數
ASE taub=1/(Dc ?Dr)? sqrt ( sum ( x ?(2? sqrt
(Dc ?Dr)?(C?D)+Kendall taub ?V)^2) -n^3?Kendall taub^2?(Dr+Dc)^2)
q=min( nrow( x),ncol( x))
Kendall_tauc=q ?(P?Q)/( n^2?( q?1))? #計
算 Kendall tauc 系數
ASE_tauc=2?q/(( q?1)?n^2)? sqrt ( sum ( x ?(C?D)^2)?(P?Q)^2/n)
Goodman gamma =( P ?Q)/( P +Q)? #計算
Goodman gamma 系數
ASE Goodman=4/(P+Q)^2? sqrt( sum( x ?(Q ? C ?P ?D)^2))
Somer d=2?(P?Q)/(Dc+Dr) #計算 Somers,
d 系數
ASE d=ASE taub ?sqrt(2?sqrt(Dc ?Dr)/(Dc+
Dr))
Somer dCR=( P?Q)/Dr? #計算 Somers, d( C |
R)系數
ASE dCR=2/Dr^2? sqrt ( sum ( x ?( Dr ?( C?D)?(P?Q)?( n ?Ri))^2))
Somer dRC=(P?Q)/Dc? #計算 Somers, d( R |
C)系數
ASE dRC=2/Dc^2? sqrt( sum ( x ?( Dc ?( C?D)?(P?Q)?( n ?Cj))^2))
coef= c ( Kendall taub,Kendall tauc,Goodman
gamma,Somer_d,Somer_dCR,Somer_dRC)
ASE=c(ASE taub,ASE tauc,ASE Goodman,ASE
_d,ASE_dCR,ASE_dRC)
pvalue=2?(1?pnorm ( abs ( coef/ASE))) #求檢驗 p 值
CI95=c( coef?1.96?ASE,coef+1.96?ASE) #
求95%的置信區間
result=matrix ( c ( coef,ASE,pvalue,CI95),nrow=6)
rownames ( result)= c ("Kendall taub","Kendall
tauc"," Goodman _ gamma"," Somer _ d"," Somer _
dCR","Somer dRC")
colnames( result)= c ("coef","ASE","pvalue"," CI95 low","CI95 up")
return( result)
}
在 R 程序中,輸入有序變量( X,Y)的列聯表數據,運行 Ordinal 函數,就可得出所有系數、95%的置信區間和檢驗 p 值[8~10]。
2實例分析
2.1有序變量相關性在教學研究中的應用
教育教學中常常研究學科成績之間的相關性,通常成績以具體分數呈現,可以使用連續型變量相關性系數研究學科成績間的相關性。但是,成績也會以等級形式呈現,這時不同學科成績就是有序變量,應該使用有序變量相關系數去研究不同學科成績間的相關性。以研究某班80名學生的數學成績(成績等級:不及格、及格、中等、良好、優秀)與物理成績的相關關系為例,具體數據如表2所列。
導入數據,運行 Ordinal 函數后,結果如表3所列。
根據表3可知,對稱的系數中 Kendall τ b 系數是0.760,Kendall τc 系數是0.689,Goodman?Kruskal,s γ系數是0.937,Somers, d 系數是0.760,且顯著性水平(p 值)都小于0.001。說明該班的數學成績與物理成績之間存在顯著的正相關性,并且相關性較強。非對稱系數中 Somers, d(C| R)系數是0.754,Somers, d(R | C)系數是0.766,且顯著性水平(p 值)都小于0.001,說明物理成績對數學成績的影響程度要比數學成績對物理成績的影響程度大。
2.2有序變量相關性在醫學研究中的應用
醫學上經??紤]有序變量間的相互影響,如吸煙的頻率與生存時間的關系、早晨起床時間段與胃病嚴重程度的關系等,這都需要使用有序變量相關系數去衡量變量間的相互影響。以嬰兒體重(低于平均水平、平均水平、高于平均水平)和嬰兒胎次(一胎、二胎、三胎、四胎及以上)為例研究有序變量間的關系,具體數據如表4所列。
導入數據,運行 Ordinal 函數后,結果如表5所列。
根據表5可知,對稱的系數中 Kendall τ b 系數是0.524,Kendall τc 系數是0.552,Goodman?Kruskal,s γ系數是0.676,Somers, d 系數是0.523,且顯著性水平(p 值)都小于0.001,說明嬰兒體重和嬰兒胎次存在顯著的正相關性。由于醫學上很多變量間有因果關系,而本例中主要考慮嬰兒胎次對嬰兒體重的影響,因此使用不對稱的 Somers,d(R | C)相關系數。Somers, d(R | C)的系數為0.497,顯著性水平( p 值)小于0.001,說明嬰兒胎次對嬰兒體重的有顯著的正影響,即嬰兒胎次越多,嬰兒的體重越容易高于平均水平。
2.3有序變量相關性在市場調查中的應用
在市場調查中,問卷是搜集調查數據的重要工具,而在問卷設計時,選項不可避免的出現順序,如五級量表:非常滿意、比較滿意、一般、比較不滿意、非常不滿意等。由于問卷的選項設置容易出現有序變量,因此問卷數據分析相關性時需要采用有序變量的相關系數。以研究被調查者的學歷(小學、初中、高中、本科、研究生)和收入水平(收入2000元及以下為組1、收入2001~3500元為組2、收入3501~5000元為組3、收入5001~10000元為組4、收入10000元以上為組5)兩有序變量間的相關關系為例,具體數據如表6所列。
導入數據,運行 Ordinal 函數后,結果如表7所列。
根據表7可知,對稱的系數中 Kendall τ b 系數是0.749,Kendall τc 系數是0.725,Goodman?Kruskal,s γ系數是0.864,Somers, d 系數是0.749,且顯著性水平(p 值)都小于0.001,說明學歷與收入水平間存在較強的正相關性。問卷設計中考慮變量間的相互影響,本例中考慮學歷對收入水平的影響,因此使用非對稱系數中 Somers, d(C | R)系數,其值是0.746,且顯著性水平( p 值)小于0.001,說明學歷越高,收入水平越高。
3結語
本文通過教學、醫學、市場調查三個實例,計算其有序變量的相關系數,可以發現以下結論:(1) Goodman?Kruskal,s γ系數要比其他系數大,而除 Goodman?Kruskal,s γ系數的5種相關系數相差不大;(2)在因果分析中,使用非對稱的 Somers, d( C | R ), Somers, d(R | C)系數可以得到正確的結果。因此,有序變量相關性度量使用不同的相關系數雖然數值不同,但可以得到相同的結論。若需要考慮兩個變量的因果關系,可以使用 Somers, d(C | R),Somers, d(R | C)系數,并且可根據系數對比兩個變量互為因果的強弱。在分析具體實際問題時,合理使用有序變量相關系數更容易分析有序變量間的相關關系。同時,可以使用 R 軟件編寫計算的函數程序,方便研究者使用。
參考文獻:
[1]李彥萍,楊紅霞.非參數統計中相關系數的計算及其應用[J].山西農業大學學報(自然科學版),2003(4):363?366.
[2]楊雨龍.相關性分析方法及其應用淺析[ J].課程教育研究,2019(7):134+138.
[3]王伏虎,趙喜倉.名義變量列聯表的相關統計量分析[J].統計與決策,2009(14):164?165.
[4]曹玉嬋,左映龍.調查問卷數據統計列聯表分析在 SPSS 中的實現[J].科技創新與應用,2018(26):9?11.
[5]趙鵬輝,崔蕊.列聯表檢驗在疾病成因中的應用[ J].大慶師范學院學報,2013,33(3):33?38.
[6]吳喜之,趙博娟.非參數統計(第五版)[ M].北京:中國統計出版社,2019.
[7]陸運清.列聯表資料檢驗的幾種常見錯誤辨析[J].統計與決策,2010(15):161?163.
[8]陳雪東.列聯表分析及在 SPSS 中的實現[ J].數理統計與管理,2002(1):14?18+40.
[9]董云朝.應用 SPSS 軟件分析名義變量之間的相關性[J].福建電腦,2019,35(12):16?19.
[10]薛毅,陳立萍.統計建模與 R 軟件[M].北京:清華大學出版社,2007.
作者簡介:
陳鼎(1993—),碩士,助教,研究方向:統計教學與研究、多元統計分析及其應用。