戴建國
(廣州大學 數學與信息科學學院,廣東 廣州 510006)
?
名義變量的關聯強度分析
戴建國
(廣州大學 數學與信息科學學院,廣東 廣州 510006)
針對獨立性檢驗統計量不能度量關聯性強弱和一些關聯測度不具解釋性的問題,首先介紹了Goodman—Kruskal提出的兩種度量名義變量間關聯性強弱的指標,然后將其拓展到多變量的情況,并給出了實例進行分析,結果表明其對實際情況的確有更好更合理的解釋意義.
名義變量;關聯測度;可解釋性
隨著大數據時代的興起,在數據分析工作中經常會遇到離散變量數據的情況,在醫學和社會學統計工作中尤為普遍,而其也通常是通過列聯表的形式來分析.在對于最簡單的二維名義變量列聯表(即兩個變量都不存在自然序)分析時,通常只對兩個名義型變量進行獨立性檢驗,涉及到的檢驗統計量有皮爾遜卡方統計量,Yate’s連續修正卡方統計量,似然比等檢驗統計量.但對于獨立性檢驗統計量來說,它們只能驗證變量間有沒有關聯,而不能給出一個度量關聯的指標,當然也存在一些度量列聯表中變量關系強弱的指標,比如Phi系數,列聯系數,Cramer’s系數[1]等一些度量指標,而他們依然存在局限性,首先它們作為一個度量指標沒有給出合理的解釋,其次是比較難用于高維列聯表的情況.而本文介紹的測度λGK,τGK克服了這些局限性,它們是Goodman—Kruskal在1954年提出來的[2],其都是以引入某變量后而減少預測誤差比例為基礎來構造的統計量.目前對于這兩個關聯測度的研究與應用的文獻有[3-6],尤其在文獻[3]中從不同的角度給出了τGK的更為一般的形式和深入的研究.
設一個二維列聯表,其行為名義變量A有r個類別,列為名義變量B有c個類別,如表1所示,

表1 二維列聯表的一般結構


2.1 關聯測度λGK
當有兩個名義變量X,Y時,分別視為自變量和因變量,設它們的類別數分別為I,J,則有一個二維列聯表與之對應,其主要過程是基于最佳預測,當不知道X信息時,自然而然會將Y預測為其邊緣概率最大的一類;知道X信息時,則在X的每一個類別下預測Y類別中最大的那一類,其相對減小即為:

當可拓展到有n個名義變量的情況,設其中一個因變量為Y,其他n-1個為自變量記為X1,……X(n-1),對應的類別數分別為N1,……,N(n-1),則對應的關聯測度為:

2.2 關聯測度τGK



表2 有關黨派認同的數據

對于以上給出的關聯測度,其與一些檢驗統計量和關聯指標相比,不僅能度量關聯性的強弱,而且具有可解釋性,在國外已被廣泛討論與應用,但在國內比較少人關注這兩個關聯測度,而且隨著R軟件的普及,也有專家給出計算相關指標的函數包,并命名為Goodman-Kruskal以方便被更多人使用,但該包中只給出兩個名義變量的計算函數,并沒有給出多變量的情況,所以有待進一步去研究.
[1]薛允蓮,姜世強,劉貴浩,等.列聯表資料的關聯強度[J].中國衛生統計,2011,28(3):244-246.
[2]GoodmanLA,KruskalWH.MeasuresofAssociationforCrossClassifications[J].Springer-Verlag,1979,31(49):20-30.
[3]HuangW,ShiY,WangX.Anominalassociationmatrixwithfeatureselectionforcategoricaldata[J].Statistics,2013,25(25):58-65.
[4]BiswasA,ParkE.Measuresofassociationfornominalcategoricalvariables☆[J].JournaloftheKoreanStatisticalSociety,2009,38(3):247-258.
[5]TahaA,HadiAS.Pair-wiseassociationmeasuresforcategoricalandmixeddata[J].InformationSciences,2016,s346-347:73-89.
[6]LeeAJ.Somesimplemethodsforgeneratingcorrelatedcategoricalvariates[J].ComputationalStatistics&DataAnalysis,1997,26(2):133-148.
[責任編輯:王 軍]
Nominal variable correlation strength analysis
DAI Jianguo
(School of Mathematics and Information Science,Guangzhou University,Guangzhou 510006,China)
in view of the independence test statistics can’t measure strength of correlation and some associated measures can’t be interpreted,first introduced the Goodman-Kruskal correlations strength index between two nominal variables i,then extended to multivariable case,and gives the examples were analyzed,and the results show that the fact there are better and reasonable explanation.
nominal variables;correlation measure;interpretability
2017-02-21
戴建國(1992—),男,江西撫州人,廣州大學碩士研究生,主要從事概率統計,數據挖掘的研究.
O211
A
1672-3600(2017)09-0011-03