唐啟義 陳惠君 董玉恒
雙向有序分類資料線性趨勢檢驗的幾個問題商榷
唐啟義1陳惠君2董玉恒3
1.浙江大學農業與生物技術學院(310029)
2.杭州市上城區中醫院
3.吉林大學白求恩醫學部(130021)
國內相關文獻〔1-4〕在介紹雙向有序列聯表資料線性趨勢檢驗時,均將列聯表Pearson卡方檢驗χ2值分解成線性回歸分量與偏離線性回歸分量,即

對雙向有序分組資料,先對行變量x、列變量y分別賦予分值(1,2,3,…),再計算其回歸系數b和b的標準誤se(b)。在一般的線性回歸中


這和文獻〔3〕介紹的方法一致,應用該方法計算得到的統計量服從F分布而不是χ2分布。只有當樣本量n很大時它才服從χ2分布〔3〕。
文獻〔5〕中提出用非零相關(nonzero correlation)統計量來檢驗雙向有序列聯表的線性趨勢,其漸近卡方統計量

這里自由度等于1;r為相關系數:

在文獻〔1,2〕中提出線性趨勢檢驗,其卡方統計量為:

因此文獻〔1,2〕中的卡方統計量實際上為文獻〔5〕中的非零相關統計量,只是文獻〔1,2〕中 r2是乘以n而文獻〔5〕中乘以n-1;故文獻〔1,2〕中的 Sb并不是回歸系數標準誤。
如上所述,目前國內很多文獻,如文獻〔1,2,3,4〕均認為等式(1)成立,亦即認為列聯表Pearson卡方值()可分解成線性回歸分量和偏離線性回歸分量兩個部分,從而得到的估計值。分析之前,我們先給出和的統計學含義:
列聯表中Pearson卡方檢驗公式是

式(9)中fo是兩維列聯表的每一個格子的觀察頻次,fe是理論頻次,其概率為其行(X)與列(Y)邊際概率之乘積。這樣,我們就通過頻數分布列聯表得到了相對頻數分布的列聯表(或稱頻率分布列聯表)。因此,列聯表Pearson卡方()所研究分類變量之間的關聯性,實際上是通過相對頻數條件分布的比較進行的。
一般認為,χ2值具有可加特性,但我們這里得到的和兩個卡方統計量,其原假設不同,即檢驗對象不同——不是檢驗同一個對象的兩個分量。因此這里的卡方可加性不成立。故在實際應用中式(2)是錯誤的,這是導致有時計算得到小于零的根本原因。
綜上所述,雙向有序列聯表的線性趨勢可用回歸分析和非零相關分析兩種方法進行。
例 某研究者欲研究年齡與冠狀動脈粥樣硬化等級之間的關系,將278例尸解資料整理成表1,試分析年齡與冠狀動脈粥樣硬化等級之間是否存在線性變化趨勢?

表1 年齡與冠狀動脈硬化的關系
第1步、建立檢驗假設
H0:年齡與冠狀動脈粥樣硬化等級之間無線性關系。H1:年齡與冠狀動脈粥樣硬化等級之間有線性關系。
第2步、以年齡為x,冠狀動脈粥樣硬化等級為y,并給指示變量 x,y皆賦值1,2,3,4。用 DPS統計軟件計算〔6〕,回歸分析統計檢驗結果見表2。

表2 雙向有序列聯表的線性趨勢檢驗
由表2看出,線性回歸分量的P<0.0001,具統計學意義,故可以認為年齡與冠狀動脈硬化之間存在線性趨勢關系。結合表1資料,說明冠狀動脈硬化的等級隨著年齡的增加而增高。如應用非零相關統計檢驗,得到統計量 M2=63.3895,df=1,P <0.0001。統計推斷和回歸分析一致。
統計學中卡方檢驗應用較多,特別是定性資料的統計檢驗,但也存在有誤用的現象。本文所述及的雙向有序R×C表資料屬于定性資料。統計檢驗中某些統計學方法,不應簡單地類比,應從統計檢驗具體對象出發,對樣本統計量的性質進行認真分析,以避免誤用。
1.郭祖超.醫學統計學.第1版.北京:人民軍醫出版社,2001:84-85.
2.孫振球.醫學統計學(供研究生用).第1版.北京:人民衛生出版社,2002:116-117.
3.胡良平.現代統計學與SAS應用.第1版.北京:軍事醫學科學出版社,1996:180-182.
4.吳學森,王潔貞.雙向有序分類資料線性趨勢分析方法的前提條件.中國衛生統計,2003,20(2):79-81.
5.Agresti A.Categorical Data Analysis.NewYork:Wiley,2002:86-87.
6.唐啟義,馮明光.DPS數據處理系統——實驗設計、統計分析及數據挖掘.第1 版.北京:科學出版社,2007:189-190.