深圳市寶安區婦幼保健院(518133) 王喜文 程郁離 羅雅麗
對于診斷試驗或篩檢試驗所用的檢測方法一致性的評定,有許多評價指標,其中較為優良和常用的有一致性相關系數(concordance correlation coefficient,rc)和Kappa指數。檢測結果是計量資料的用一致性相關系數進行可靠性評價,檢測結果是分類資料的用Kappa指數做可靠性評價〔1〕。
但是一致性相關系數和Kappa指數的計算過程都非常復雜,表現在步驟多,公式結構復雜,計算量較大。文中通過實例分別演示了分類資料和計量資料的可靠性評價的SAS程序實現過程,可以大大簡化運算過程,提高計算的準確度和工作效率。
1.分類資料的可靠性評價
Kappa指數也稱Rater一致性。Kappa指數K的取值范圍在(-1,1),應用Kappa值判斷觀察者間或觀察者內的符合程度,Fleiss提出三級劃分:K值在0.4~0.75之間表明中、高度一致,K值≥0.75表明一致性極佳,K值≤0.4表明一致性差〔2〕。Kappa指數比較穩定,不易受發病率的影響。
(1)Kappa指數的計算公式

式中,k:分組數或等級數;Aii:k×k表主對角線上的實際例數;ni+和n+i分別為第i行和第i列的合計。
(2)Kappa指數的假設檢驗
根據實際資料計算的Kappa指數是一個樣本的統計量,存在著抽樣誤差,因而,所計算的Kappa指數是否來自Kappa指數為零的總體應當經過假設檢驗。檢驗統計量μ值按下式計算:

(3)示例〔1〕:某省醫院放射科醫師和省矽肺診斷專家組先后對250名矽肺可疑患者的X線片做兩次診斷,結果見表1,對兩次診斷結果進行一致性分析。

表1 250名矽肺可疑患者的診斷結果
經計算,本例 Po=0.8240 ,Pc=0.2691,K=0.7592,σk=0.0375,u=20.25
兩次診斷結果存在著一致性(u>2.28,P<0.01),根據所求得的 K值為0.7592,K>0.75,可認為兩次診斷結果一致性極佳。SAS程序見附錄1。
2.計量資料的可靠性評價
一致性相關系數:觀察結果之間若不存在相關性,也肯定不存在一致性,若存在相關性卻不一定有一致性,即一致性比相關性要求更嚴格,加上rc已有成熟的假設檢驗方法和一致性優劣的評判標準,因此,對計量資料進行一致性分析時,常常計算一致性相關系數,而簡單相關系數等指標僅作為輔助信息在必要時可同時給出。一致性相關系數rc的取值范圍為(-1,1),一般認為,rc>0.85試驗可靠性極好,0.5≤rc≤0.85試驗可靠性較好,rc<0.5試驗可靠性不佳。
(1)一致性相關系數的計算公式



(2)一致性相關系數的假設檢驗
按上式求得的一致性相關系數rc是樣本相關系數,它是總體相關系數ρc的估計值,因此,要檢驗rc是否來自相關系數ρc為零的總體,做ρc=0的假設檢驗,常用u檢驗,檢驗統計量u值按下式計算。

(3)示例〔1〕:用某種方法檢測10名研究對象的血糖值,每個研究對象重復檢測兩次,所得數據見表2,試評價該檢測方法的可靠性。

表2 某法對10名研究對象血糖值重復檢測結果(mmol/L)
本例:ˉy1=6.8,ˉy2=6.7,S21=0.346,S22=0.336,S2
1=0.3180,rc=0.9191
本例,d=0.2933 ,r=0.9327,σ2Z=0.1588,Z=1.5832,u=3.97
因為u>2.58,則P<0.01,按α=0.05的檢驗水準,拒絕HO,接受H1,可認為兩次檢測結果存在一致性,根據所求得的rc值為0.9191,rc>0.85,可得出該檢測方法可靠性極好的結論。SAS程序見附錄2。
診斷試驗(diagnostic test)是臨床實踐中必不可少的重要部分。隨著醫學診斷技術的發展,許多新的診斷試驗的方法應用于臨床,如果沒有科學的設計和評價,我們就不知道這些新的診斷試驗方法的臨床診斷意義,有時還不適當地夸大或低估了診斷試驗的價值。正確應用和評價這些診斷試驗不但能提高臨床診斷的效率和水平,對疾病的準確、合理的治療也能提供有力的依據〔3〕,也是正確認識該診斷試驗的臨床價值及臨床上合理選用各種診斷試驗、科學地解釋診斷試驗各種結果的基礎,也是實施循證診斷的基礎〔4〕。
在診斷試驗應用越來越普遍以及對其評價越來越受到重視的的背景下,如何簡化診斷試驗可靠性評價計算過程,提高其實用性和可操作性成為一個值得研究的問題。鑒于目前較為流行和權威的SPSS統計軟件包和SAS統計軟件包都沒有提供一致性相關系數和Kappa指數的模塊或過程,手工計算量很大,費時費力而且容易出現錯誤,筆者對一致性相關系數和Kappa指數計算、假設檢驗編寫了SAS程序,并在程序中提供了詳細的注釋。通過運用SAS程序對分類資料和計量資料的可靠性評價實例進行計算和檢驗。結果顯示:整個評價過程非常簡單和快速,只需要更改分類資料中的分類數或是計量資料中的樣本數,再將原始數據輸入SAS程序中的相應數組,運行SAS程序便可很快得到可靠性評價的中間計算結果及最終結論。
1.倪宗瓚.醫學統計學.北京:高等教育出版社,2003,224-229.
2.李良壽.臨床醫學研究原理與方法.第2版.西安:陜西科學出版社,2000,179-195.
3.趙亞雙,王濱有.診斷試驗的評價.哈爾濱醫科大學學報,2003,37(2):182-184.
4.Knottnerus JA,Van Weel C,Muris JW.Evaluation of diagnostic procedures.BMJ,2002,324(7335):477-480.
附錄1
診斷或篩檢試驗分類資料的可靠性評價SAS程序
data kappa;
%let a=4;%let b=4;/*a和b為分類資料的分類數*/
array f(&a,&b)(78 5 1 0 6 56 13 0 2 10 32 3 0 1 3 40);/*f數組內為分類資料按順序排列的原始數據*/
po=0;
array r(&a);array c(&a);
do i=1 to&a;do j=1 to&a;
if i=j then po=po+f(i,j)/sum(of f(*));/* 計算 PO值*/
end;end;
do i=1 to&a;m=0;
do j=1 to &a;m=m+f(i,j);
r(i)=m;/*計算分類資料的行合計*/end;end;
do j=1 to&a;n=0;
do i=1 to &a;n=n+f(i,j);
c(j)=n;/*計算分類資料的行合計*/end;end;
t=0;do i=1 to&a;
t=t+c(i)*r(i);end;
pc=t/sum(of r(*))**2;/*計算PC值*/
k=(po-pc)/(1-pc);/*計算k值*/
p=0;do i=1 to&a;
p=p+c(i)*r(i)*(c(i)+r(i));end;
kk=(pc*sum(of c(*))**3+pc**2*sum(of c(*))**3-p)**0.5/((1-pc)*sum(of c(*))**2);/*用kk代替*/
u=k/kk;/*計算u值,σk用kk代替*/
run;
附錄2
診斷或篩檢試驗計量資料的可靠性評價SAS程序:
data concord;%let a=10;/*a為樣本數量*/
array yone(&a)(6.5 6.7 7.1 6.3 7.5 7.8 6.0 7.3 6.8 6.0);/*第一次測量值*/
array ytwo(&a)(6.3 6.7 7.1 6.0 7.7 7.4 5.8 7.0 6.7 6.3);/*第二次測量值*/
y1=sum(of yone(*))/&a;/*用y1代替*/
y2=sum(of ytwo(*))/&a;/*用y2代替*/
s1=0;s2=0;do i=1 to&a;
s1=s1+(yone(i)-y1)**2/&a;/*用S1代替*/
s2=s2+(ytwo(i)-y2)**2/&a;/*用S2代替*/
end;
s12=0;do i=1 to&a;
s12=s12+(yone(i)-y1)*(ytwo(i)-y2)/&a;end;
rc=2*s12/(s1+s2+(y1-y2)**2);z=0.5*log((1+rc)/(1-rc));
r=s12/(s1*s2)**0.5;d=(y1-y2)/(s1*s2)**0.5;
qq=((1-r**2)*rc**2/((1-rc**2)*r**2)+4*rc**3*(1-rc)*d**2/(r*(1-rc**2)**2)-2*rc**4*d**4/(r**2*(1-rc**2)**2))/(&a-2);
u=z/qq**0.5;/*用qq代替σ2Z*/
run;