東南大學流行病與衛生統計學系(210009) 陳召青 王詩遠 楊舒靜 劉 沛
逆向累積分布圖及其在疫苗免疫原性數據分析中的應用
東南大學流行病與衛生統計學系(210009) 陳召青 王詩遠 楊舒靜 劉 沛△
在疫苗臨床試驗中,接種后血清抗體水平的高低與該疫苗能否產生保護作用及保護水平的高低有著直接關系,因此對免疫原性的分析是疫苗臨床試驗統計分析的重要部分。就體液免疫反應而言,這類數據的一個重要特征是數據的取值范圍較大,變化范圍常跨越多個數量級,觀察值間呈現倍數關系。雖然其原始觀測數值呈右偏態分布[1],但經對數轉換后,免疫原性值一般滿足正態或近似正態分布。對這類數據,目前國內通用的方法是首先計算其描述性統計指標如幾何均數和對數標準差,而后對經對數變換后的數據采用假設檢驗和區間估計等方法進行統計推斷[1-2]。這些方法雖然行之有效,但其結果表達方式均為在特定點(如幾何均數)和較抽象的范圍(如95%可信區間)表達其臨床試驗結果,這樣一方面使研究工作者難以從體液免疫原性的整體數據變化上(如不同滴度的抗體水平上)把握數據的變化趨勢和分布狀況,另一方面也使非統計工作者難以理解一些組間比較的假設檢驗結果。為解決這些問題,Reed、Meade和Steinhoff于1995年提出了逆向累積分布圖(reverse cumulative distribution,RCD)的概念和方法,這一方法因具有結果表達直觀、傳達信息量大等優點,一經提出就受到了疫苗臨床試驗工作者的青睞并在國外得到了較廣泛的應用[3]。然而國內對此法卻少有介紹,本文將從概念、方法及應用實例上對這一數據表達方式進行介紹。
逆向累積分布圖(以下簡稱RCD曲線)是用來顯示免疫原性數據分布的圖形工具,特別適合于疫苗組間分布的可視性圖形比較。該圖的橫軸為經過對數轉換后的抗體滴度或濃度,縱軸代表至少有此抗體水平個體所占百分比。根據定義,圖中的曲線從100%開始,然后從左到右逐漸下降至0,曲線最低點就是抗體水平最大時的觀察者比例。逆向累積分布函數的表達形式為

式(1)中Rx(x)表示變量X大于等于某一數值x的概率。而通常的累積分布函數為

式(2)中Cx(x)表示變量X小于等于其某一數值x的概率。由此可知,逆向累積分布圖之所以被稱為逆向,是因為它是累積分布圖(cumulative distribution plot)的逆轉。而正是這一逆轉,使得它特別適合于對疫苗免疫原性數據的直觀表達[4-5]。
與逆向累積分布圖相似的是Kaplan-Meier生存曲線(survival curve),只不過生存曲線多以生存時間為橫軸、生存率為縱軸,隨著生存時間的遞增,生存率曲線從1到0逐漸下降,與逆向累積分布圖不同的是它不是一條平滑的曲線,而是階梯狀逐漸下降的圖形[2]。
繪制RCD曲線時,首先要根據每一抗體水平在y軸上找出至少有此抗體水平個體所占的百分比,然后將這些點用折線連接起來。第一個繪制的點通常表示在最低抗體水平下個體所占的百分比,一般為100%。曲線從左至右,x值越來越大,y值越來越小,最后會無限接近于0。利用RCD曲線可以估計各種百分位數,如求第50分位數所對應的抗體滴度對數值,就可在y軸上找到50%,畫一條水平線與曲線相交,然后再找出交點所對應x軸上的值,就是所求值,即中位抗體滴度的對數值。另外,通過已知x值也可求得y值,這一般用于已知保護水平或最低檢測限估計觀察對象所占的累積百分比[3]。
圖1給出了四條頗具代表性的RCD曲線。大部分RCD曲線是倒S型,如曲線D,直到在x軸上到達某一數值時迅速下降至最小值。曲線A呈現近似直角形,開始保持高且平坦,直到一個在橫軸上達到較大數值時迅速下降至最小值,表示抗體水平較高者所占比例較大。如果曲線以一條相對直的斜線降到x軸如曲線C,說明抗體滴度的變異較大。曲線的陡峭程度反映了觀察值的伸展程度和變異性。中部和尾部一樣陡,說明較少的變異,而此時曲線C比較淺的中部表示較大的伸展性和變異性。在極端的例子中,RCD曲線以垂直的曲線結束,說明數據集中,幾乎沒有變異,所有余下的數據都相等[3]。曲線B比曲線C陡峭,但是又不及曲線D,表示其變異性比曲線D大,但又小于曲線C。曲線B和曲線C相交,兩者有一個相同的百分位值,如圖1中,該點為當抗體滴度對數轉換值為6時,累積頻率百分比為40%,在小于抗體水平6時,B組更占優勢,但是超過6時,C組就更占優勢了。

圖1 逆向累積分布圖
我們以腸道病毒71型滅活疫苗(Vero細胞)做試驗組和安慰劑做對照組進行的III期臨床試驗為例說明RCD曲線和目前通用的統計描述和統計推斷方法相結合,以提高統計結果形象化和增加數據信息量之效果。研究人群按發病特征分成6~11月齡和12~35月齡兩層。
從表1我們可以看出在腸道病毒71型(EV71)疫苗組免疫前后經配對t檢驗t=60.92,P<0.0001,差異有統計學意義,所以可認為試驗組疫苗在免疫前后抗體水平不同,提示EV71疫苗對健康人群可能有保護作用;安慰劑組經配對t檢驗t=-2.34,P= 0.0194,差異有統計學意義,所以安慰劑組在免疫前后抗體水平也不同。從表1我們還可以看出免疫前EV71疫苗組和安慰劑組經過兩樣本t檢驗t=-0.51,P=0.6103,P>0.05,差異沒有統計學意義,所以尚不能認為在免疫前后兩組疫苗的受試者抗體水平不同;免疫后EV71疫苗組和安慰劑組同樣經過兩樣本t檢驗t=30.73,P<0.0001,差異有統計學意義,所以可以認為在免疫前后兩組疫苗的受試者抗體水平不同。面對上述統計分析結果,有時難以使人一下子得到試驗疫苗是否有效的清晰結論。此時借助RCD曲線(圖2)不但可增加統計結果的直觀性,方便理解,而且可有效把握數據的變化趨勢和分布狀況。由圖2可知,免疫前試驗組和免疫前后安慰劑組的曲線,在抗體水平較小時就迅速下降,說明試驗組免疫前以及安慰劑組免疫前后抗體水平都較低,而免疫后試驗組曲線開始保持高而且平坦,直到達到一個在橫軸上較大數值時才下降,表示試驗組免疫后抗體水平較高者所占比例較大,安慰劑組免疫前后抗體水平變化不大,這也說明了雖然安慰劑組統計分析結果有意義(P=0.0194),但是實際意義不大,從而從實際角度直觀地解釋了表1中一系列(4個)假設檢驗結果的實際意義。

表1 兩試驗組抗體滴度免疫前后結果比較

圖2 不同組別抗體滴度逆向累積分布圖
隨著分組數的增加,假設檢驗的數量也成倍增長,對統計檢驗結果的綜合分析和判斷也更趨抽象,此時RCD曲線的優勢則更為明顯。如在本次試驗中每組疫苗又分成兩個年齡層,為得出試驗結論,需要在八個組中進行比較。從表2我們可以看出免疫前兩個年齡組6~11月齡和12~35月齡中試驗組和安慰劑組P值分別0.4696和0.7641,差異無統計學意義。免疫后兩個年齡組中試驗組和安慰劑組P值都小于0.0001,差異有統計學意義。在6~11月齡中EV71疫苗組免疫前后經配對t檢驗t=-36.31,P<0.0001,差異有統計學意義,所以可認為6~11月齡試驗組疫苗在免疫前后抗體水平不同,安慰劑組免疫前后配對t檢驗t=0.32,P=0.7458,差異沒有統計學意義,所以尚不能認為6~11月齡安慰劑組在免疫前后抗體水平不同;在12~35月齡中EV71疫苗組免疫前后經配對t檢驗t=-50.31,P<0.0001,差異有統計學意義,所以可認為12~35月齡試驗組疫苗在免疫前后抗體水平不同,安慰劑組免疫前后配對t檢驗t=-2.59,P=0.0099,差異有統計學意義,所以12~35月齡安慰劑組在免疫前后抗體水平也不同。

表2 不同年齡層兩試驗組抗體滴度結果比較

圖3 不同組別不同年齡層抗體滴度逆向累積分布圖
圖3描述的是兩組疫苗兩個年齡層在免疫接種前后抗體滴度的RCD曲線圖,經過觀察我們可以明顯看出免疫后試驗組12~35月齡和6~11月齡的曲線(曲線P和Q)形狀與位置與其他曲線不同,其他曲線在抗體滴度較小時就迅速下降,而曲線P和Q開始保持高而平坦,在抗體滴度較大時才開始下降,說明兩個年齡組免疫后EV71疫苗組較高抗體水平者比例較大。同時曲線N、J和M有著多處交叉,三者總體的形狀和位置基本一樣,說明6~11月齡受試者在接種前試驗組和對照組抗體水平無差異,并且接種了安慰劑之后抗體水平未見變化。同樣的情況也發生在曲線I、X和Y中,表示12~35月齡與6~11月齡組結果基本相似,雖然接種了安慰劑之后統計檢驗結果顯示抗體水平有變化(t=2.59,P=0.0099),但從圖3可見,其變化幅度較小,提示其實際意義有限。所以通過解讀圖3,我們發現RCD曲線圖不僅可以直觀地解釋表2中一系列(8個)假設檢驗結果的意義,讓非統計人員更容易理解,而且還能形象說明統計檢驗結果的實際意義。
本文介紹了逆向累積分布圖的概念、制作方法及其在疫苗III期臨床試驗中的應用。我們可以看出逆向累積分布圖不僅增大了信息量,結果直觀,而且具有繪制簡單、易于非統計人員理解的優點,特別適合對疫苗免疫原性數據的表達。在繪制過程中需要注意的是,曲線上的點表示的是至少有此抗體水平個體所占的百分比,所以計算方法是先通過每一個抗體水平個體所占百分比計算出正向累積百分比,然后再算出其逆向累積百分比繪制圖形。另外,逆向累積分布圖不能提供準確數據信息,因此需要和相應的統計指標和假設檢驗方法同時使用,而這些信息常通過統計表的形式表達。通過圖表結合,我們不僅可以準確的表達數據信息,而且可以使一些抽象的統計結果直觀化,有利于我們從整體上把握數據蘊含的信息。建議在免疫原性數據統計分析結果表達中將傳統的統計指標描述和統計假設檢驗與RCD曲線圖示法相結合,以取得相互補充、相得益彰之效果。
1.方積乾.衛生統計學.第6版.北京:人民衛生出版社,2008.
2.孫振球.醫學統計學.第3版.北京:人民衛生出版社,2010.
3.Reed GF,Meade BD,Steinhoff MC.The reverse cumulative distribution plot:A graphicmethod for exploratory analysis of antibody data.Pediatrics,1995:600-603.Jozef Nauta.Statistics in Clinical Vaccine Trials. New York:Springer,2010:19-52.
4.Edward KM,Meade BD,Decker MD,et al.Comparison of 13 acellular pertussis vaccines:overview and serologic response.Pediatrics.1995:548-557.
5.Horne AD.The Statistical Analysis of Immunognicity Data in Vaccine atials.New York:Annals of the New York Academy of Sciences,2006:2211-2215.
(責任編輯:丁海龍)
△通信作者:劉沛