陳金鳳
臨床醫師在實際工作中,會發現有很多問題尚待解決。循證醫學是現代醫學的核心,疾病的用藥、治療很大程度上依賴于具有循證醫學證據的指南。面對臨床上遇到的科研問題,采用正確的研究設計解決問題,是獲得具有高度循證證據的前提。隨訪研究是目前運用較多的一種研究設計類型。廣義的隨訪研究是指通過定期隨訪的形式,觀察疾病、健康狀況或某衛生事件在一個固定人群中隨著時間推移的動態變化情況[1],其包括隊列研究、隨機對照試驗、臨床試驗、臨床注冊研究等。其中隊列研究屬于觀察性隨訪研究,其余均屬于試驗性隨訪研究,兩者最大的區別是有無進行人為的干預。本研究所指的隨訪研究為觀察性隨訪研究,即隊列研究。
生存分析是用來研究生存時間分布規律以及生存時間與相關因素之間關系的一種統計學方法,是一種針對具有生存時間的數據資料進行統計分析的方法,在隨訪研究中具有重要的地位。但是,生存分析的規范運用尚存在不足[2]。同時,臨床醫生對于統計學方法的應用可參考的文獻不多[3]。本文旨在闡述隨訪研究的要素以及生存分析的具體應用,以期提高隨訪研究論文的質量,提高循證醫學證據等級。
1.1 隨訪研究的設計 一個科學問題的提出,需要臨床醫生在工作過程中善于總結并發現問題,通過查找文獻,了解研究現狀,進一步提出研究問題和研究目的,然后根據研究目的設計合適的研究方案以及研究內容。隨訪研究對于觀察一個新藥對某種疾病的治療效果,探索暴露于某種危險因素的人群的結局轉歸,或者探討某一疾病的病因等,是一個相對容易實施又能解決問題的研究類型。但是,在設計隨訪研究的過程中,應重點關注研究的背景以及研究的目的,通過研究目的進一步確定入選對象、研究因素、研究時間、分析方法等??茖W、合理、可行的設計是研究成功的基礎,使用正確的統計學方法是得出可靠結果的前提。
1.2 隨訪研究的實施
1.2.1 研究對象:研究對象是指研究的目標人群。隨訪研究中,研究對象一般是具有共同暴露特征的一組人群。在選擇研究對象時,最重要的是選取具有代表性的樣本。其次,要明確研究對象的納入與排除標準,并嚴格執行。一般隊列研究的對象納入及排除標準沒有隨機對照試驗嚴格。另外,隨訪研究中另一個重要的要素是暴露的確定。有時候,研究的暴露因素可以不止一個,可以是自然形成的(觀察性隊列研究),也可以是人為給予的(臨床試驗研究)。除暴露因素外,研究對象的其他基本特征應該在2組中均衡,以使暴露組與非暴露組具有可比性。例如探討神經浸潤對結直腸黏液腺癌預后的預測價值時,直腸黏液腺癌病人是研究對象,選擇的樣本應是能代表直腸黏液腺癌這個群體的樣本;其次,是否有神經浸潤是暴露因素,其他因素如性別、年齡、術前營養狀態,腫瘤直徑、位置、分期等是混雜因素,需要平衡混雜因素在2組中的分布。
1.2.2 樣本量:隨訪研究的樣本量應根據結局的發生率、暴露的情況、一類錯誤概率、生存時間以及刪失情況等綜合確定。一般來說,隨訪研究的樣本量的計算比較復雜,有軟件可以實現[4-5]。但對于大樣本隊列研究來說,樣本量在研究初始可以不用考慮。
1.2.3 分組方法:隊列隨訪研究的分組方法與隨機對照試驗中采用的隨機化分組方法不同,其是根據自然暴露形成的分組。隨機化分組時,組間的均衡性能得到保證,但是在隊列隨訪研究中,由于是根據自然形成的暴露因素進行的分組,組間基線資料不一定能均衡可比,在進行數據分析時,可通過多因素校正、分層分析、傾向性評分等方法進行平衡。
1.2.4 研究內容:研究內容包括研究的變量、數據的來源與測量方法等。隨訪研究中,研究的變量包括結局、暴露、預測因子、潛在的混雜因子和效應修飾因子等。在研究中,應精確描述以上變量的來源和標準化測量的方法。
1.2.5 隨訪方法:在隨訪研究實施過程中,隨訪的方法也是需要慎重考慮的因素。隨訪研究中,對象的失訪對結果的影響較大,在研究過程中,還是應該盡量避免失訪。一般隨訪的方式有電話隨訪、門診隨訪、上門隨訪,以及最近新興的互聯網隨訪。選擇研究對象時,建議選擇依從性好、容易隨訪的對象。
1.2.6 統計學方法:隨訪研究的數據除與其他研究,如病例對照研究、橫斷面研究能收集到的基線信息外,還會有隨訪的數據信息,包括生存時間、暴露的變化以及結局等,是一個由因及果的過程。在統計分析階段,可根據不同的研究目的選擇合適的統計分析方法。進行基線資料的比較時,可以根據數據的類型選擇t檢驗、方差分析、卡方檢驗、非參數檢驗等。對生存時間進行分析時,可以采用生存分析。如果要開展病因研究,如明確研究因素是否為獨立的危險因素或影響預后的因素,則需要采用分層分析、多因素分析或傾向性評分等多種方法校正各種混雜因素。如果開展疾病的療效研究,可以采用Cox比例風險回歸模型。
生存分析是既考慮結局又考慮生存時間的一種統計學方法。隨訪研究中,通過隨訪,我們可以收集到很多信息,如暴露因子的變化(性質與強度)、研究對象結局的發生情況以及發生結局的時間等。生存分析可以充分利用時間信息,從而得到陽性結果。例如,分別研究采用胃癌根治術以及化療方式治療進展期胃癌的臨床效果,即使最終所有的研究對象都死亡,我們還是可以通過生存分析判斷2組病人發生死亡的時間是否有差異,進而得出胃癌根治術是否能延緩病人死亡的結論。另外,由于隨訪研究的失訪問題,或者由于經費、時間的原因,導致不是所有的研究對象都能觀察到想要的結局,會使研究效率降低。而通過生存分析,能充分利用失訪者或者未發生結局者提供的信息,從而得出可信度高的結論,提高研究的把握度。
2.1 生存分析中的概念 進行生存分析前,對隨訪研究中涉及的變量或概念應有明確的定義,可以使分析報告更具有合理性和說服力。(1)起點事件:對研究對象入選的時間或者研究開始的時間要有明確的定義。起點事件即研究開始時研究對象所處的狀態,如以治療開始為起點、以發病為起點。(2)終點事件:即隨訪過程中出現所要研究的結局事件,如死亡或者疾病進展、生物學標志物陽性等。對于終點事件,在隨訪研究中也要有明確的定義。(3)觀察終點:由于時間、經費的有限性,隨訪研究不是無限延長的,因此常常會確定一個觀察終點,到終點時間后,所有對象停止觀察,這個時間即隨訪時間。臨床隨訪研究的隨訪時間常根據疾病的短期預后以及長期預后而有所不同。(4)生存時間:是指從起始事件開始,到研究對象出現終點事件所經歷的時間。生存過程中,有可能對象會因為其他原因而死亡,也有可能對象一直未發生想要的結局,導致不能觀察到生存時間。(5)混雜因素:隨訪研究過程中,除了研究因素以外,研究對象的其他特征、暴露的環境等因素均為混雜因素。(6)截尾數據:隨訪過程中失訪、因其他原因死亡以及觀察終點仍未出現終點事件的對象的生存時間的數據稱為截尾數據,其生存時間為從起點事件到最后一次隨訪時間所經歷的時間。
2.2 生存分析過程
2.2.1 描述生存過程:隨訪研究有著非常豐富的數據資料,包括研究初始時的基線資料,隨訪過程中暴露因子、混雜因子的變化及強度,研究對象的生存情況以及結局事件的發生情況等。在對隨訪研究資料進行分析時,首先應描述研究對象的基線情況、暴露的特征、潛在混雜因素、生存時間、發生結局事件對象的例數、截尾數據情況及失訪情況。例如,在研究阿帕替尼用于一線治療進展后晚期非鱗非小細胞肺癌的療效時,應描述入選對象的基本特征(年齡、性別、病程、病理分期、吸煙史、手術史、基因突變狀態等)、阿帕替尼用藥情況、療效(完全緩解、部分緩解、疾病穩定、疾病進展的例數)、生存時間(無進展生存期、總生存期)以及失訪情況。在對總體情況進行描述的基礎上,需對阿帕替尼用藥組和非用藥組分別進行描述并比較組間差異,以判斷2組基線資料是否均衡可比。
描述生存時間或生存率的常用方法有壽命表法、Kaplan-Meier法等。Kaplan-Meier法既適用于小樣本資料又適用于大樣本資料,而壽命表法僅適用于大樣本(n>100)資料[6-7]。一般我們可以通過統計軟件得到生存曲線,例如采用SPSS軟件中的生存分析模塊,可以得到生存曲線(如圖1),用于估計不同暴露組的生存率(生存函數或中位生存時間)等生存情況。

圖1 Kaplan-Meier生存曲線圖
2.2.2 比較生存時間:對于隨訪研究,比較不同暴露組的生存時間的差異可以初步判斷暴露對研究疾病的作用。但是,由于生存時間常呈偏態分布,以及有刪失數據的存在,采用t檢驗進行生存時間的比較不合適。實際分析過程中,對于組間生存率(生存曲線)的比較,常采用Log-rank檢驗、Wilcoxon檢驗等。
2.2.3 影響因素分析:一般在隨訪研究中,除了所研究的暴露因素,還有其他很多因素都會影響研究對象的結局,找出影響研究對象生存時間或者結局的因素,或進行病因探索,也是進行研究的目的。由于Logistic回歸分析未考慮時間因素,且不能利用截尾數據,故而一般不用,而是采用Cox比例風險回歸模型分析。進行Cox回歸時,下面幾種方法可以用來選擇納入的校正因素。首先是研究變量有無臨床意義,這需要研究者閱讀相關文獻或總結臨床經驗。其次,可通過進行單因素分析進行初步篩選,然后再將有統計學意義的變量納入到多因素分析模型中。考慮到變量間可能存在交互作用,因此建議把單因素分析的顯著性水準相對設置高一些,并在充分考慮專業意義的基礎上再進行選擇。Cox比例風險模型的運用前提是2組等比例風險[8-9],這可以通過比例風險假設檢驗進行判斷,或通過生存曲線有無相交來進行簡單判斷。一些學者對假設檢驗的方法進行了總結,提出了一些方法,如schoenfeld殘差圖法及score殘差圖法[10-11]。
隨訪性隊列研究論文的規范撰寫可依據加強觀察性流行病學研究報告質量(STROBE)中的報告規范[12]。首先,文章的題目部分要明確隨訪研究的具體設計類型,使讀者通過題目就能很快了解文章的設計類型。摘要部分要具體表述研究目的、做了哪些內容、發現的結果是什么等。前言部分是對研究背景的交待,如前所述,研究背景是一個項目的“前因后果”,應簡明、扼要、準確地闡明研究背景。
研究方法部分包括研究設計、現場,研究對象征集、暴露、隨訪和數據收集的時間,研究對象(合格標準、源人群和選擇方法)、隨訪方法、研究變量(明確定義的結局、暴露、預測因子、潛在的混雜因子和效應修飾因子,并描述變量的診斷標準)、存在的偏倚、樣本量的計算以及統計學方法(包括混雜因素、缺失值以及失訪的處理)。
隨訪研究論文的結果描述應包含以下幾方面:(1)研究的起始時間以及終止時間,如出現癥狀或康復的時間、診斷日期以及終止日期等;(2)說明刪失數據的種類、原因以及對刪失數據的處理方式;(3)描述計算生存率的統計學方法;(4)描述生存率比較的統計學方法以及統計量;(5)描述暴露組以及非暴露組的一般資料、隨訪時間、生存時間(一般采用中位生存時間)、某一時期的生存率(如5年存活率等)、結局等信息;(6)描述Cox回歸的HR以及95%CI,闡明校正的混雜因素及原因。
討論和總結部分重點描述與假設有關的結果,討論研究的局限性以及潛在偏倚,結合結果以及其他研究證據,謹慎地進行結果的解釋,并討論結果的外推性,最后得出結論。
總之,隨訪研究是臨床研究中最常用的研究方法之一,設計嚴謹、實施規范、統計分析正確的隨訪研究也能具有較高的循證醫學證據。在隨訪研究論文中合理應用生存分析,可以提高論文的質量。