預后因素研究中常見的統計錯誤
——偏倚

2014-09-09 06:29:18北京大學腫瘤醫院付浩編譯

中國肺癌雜志 2014年2期

關鍵詞：研究

北京大學腫瘤醫院付浩編譯

中國胸腺瘤協作組全體成員審校

中國胸腺瘤協作組成員單位：上海交通大學附屬胸科醫院：方文濤（胸外科）、谷志濤（胸外科），王常祿（放療科），張杰（病理科）；復旦大學附屬中山醫院：譚黎杰（胸外科）；華山醫院：龐烈文（胸外科）；同濟大學附屬肺科醫院：陳崗（病理科）；中山大學附屬腫瘤醫院：傅劍華（胸外科）；鄭州大學附屬腫瘤醫院：李印（胸外科）；青島大學醫學院附屬醫院：沈毅（胸外科）；天津醫科大學附屬腫瘤醫院：于振濤（胸外科）；四川省腫瘤醫院：韓泳濤（胸外科）；北京大學附屬第三醫院：閆天生（胸外科）；北京大學附屬腫瘤醫院：曹登峰（病理科），陳克能（胸外科），付浩（胸外科）（通訊作者：陳克能，E-mail: chenkeneng@bjmu.edu.cn；方文濤，E-mail: vwtfang@hotmail.com）

預后因素是患者診治中非常重要的內容，大多數腫瘤患者的治療決策取決于各種危險因素的存在與否。最突出的例子就是TNM（即腫瘤，淋巴結，遠處轉移）分期，但很多疾病都不能簡單通過分期一個指標解決所有問題，而是要具體分析每個患者的綜合預后因素。目前在判斷胸腺瘤預后的臨床研究中，一個主要的困難是缺乏實踐指南，以至于到底哪些是預后因素尚不明確。本文敘述了臨床實踐中的一些問題并指出了臨床研究中存在的各種偏倚，并試圖提供解決方案，其中有許多方面在其它文獻中作了詳細討論，但忽視了偏倚的存在。

毋庸置疑，可靠的預后因素具有重要的臨床意義。若可以較為準確的預測病程，那么治療方法的選擇、患者隨訪的方法和咨詢回答都會大大改善。因此，如其他疾病一樣，胸腺瘤的所謂預后因素比比皆是[1-7]。其中，毫無疑問準確判斷預后的能力在過去的二十年中有了跨越式發展。但是，仍只有極少數的標志物被納入國際指南用于疾病的診斷、治療和隨訪。本文將討論這些所謂預后標志物最終失敗的原因，并提供一些建議以盡量避免在未來的研究中類似情況的發生。

下面將列舉幾個在其它地方討論過的例子，雖然不是胸腺瘤有關的內容[8-13]。其中一些例子來自于診斷因素的研究，因為在相關統計問題方面尤其是偏倚，診斷因素研究和預后因素研究中有很多共同之處。此外，診斷因素的例子通常具有簡單易得的優勢，這些例子均是大家所熟知的疾病。出于同樣的原因，本文也提到一些關于腫瘤標志物研究和早期篩查的參考文獻。

1 預后因素研究中的偏倚

偏倚是一個被過度使用的詞，已很難給出一個確切的定義。本文中“偏倚”是指樣本和總體之間的系統差別。例如，選擇美國老年醫保的高齡人群來研究甲狀腺乳頭狀癌的預后，就存在重大偏倚，即甲狀腺乳頭狀癌的中位年齡小于45歲，而所選樣本是65歲及以上的老年人。這種差異被稱為系統誤差，不是因為抽樣誤差造成的，不會隨樣本量增加而克服。甲狀腺癌例子存在所有說教比喻的通病：偏倚太明顯了，掩蓋了其他微小但重要的偏倚。舉一個例子，假設一種“ 新的預后因子（NPF） ”在某些惡性腫瘤中過度表達，多次體外研究之后一項胸腺瘤的回顧性臨床研究報道其可能是潛在的預后因素，切除組織中表達NPF與不良預后相關（P＜0.05）。其他三項研究對此也進行了類似的回顧性分析，也報道了類似的結果。這三項研究中樣本量最大的研究（比原研究還要大）確認了表達NPF者與非表達者之間存在生存差異。其他兩項研究被認為是樣本量小，未得出陽性結論。原研究者認為后兩個研究樣本量較小不具有足夠的說服力并聲稱可以擴大樣本量來驗證，于是設計前瞻性研究先測定NPF的水平再探討與結果的相關性，但他們失望地發現NPF的表達與生存沒有顯著相關性。

這是因為回顧性研究中存在的偏倚導致的嗎？我們只能推測，但患者資料描述中提供了一個線索。回顧性研究利用的是存儲的組織標本，完全有可能組織庫中庫存的標本來自較大的腫瘤可以滿足不同研究的需要，而組織庫中并未保存體積小的腫瘤。若果真如此，則樣本（組織庫中的腫瘤標本）和總體（所有的胸腺瘤）存在系統性誤差。而前瞻性研究時需要納入所有入組患者的標本，故偏倚較小或無偏倚。回顧性研究之間結論的不同可能源于這一偏倚。盡管只是假設，但該假設具有諸多的現實成分：大多數預后因素是經回顧性研究得出的，并可被一些（但并非全部）回顧性研究重復證實。但是大多數此類預后因素經不起標準更加嚴格的前瞻性研究的驗證。事實上，所有回顧性研究都易出現偏倚。當然，前瞻性研究中也存在偏倚，但偏倚較小，且偏倚原因易于解釋。

2 預后性研究中常見的偏倚類型

2.1 病例抽樣偏倚因病例選擇而導致的偏倚稱為患者選擇偏倚或選擇偏倚。該偏倚指入選患者組成的樣本在疾病風險上偏向一極，要么太好，要么太壞，而不能代表該疾病的一般狀況。癌胚抗原（carcino-embryonic antigen,CEA）是大家公認的結腸癌患者的預后標記物。Thomson等[14]的研究中，36例結腸癌患者有35例CEA升高，其敏感性為97%，這表明CEA有一定的診斷價值。但是10年后，情況就不理想了，I期、II期、III期及IV期患者的敏感性分別為5%、25%、45%及65%[15]。這有力的推翻了將CEA作為診斷性標志物的用途。即使IV期患者，97%和65%的區別也很大，不能將此簡單歸因于一種因素。然而，有一種原因可以解釋，那就是Thomson的研究對象明顯不同于多數結腸癌患者，即選擇偏倚。盡管PANS雜志并未交待這些患者的詳細資料，很有可能這些病例均為局部晚期結腸癌患者。這就是選擇偏倚最常見的來源。

另一常見的選擇偏倚來源在前文中已經詳細交待，在討論分析NPF的可用組織時，庫存腫瘤標本是體積較大的腫瘤而小者并未保留保本。從這個層面上看，CEA和NPF研究的偏倚來源是相同的，而從另一層面看又是不同的，在CEA研究中作者刻意選擇極端晚期樣本，而NPF研究中無此傾向，研究只利用組織庫中所有可利用的標本。正是這一選擇偏倚導致得出錯誤結論的危險，研究資料無其它選擇并不意味著樣本不存在偏倚。

2.2 對照選擇偏倚對照選擇偏倚是另一種選擇偏倚，是在病例對照研究中選擇對照組時產生的[16-18]。理想情況下病例組和對照組之間的區別應只是研究因素不同，如暴露、疾病、治療等。事實上，找到這樣的對照組幾乎是不可能的。如用血清肽篩查前列腺癌的例子就源于這種困難，病例組是25例經證實了的男性前列腺癌患者，對照組為健康男性，但是年齡小于40歲和血清中未檢測到PSA[19]。一方面，選擇對照組的條件或者依據并不像病例組那么嚴格，另一方面，對照組不可能進行活檢以排除隱匿性惡性腫瘤，對照組因年齡小患前列腺癌的風險低，但是作者這么做又給兩組帶來另一個混雜因素：年齡。那么這時比較血清肽在病例組和對照組中的差異，不僅需要相關的專業知識，還需要這樣一個假設：血清肽檢測值與年齡沒有關系。該例子也指出，選擇不帶偏倚的對照是不可能的。因此大多數研究傾向進行某種形式的匹配以減少偏倚，但不能完全消除偏倚。

2.3 雙向數據挖掘的偏倚這種偏倚更科學的名字應該是過擬合，但是數據雙向挖掘清楚的概括了偏倚的根源，更適用說明文解釋。數據雙向挖掘是指用相同的數據進行多次關聯分析而產生的偏倚。雖然數據雙向挖掘的方式很多，但是在預后因素研究中體現尤為明顯，當一個連續變量被不同界值在同一數據劃分的時候就會產生。在發表的研究中很難找到該偏倚的詳細例子，因此本文使用一個未經發表的例子。盡管該例子中的研究數據和設計方案都是真實的，但是本文對這些數據的分析僅用于說明雙向數據挖掘偏倚。該例子提出的臨床問題是，在術前化療的患者中，PET掃描的攝取變化是否可以預測新輔助化療后腫瘤的病理反應，其臨床實用價值很明確，新輔助化療后病理反應差的患者，即應改變治療方案或早期手術，以把握治療時機和減少新輔助治療帶來的副反應。研究者收集用于臨床研究的數據如表1和表2所示。大多數SUV值大幅下降的患者有病理反應，反之亦然。事實上，僅有1例患者SUV值降幅大于35%而病理反應小于60%。表2的統計結果非常令人鼓舞：SUV預測病理反應的敏感性為100%，特異性為90%。此外，估計陰性預測值為100%，也就是說，只要患者SUV值沒有下降就意味著沒有病理反應。但是大多數讀者反對表1和表2的結論，他們指出該研究樣本量過小和置信區間過寬。這當然是一個值得關注的問題，但是即使樣本量足夠大，仍然會有人持反對意見。見圖1所示的數據，首先我們暫時忽略虛線，可以看出SUV下降與治療反應之間是存在一定關聯的。圖的左上部分幾乎是空白的，一般來講，SUV下降幅度越大對應的治療反應也應該越大。根據大多數標準，SUV下降和治療反應之間的關聯系數是0.50是有意義的。這組數據的擬合線顯示了一個固定的SUV值預測26%的治療反應，而且SUV每下降10%，對應的治療反應則增加6%。這樣我們有理由相信PET掃描對最終治療反應有一定的預測價值。然而，表2夸大了數據分析結果。從圖1可以看出他們選擇的界值（虛線）試圖將不能分類的患者數量降到最低。這是選擇界值常用的方式，圖1清楚的反應了表2所列敏感性的大小取決于如何定界值。這些界值不能依靠一組單中心數據來選擇，所以也不能評估敏感性，特異性和陽性陰性預測值。如表3所示，即使界值很小的變動，都會對報道參數產生明顯的影響，甚至可以改變研究結論。然而，如果用圖1代替表1，表2在一定程度上給SUV的預后價值評估奠定了基礎。這個過度樂觀的結論不僅是因為樣本量小，而且還因為之后對數據的二次和三次挖掘造成的。

表 1 SUV下降與新輔助治療后病理反應的關系Tab 1 Correlation of a decrease in SUV after neoadjuvant therapy with pathologic response

表 2 SUV下降＞35%預測新輔助治療后病理反應的相關參數Tab 2 Outcome Parameters for a Decrease in SUV of 35% in Predicting Pathological Response to Neoadjuvant Therapy

表 3 SUV界值改變對結果參數的影響Tab 3 Effect of changes in thresholds on outcome parameters

數據挖掘偏倚也可以在其他情況下出現。如果某人想得到一個預后值而對大量變量擬合一個模型，這個模型通常是對手頭上的數據進行反復調整（這種情況下就存在過度擬合）。在同一組數據中評估模型的預測性能一定會導致樂觀的結論[20]。雖然已經設計了一些統計方法來降低這些樂觀的結論，但是這些統計方法并沒有得到廣泛應用，也沒有被雜志編輯和審稿人所常規接受[21,22]。即使這些方法不能完全消除因過度擬合造成的樂觀結論，但是最終結論適用于單中心數據。

3 偏倚中的統計問題

須強調的是，通過巧妙的統計分析消除偏倚是極其困難的。理想情況下，一些統計模型可以減少偏倚，但代價是設定更多的假設，但是這些假設并不都是可以被證實的，其中一些問題在各種生物標志物研究指南和有影響的教科書中有討論[23,24]。比如，上述假設“新預后因子”的例子，假設在回顧性研究開始時，研究者懷疑他們的研究樣本存在腫瘤大小的偏倚。除了在單因素分析中簡單分析“新預后因子”與結局的相關外，他們可以選擇把腫瘤大小和“新預后因子”放入多因素分析中，對腫瘤大小校正使結論更可靠。但是大多數類似的分析并沒有注意模型所需要的假設。首先，需要選擇一個合適的多因素回歸模型，盡管Cox模型由于對假設要求寬松，在腫瘤學中已成為標準模型，但是仍然要求比例風險（PH）保持不變。只有某個因素和結局的相關性大小（通常用相對危險度表示）不隨時間變化而變化PH才可以使用。但絕大多數的臨床研究者并不能抓住這個假設的真正含義，而大多數數據分析者，可能由于缺少其他可替代的方法，并沒有嚴格的審查就接受了這樣一個假設。

圖 1 不同個體新輔助治療后SUV變化與病理反應的關系Fig 1 Individual data points of changes in SUV after neoadjuvant therapy and pathologic response

圖 2 篩選和評估臨床實用預后因素的流程Fig 2 Phases in the identification and evaluation of a robust clinically applicable prognostic factor

除了PH模型還需要考慮函數形式。比如腫瘤大小，在模型里是否作為連續變量。盡管一般都假設腫瘤大小具有線性效應，即不管基礎的大小是多少，大小每增加一個單位（比如1 cm）對應的影響效應增加是一樣的，但往往實際模型更接近S型曲線，因為特別大或者特別小的腫瘤，模型曲線更平坦。大多數研究不管結論如何，都傾向采用線性模型，因為他們認為（或許樂觀的認為）S型曲線的中間部位才有效，可以近似認為是直線。但是如果研究最初納入的腫瘤標本體積比隨機樣本中的腫瘤大，則S曲線中對分析影響最大的部分應該是左邊較為平坦的部分（即對應較小腫瘤的部分）。因此，一些研究者選擇根據大小進行分組研究，而且分組研究結果更容易解讀。如前文所述，分組也存在一些問題，即選擇不同的界值對同一組數據進行分析，導致過度擬合（雙向數據挖掘偏倚）。

本文列舉了預后因素研究中一些常見的偏倚來源及其對結論可能的影響，但這些偏倚不是被首次發現和討論，無數研究已進行過類似的探討。但是，在許多發表的研究中仍然存在這些偏倚，而且未對這些偏倚的影響進行說明，這使得研究結果很難達到研究者的預期目標。嚴格來講，這些偏倚并不是純統計學問題，只是它們是在統計分析時被發現，而且統計學家試圖通過統計模型來校正這些偏倚。但是在研究完成后處理偏倚是不合適的。最好的辦法是在設計階段就考慮周全，并讓不同的成員，包括統計學家、病理學家、放射學家等參與討論。雖然這可能會延緩數據搜集進度，但有利于結果的分析和解釋，增強結論的可信度。

減少這些偏倚不僅僅是研究者的責任。編輯、審稿人和讀者都應該嚴格遵循臨床研究原則來要求高質量的研究報道。存在這樣一個簡單的問題，即某個因素何時可以被歸為“預后的”因素。圖2顯示了一個預后因素發生的經典過程。目前的做法是在A點標記預后因素，即在臨床研究之后和驗證之前。但這樣做導致某些所謂的預后因素得不到驗證或不能通過驗證或只是部分驗證，但仍被稱為“預后因素”。建議在稱某個因素為預后因素之前要進行仔細驗證并考慮其臨床實用價值。實際上，只有到B點后才能被稱為預后因素，這樣更具臨床意義。雖然達到B點的因素遠遠比A點的少，但是A點的因素很多都是未經驗證的假陽性預后因素，所以在B點我們并未漏評預后因素。

總之，準確預測患者結局是非常有意義的，關鍵在于發現足夠多的預后因素。但是我們的數據中存在很多固有偏倚，而且統計分析細節中也存在導致樂觀結論的問題。本文指出了一些常見問題，以避免研究者和讀者被誤導。建議在研究中持謹慎態度，嚴格評估數據，對結果耐心驗證。

預后因素研究中常見的統計錯誤——偏倚

1 預后因素研究中的偏倚

2 預后性研究中常見的偏倚類型

3 偏倚中的統計問題

預后因素研究中常見的統計錯誤
——偏倚