999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生存分析概述及模型應用

2023-11-30 08:20:12王佩佩雙衛兵
中國醫學工程 2023年11期
關鍵詞:分析方法模型

王佩佩 ,雙衛兵

(1.山西醫科大學公共衛生學院,山西 太原 030001;2.山西醫科大學第一醫院 泌尿外科,山西 太原 030001 )

事件-時間結局數據在醫學研究中非常常見。與單純結局的事件數據相比,事件-時間數據能夠提供的數據信息更為豐富,它既包含結局事件又包含時間,也被稱為生存數據。在分析生存數據時,若選擇多重線性回歸或Logistic 回歸,不但不符合這些方法的使用條件,還會忽略生存數據中時間這一屬性所蘊藏的信息。此時,應使用具有獨特統計方法的生存分析。生存分析常用作疾病的預后因素分析或評價治療方法的優劣,它同時關注結局事件及其發生的時間,即使在生存時間有刪失的情況下,也可以得到不同時點的存活百分比。近來,隨著計算機技術的飛速發展,統計分析技術也日益得到創新,不同類型的生存模型應運而生,為醫學臨床研究提供了更有利的統計分析方法。

1 生存分析概述

生存分析是指根據試驗或調查得到的數據對事件的生存時間進行分析和推斷,研究生存時間和結局與眾多影響因素間關系及其程度大小的方法,也稱生存率分析或存活率分析。觀察起點、終點事件和時間間隔的度量是生存時間重要的相關因素。

1.1 生存數據的特點

醫學研究中通常采用縱向隨訪觀察來獲取生存資料。

1.1.1 關注出現終點事件的時間長短 生存數據既包含一般資料中常見的終點事件,又包含出現終點事件所經歷的時間。例如,比較和評價腎細胞癌患者不同治療方法的臨床療效,在進行隨訪觀察時,常常需要記錄患者在各時點上終點事件的發生情況,包括記錄終點事件是否出現,以及患者出現終點事件所經歷的時間。

1.1.2 生存時間可能存在刪失 由于某種原因,如失訪等,無法準確觀測到研究對象的生存時間,便會產生刪失。刪失這一特點是生存數據不能簡單地進行多重線性回歸的主要原因[1]。圖1 顯示了不同類型的刪失,在目前的醫學研究中,主要的刪失類型是右刪失[2]。

圖1 不同類型的刪失

1.1.3 生存時間的分布通常不呈正態分布 在醫學研究中,事件的持續時間往往受到多個因素的影響,如病情、并發癥程度以及手術治療方式的不同等,因此在某些情況下會較長或非常長。所以大多數生存時間的統計分布都是高度向右傾斜的,不服從正態分布,甚至分布類型不清。

1.2 生存分析中的重要量

1.2.1 生存率 生存率又稱生存函數,是指觀察對象經歷某幾個單位時段后仍存活的可能性,及多個時段的累積生存概率。若生存數據無刪失,生存率的估計為某時刻仍存活的患者數與觀察總患者數之比;若數據有刪失,則需假定觀察對象在各個時段的生存時間獨立,分時段計算生存概率,并用概率乘積法定理將各時段的生存概率相乘得到生存率。

1.2.2 風險率 風險率或風險函數是指某時刻存活的個體在此時刻的瞬時事件結局(如死亡)風險,描述了某個體的瞬時事件結局風險隨時間變化的情況。風險率的值不是概率,而是關注事件風險的指標,風險率的值越高,事件的風險越高[3]。相較于生存函數從1 到0 遞減的性質,風險函數沒有固定的單調性。從數學角度來看,風險函數與生存函數隨時間降低的速度有關,生存函數隨時間下降得越快,風險越高。

2 統計學方法

2.1 生存率的估計

在進行生存分析的統計描述時,可通過生存時間和生存結局估計中位生存時間、生存率及其置信區間和生存曲線,以描述生存時間的分布特點。生存率的估計常用的方法有Kaplan-Meier 法和壽命表法[4]。Kaplan-Meier 法估計不同生存時間點的生存率,一般適用于觀察對象數目較少的未分組資料。而對于樣本含量較大的分組資料,應使用壽命表法進行分析。壽命表法可看作是Kaplan-Meier 法的一種近似(頻數表法),由于每個時間區間內生存率的變化規律未知,相較于Kaplan-Meier 法繪制的階梯型生存曲線,運用壽命表法繪制的生存曲線是連續的折線型。

2.2 生存曲線的比較

由于生存數據可能存在刪失,且參數和半參數檢驗方法對資料的要求較高,而非參數檢驗方法僅要求每個觀察對象的資料是獨立的,因此常采用非參數檢驗即Log-rank 檢驗來比較不同組的生存曲線[5]。然而,Log-rank 檢驗只能比較不同組生存狀況間的差異是否有統計學意義,若需比較不同組生存的優劣,則需通過目測判斷生存曲線、比較半數生存期等方法來進行比較。此外,相對危險度能夠反映某因素作用的相對大小以及某時點兩樣本的生存率是否相同,可使用正態近似法進行兩個率的比較來判斷兩組間的生存狀況。

2.3 影響因素分析及生存預測

2.3.1 Cox 比例風險模型 多因素分析方法主要有參數法和半參數法,由于生存時間可能存在刪失,所以在分析生存數據時更適合采用Cox 比例風險回歸模型(簡稱Cox 回歸模型)這一半參數法[6-7]。Cox 回歸模型不僅可以確定結局事件的累積概率,還考慮了協變量對概率的影響,其偏回歸系數就反映了在校正其他變量影響的情形下該因素單獨的效應[8]。此外,模型的線性部分反映了一個個體的預后,即個體預后指數(prognostic index,PI)。PI 越大,患者風險越大,預后越差;PI 越小,患者風險越小,預后越好。

2.3.2 影響因素篩選 對于自變量的篩選,常用的篩選方法有前進法、后退法和逐步回歸法[9]。大多數研究者常采用Log-rank 檢驗進行單因素分析,篩選出有統計學意義的變量,然后再將這些變量納入多因素Cox 回歸模型中進行分析。但由于混雜因素的影響,有作用的變量在單因素分析中也可能會沒有顯著性差異。因此,篩選自變量時不能只局限于單因素分析有意義的變量,要結合各變量的臨床實際意義等進行判斷。此外,還需注意自變量之間的共線性問題,可在模型建立之前進行共線性檢驗,剔除掉存在共線性的因素。

2.3.3 比例風險假設 由于存在相互作用、亞組和不可觀察(測量)的隨機效應,在模型建立之前需進行比例風險假定的檢驗和對數線性假定,只有滿足條件,即風險函數與基線風險函數的比值為固定值,Cox 回歸模型才有效[10]。但在數據集很大,且只有一小部分數據違反了比例假設的情況下,仍可繼續使用Cox 回歸模型;若大部分數據中存在非比例性,則可以對數據集進行分層,以繼續使用Cox 回歸模型,比例風險假設在每個分層中仍然有效[11]。

3 生存分析模型的發展動態及應用

隨著計算機科學和醫療技術手段的不斷發展,生存分析方法領域受到了研究者的極大關注,如何保證生存模型的準確性和實用性成為了國內外研究者重點關注的課題。

3.1 特殊事件數據的生存分析模型

3.1.1 競爭風險模型 傳統的生存分析一般只關心一個終點事件,即研究者感興趣的結局。而醫學研究中結局事件往往并不唯一,會出現研究者不感興趣的結局。在觀察隊列中,若存在的某種已知事件可能會影響另一事件發生的概率,則可認為前者與后者存在競爭風險。如發生在結局事件前的意外死亡,是結局事件的競爭事件。傳統的生存分析方法將發生結局事件前死亡的個體、失訪個體和未發生結局事件的個體均按刪失數據處理,要求個體刪失情況與個體終點事件相互獨立,結局不存在競爭風險,這事實上高估了結局事件的發生率,導致估計偏差。

競爭風險模型(competing risk model)適用于多個終點的生存數據,是一種處理多種潛在結局生存數據的分析方法,通過計算每個結局的累積發生率函數(cumulative incidences function,CIF)進行分析[12]。常用的競爭風險模型有原因別風險函數(cause-specific hazard function,CS)和部分分布風險函數(subdistribution hazard function,SD),又稱CIF 回歸模型、Fine-Gray 模式[13]。CS 適合回答病因學問題,其回歸系數反映了協變量對無事件風險集對象中主要終點事件發生率增加的相對作用。SD 適合建立臨床預測模型及風險評分,僅對終點事件的絕對發生率感興趣。

競爭風險模型目前也廣泛應用于醫學研究中。學者王廉源等[14]運用此模型探究存在競爭風險時早發性結直腸癌患者的預后影響因素,廖志曉等[15]進一步探究了發生腫瘤特異性死亡的危險因素。學者王莉等[16]通過建立競爭風險模型來預測非肌層浸潤性膀胱癌患者1 年、2 年和3 年復發的風險。國外有學者利用競爭風險模型估計癌癥相關血栓形成患者的出血風險評分[17];還有學者將早期乳腺癌的聯合輔助基線協變量納入競爭風險模型中,探究其與Palbociclib 減少和停藥時間的關聯[18]。

3.1.2 脆弱模型 在實際的臨床研究中,常存在著觀察對象在觀察期內會發生不止一次結局事件的情況,且通常是有先后順序,稱為復發事件數據(recurrent event data)。對于這類數據的分析,目前較為常用的方法是僅利用首次發生結局事件的時間信息做Cox 回歸模型。但不同個體發生復發事件的風險不同,即個體之間存在異質性,僅使用Cox 回歸模型會忽略結局事件相關性,導致估計值的置信區間不準確[19]。有研究發現,在進行生存分析時忽略個體的異質性,會導致相對危險度的估計值偏高[20-21]。

脆弱模型是分析非獨立、有異質性存在的復發事件數據的有效方法,它通過納入隨機效應(即無法用協變量描述的因素),解釋了復發事件數據中觀察結果的非獨立性[22]。該模型既考慮了同一個體多次復發之間的相關性,又考慮了患者多次復發和死亡之間的相關性,探討多次復發和死亡的影響因素,充分挖掘數據蘊含的信息,使得生存分析得結果解釋更具合理性[23-24]。

國外學者KAIDA 等[25]和JUNG 等[26]將脆弱模型應用于體內植入物存活率的研究,評估和比較兩種不同材料在植入固定時間后的性能,所得出的結論也證實了這一模型的合理性。學者JUNG等[27]基于聯合脆弱模型研究艾滋病的復發與晚期多耐藥艾滋病患者半競爭性死亡風險之間的關系,并利用該模型確定復發和死亡事件風險增加的個體,相較于Cox 回歸模型,這些異質性可以根據觀察到的協變量進行識別,說明了在該數據集中使用脆弱模型分析更具優勢。

3.2 機器學習與生存分析

傳統的統計方法為數據分析提供了最優解,而機器學習則是嘗試不同模型,最終收斂到最終假設,強調大規模的應用和準確的預測。在過去的數十年里,計算機技術和數字化快速發展,數據采集和數據存儲能力不斷提升,伴隨著大數據時代的到來,許多機器學習算法被相繼提出并滲入到了各個領域。在進行預測分析時需要大量數據來擬合模型,因此人工智能在處理精準醫學大數據方面存在著巨大的潛能[28]。許多研究者將傳統的生存分析方法與機器學習相結合,利用二者的優勢來分析生存預后問題。

3.2.1 隨機生存森林 隨機生存森林(random survival fores,RSF)是一種基于隨機森林算法的生存分析方法,該方法正廣泛應用于醫學研究領域進行生存數據的分析。RSF 可列出變量的重要性排序實現變量篩選,使最終進入分析的自變量保持最小共線性及最大準確度,克服了傳統生存分析模型中自變量之間可能存在共線性這一弱點[29]。此外,RSF 在多項研究中也展示了其效能的優異性。如學者李淼等[30]應用RSF 模型來探討肺癌患者預后影響因素的重要性以及預測評價,通過與傳統的Cox 回歸模型進行比較發現,RSF 模型的預測錯誤率以及預測誤差均低于Cox 回歸模型,可證實RSF 模型的擬合效果較好,即RSF 能夠在提高模型效能的同時降低模型的復雜性,為臨床研究提供更準確的模型和更可靠的依據。

3.2.2 梯度提升樹 梯度提升樹(gradient boosting decision tree,GBDT)是與RSF 處于同一類型決策樹中的一種機器學習方法,在實際應用中的性能更為突出[31]。相較于傳統的Cox 回歸模型,現有的基于梯度提升樹的生存分析方法仍遵循風險比例這一假設,但它已經可以表征對數風險比例與協變量之間復雜的非線性關系[32-33]。在學者CHEN等[34]和LI 等[35]的研究中,研究者們以識別胃癌相關基因和預測ICU 患者院內死亡率為目的,均使用GBDT 法構建模型,并選擇基于邏輯回歸(LR)、k-最近鄰(KNN)、隨機森林(RF)和支持向量機(SVM)這四種方法與GBDT 進行比較,兩項研究的結果均證實了GBDT 在預測死亡率方面的表現優于其他機器學習模型。這也說明了,雖然GBDT 的解釋性不如Cox 回歸模型,但在實際應用中個體風險函數或生存函數的預測上有著明顯的優勢[36]。

3.2.3 支持向量機 以支持向量機(support vector machine,SVR)等算法為代表的的機器學習,以其完善的理論基礎,正廣泛應用于醫學特別是腫瘤學領域中[37]。例如,學者梁陳悅[38]利用非線性支持向量機作為分類器建立判別胃癌腫瘤一期的模型,以選取最優的一組基因集作為最終的胃癌特征基因;學者CHEN 等[39]結合綜合特征選擇和模型訓練的方法,采用支持向量機和遺傳算法預測局部晚期非小細胞肺癌患者的3 年總生存期,以預測接受確定性同步放化療患者的長期生存率。基于SVR 的生存分析模型可以解決高維度問題,適合小數量樣本的數據。VAPNIK[40]提出的基于支持向量機(SVR)的生存分析模型,忽略了所有刪失的數據,不能夠對生存數據的特性進行解釋。學者KHAN 等[41]對前者的模型進行了改進并提出了一個新的模型(SSVR),考慮了生存數據的特性。但當數據特征維度大于樣本量時,支持向量機的表現很差,學者KHEMCHANDANI 等[42]對傳統SVR 方法的改進,提出了一種新的雙支持向量回歸算法(TWSVR),提高了模型的靈活性,降低了求解的復雜性。

3.2.4 貝葉斯生存分析 貝葉斯是機器學習的經典算法之一。近年來,基于貝葉斯理論和生存分析相結合的貝葉斯生存分析越來越多地被應用到醫學研究中[43-44]。例如,學者邵莉等[45]通過構建貝葉斯Cox 風險比例回歸模型分析艾滋病相關死亡的影響因素,ATTACC 等[46]利用貝葉斯生存統計模型對患者的D-二聚體水平進行評估,以探究肝素對非重癥Covid-19 患者抗凝治療的療效。貝葉斯Cox 回歸模型是在傳統Cox 回歸模型的基礎上,利用貝葉斯統計思想為待估計的參數指定先驗分布,結合樣本數據得到它們的后驗分布,從而達到參數估計的目的[47]。貝葉斯統計分析方法可以有效利用先驗信息,在小樣本數據推斷中具有明顯優勢,在一定層面彌補了頻率學派經典估計方法的局限性[48]。此外,有學者提出針對右刪失數據構建的基于貝葉斯累加回歸樹的生存分析簡約模型,可以提高貝葉斯理論在生存分析中的適用性[49]。

3.2.5 深度學習:神經網絡 近年來深度學習在醫學領域受到很大的關注,神經網絡在醫學領域如生物醫藥、醫學統計及醫學診斷等領域的應用也相當廣泛。神經網絡在生存分析中具有很大的靈活性,可以處理一些復雜的、不確定的、非線性的問題,具有一定的容錯性。且協變量的效應可以隨時間而變化,不要求滿足風險比例假定,其預測性遠遠優于傳統的回歸模型,有較廣泛的應用前景[50]。如學者TU 等[51]利用BP 神經網絡模型揭示異常B 細胞浸潤對肺癌患者的影響以及預測肺癌患者的生存;馬亞楠等[52]基于3D 卷積神經網絡對局部晚期NSCLC 患者進行生存預測,這些研究都取得了令人滿意的結果。DeepHit 和DRSA 這兩種方法,分別使用了深度神經網絡和循環神經網絡,可以直接學習首次發生事件時間的概率分布,不再需要對個體風險函數形式做出假設[53-54]。然而,神經網絡算法在短期預測上存在著明顯的短板,且缺乏對模型特征的解釋性,預測結果不如傳統模型準確[55]。例如,在學者SPARANO 等[56]的基因表達影響乳腺癌復發的研究中,無法判斷某個與乳腺癌相關基因屬于危險因子還是保護因子。因此,在運用神經網絡算法時需要考慮實際情況,才能正確的選擇統計方法并取得更好地預測結果。

此外,還有許多其他的機器學習方法應用于生存分析當中,如bagging 生存樹和boosting等[57-59]。這些方法以不同的方式學習協變量與生存時間之間的關系,提供擬合更優、更有效的算法,從而提升生存分析模型的準確性。

4 總結

生存數據是臨床研究中常見的一種數據類型,因其存在刪失這一特點,需使用生存分析這一統計學方法。生存分析是循證醫學的一個重要組成部分,常用作疾病的預后分析、評價治療方法的優劣以及風險預測,具有推動和影響決策的巨大潛力。隨著生物醫學技術的不斷發展,生存分析也應用到了基因組學、腫瘤標志物等領域,通過結合泛癌分析、生信分析及聚類分析等多維度、多組學的驗證,為醫學研究提供更有說服力的證據。

在臨床研究中,常用的生存分析方法仍然是K-M 曲線、Log-rank 檢驗以及Cox 回歸分析。對于影響因素的分析,建議研究者仔細考慮單因素估計的有效性,不能只局限于單因素分析中有統計學意義的變量,而應結合專業知識與臨床實際意義決定是否納入到多因素模型。此外,在構建Cox回歸模型時,建議研究者闡明構建策略,檢驗并表明最終的生存模型在模型擬合以及驗證相關假設方面的適用性,若相關假設不成立,應說明情況并提出解決方案。

計算機統計技術和機器學習算法的快速發展為處理、統計和分析醫學數據帶來了巨大的潛能。面對種類如此之多的統計模型,生存分析模型的最終選擇應考慮模型與給定數據集的擬合優度以及驗證研究相關假設的適用性,不適當的統計模型可能會得出誤導性結論。競爭風險模型、脆弱模型等等為不同特殊事件數據的生存分析提供了可靠、更優的統計方法。此外,許多學者將傳統的生存分析方法與機器學習相結合,利用二者的優勢來分析生存問題,但其在醫學統計的實際應用方面上還稍有欠缺,值得更加深入地探索與研究。

猜你喜歡
分析方法模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 精品久久久久久中文字幕女| 欧美区一区| 午夜电影在线观看国产1区| 精品久久国产综合精麻豆| 国产在线精彩视频二区| 99久视频| 看你懂的巨臀中文字幕一区二区 | 亚洲午夜国产片在线观看| 亚洲精品不卡午夜精品| 欧美成人精品高清在线下载| 日本人妻丰满熟妇区| 国产成人a在线观看视频| 8090午夜无码专区| 国产91精品久久| 欧洲亚洲欧美国产日本高清| 国产黄网站在线观看| 99尹人香蕉国产免费天天拍| 婷五月综合| 重口调教一区二区视频| 久操中文在线| 国产自无码视频在线观看| 青青草一区二区免费精品| 欧美精品三级在线| 国产成人高清在线精品| 小13箩利洗澡无码视频免费网站| 97超级碰碰碰碰精品| 亚洲AV无码一区二区三区牲色| 97色伦色在线综合视频| 国产真实乱子伦精品视手机观看| 2021精品国产自在现线看| 国产后式a一视频| 青青热久免费精品视频6| 一级毛片免费播放视频| 国产真实乱了在线播放| 嫩草国产在线| 重口调教一区二区视频| 无码福利日韩神码福利片| 久久久久夜色精品波多野结衣| 日韩乱码免费一区二区三区| 尤物精品视频一区二区三区| 国语少妇高潮| 一本大道香蕉久中文在线播放| 男女性色大片免费网站| 亚洲中久无码永久在线观看软件| 无码精品国产dvd在线观看9久| 欧美一级夜夜爽www| 麻豆国产精品一二三在线观看| 亚洲六月丁香六月婷婷蜜芽| a天堂视频| 成人在线不卡视频| 园内精品自拍视频在线播放| 国产又大又粗又猛又爽的视频| 亚洲一区二区视频在线观看| 免费看a级毛片| 久久久久亚洲精品成人网| 欧美在线精品怡红院| 国产美女一级毛片| 欧美性久久久久| 国产永久免费视频m3u8| 老司机午夜精品网站在线观看| 国产成人一区免费观看| 狠狠亚洲婷婷综合色香| 亚洲福利网址| 精品欧美日韩国产日漫一区不卡| 中文字幕乱码二三区免费| 国产成人毛片| 免费毛片在线| 精品少妇人妻无码久久| 国产主播喷水| 色窝窝免费一区二区三区| 色哟哟国产精品一区二区| 中国一级特黄大片在线观看| 免费看美女毛片| 国产精品自在线天天看片| 无码'专区第一页| 国产精品福利一区二区久久| 人人艹人人爽| 亚洲综合色婷婷中文字幕| 亚洲精品国产精品乱码不卞 | 日韩区欧美区| 一级全免费视频播放| 综合色区亚洲熟妇在线|