焦玉泉, 常艷亮, 楊春媚, 王 翔
(山西省運城市中心醫院 醫學影像科, 山西 運城, 044000)
肺腺癌是非小細胞肺癌的病理亞型之一,是導致全球癌癥性死亡的主要原因。盡管多年來肺腺癌的治療決策和預后有了明顯的改善,但生存率仍有待進一步提高[1]。腫瘤-結節-轉移(TNM)分期系統是目前常用的預后評價體系[2]。然而,即便同一分期的患者之間的生存率也可能有所不同[3]。目前,有研究[4]開始利用放射組學預測肺癌患者的預后。放射組學是一種高通量技術,用于量化醫學圖像中的表型特征,這些特征可能有助于預測生存預后、術前遠處轉移和進行組織學亞型的分類[5]。近年來,研究[6-9]顯示放射組學可作為總體生存率的獨立負性預測因素預測肺腺癌預后,且代表異質性的紋理特征對于準確性至關重要。目前對同一病理類型進行不同分期的亞組分析的研究較少[10-12]。本研究探討不同放射組學特征選擇和基于分期的亞組分析對肺腺癌患者預后的預測價值,現將結果報告如下。
選取2016年1月—2018年1月在本院接受治療的293例肺腺癌患者為研究對象。納入標準: ① 病理診斷為肺腺癌者; ② 影像學資料完整者; ③ 未合并其他惡性腫瘤者。排除標準: ① 病理診斷不明確者; ② 全身重要臟器功能衰竭者。將患者分為訓練組235例和測試組58例,患者一般資料見表1。

表1 2組患者一般資料比較
每例患者共提取107個特征,其中包括14個形狀特征、18個一階統計學特征和75個紋理特征。形狀特征量化了感興趣區域(ROI)的直徑、體積以及不規則程度; 一階統計特征用于創建像素值的直方圖,并定義與該直方圖有關的特征; 紋理特征用于將像素值之間的關系轉換為矩陣,以衡量圖像的均勻性和異質性。紋理特征包括灰度共現矩陣、灰度依賴矩陣、灰度運行長度矩陣、灰度大小區矩陣和鄰域灰調差異矩陣。
107個從腫瘤區中提取的放射學特征用3種特征選擇方法進行了還原,分別為: ① 特征選擇1(FS1)為文獻報道的測試-重復測試和多重分割來選擇穩健的特征[13-15]。使用文獻報道的數據集來評估當天重復CT掃描的腫瘤單維、雙維和體積測量的變異性。該數據集可從癌癥成像檔案館公開的在線參考圖像數據庫評估治療反應測試-重測數據集中下載。測試-重測法將腫瘤的放射學分析應用于每例患者的2張圖像,并用一致性指數(C-index)評估2個特征值之間的一致性,在C-index >0.85時進行特征選擇。② 特征選擇2(FS2)是根據所有特征的皮爾遜相關分析計算出的相關系數,將其中1個相關的特征作為多余的特征從分析中排除[12]。相關系數的絕對值≥0.8提示2個特征之間強相關的閾值[16]。③ 特征選擇3(FS3)是結合FS1和FS2[17], 在使用測試檢驗和多重分割選擇出穩健的特征后,使用皮爾遜相關分析選擇非冗余的特征,閾值為0.8。
本實驗構建了2個不同的模型: 一個是使用FS1、FS2和FS3中選定的特征的單純放射學特征模型(放射學模型),另一個是使用選定的特征加上臨床預測因子的放射學和臨床特征相結合的模型(組合模型)。LASSO Cox回歸模型被用來構建預測生存預后的模型。作者采用了5倍交叉驗證來防止模型的簡化和過擬合,并為數據選擇最佳的λ。
肺腺癌患者依據不同的T分期創建亞組數據集。T1~T4期分別有93、96、49和55例患者。亞組分析中使用5倍交叉驗證來驗證構建的模型。使用分層抽樣將每個亞組數據集分為5個部分,同時保持死亡患者和存活患者的比率不變; 然后,將4個部分作為訓練數據集, 1個部分作為測試數據集。采用5倍交叉驗證,以確保用數據數量較少的子組數據集構建的模型的可靠性。
采用R軟件3.6.1進行數據的統計分析, Kaplan-Meier生存分析評估放射組學特征和生存率之間的關系。P<0.05為差異有統計學意義。
在放射學模型的訓練和測試數據集中, FS2的C-index是所有選擇方法中最高的(分別為0.64、0.61)。同樣, FS2在組合模型的訓練和測試數據集中的所有選擇方法中具有最高的C-index(分別為0.65、0.63)。因此,FS2被應用于亞組分析,見表2。
表3顯示了各亞組的預后表現,為了避免復雜化,顯示了在5倍交叉驗證中最接近測試數據集的平均C-index時的情況。所有T分期放射學模型和組合模型產生的C-index都高于所有數據,特別是在放射學模型中, T1組的測試數據集的C-index提高最多,組合模型中T4組的指數提高最多。見圖1。

表2 訓練組和測試組中不同模型的預測性能

表3 各亞組預后預測表現
本研究探討了基于放射組學特征選擇和T分期的亞組數據集的肺腺癌患者的生存預測,對所有數據的分析并未顯示出高的預后性能。然而,亞組的分析比所有數據的分析有更好的預后性能。這一結果表明,按特定的T分期分析肺腺癌可明顯改善生存預測。
本研究對所有數據應用了3種獨立的特征選擇方法,以確定預后性能方面的最佳方法。在測試數據集中,放射組和組合模型使用FS2時獲得最高的預后性能。SUN W等[18]研究表明, Cox模型中Pearson的特征選擇方法在5種選擇方法中產生了第2高值的C-index。LEGER S等[19]研究也表明, Cox模型中同樣的Pearson特征選擇方法在12種選擇方法中產生了最高的C-index。這些結果與本研究結果一致(即FS2的C-index最高)。因為Cox模型用一個簡單的回歸方程直接預測事件發生的時間,這個模型經常產生過擬合的結果[19]。Pearson的特征選擇方法可以通過去除多余的特征交互作用來減少過擬合,而且計算效率很高?;贑ox模型和Pearson特征選擇方法的這些特點,可以說明這種選擇方法是Cox模型預測預后的最有用的方法。
既往研究[20]通過將每個子組數據集應用于整個數據集訓練模型來驗證預測性能,與應用整個數據集相比,預測性能得到提高。然而,這些研究沒有使用子組數據集構建訓練模型,只進行了最小的子組分析。本研究同時構建全部數據和子組模型進行肺腺癌患者預后分析。結果顯示,與所有數據相比,基于T分期亞組分析的預后性能提高。高預后性能是通過消除具有不同預后和異質性的亞組之間的放射學特征趨勢的差異而產生的。因此,本研究采用的方法,即為每個亞組構建訓練模型,可以準確反映每個組的放射學特征,并可以提高預后預測的性能。

A: 總數據的訓練模型和生存模型曲線; B: T1期的訓練模型和生存模型曲線; C: T2期的訓練模型和生存模型曲線; D: T3期的訓練模型和生存模型曲線; E: T4期的訓練模型和生存模型曲線。圖1 Kaplan-Meier曲線基于每個亞組的放射模型中的Rad得分
本研究旨在使用一種方法來實現足夠的預后性能,以實現臨床效用,該方法側重于對具有相同特征的亞組進行預后分析。然而,在未來的臨床應用之前,有一個問題必須解決,即使用免疫檢查點抑制劑和分子靶向藥物的治療方法的出現,這些療法大大改善了肺癌患者的預后[21]。因此,有必要建立一個考慮這些因素的預后模型。最近,在接受這些療法治療的患者的數據集中,已有研究[22]報道了與放射組學的高度關聯和高度預后預測的潛力。未來的一個挑戰是揭示該模型是否能適用于接受過上述治療的患者的數據。此外,本研究是基于相對較少的患者數量,由于一些亞組的數據數量相當少,因此本研究得到的結果需要基于更多數據的研究來進一步驗證。
綜上所述,本研究調查了基于放射組學的特征選擇和T分期的亞組分析對肺腺癌患者的生存預測,基于每個T分期組的模型較基于所有數據的模型具有更高的C-index。因此,對特定亞組的預后分析或可改善預后性能。