周依蓮
(復旦大學附屬中山醫院,上海 200032)
肺癌是最常診斷的癌癥,是75歲或以上男性癌癥死亡的主要原因。非小細胞肺癌(NSCLC)可大致分為三類,包括肺腺癌、鱗狀細胞癌和大細胞肺癌,占全球新肺癌診斷的85%以上。由于存在各種治療方式,肺癌的早期診斷和準確分類是臨床治療的最重要的程序之一[1-3]。
特征選擇在典型的基于醫學圖像的計算機輔助設計(CAD)系統中起著至關重要的作用,該系統包括圖像預處理、感興趣區域(ROI)的分割、特征提取、特征選擇和分類。特征選擇的主要目的是識別與組織學發現相關的診斷相關的醫學圖像特征,因為大多數實質性肺癌診斷基于組織學標準。值得注意的是,特征選擇已被廣泛接受為各種應用中的預處理技術,包括數據挖掘、機器學習和分類[4]。
盡管之前已經提出了許多措施,但它們的可用性仍然是一個挑戰,因為它們可能仍然具有誤導性。例如,通過使用分類器錯誤率測量,可以保證高精度的分類,同時一些特征與應用無關。考慮到這一點,我們提出了一種錯誤發現率(FDR)控制的特征選擇方法,旨在降低特征的不相關性以及提高CT圖像中肺癌分類的準確性。FDR用于約束特征選擇過程中不相關特征的數量。通過將FDR控制在較低水平,我們的方法的性能是通用的、靈活的,并且獨立于設計,應用中的特征數量和未知回歸系數的值。
為了評估所提出的特征選擇技術的性能,引入SVM以在肺癌CT數據集中對NSCLC進行分類。我們進行了最先進的特征選擇策略,分類方法之間的對比實驗,并且我們的方法在不同的FDR設置下相互比較。此外,在評估過程中包括接收器操作特性曲線(ROC)和相應的曲線下面積(AUC),實驗結果表明最佳平均AUC為(0.86±0.02)。
1.1. 材料 (1)CT圖像數據集:圖像數據集由來自中國山東省千佛山醫院的CT掃描圖像組成。使用SonolineSienna?和7.5 MHz線性陣列B模式40 mm探頭換能器捕獲每個圖像,并保存為醫學數字成像和通信格式。CT圖像的切片厚度設定為4.75 mm,像素尺寸為0.33 mm/px,圖像分辨率為1.5 px。該數據集包含696個CT圖像,其中374個良性和322個惡性病例通過活組織檢查進行病理學確定。兩組的平均年齡和標準差分別為(50.8±6.3)和(48.6±7.1)。(2)預處理:為了提高圖像的質量,在隨后的圖像處理之前手動分割每個CT圖像的ROI。兩位放射科醫師在醫院進行了肺野分割和腫瘤識別。此外,通過使用區域生長方法對腫瘤進行分割,隨機這兩位放射科醫師中的一位設置相應的種子點。(3)功能:在實驗中僅使用CT圖像中的紋理特征和形態特征。值得注意的是,所提出的特征選擇方法可以適用于幾乎所有類型的圖像特征。因此,我們將深入研究所提出方法在下一研究中各種特征的應用。具體而言,根據不同的圖像比例從每個預處理的CT圖像中手動提取26個形態特征和1465個紋理特征。由于本文中包含了許多功能,因此我們未提及所有這些功能的詳細信息。

表1 采用不同平均值和特征的AUC方法
1.2 方法 提出了一個兩階段框架來實現特征選擇和圖像分類。在第一階段中,可以通過在特定FDR級別下使用基于基于仿冒濾波器的特征選擇策略來提供最佳特征子集。在下一步中,利用SVM對肺癌CT圖像進行分類。
通過利用具有十倍留一交叉驗證策略的SVM分類器來評估CT圖像中的特征子集與肺癌之間的關系。為了評估FDR機制的性能,通過將FDR控制在0.03、0.05和0.10而產生的潛在特征子組獲得最佳特征子集。此外,我們在最先進的方法和提出的CT圖像肺癌分類方法之間進行了比較實驗。AUC被作為實驗中的主要測量指標。相對于隨機猜測(AUC=0.5)評估AUC的統計學顯著性。
通常,對于較小的FDR(平均值),所有類型特征的分類性能較高。例如,FDR為0.03(AUCavg:0.86,AUCstd:0.01,P<0.05)的擬議方法的性能優于FDR0.05(AUCavg:0.82,AUCstd:0.02,P>0.05)和FDR 0.10(AUCavg:0.81,AUCstd:0.03,P>0.05)(表1所示)(AUCavg:0.89,AUCstd:0.01,P<0.05),比FDR設定為0.1的紋理特征要好得多(AUCavg:0.74,AUCstd:0.05,P>0.05)同時,組合特征可以產生(AUCavg:0.86,AUCstd:0.01,P<0.05)比單一類型的特征更好的結果,包括形態特征(AUCavg:0.84,AUCstd:0.02,P>0.05)和紋理特征(AUCavg:0.78,AUCstd:0.05,P>0.05)。為了比較最先進的特征選擇方法和我們的特征選擇方法之間的性能,我們選擇了以下基于特征選擇的分類方法和基于非特征選擇的分類技術基于不同的組合CT圖像中的圖像特征,并將它們的AUC值與我們的方法進行比較。值得注意的是,基于特征選擇的方法旨在選擇最佳特征,而非特征選擇技術則側重于檢測和分類程序。
已經提出了各種基于特征選擇的技術來實現CT圖像中良性和惡性肺病變之間的區分。然而,這些方法中的大多數都集中在分類的準確性上,并且可能忽略了特征與歧視之間的相關性。因此,我們提出了一種新穎的特征選擇技術,該技術不僅可以優化計算特征子集,還可以約束不相關特征的FDR。所提出的方法適用于CT圖像特征的不同組合,包括紋理、形態以及紋理和形態特征的組合。首先,所提出的特征選擇機制顯著提高了圖像分類的準確性。通過比較實驗,我們還發現,以最低的FDR值可以獲得所提方法的最佳性能,這表明通過消除不相關的特征,較低的FDR將更有利于增強辨別性能。其次,可以將不同類型圖像特征的組合視為提高歧視有效性的另一種方式。此外,當前使用的特征可能不足以完全表示CT圖像的特征。第三,控制FDR值和適當類型的圖像特征可以共同優化CT圖像中肺癌的分類性能。最重要的是,所有觀察結果表明,具有小FDR的組合特征可能能夠捕獲CT圖像中的內部結構。
除了在幾乎所有機器視覺任務中都表現出色的深度學習之外,基于手工制作的基于特征的方法在機器視覺領域也發揮了重要作用,盡管它們可能不像最近的深度學習那樣受歡迎。要注意的是,所提出的方法用于選擇醫學圖像中手工制作的特征的最佳子組,而基于深度學習的方法被設計為自動提取特征[5]。
近年來,深度傾斜通常會受到小樣本問題的影響。在我們的案例中,我們沒有足夠的肺癌圖像。因此,相反,我們選擇了特征選擇機制,已經證明通過如上所述的許多相關研究是有效的。
為了解決先前提出的特征選擇技術中存在的問題,我們提出了用于肺CT圖像中的NSCLC辨別的FDR約束特征選擇算法。所提出的方法可以用于構建臨床上可接受的肺癌CAD系統,因為它可以產生相對于組織學結果的最合適的特征并且提高良性和惡性肺病變的分類準確性。此外,特征選擇流程中的FDR控制機制也應該對其他類型的CAD系統有用,包括乳腺癌、腦腫瘤和阿爾茨海默病。然而,所提出的方法的性能仍然缺乏足夠的樣品。因此,我們將繼續研究更大的醫學圖像數據集對所提出技術的有效性以及基于FDR約束的特征識別策略在其他醫學圖像分析任務中的應用,包括多光譜眼圖像和自然圖像處理。