湯 寧,衛澤良,張 瑞,易 東,伍亞舟
陸軍軍醫大學 軍事預防醫學系 軍隊衛生統計學教研室,重慶400038
肺癌是全球癌癥相關死亡的最主要原因[1]。2016年,美國癌癥協會發布數據[2],早期肺癌的5年生存率是56%,而晚期肺癌的5年生存率僅有5%。因此肺癌的早期診斷是提高肺癌患者生存率的關鍵[3-4],通過低劑量CT篩查,可使高危人群肺癌死亡率降低14%~20%[5-6]。然而,對于目前的CT臨床評估,主要是依賴放射科醫師閱片,這是一個非常繁瑣且緩慢的過程;另一方面,放射科醫師的評估也缺乏一定的穩定性和客觀性。因此,計算機輔助診斷(Computer-Aided Diagnosis,CAD)具有重要的臨床意義,它能有效減少放射科醫師的負擔,增加臨床評估效率;更重要的是,它可能發現一些人類肉眼無法識別的影像學特征[7]。
目前對于肺結節的自動分類主要包括兩種方法:影像組學方法(Radiomics)和深度學習(Deep Learning,DL)方法。影像組學[8-9]主要分為以下幾個步驟:首先,精確勾勒肺結節輪廓,提取感興趣區域(Region of interest,ROI);對ROI提取體積、形狀、紋理、密度等量化特征[10];然后對這些特征進行篩選、降維;再將這些特征輸入諸如K鄰近算法(K-Nearest Neighbor,K NN)、支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forests,RF)等機器學習分類器得到結節分類結果。影像組學方法是早期計算機輔助診斷的主要方法,El-Baz等人[11]通過分析肺結節的形狀特征對其良惡性進行診斷;Chen等人[12]將肺結節的紋理、形狀、強度、小波特征輸入到一個SVM分類器來對肺結節進行分類。影像組學方法為計算機輔助診斷提供了一個思路,但是該方法需要精確分割感興趣區域ROI之后[9],才能提取特征,而這個過程往往需要人工完成,極大地影響了該方法的效率和穩定性。
第二種方法是基于卷積神經網絡(Convolutional Neural Network,CNN)的深度學習方法,CNN最大的特點是不需要對圖像進行精準的分割,可以將圖像直接輸入模型,因此它又被認為是一種端到端(End to End)的模型。深度卷積神經網絡最開始主要應用于自然圖像識別領域,后來人們才開始將其應用于醫學影像領域,并取得了一些成果,如Gulshan等人[13]將其應用于糖尿病視網膜病變的檢測,Esteva等人[14]將其應用于皮膚癌的檢測等,據報道,他們的自動化診斷系統已經到達甚至超越了人類醫師的水準。近年來,許多針對肺結節分類的研究也都利用了深度卷積神經網絡,Dey等人[15]用一個3D CNN對肺結節良惡性進行分類;Shen等人[16]提出了一個多尺度卷積神經網絡(Multi-Scale Convolutional Neural Networks,MS-CNN),通過從不同尺度的肺結節圖像中提取鑒別特征來捕獲良惡結節之間的異質性;而后,他們又對該模型進行改造,提出MC-CNN[17](Multi-Crop Convolutional Neural Network),通過從卷積特征圖中裁剪不同區域,以此來獲取結節的主要信息;Causey等人[7]則將影像組學和深度學習方法聯合,將結節的放射組學特征和CNN提取的高級特征融合后輸入到一個RF分類器來對結節進行分類;Liu等人[18]提出一個多視圖多尺度卷積神經網絡(Multi-View Multi-Scale Convolutional Neural Network,MVMS-CNN),對肺結節的解剖學類型進行了分類。
目前的肺結節自動分類主要是基于卷積神經網絡的深度學習方法,而這方面的絕大多數研究都只針對CNN模型進行改進或改造,很少有研究對深度學習的特征工程(feature engineering)進行探討。盡管卷積神經網絡可以從原始圖像中提取有用的表示,但這并不意味著特征工程對深度學習模型不重要,良好的特征表示可以使模型用更少的資源更高效地解決問題[19]。
本研究針對該問題,對不同尺度不同模式肺結節圖像對卷積神經網絡模型分類性能的影響進行了探討,并提出一種2D多視圖融合(two Dimensional Multi-View Fusion,2D MVF)的肺結節表示方式,該方式在利用更多肺結節信息的同時又不會引入太多干擾性物質。利用肺癌CT數據集LIDC-IDRI[20-21](the Lung Image Database Consortium and Image Database Resource Initiative)和LUNA16[22](the LUng Nodule Analysis 2016)獲取了三種不同尺度、四種不同模式的肺結節圖像數據,構建了相應的卷積神經網絡模型,并對它們的分類表現進行了比較。
2.1.1 數據集
LIDC-IDRI數據集包含了1 010個病人的1 018套胸部CT掃描圖像,由四名放射科醫師獨立地對三類病變進行標記,包括大于等于3 mm的結節、小于3 mm的結節以及非結節(無論大于還是小于3 mm)。對于非結節和小于3 mm的結節,四名放射科醫師只需大致標記其中心坐標,而對于大于等于3 mm的結節,需標注出結節三維輪廓的坐標,且要對其影像學特征進行評估,其中惡性得分malignancy在1~5分之間,分值越高表示越有可能是惡性。由于一名患者的CT圖像是由四名醫師共同標注,所以同一個結節可能會被標注多次,因此同一個結節有可能產生最多四個不同的惡性得分。關于LIDC-IDRI數據集的更多細節可以參考文獻[20-21,23]。
LUNA16數據集是LIDC-IDRI的子集。為了減少LIDC-IDRI圖像的異質性,LUNA16舍棄了切片厚度大于等于3 mm和一些有缺失的CT掃描圖像,最終從LIDC-IDRI的1 018套CT圖像中篩選出了888套CT圖像。由于在LIDC-IDRI中一個病灶可能會被標記多次,因此LUNA16將那些中心距離小于半徑之和的標記進行了合并。并且,LUNA16只保留了由三或四名醫師都標注了的直徑大于等于3 mm結節,最終得到共計1 186個結節。關于LUNA16的其他細節可以參考文獻[22]。
2.1.2 數據集預處理
利用LUNA16數據集和LIDC-IDRI數據集制作了三種不同尺度四種不同模式的肺結節圖像數據,以此來探索不同尺度不同模式的圖像對肺結節分類表現的影響。該過程主要包括肺結節圖像數據制作和標簽提取兩個步驟。
2.1.2.1 制作多尺度多模式肺結節圖像數據
(1)肺結節2D圖像數據制作
2D圖像模式即在結節中心坐標周圍截取一張二維圖片,這是大多數肺結節分類研究所采取的方式。LUNA16中提供了1 186個結節的中心坐標信息,但由于CT掃描圖像分辨率各異,因此首先將它們重采樣到1×1×1 mm3/voxel,然后根據結節中心坐標信息截取周圍16×16、25×25、36×36三種不同像素的2D圖像,如圖1,該圖展示了20個不同結節的2D圖像在不同尺度下的視圖,為了便于比較,已將其縮放到同一尺寸,紅色箭頭標示了某一個結節在三種不同尺度下的視圖。

圖1 三種尺度下的2D肺結節視圖
(2)肺結節3D圖像數據制作
同樣的,根據LUNA16所提供的中心坐標信息截取周圍16×16×16、25×25×25、36×36×36三種不同尺度3D圖像,如圖2。由于篇幅限制,圖2僅展示了四個不同結節在不同尺度下的視圖,紅色箭頭標示了同一結節在三種不同尺度下的視圖。可以看到在較大尺度時結節周圍有大量的血管組織,這會對結節的分類造成較大的干擾。

圖2 三種尺度下的3D肺結節視圖
(3)肺結節2D全視圖融合圖像數據制作
2D全視圖融合(two Dimensional Full-View Fusion,2D FVF)圖像就是將一個3D結節鋪展開并拼接成2D圖像。對于3D圖像而言,可以將其視為2D圖像的堆疊,將這多張2D圖像拼接就可以得到2D FVF模式圖像,如圖3,該圖展示了五個不同結節在三種不同尺度下的2D FVF視圖。圖3左側16、25、36分別表示16×16×16、25×25×25、36×36×36三種不同尺度的3D結節鋪展開的2D FVF圖像。例如,對于16×16×16的3D圖像,可以將其視為16張16×16的2D圖像的堆疊,將這16張2D圖像從上到下從左到右依次拼接,就得到一張64×64的2D FVF圖像,如圖3第一行所示。類似的,25、36尺度下的3D結節可以分別得到125×125、216×216像素的2D FVF圖像。紅色方框標示同一結節在三種不同尺度2D FVF視圖中的結節部分,可以看到,在大尺度下結節的切片只占很小一部分,而大多數組織是一些血管、胸腔壁等組織。

圖3 三種尺度下的2D FVF肺結節視圖
(4)肺結節2D多視圖融合圖像數據制作
2D多視圖融合圖像(two Dimensional Multi-View Fusion,2D MVF)就是把3D結節最中間的4張2D切片拼接成一張更大的2D圖像,這樣做的目的是,這樣可以比單純的一張2D切片獲取更多的結節信息,但同時又能比3D、2D FVF模式圖像納入更少的干擾性組織。制作方法和2D FVF類似,即利用3D結節圖像,取其中間的四張切片,然后將其拼接。從16、25、36三種不同尺度3D結節分別可以得到32×32、50×50、72×72像素的2D MVF圖像,如圖4。該圖展示了10個結節在三種不同尺度下的2D MVF視圖,為了便于比較,圖中已經將其縮放到了同一尺度。

圖4 三種尺度下的2D MVF肺結節視圖
對比不同尺度圖像的差別,從圖1~4中可以發現,尺度越大,結節周圍的非結節組織越多,對結節分類造成的干擾就越大;對于不同模式圖像而言,簡單的2D模式圖像浪費了大量CT掃描所提供的結節信息,而3D、2D FVF模式圖像在獲取較多結節信息同時又引入大量與結節無關的干擾組織,2D MVF模式圖像則可以在兩者間取得一個平衡。
2.1.2.2 標簽數據制作
本研究將一個結節多個惡性評分的均值作為結節的標簽。根據LUNA16提供的結節中心坐標、直徑以及患者ID號,從LIDC-IDRI的標注文件中尋找該結節的惡性評分。由于同一個患者的CT掃描是由三或四名放射科醫師共同進行標注,因此理論上可以為每個結節找到三或四個惡性評分。得到結節相應的惡性評分后,將這多個評分求均值后四舍五入取整作為其最終得分。由于LUNA16中的結節中心坐標是根據LIDC標注信息重新計算而來,因此會有少許的偏差,最終為1 183個結節找到了惡性評分。
最后,根據結節的惡性程度評分,將它們標記為M1、M2、M3、M4、M5共五組,不同組分別有88、266、499、282、48個結節,共計1 183個結節。考慮到數據的平衡性,設計了M12 vs M45的分類任務,即把惡性評分小于3分的記為“良性”,大于3分的記為“惡性”。這樣每一種模式(四種模式)、每一種尺度(三種尺度)圖像下都包含354例“良性”樣本,330例“惡性”樣本,共684例樣本。
2.1.3 數據增強
數據增強(Data Augmentation)是一種有效防止模型過擬合的技術。一方面它可以增加模型泛化能力,另一方面可以為數據添加噪聲,增加模型魯棒性[24]。本次實驗數據僅有684例樣本,作為對比,數據庫MNIST[25]擁有7萬張手寫數字圖像,著名的VGG[26]、GoogleNet[27]等模型則是在百萬級自然圖像數據庫ImageNet[28]上訓練的。因此要訓練一個性能良好的神經網絡,龐大的數據是必要的支撐。數據增強是一種可以將數據量在一定程度上進行擴增的技術,主要方法包括對原始圖像進行旋轉、翻轉、平移、添加噪聲、裁剪等操作。
本研究所采取的數據增強方式不同于傳統的靜態的數據增強方式,即先將圖像進行變換、保存后,再在模型訓練時將其輸入模型,本研究所采取的數據增強方式是一種實時的隨機的增強方式,即在圖像輸入模型后,它會經過多個圖像變換“關卡”。對于2D圖像而言,這些“關卡”包括上下翻轉,左右翻轉,0°~360°的隨機角度旋轉,每種數據變換“關卡”都有50%概率發生。增強后的數據量與訓練Epoch有關,理論上同一張圖片在每一個Epoch都會不一樣,本研究訓練集原始數據有548例,驗證集有136例,若訓練Epoch設置為200,那么增強后訓練集數據量為548×200=109 600,若訓練Epoch設置為300,那么增強后訓練集數據量為548×300=164 400。需要注意的是,增強后的數據集中存在較多相似性很強的樣本,如對于旋轉角度為90°和91°的樣本,其差異其實不大。
而對于3D模式圖像,只對其進行隨機上下翻轉、隨機左右翻轉以及三個軸方向上90°、180°、270°的隨機旋轉。由于3D模式圖像旋轉角度上的限制,其增強的倍數最多為2×2×23×3=96倍(上下翻轉×左右翻轉×三種不同角度旋轉×三個軸方向),即增強后樣本量理論上為548×96=52 608。對于驗證集數據不作變換。
為了比較三種不同尺度、四種不同模式肺結節圖像對分類性能的影響,搭建了不同的卷積神經網絡模型。
2.2.1 2D CNN模型
針對16×16、25×25、36×36三種不同尺度的2D圖像,構建了三個2D CNN,如圖5。在Input(n×n)中,n×n表示輸入圖像的大小;Conv2D(n,m×m)代表一個卷積層,其中n表示卷積特征圖的通道數,n×n表示卷積核的大小,所有卷積層的默認步長為1×1;Maxpooling(n,m)表示池化層,n表示池化核大小為n×n,m表示步長為m×m;Flatten()表示將特征圖平鋪為一個一維向量;Dropout(x)表示隨機丟棄,是一種正則化技術,防止模型過擬合,x表示丟棄的比例;Softmax是一個分類器函數,它可以得出樣本屬于每一類別的概率。參數配置圖右邊Output表示數據向前傳播時,經過每一層網絡過后的張量維度,如(n×n,m)中,n×n表示特征圖的大小,m表示特征圖的通道數。
2.2.2 3D CNN模型
針對16×16×16、25×25×25、36×36×36三種不同尺度的3D圖像,構建了3個3D CNN,如圖6。在Input(n×n×n)中,n×n×n表示輸入的3D結節的大小;Conv3D(n,m×m×m)代表一個卷積層,其中n表示卷積特征圖的通道數,m×m×m表示卷積核的大小,所有卷積層的默認步長為1×1×1;Maxpooling(n,m)表示池化層,n表示池化核大小為n×n×n,m表示步長為m×m×m;Flatten()、Dropout(x)、Softmax的含義同2.2.1節所述。Output下面的式子同樣表示數據向前傳播時,經過每一層網絡過后的張量維度,如(n×n×n,m)中,n×n×n表示特征圖的大小,m表示特征圖的通道數。

圖5 2D CNN模型配置

圖6 3D CNN模型配置
2.2.3 2D FVF-CNN模型
2D FVF-CNN模型的輸入具有64×64、125×125、216×216三種尺度,因此也分別構建了三個不同的卷積神經網絡,參數設置如圖7,各個符號及數字的含義同2.2.1節所述。
2.2.4 2D MVF-CNN模型
2D MVF-CNN模型的輸入同樣具有三種不同的尺度,同樣構建了三個不同的卷積神經網絡,其參數設置如圖8,其中的符號及數字含義同2.2.1節。
由于本研究的主要目的是探討不同模式、不同尺度圖像對肺結節分類表現的影響,因此未使用諸如VGG、GoogleNet等復雜模型,所構建的模型都是由卷積層和池化層交替連接而成的2D或3D卷積神經網絡。各個模型之間最主要的區別是模型深度,針對不同尺度的圖像,模型深度不同,圖像尺寸越大,模型深度就越深;其他方面區別主要包括卷積層通道數、卷積核大小等,在不同模型調參過程中它們有略微調整。
構建好模型后,需要對其進行訓練。所有的模型都對其進行5倍交叉驗證(5-fold cross validation),為了減少結果的變異性,對每個模型都進行了5次5倍交叉驗證,即最終模型的評估指標是由25次驗證后取均值得到的。所有模型訓練的Batch size設置為32,Epoch設置為200或300,使用的優化器為Rmsprop(Root Mean Square Prop),學習率都設置為0.001。模型的搭建使用Tensorflow版本的Keras,模型的訓練是在NVIDIA GTX 2080 Ti顯卡上運行。

圖8 MVF-CNN模型配置
模型的評價指標采用了準確率(Accuracy,ACC)、敏感性(Sensitivity,SENS)、特異性(Specificity,SPEC)、ROC曲線下面積(Area Under the Curve,AUC)四個指標,相關計算公式如下所示:

其中TP、TN、FP、FN含義如表1所示。

表1 二分類混淆矩陣
通過對LIDC-IDRI和LUNA16數據集的預處理,獲得了三種尺度四種不同模式的肺結節圖像,圖9展示了同一個肺結節在不同尺度及不同模式下的視圖。針對不同尺度及不同類型的肺結節圖像構建了不同的卷積神經網絡模型,所有模型的訓練結果如表2所示。

圖9 三種尺度下的四類肺結節
3.2.1 2D CNN與3D CNN模型結果比較
圖10對比了2D CNN與3D CNN模型在不同尺度下的分類表現。2D和3D肺結節在不同尺度下的視圖如圖9所示。從圖10可以看到,在16和25尺度下,2D CNN和3D CNN的分類表現差異不大,而在36尺度下時,3D CNN的分類表現明顯低于2D CNN。盡管3D CNN能利用肺結節的全局上下文信息,但是在本次實驗結果中可以發現,3D CNN的性能并不一定優于2D CNN。其原因可能是3D肺結節引入了較多的諸如血管、骨質等非結節組織,對肺結節的分類造成了干擾。對比不同尺度下2D CNN和3D CNN的分類表現,在16、25尺度下的分類表現明顯優于在36尺度下的表現,其原因可能是因為在36尺度下的圖像引入了更多的無關組織。

圖10 2D CNN與3D CNN模型結果比較
3.2.2 2D CNN與FVF-CNN模型結果比較
圖11對比了2D CNN和FVF-CNN模型的結果,2D和2D FVF模式肺結節圖像在不同尺度下的視圖如圖9所示。
對比兩種不同模式圖像下的差異,從圖11中可以看到,在16和25兩種尺度下,2D CNN的分類表現略微優于FVF-CNN,而在36尺度下時,2D CNN的表現明顯好于FVF-CNN。其原因與3D肺結節類似,2D FVF在獲得更多肺結節信息的同時,也納入更多的干擾物質,尤其是在截取較大尺度肺結節時。對比不同尺度下的分類表現,在16、25兩種尺度下時,引入的干擾組織較少,此時2D CNN和FVF-CNN在兩尺度下的分類表現差異不大,而在大尺度圖像下時,干擾物質大量引入,造成分類性能明顯下降,FVF模式的圖像尤其明顯。

表2 三種尺度四種模式下所有模型的訓練結果

圖11 2D CNN與FVF-CNN模型結果比較
3.2.3 2D CNN與MVF-CNN模型結果比較
圖12對比了2D CNN和MVF-CNN在不同尺度下的分類表現。對比不同模式圖像下的分類表現,從圖12可以看到,在三種尺度下MVF-CNN的性能都要優于2D CNN,這可能是因為2D MVF視圖可以表示更多的結節信息,但又不會像3D或FVF模型圖像那樣引入大量的干擾組織。對比不同尺度下的分類表現,可以發現,在16和25尺度下兩種模型的表現都要優于在36尺度下的分類表現,其原因也可能是因為在大尺度結節下引入更多干擾組織所致。

圖12 2D CNN與MVF-CNN模型結果比較
3.2.4 3D CNN和FVF-CNN模型結果比較
圖13比較了3D CNN和FVF-CNN的分類表現。對比兩種模式圖像下的分類表現,從圖13可以看到,在16、25尺度下,3D CNN的分類表現略微優于FVF-CNN,在36尺度下,3D CNN的分類表現明顯優于FVF-CNN。分析其原因,盡管兩種模式的圖像都盡可能展示了肺結節的信息,但是3D模式的圖像可以捕獲結節的空間上下文信息,這一點是2D FVF所不具備的,這可能是3D CNN的分類表現優于FVF-CNN的原因。對比不同尺度下的表現,可以看到在36尺度下,兩種模型的表現都出現了下降。

圖13 3D CNN與FVF-CNN模型結果比較
3.2.5 3D CNN和MVF-CNN模型結果比較

圖14 3D CNN與MVF-CNN模型結果比較
圖14比較了3D CNN和MVF-CNN在不同尺度下的分類表現。對比不同模式圖像的分類表現差異,從圖14中可以看到,在三種尺度下,MVF-CNN的分類表現都要優于3D CNN,在36尺度下兩者差距尤為明顯,其原因是3D模式結節圖像比2D MVF圖像含括更多的非結節組織,這可以從圖9中直觀地觀察到,尤其在36尺度下時,這些干擾組織大量引入,使得其分類性能明顯低于MVF-CNN。對比不同尺度下模型分類表現的差異,同樣可以看到在36尺度下的分類表現要比在16、25尺度下較差。
3.2.6 FVF-CNN和MVF-CNN模型結果比較
圖15比較了FVF-CNN和MVF-CNN的在不同尺度圖像下的單分類表現。對比不同模式圖像的差異,從圖15中可以看到,在三種尺度下,FVF-CNN的各項指標均低于MVF-CNN,在36尺度時這種差異最大。其原因是2D FVF模式圖像中大量的非結節組織對模型造成了干擾,而在36尺度下時這些干擾組織更多。對比兩個模型在不同尺度下的表現,從圖15中可以看到,仍然是在36尺度下兩個模型的分類表現最差。

圖15 FVF-CNN與MVF-CNN模型結果比較
從表2中可以發現,在36尺度2D FVF模式圖像下的肺結分類表現最差,因此想利用類激活圖[29](Class Activation Map,CAM)來觀察這些誤判的圖像是如何影響模型判斷的。類激活圖是與特定輸出類別相關的二維分數網格,它表示圖像中每個位置對該類別的重要程度,具體實現方式參考文獻[29]。圖16展示了被錯誤判定為“惡性”(FP)及被正確判定為“惡性”(TP)的2D FVF原始圖像及其類激活圖,類激活圖中越趨于紅色的區域表示該區域對“惡性”的激活強度越高。從圖16中可以觀察到,容易被錯誤判定為“惡性”的結節(FP)主要是一些小結節,此時周圍的組織容易對其造成干擾,而較大的結節不容易受這些組織的干擾,模型能準確對結節區域作出響應。因此要降低模型誤判的概率,減少結節周圍的干擾組織是一個關鍵,而不僅僅是針對深度學習模型進行改造。

圖16 假陽性結節與真陽性結節的類激活圖
為進一步驗證本研究所提出的2D MVF的性能,將MVF-CNN與其他研究的模型進行了對比。這些研究使用的數據集都是LIDC-IDRI,且同樣采用了M12 vs M45的分類策略,即把結節惡性評分小于3分的記為“良性”,大于3分的記為“惡性”,對比結果如表3。其中,Dhara等人[30]采用的是影像組學方法,他們通過分析結節的紋理和形狀特征來鑒別良惡性結節;Xie等人[31]將結節的紋理、形狀特征以及CNN提取的抽象特征進行融合來對肺結節進行分類;Shen等人[16]是利用卷積神經網絡提取同一結節三種不同尺度的抽象特征,然后將這些特征融合后輸入到一個SVM或者RF分類器來對結節進行分類;Han等人[32]則是通過分析結節的3D紋理特征,然后將其輸入到一個SVM分類器來進行分類。從表3可以看到,在三種不同尺寸大小的結節下,MVFCNN模型都取得了非常有競爭力的表現。

表3 與其他肺結節分類研究結果比較
探討了不同尺度不同模式肺結節圖像對結節分類的影響,并提出了一種2D多視圖融合的肺結節表示方式。通過對比研究發現,肺結節的呈現方式對模型有很大的影響,對于各種數據模式,對比三種不同尺度,36尺度下的分類表現最差,16、25尺度下的分類表現相當,其原因是在較大尺度時引入的干擾物質所致。對比不同模式圖像的差異,無論在何種尺度下,2D MVF模式下的分類表現都最優,其原因是它比單純地截取一張2D圖像提供更多的肺結節信息,同時又不會像3D、2D FVF模式圖像那樣引入大量與肺結節無關的物質。對于2D、3D、2D FVF三種模式數據,在16、25尺度下時它們的分類表現相當,在36尺度下時三者差異較大,2D模式擁有最好的分類表現,其次是3D,最后是2D FVF,其原因是在大尺度下3D、2D FVF引入大量血管、骨質等干擾組織所致,而3D優于2D FVF是因為3D模式的數據可以表示肺結節空間上下文信息的能力。
當前,基于卷積神經網絡的深度學習模型廣泛應用于肺結節分類任務當中,但是絕大多數這方面的研究都關注于對模型的改進或改造,很少有研究對CT圖像的處理方式進行探討,Yan等人[33]也僅對2D和3D模式進行了比較。深度學習出現之前,特征工程顯得非常重要,因為經典的淺層算法沒有足夠大的假設空間來學習有用的表示,因此將數據呈現給算法的方式對解決問題至關重要。而深度卷積神經網絡出現后,看似大部分特征工程都是不需要的,因為它可以從原始圖像中自動提取有用的特征,但這并不意味著特征工程不重要,因為良好的特征工程可以使模型用更少的數據更容易地學習到數據中的規律。
因此,本文沒有對卷積神經網絡模型的結構進行過多的探討,而是重點針對不同尺度及不同模式的肺結節圖像對模型分類結果的影響進行了深入分析,旨在說明在深度學習中,特征工程仍然具有其重要意義,良好的數據表示是模型學習其中規律的關鍵,而不僅僅關注模型的結構。