戴正行,胡春洪,王希明,陳琦,夏菁,姚柳,劉穩
肺癌是危害人類生命健康的最常見惡性腫瘤之一。早期疾病篩查是降低肺癌死亡率的重要手段。計算機輔助診斷系統(computer aided diagnosis,CAD)是近年來應用于肺結節篩查的新技術應用,可輔助放射科醫師更好地檢出微小肺結節,在一定程度上可避免對可疑肺結節的漏診[1-3]。隨著人工智能(artificial intelligence,AI)技術的進步,通過深度學習算法能夠提取影像圖像上肺結節的主要特征,對病變性質等進行預測[4-5]。本文旨在探討基于DenseNet網絡深度學習算法的人工智能診斷系統對肺部腫瘤的診斷價值。
回顧性分析2015年1月-2017年12月在蘇州大學附屬第一醫院就診的510例孤立性肺結節患者的病例資料。所有患者于術前行CT掃描,并經手術切除(309例)或穿刺活檢(201例)獲得病理診斷結果。
入組標準:①肺內孤立性結節,不伴有肺不張、胸腔積液等表現;②CT檢查前未接受過穿刺活檢和手術、放療等相關治療;③CT檢查后一個月內行CT引導下穿刺活檢或手術,獲得明確的病理診斷;④有完整的臨床病歷記錄和CT影像資料。
排除標準:①缺乏層厚1.00及以下的薄層CT圖像;②CT圖像上存在影響結節觀察的運動偽影或金屬偽影等。
所納入的510例中男233例,女277例;年齡20~82歲,平均(58.29±10.71)歲;良性病變160例,惡性病變350例。
所有患者行胸部CT平掃。使用GE Lightspeed 16層螺旋CT機、Siemens Somatom Sensation 64層螺旋CT機和Siemens Somatom Definition雙源CT機進行掃描。掃描范圍自肺尖至肺底水平,掃描參數:層厚5.0~7.0 mm,層距8.0 mm,管電壓120 kV,管電流110~450 mAs。掃描結束后對病灶部位行肺窗薄層CT重建,層厚0.75~1.00 mm。
對510例患者肺結節CT圖像序列提取結節2D圖像。采用“取標注點最相近五層”的方法切割CT圖像,以候選位置為中心獲取圖像塊,提取橫軸面、矢狀面和冠狀面圖像。考慮到本研究中大部分結節的大小,選擇每個圖像塊感受野大小為64像素×64像素。截取CT值為-1000~400 HU,并將它們歸一化到0~1,然后減去平均灰度值,來適應網絡。共獲得樣本7570個,包括惡性樣本5200個,良性樣本2370個。隨機選取2370個惡性樣本,與2370個良性樣本一起作為分析數據集,并分為2組數據:訓練數據(包括惡性樣本2133個、良性樣本2133個)和測試數據(惡性樣本237個,良性樣本237個),使用DenseNet-BC網絡,通過十折隨機實驗對所有樣本進行訓練及測試,得出510例肺結節的良惡性判別結果。AI組應用DenseNet網絡的相關參數見表1。

表2 三組中對510例肺結節的診斷結果及組間比較

表3 三個診斷組對直徑≤10mm結節的診斷結果及組間比較

表1 DenseNet-BC網絡參數
采用2種方式對圖像進行分析和診斷。
①醫師組采用單純人工閱片(artificial reading,AR)方式。由2位從事胸部CT診斷工作滿2年的住院醫師組成初級醫師組(AR1組)、2位從事胸部CT診斷工作滿5年的醫師組成高級醫師組(AR2組),分別采用雙盲法對510例患者的胸部CT圖像進行獨立診斷,如組內兩位醫師的診斷有分歧,則經過討論達成一致意見。醫師組通過肺結節的影像特征來進行良、惡性的判斷,主要觀察征象包括結節大小、密度、形態、邊緣以及含氣支氣管征等。
②AI組(深度學習):將510例患者的肺結節CT圖像輸入至由中國科學院蘇州生物醫學工程技術研究所(蘇州醫工所)基于DenseNet網絡開發的AI系統中,通過網絡學習自動提取結節特征,并通過特征對結節進行分類歸納,最終獲得對肺結節良、惡性的判斷。
使用SPSS17.0軟件進行統計分析。計數資料在統計分析之前,對所有數據進行加權,判斷數據是否滿足統計檢驗中對樣本量的要求。若滿足樣本量大、任一預測頻數>5,采用卡方檢驗進行組間比較;若不滿足上述要求(如預測頻數<5),則采用Fisher精確檢驗。分析醫師組(初級、高級)及AI組對510例良、惡性肺結節的診斷敏感度、特異度和符合率等并進行比較。以P<0.05為差異具有統計學意義。
初級、高級醫師組和AI組對510例肺結節的診斷結果及組間比較見表2。AI組中僅診斷敏感度與高級醫師組間的差異無統計學意義(P>0.05),其它診斷指標值均高于2個醫師組,差異均具有統計學意義(P<0.05)。
根據肺結節的直徑(D),將510個病灶進一步分為3組:A組175例,D≤10 mm;B組202例,10 mm
初級、高級醫師組和AI組對直徑≤10 mm結節的診斷結果及組間比較見表3。三組間兩兩比較,敏感度和符合率的差異均有統計學意義(P<0.05)。高級醫師組的特異度低于低級醫師組(P<0.05)。初級醫師組與AI組的診斷符合率相近(P>0.05)。
直徑≤10 mm的肺結節缺乏較典型的影像學表現,以下3個病例在初級醫師組和高級醫師組中均診斷為良性,AI組不但準確診斷為惡性結節,并分別精確到原位癌、微浸潤性癌及浸潤性癌的診斷(圖1a~c)。
三個診斷組對結節直徑>10 mm且≤20 mm的診斷結果及組間比較見表4。AI組除了診斷敏感度與高級醫師組之間無明顯差異(P>0.05)之外,其它指標均高于高級醫師組和初級醫師組(P<0.05)。高級醫師組的診斷特異度稍高于低級醫師組(51.67% vs. 43.33%),但差異無統計學意義(P>0.05);而敏感度及符合率均顯著高于初級醫師組(P<0.05)。

表4 三個診斷組10mm<直徑≤20mm結節的診斷結果及組間比較

表5 三組對直徑>20mm肺結節的診斷結果及組間比較
三個診斷組對直徑>20 mm肺結節的診斷結果及組間比較見表5。直徑>20 mm的肺惡性結節具有較典型的影像學表現(圖2a~c),3組的診斷敏感度比較接近,三組間兩兩比較,差異均無統計學意義(P>0.05)。在診斷特異度及符合率方面,均表現為AI組>高級醫師組>初級醫師組,且組間兩兩比較,差異均有統計學意義(P<0.05)。
肺結節是指肺內直徑≤3 cm的類圓形或不規則形病灶,影像學表現為密度增高影,邊界清晰或不清晰[6]。根據肺結節的密度,可分為實性、亞實性和磨玻璃密度結節三類。不同密度的肺結節,其為惡性的概率有所不同,其中以亞實性結節為惡性的概率最高。目前對肺結節的檢出主要采用影像學手段(以胸部CT為主)。在人工閱片中,放射科醫師根據自己的理論知識及實踐學習對肺結節進行診斷,當常見的惡性征象(如分葉、毛刺、胸膜牽拉凹陷、含氣支氣管征和小泡征、偏心性厚壁空洞等)出現時,肺結節可被診斷為惡性病變[7-8]。然而,對于直徑較小、上述惡性征象未見明確顯示的肺結節,判斷其良惡性的難度加大,常出現漏診和誤診。雖然人工智能技術(DenseNet網絡深度學習)對于CT圖像的解讀也是在對既往病例進行對照、學習的基礎之上,但它可以在短時間內對大量數據進行處理和學習,并能夠對人眼所不能觀察到的影像征象進行學習。本研究中單純人工閱片(影像醫師)對160例良性肺結節的診斷符合率不足60%(分別為初級醫師56.25%、高級醫師58.75%),對于邊緣清楚、邊界光滑、密度均勻等具有典型良性表現的結節的診斷可能沒有問題,但對于一些具有毛刺、分葉等征象的結節,人工閱片方式有一定的局限性,尤其是對于直徑≤10 mm的惡性肺結節的診斷準確率不高(分別為初級醫師17.31%,高級醫師組為78.85%)。筆者認為導致上述結果的主要原因是由于細小的惡性結節缺乏特征性影像表現,定性診斷存在一定難度,并且人工閱片依賴于診斷者的經驗等主觀因素,而人工智能技術不僅可以在短時間內通過大量學習來自動總結分析肺結節的判斷特征,相對于人工閱片方式而言更為客觀,因此對不同直徑結節的良、惡性判斷均能達到較高的準確性。本研究結果顯示,在10 mm<直徑≤20 mm和直徑>20 mm兩組結節中,高級醫師組與AI組診斷敏感度的差異無統計學意義(P>0.05)。筆者認為主要原因是隨著結節的增大,惡性結節的影像征象趨向明顯、典型,較初級醫師更有經驗的高級醫師的檢出敏感度增高,而AI組同樣具有良好的診斷敏感度。雖然高級醫師組對直徑>20 mm結節的診斷符合率與AI組間的差異無統計學意義(P>0.05),但其特異度不及AI組,可見AI組在對結節良惡性的判斷上是優于醫師組的。基于上述結果,我們可以推演,AI在大范圍的肺部CT體檢中較人工閱片方式具有更大的優勢,可以減少假陽性率。目前,人工智能已成為國內外醫療領域的研究熱點。2017年,劉士遠團隊的一項研究結果顯示,基于深度學習的人工智能技術較高年資醫師能更加有效地檢出肺部的亞實性結節,而且耗時更短(僅17 s),遠低于影像醫師組的50 min 24 s[9]。Setio等[10]應用深度學習卷積網絡對提取的888例肺結節的CT圖像進行分類判斷,其敏感度高達85%。Cicero等[11]對35000多張胸部X線平片應用深度學習卷積網絡進行分析,結果顯示AI技術對肺部常見病變(如肺實變、氣胸和胸腔積液等)均顯示出較高的敏感度和特異度(均達到70%以上),表現出良好的臨床應用潛能。
總而言之,應用基于深度學習的人工智能技術可以有效地輔助影像醫師對肺結節進行更加準確、可靠的診斷,縮短診斷時間,提高影像醫師的工作效率。