李 莉 喬 璐 張浩洋
(東北林業(yè)大學(xué)軟件工程系 黑龍江 哈爾濱 150000)
據(jù)世界衛(wèi)生組織(WHO)報(bào)道,肺癌是全球范圍內(nèi)發(fā)病率及死亡率最高的惡性腫瘤之一,近年來(lái)仍有逐漸上升的趨勢(shì),對(duì)人類健康及生命安全產(chǎn)生極大威脅。肺結(jié)節(jié)是肺癌的早期表現(xiàn)形式,在肺部低劑量胸部電子計(jì)算機(jī)斷層掃描(CT)影像中大致呈現(xiàn)為直徑在3~30 mm之間、邊部多呈分葉狀的類球形病灶,且肺結(jié)節(jié)具有形態(tài)復(fù)雜、分布位置不確定、易于其他組織粘連、臨床中無(wú)特異性的特點(diǎn),故臨床中有時(shí)很難作出準(zhǔn)確判斷。肺癌計(jì)算機(jī)輔助診斷[1-2](Computer Aided Diagnosis,CAD)系統(tǒng)的篩選結(jié)果可以輔助醫(yī)生對(duì)肺癌早期病灶進(jìn)行篩查,大幅度降低其發(fā)展成肺癌的可能性,從而有效降低患者的死亡率。但在一定程度上肺癌CAD系統(tǒng)存在誤診率和假陽(yáng)率高的問(wèn)題。因此,如何使該系統(tǒng)具有較低的誤診率和假陽(yáng)率一直是國(guó)內(nèi)外研究的重點(diǎn)。
早期的肺結(jié)節(jié)檢測(cè)方式主要是根據(jù)不同的組織設(shè)定不同的閾值來(lái)達(dá)到分割結(jié)節(jié)的目的[3]。這種方式容易受如CT影像質(zhì)量等因素的影響,很難達(dá)到準(zhǔn)確分割。隨后,研究人員手動(dòng)構(gòu)建肺結(jié)節(jié)的幾何、紋理以及位置等各類征象信息,使用分類器來(lái)達(dá)到檢測(cè)肺結(jié)節(jié)的目的[4-5]。但醫(yī)學(xué)影像中器官對(duì)射線的吸收程度是通過(guò)灰度加以反映,其特征提取操作十分困難[6]。因此,特征的選擇、人工構(gòu)建征象、分類器的選擇及訓(xùn)練工作量十分龐大,很難完成。隨著深度學(xué)習(xí)的廣泛應(yīng)用,將神經(jīng)網(wǎng)絡(luò)應(yīng)用到醫(yī)學(xué)圖像檢測(cè)中使得特征的選擇與提取變得容易[7-8],但若僅依靠CT影像中的平面征象信息無(wú)法充分了解肺結(jié)節(jié)的整體結(jié)構(gòu),易與其他組織產(chǎn)生混淆導(dǎo)致檢測(cè)結(jié)果并不理想。
針對(duì)上述問(wèn)題并鑒于神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像檢測(cè)領(lǐng)域的顯著成效,本文提出一種基于深度學(xué)習(xí)的肺結(jié)節(jié)自動(dòng)檢測(cè)算法。一方面,設(shè)計(jì)多尺度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行端到端的監(jiān)督式訓(xùn)練,自動(dòng)抽取并識(shí)別肺結(jié)節(jié)的各類醫(yī)學(xué)特征及圖像學(xué)特征,降低開(kāi)發(fā)人員的工作量。CNN是加強(qiáng)的神經(jīng)網(wǎng)絡(luò),不僅可省去圖像預(yù)處理、特征提取等復(fù)雜過(guò)程,在分類性能與效果上也遠(yuǎn)超過(guò)傳統(tǒng)分類算法,在計(jì)算機(jī)視覺(jué)領(lǐng)域成效卓然[9-12]。另一方面,將肺結(jié)節(jié)在CT影像中呈現(xiàn)的征象信息及其空間形狀信息共同作為判定病灶的依據(jù),避免了由于在某些橫截面上結(jié)節(jié)與血管的形狀均呈現(xiàn)類圓形、閾值類似產(chǎn)生無(wú)法準(zhǔn)確判斷的問(wèn)題。通過(guò)肺結(jié)節(jié)檢測(cè)實(shí)驗(yàn)證實(shí),使用本文算法有效降低了假陽(yáng)性,排除了血管的干擾,減少了計(jì)算量,達(dá)到了肺結(jié)節(jié)準(zhǔn)確識(shí)別的目標(biāo),相比于以往的醫(yī)學(xué)圖像檢測(cè)算法具有更高的效率和精度。
單個(gè)患者一次CT斷層掃描影像序列可高達(dá)上百幅,單靠影像科醫(yī)生肉眼觀察工作量巨大,極易造成因醫(yī)生水平差異、主觀意愿導(dǎo)致的錯(cuò)檢漏檢。本文現(xiàn)構(gòu)建肺結(jié)節(jié)自動(dòng)檢測(cè)算法,主要分為兩個(gè)步驟。步驟一,候選結(jié)節(jié)區(qū)域獲取。使用閾值法、區(qū)域增長(zhǎng)算法及形態(tài)學(xué)處理的方式獲得候選結(jié)節(jié)區(qū)域(Region Of Interest,ROI)。步驟二,假陽(yáng)性去除。使用多尺度輸入的Inception肺結(jié)節(jié)檢測(cè)模型及AIP投影對(duì)候選結(jié)節(jié)進(jìn)行綜合判斷從而確定病灶區(qū)域。算法流程圖如圖1所示。

圖1 肺結(jié)節(jié)檢測(cè)流程圖
肺結(jié)節(jié)檢測(cè)的首要步驟是盡可能在保證高敏感度(SEN)的前提下獲得候選結(jié)節(jié)區(qū)域,為后續(xù)檢測(cè)打下良好基礎(chǔ)。算法綜合使用閾值法、區(qū)域增長(zhǎng)算法、形態(tài)學(xué)運(yùn)算等操作對(duì)原始輸入圖像進(jìn)行處理。
肺實(shí)質(zhì)主要包括與肺內(nèi)空氣組織接觸的腔隙與管壁。從組織結(jié)構(gòu)上看,肺部CT影像中絕大部分為氣體組織,只有很小一部分由血管及肺結(jié)節(jié)等肺實(shí)質(zhì)區(qū)域組成。從灰度角度看,CT影像中氣體組織與血管和肺結(jié)節(jié)等肺實(shí)質(zhì)區(qū)域存在明顯差異。肺部灰度分布如圖2所示。現(xiàn)使用閾值法將氣體組織與血管、氣管、肺結(jié)節(jié)區(qū)等肺實(shí)質(zhì)區(qū)域分開(kāi),獲得肺實(shí)質(zhì)區(qū)域的初始輪廓。

圖2 肺內(nèi)灰度分布圖
使用閾值分割法可將胸腔與肺實(shí)質(zhì)區(qū)域進(jìn)行有效分割,且操作簡(jiǎn)單。對(duì)肺部初始輪廓圖使用區(qū)域增長(zhǎng)算法可將肺部背景完全剔除實(shí)現(xiàn)肺實(shí)質(zhì)的完整分割。區(qū)域增長(zhǎng)算法操作簡(jiǎn)單,其核心問(wèn)題是種子點(diǎn)的選取,算法采用的種子點(diǎn)選取思想為在肺部CT影像的左右肺中心點(diǎn)各選取一個(gè)種子點(diǎn),實(shí)現(xiàn)中心點(diǎn)自動(dòng)區(qū)域生長(zhǎng)[13]。采用此種方式可以避免人工選取的不確定性,在提高算法速度的同時(shí)提升分割效率。算法流程如圖3所示。
經(jīng)上述處理后肺實(shí)質(zhì)區(qū)域已被成功提取,但在區(qū)域內(nèi)部出現(xiàn)很多由于肺結(jié)節(jié)和血管引起的空洞,肺部邊緣區(qū)域出現(xiàn)了大量毛刺及間斷,以及由于容積效應(yīng)將原本分割的區(qū)域連接起來(lái)等問(wèn)題。故隨后采用形態(tài)學(xué)方法中的閉運(yùn)算進(jìn)行圖像處理,填平肺實(shí)質(zhì)區(qū)域中的小孔,彌合小裂縫,消除肺部邊緣區(qū)域孤立的小點(diǎn)、毛刺及小橋。肺實(shí)質(zhì)的準(zhǔn)確提取初步剔除了肺部無(wú)關(guān)組織的干擾進(jìn)而獲得候選結(jié)節(jié)區(qū)域,為后續(xù)肺結(jié)節(jié)檢測(cè)奠定了良好的基礎(chǔ)。
步驟一中完成了對(duì)候選結(jié)節(jié)區(qū)域的提取,隨后對(duì)候選結(jié)節(jié)進(jìn)行假陽(yáng)性去除。主要分為兩步:首先設(shè)計(jì)多尺度輸入的Inception模型利用肺結(jié)節(jié)的征象信息進(jìn)行預(yù)測(cè)并將結(jié)果進(jìn)行平均;隨后使用AIP投影利用肺結(jié)節(jié)的三維信息進(jìn)行最終判斷,確定病灶區(qū)域。
根據(jù)式(3),利用最小二乘法擬合得到平面方程的系數(shù)A、B、C和D,進(jìn)而可得出空間圓所在空間的平面方程。將全部點(diǎn)云數(shù)據(jù)(xi,yi,zi)投影到平面Ax+By+Cz+D=0上,得到投影點(diǎn)(xi′,yi′,zi′),各點(diǎn)投影公式為:
神經(jīng)網(wǎng)絡(luò)模仿人腦運(yùn)行方式,一直是國(guó)內(nèi)外各路學(xué)者研究的重點(diǎn),在圖像識(shí)別及分類領(lǐng)域上的效果遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)算法。通過(guò)設(shè)定神經(jīng)網(wǎng)絡(luò)合理的輸入、輸出和隱藏層,可以使構(gòu)建的網(wǎng)絡(luò)具備很好的自動(dòng)學(xué)習(xí)能力,自動(dòng)提取和整合圖像特征,為獲得最優(yōu)的效果進(jìn)行不斷的反饋優(yōu)化。
本文使用由美國(guó)國(guó)家癌癥研究會(huì)提供的公開(kāi)肺部圖像數(shù)據(jù)庫(kù)(Lung Image Database Consortium,LIDC-IDRI)[14]。目前,此數(shù)據(jù)庫(kù)下共包含1 018個(gè)肺結(jié)節(jié)病人的CT影像,每個(gè)病人的CT影像切片都高達(dá)上百幅,切片均是大小為512×512的標(biāo)準(zhǔn)DICOM格式,且影像數(shù)據(jù)資料處于持續(xù)增加的狀態(tài)。現(xiàn)選擇CT層厚大于2.5 mm的病人影像序列,根據(jù)LIDC-IDRI數(shù)據(jù)集的XML注釋文檔中標(biāo)注的肺結(jié)節(jié)位置信息解析出訓(xùn)練數(shù)據(jù)。由于肺結(jié)節(jié)在CT影像中呈現(xiàn)出的大小為3~30 mm類球形病灶,CT影像像素間距大致在0.50~1.00之間。因此,本節(jié)設(shè)計(jì)以64×64及32×32的包含肺結(jié)節(jié)影像塊作為模型輸入數(shù)據(jù),如圖4所示。采用這種方式具有兩點(diǎn)優(yōu)勢(shì):對(duì)于直徑較大的肺結(jié)節(jié)可以保證其全部信息被充分提取;對(duì)于直徑較小的肺結(jié)節(jié)則不會(huì)讓模型學(xué)習(xí)到太多無(wú)用信息影響最終判斷。

圖4 輸入圖像樣例
模型訓(xùn)練時(shí)使用圖4所示的兩種類型數(shù)據(jù)分別基于Inception_v3的權(quán)值及參數(shù)訓(xùn)練肺結(jié)節(jié)檢測(cè)模型用于提取并識(shí)別肺結(jié)節(jié)的各種特征使其具備識(shí)別病灶區(qū)域及非病灶區(qū)域的能力,從而達(dá)到區(qū)分候選結(jié)節(jié)的目的。模型中不需要手動(dòng)確定卷積核大小以及決定是否建立卷積層及池化層,網(wǎng)絡(luò)將自己學(xué)習(xí)它需要什么樣的參數(shù),使用何種卷積核及是否需要池化。模型中具有1×1、3×3及5×5的卷積核,通過(guò)使用不同尺度的卷積核提取圖像不同尺度的特征并將其融合從而達(dá)到更好的圖像表征。模型測(cè)試時(shí)以步驟一中候選結(jié)節(jié)區(qū)域質(zhì)心為中心截取大小為64×64及32×32的固定區(qū)域,將其輸入到檢測(cè)模型中獲得對(duì)應(yīng)的概率輸出,對(duì)概率結(jié)果求均值即為初始檢測(cè)結(jié)果。
模型中的卷積層也稱特征提取層,負(fù)責(zé)檢測(cè)其輸入圖像的局部特征。一幅圖像經(jīng)過(guò)一次卷積操作并通過(guò)激活函數(shù)后即可得到一幅特征圖。當(dāng)輸入圖像大小為64×64時(shí),某卷積層由32個(gè)5×5的濾波器組成,該輸入圖像將與每一個(gè)濾波器進(jìn)行卷積計(jì)算,得到32幅大小為60×60的特征圖。其卷積操作示意圖見(jiàn)圖5,第n層的第j個(gè)特征圖的計(jì)算公式如下:
(1)
式中:f為激勵(lì)函數(shù),M代表輸入特征圖的集合,n代表當(dāng)前網(wǎng)絡(luò)的層數(shù),k為卷積核,b為偏置值。

圖5 卷積操作
模型中的池化層也稱降采樣層,負(fù)責(zé)降低網(wǎng)絡(luò)的復(fù)雜度、減少計(jì)算量。通常在卷積層后使用,池化操作后特征圖的數(shù)目不變,維度縮減。輸出32幅60×60的特征圖,經(jīng)過(guò)降采樣層1后將會(huì)獲得32幅30×30的特征圖。池化操作如圖6所示,池化計(jì)算公式如下:
(2)
式中:down()代表降采樣函數(shù),其將輸入圖像不同m×m的所有像素求和使得輸出圖像在兩個(gè)維度上均縮小m倍。

圖6 池化操作
AIP是將連續(xù)多幀斷層掃描影像序列沿射線方向上所得的所有灰度平均值作為AIP投影圖像上對(duì)應(yīng)點(diǎn)的灰度值[16]。AIP的公式如下:
(3)
式中:AIP(x,y)代表經(jīng)AIP投影后得到的圖像中點(diǎn)(x,y)處的灰度值,N代表進(jìn)行投影的總層數(shù),I(x,y)代表原始CT影像序列圖像中第k層圖像上點(diǎn)(x,y)處的灰度值,H、W分別代表CT影像的橫縱像素點(diǎn)數(shù)。CT影像序列進(jìn)行AIP投影的原理如圖7所示。

圖7 AIP投影原理圖
使用AIP投影進(jìn)行病灶確定時(shí)需要處理多幅相鄰CT影像。其時(shí)間復(fù)雜度為O(uv),其中u為該區(qū)域所占CT影像幀數(shù),v為疑似結(jié)節(jié)個(gè)數(shù)。不同區(qū)域所占CT幀數(shù)不同,處理影像的數(shù)量不同。肺結(jié)節(jié)多為3~30 mm的類球形病灶,本文采用的CT掃描間距均為2.5 mm。故AIP投影只需處理2~12幅連續(xù)影像即可,影像數(shù)量由肺結(jié)節(jié)直徑?jīng)Q定,其計(jì)算公式如下:
(4)
式中:r為肺結(jié)節(jié)直徑,β為選用的CT掃描間距。若肺結(jié)節(jié)直徑為6 mm,則該區(qū)域所占圖像幀數(shù)應(yīng)為3,即僅需處理相鄰的三幅圖像。圖8所示為肺結(jié)節(jié)與血管的空間示意圖。由圖可知,肺結(jié)節(jié)在空間中呈現(xiàn)為類球形病灶,而血管等組織為延伸態(tài)。在單幅CT影像中,血管的某些橫截面與肺結(jié)節(jié)的橫截面均呈現(xiàn)類原型。因此,若僅依據(jù)影像特征進(jìn)行判斷,會(huì)出現(xiàn)一些血管與肺結(jié)節(jié)在單幅CT中無(wú)法準(zhǔn)確判斷的現(xiàn)象。即單使用上述方法無(wú)法去除如血管、氣管在內(nèi)的全部干擾。本節(jié)利用二者的空間形態(tài)特征,對(duì)上述步驟檢測(cè)結(jié)果為1的區(qū)域使用AIP投影最終確定該區(qū)域是否為病灶。

(a) 肺結(jié)節(jié) (b) 血管圖8 肺結(jié)節(jié)及血管示意圖
使用AIP投影可以弱化血管的灰度信息,恢復(fù)血管的延伸狀,從而達(dá)到在形狀上區(qū)分血管和結(jié)節(jié)的目的。經(jīng)處理后可恢復(fù)該區(qū)域原始空間形狀,若為類球形則判定為病灶區(qū)域,否則為非病灶區(qū)域。
實(shí)驗(yàn)隨機(jī)抽取40套該數(shù)據(jù)庫(kù)下的病人CT影像數(shù)據(jù),以4名專業(yè)影像科醫(yī)生的肺結(jié)節(jié)標(biāo)記結(jié)果作為檢測(cè)依據(jù)。實(shí)驗(yàn)中,通過(guò)步驟一對(duì)40個(gè)病人進(jìn)行處理得到768個(gè)候選結(jié)節(jié)區(qū)域,其中正樣本426個(gè),負(fù)樣本342個(gè)。
為證明肺結(jié)節(jié)檢測(cè)的準(zhǔn)確性,避免在醫(yī)學(xué)診斷中單從準(zhǔn)確率一方面進(jìn)行算法性能評(píng)價(jià)的片面性,現(xiàn)從以下角度綜合評(píng)價(jià)算法性能。使用表1所示的肺結(jié)節(jié)檢測(cè)評(píng)價(jià)標(biāo)準(zhǔn),并使用這4個(gè)標(biāo)準(zhǔn)定義靈敏度(SEN)、特異度(SPE)、準(zhǔn)確率(ACC)及誤診率(FPF),其公式定義如下:
(5)
(6)
(7)
FPF=1-ACC
(8)

表1 肺結(jié)節(jié)檢測(cè)評(píng)價(jià)標(biāo)準(zhǔn)
此外使用AUC評(píng)價(jià)模型的分類效果,AUC為ROC曲線下的面積,AUC值越大代表模型的分類效果越好(0 模型的訓(xùn)練次數(shù)與其準(zhǔn)確率有著密切關(guān)系。圖9為樣本測(cè)試的準(zhǔn)確率隨著訓(xùn)練次數(shù)不斷變化的曲線,通過(guò)觀察圖像可知,隨著迭代次數(shù)的不斷增加,測(cè)試樣本的準(zhǔn)確率在不斷提升,當(dāng)訓(xùn)練一定次數(shù)時(shí),準(zhǔn)確率基本穩(wěn)定在0.940左右。 圖9 準(zhǔn)確率圖 現(xiàn)將經(jīng)步驟一獲得的768個(gè)候選結(jié)節(jié)作為測(cè)試樣本,將其輸入對(duì)肺結(jié)節(jié)病灶區(qū)域進(jìn)行初步檢測(cè)。經(jīng)模型檢測(cè)后獲得437個(gè)疑似結(jié)節(jié)區(qū)域。檢測(cè)結(jié)果輸出示例如圖10所示。 圖10 檢測(cè)結(jié)果示例 本節(jié)選擇文獻(xiàn)[3]以及文獻(xiàn)[4]與本文算法進(jìn)行比對(duì),結(jié)果如表2所示。 表2 肺結(jié)節(jié)檢測(cè)結(jié)果比對(duì) 由數(shù)據(jù)對(duì)比可知,使用本文算法可有效提高檢測(cè)特異度,降低肺結(jié)節(jié)誤診率。算法不僅依靠CT影像中呈現(xiàn)出的征象信息充分了解肺結(jié)節(jié)的內(nèi)部結(jié)構(gòu),還利用肺結(jié)節(jié)的空間信息獲取其整體結(jié)構(gòu),將其充分區(qū)別于其他組織從而獲得較好的檢測(cè)結(jié)果。根據(jù)表2的數(shù)據(jù)比對(duì),本文算法準(zhǔn)確率與誤診率明顯優(yōu)于其他算法,敏感度僅低于文獻(xiàn)[4],但算法在保證準(zhǔn)確率最高的情況下使得敏感度達(dá)到最大。實(shí)驗(yàn)結(jié)果表明,綜合利用肺結(jié)節(jié)的平面特征與空間特征是一種檢測(cè)肺結(jié)節(jié)極為有效的方式。通過(guò)實(shí)驗(yàn),有一疑似肺結(jié)節(jié)區(qū)域,軸位圖像滿足肺結(jié)節(jié)的征象特征,醫(yī)生觀察該名患者CT影像診斷其為肺結(jié)節(jié),但算法診斷該名患者并未患病,后經(jīng)過(guò)多名影像科醫(yī)生反復(fù)確認(rèn)證實(shí)該區(qū)域確實(shí)不是肺結(jié)節(jié)。有一疑似肺結(jié)節(jié)區(qū)域,處于與肺壁粘連的位置且結(jié)節(jié)體積較小算法并未檢測(cè)出。綜上,對(duì)于孤立性結(jié)節(jié)及血管與結(jié)節(jié)在單幅CT上極易混淆的,算法具有很好的性能,但對(duì)于體積較小的粘連型結(jié)節(jié)仍會(huì)出現(xiàn)漏檢的風(fēng)險(xiǎn)。綜合考慮,本文算法在敏感度、特異度、準(zhǔn)確率和誤診率4個(gè)指標(biāo)上均取得了較好的效果,符合臨床使用的要求。 針對(duì)肺結(jié)節(jié)假陽(yáng)性高、血管與肺結(jié)節(jié)難以區(qū)分的問(wèn)題,本文提出了基于深度學(xué)習(xí)的肺結(jié)節(jié)自動(dòng)檢測(cè)算法。算法在提取到候選結(jié)節(jié)的基礎(chǔ)上設(shè)計(jì)多尺度卷積神經(jīng)網(wǎng)絡(luò),基于肺結(jié)節(jié)的內(nèi)部結(jié)構(gòu)與整體結(jié)構(gòu)的雙重角度綜合其平面特征信息與空間形狀信息對(duì)肺結(jié)節(jié)進(jìn)行檢測(cè),將非病灶區(qū)域充分剔除。實(shí)驗(yàn)中,一方面充分發(fā)揮神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),使其具備自動(dòng)提取和整合特征的能力、檢測(cè)效率得以提升;另一方面使用AIP投影恢復(fù)結(jié)節(jié)的空間形狀,充分剔除肺內(nèi)無(wú)關(guān)組織干擾。實(shí)驗(yàn)結(jié)果表明,采用本文算法進(jìn)行肺結(jié)節(jié)病灶檢測(cè)可以有效降低假陽(yáng)率,然而對(duì)于體積較小的粘連型結(jié)節(jié)識(shí)別率有待提高,仍需進(jìn)一步研究。3.2 肺結(jié)節(jié)識(shí)別檢測(cè)



4 結(jié) 語(yǔ)