基于邊緣敏感的SLIC和二次密度聚類的GGO分割

2021-01-15 08:22:18陳曉楠王凱欣孫傳恕劉曉凱畢京平

計(jì)算機(jī)應(yīng)用與軟件 2021年1期

陳曉楠王凱欣孫傳恕劉曉凱畢京平彭勇

1(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院遼寧大連 116026) 2(大連醫(yī)科大學(xué)附屬第二醫(yī)院遼寧大連 116027) 3(大連理工大學(xué)水利工程學(xué)院遼寧大連 116024)

0 引言

2019年1月，國(guó)家癌癥中心發(fā)布的最新全國(guó)癌癥統(tǒng)計(jì)數(shù)據(jù)顯示，2015年全國(guó)的惡性腫瘤新發(fā)病例數(shù)達(dá)392.9萬(wàn)例，其中肺癌發(fā)病率占全國(guó)首位，發(fā)病病例高達(dá)78.7萬(wàn)[1]。肺癌已嚴(yán)重威脅到人們的生命健康。目前，CT(Computer Tomography)是早期肺癌檢測(cè)中最為有效的醫(yī)學(xué)影像檢查手段之一[2]。隨著科技水平的不斷進(jìn)步，醫(yī)學(xué)影像切片的厚度越來(lái)越小，使得最終獲得的切片數(shù)據(jù)量越來(lái)越大，導(dǎo)致放射科醫(yī)生每天要閱讀數(shù)以千計(jì)的CT圖像，高的閱讀量與診斷結(jié)果的準(zhǔn)確率就產(chǎn)生了矛盾。為了盡量減少在前期由于主觀因素而造成的漏診、誤診現(xiàn)象，出現(xiàn)了計(jì)算機(jī)輔助診斷(Computer Aided Diagnosis，CAD)系統(tǒng)，CAD系統(tǒng)可以綜合分析肺部醫(yī)學(xué)圖像，給醫(yī)師提供“第二意見(jiàn)”[3]。

肺癌在早期一般表現(xiàn)為肺結(jié)節(jié)[4]。近年來(lái)，已有大量針對(duì)實(shí)質(zhì)性結(jié)節(jié)分割算法的研究，而對(duì)磨玻璃型肺結(jié)節(jié)的分割方法中，如K近鄰[5]、模糊聚類[6]、神經(jīng)網(wǎng)絡(luò)[7-8]、隨機(jī)游走[9]等，都不能準(zhǔn)確而高效地得到完整的GGO，且研究發(fā)現(xiàn)GGO的癌變率遠(yuǎn)遠(yuǎn)高于其他實(shí)質(zhì)型結(jié)節(jié)。因此，研究GGO的分割對(duì)于肺癌的篩選和診斷具有更高的應(yīng)用價(jià)值。

2003年，Ren等[10]首次提出超像素的概念，在近幾年逐漸興起，并成為目標(biāo)識(shí)別、智能解釋、目標(biāo)跟蹤、圖像分割、人工智能等領(lǐng)域的研究熱點(diǎn)。Achanta等[11]通過(guò)對(duì)目前超像素算法的比較分析提出一種簡(jiǎn)單有效的超像素分割方法——簡(jiǎn)單的線性迭代聚類(Simple Linear Iterative Clustering，SLIC)。該算法在區(qū)域緊密度、規(guī)則度以及算法的復(fù)雜度和準(zhǔn)確率上都優(yōu)于其他超像素方法，但在邊緣貼和性上表現(xiàn)欠佳。DBSCAN是一種基于密度的空間聚類算法[12]，該算法將達(dá)到一定密度閾值的塊劃分成多個(gè)區(qū)域，并在含有較多噪聲或干擾的數(shù)據(jù)中找到相近的塊并將其聚為一類，且可能由于GGO密度分布不均勻，導(dǎo)致一次密度聚類不能將其完整地分為一類。本文提出基于邊緣敏感的SLIC和二次密度聚類的GGO分割方法，首先將邊緣檢測(cè)結(jié)果與SLIC相結(jié)合，改變初始聚類中心的選擇標(biāo)準(zhǔn)，得到新的聚類中心，其次在傳統(tǒng)密度聚類的基礎(chǔ)上引入二次密度聚類的思想。實(shí)驗(yàn)結(jié)果顯示，本文提出的算法具有較高的準(zhǔn)確率和靈敏度。

1 算法原理及步驟

1.1 算法流程

本文在對(duì)含有GGO的圖像進(jìn)行分割之前，先對(duì)圖像進(jìn)行了預(yù)處理，去掉肺壁、衣物和機(jī)床等組織，得到肺實(shí)質(zhì)輪廓。接著，對(duì)得到的肺實(shí)質(zhì)進(jìn)行邊緣檢測(cè)，將檢測(cè)結(jié)果融入到SLIC產(chǎn)生的初始超像素塊中，并且用區(qū)域質(zhì)心代替其原始聚類中心，對(duì)圖像進(jìn)行過(guò)分割，然后對(duì)分割結(jié)果進(jìn)行密度聚類，定位到GGO所在的簇，最后，對(duì)定位到的簇進(jìn)行二次密度聚類，得到最終的GGO分割結(jié)果。算法的具體流程如圖1所示。

圖1 系統(tǒng)總體流程

1.2 肺實(shí)質(zhì)分割

由于醫(yī)學(xué)圖像的復(fù)雜性，在分割GGO之前，要將肺部區(qū)域分割出來(lái)，去掉無(wú)關(guān)的信息，例如肺壁、衣物、機(jī)床等。應(yīng)用改進(jìn)的區(qū)域生長(zhǎng)和模糊C均值聚類相結(jié)合的方法分割肺區(qū)域，并用形態(tài)學(xué)的方法對(duì)區(qū)域邊界進(jìn)行修補(bǔ)。

首先，將圖像二值化，并根據(jù)二值化結(jié)果在含有最多空洞的區(qū)域中選擇種子點(diǎn)，并選擇此點(diǎn)作為生長(zhǎng)的起點(diǎn)，進(jìn)行自動(dòng)區(qū)域生長(zhǎng)并獲得初始的肺實(shí)質(zhì)輪廓。其次，由于輪廓邊界具有模糊性，因此對(duì)初始輪廓進(jìn)行邊界展寬，且肺實(shí)質(zhì)、肺壁、背景三部分具有較大的灰度差異，所以計(jì)算展寬的區(qū)域的灰度直方圖，找到直方圖的峰值，在展寬區(qū)域中選擇對(duì)應(yīng)峰值的像素點(diǎn)作為初始聚類中心，對(duì)圖像進(jìn)行聚類，得到肺實(shí)質(zhì)。最后，為防止粘連肺壁組織對(duì)結(jié)果的影響，對(duì)聚類得到的肺實(shí)質(zhì)用形態(tài)學(xué)方法進(jìn)行邊界修補(bǔ)。肺實(shí)質(zhì)處理結(jié)果如圖2所示。

(a) 原始圖像 (b) 聚類后圖像

1.3 基于邊界敏感的SLIC超像素分割算法

SLIC計(jì)算量較小且克服了以往算法產(chǎn)生的超像素?cái)?shù)量不可控的缺點(diǎn)。SLIC將圖像轉(zhuǎn)化到CIELAB空間，并提取圖像的五維特征向量V=[l,a,b,x,y]，其中:[l,a,b]為像素顏色特征;[x,y]為位置特征。因此SLIC既考慮到了圖像中像素之間顏色的相似性，又考慮到了位置的相近性。

dc=(lj-li)2+(aj-ai)2+(bj-bi)2

(1)

ds=(xj-xi)2+(yj-yi)2

(2)

(3)

式中：dc和ds分別表示像素的顏色距離和空間距離；i表示聚類中心；j表示聚類中心搜索范圍內(nèi)的像素；m表示空間距離與顏色距離的權(quán)重系數(shù)，一般在1～40之間，值越大，分割后的超像素越緊湊，值越小，生成的超像素越不規(guī)則。

在SLIC初始化時(shí)，初始超像素塊中如果包含圖像邊界，叫跨邊界初始超像素，如果直接進(jìn)行聚類，會(huì)產(chǎn)生跨邊界超像素，此時(shí)超像素邊界不會(huì)很好地貼合圖像邊界?？邕吔绯袼厝鐖D3所示。

圖3 跨邊界超像素

為了提高跨邊界超像素的邊界黏附性，提出基于邊緣敏感的SLIC分割算法。該算法結(jié)合區(qū)域檢測(cè)算子，判斷初始超像素塊是否為跨邊界初始超像素塊，若為跨邊界初始超像素塊，還需確保圖像邊緣與超像素塊邊緣形成閉合，若不閉合，則延長(zhǎng)至距離最近的超像素塊邊緣使之閉合，用跨邊界初始超像素的區(qū)域質(zhì)心代替其原始的聚類中心進(jìn)行聚類。新的聚類中心確定規(guī)則如下：

(1) 如果原始聚類中心的S×S搜索區(qū)域內(nèi)存在圖像邊界，刪除原始的聚類中心，并使邊界與超像素塊邊界閉合，選擇區(qū)域的質(zhì)心作為初始聚類中心，如圖4中的Bi。

(2) 如果原始聚類中心的S×S搜索區(qū)域內(nèi)不存在圖像邊界，保留原始聚類中心不變，如圖4中的Ci。

圖4 聚類中心選擇示意圖

在分割算法中，需要根據(jù)k值，將圖片劃分為大小相等、排列整齊的超像素，本文選擇k=1 000，因?yàn)榇藭r(shí)的初始超像素塊與GGO的大小最為相似，并選擇每個(gè)超像素的中心點(diǎn)作為初始聚類中心。

對(duì)原始圖像進(jìn)行邊緣檢測(cè)時(shí)，本文選擇LoG邊緣檢測(cè)算子，該算子克服了一般微分運(yùn)算對(duì)噪聲敏感的缺點(diǎn)。然后將檢測(cè)得到的圖像邊緣和SLIC分割算法產(chǎn)生的初始超像素塊相結(jié)合，更新原始的聚類中心，產(chǎn)生超像素過(guò)分割結(jié)果。

與傳統(tǒng)的SLIC算法相同，選擇聚類中心的2S×2S鄰域，對(duì)屬于該區(qū)域的像素進(jìn)行搜索，通過(guò)計(jì)算像素與聚類中心的距離D，將每個(gè)像素歸為距離相近的聚類中心。每當(dāng)加入新的像素時(shí)，更新聚類中心為區(qū)域的均值，并重新計(jì)算新舊聚類中心的剩余誤差。當(dāng)剩余誤差足夠小時(shí)，迭代結(jié)束，刪除此時(shí)面積過(guò)小的孤立區(qū)域，因?yàn)榇藭r(shí)可能為血管干擾，并將其合并到相鄰的超像素塊中，得到最終的分割結(jié)果。

1.4 密度聚類算法

1.4.1DBSCAN算法分析

DBSCAN是一種基于密度的空間聚類算法，該算法通過(guò)引入密度可達(dá)的概念，將像素鄰域內(nèi)包含大于一定數(shù)量的點(diǎn)定義為核心點(diǎn)，相鄰核心點(diǎn)直接密度可達(dá)，所有相互密度可達(dá)的點(diǎn)合并為一個(gè)簇，不屬于任何一簇的點(diǎn)視為噪聲數(shù)據(jù)，直到?jīng)]有新的點(diǎn)添加到任何簇時(shí)，該過(guò)程結(jié)束。DBSCAN的幾個(gè)重要概念：

(1) Eps鄰域：以給定的對(duì)象為圓心，Eps為半徑的區(qū)域，稱為該對(duì)象的Eps鄰域。

(2) 核心對(duì)象：若對(duì)象的Eps鄰域內(nèi)的樣本個(gè)數(shù)不小于Minpts，那么對(duì)象為核心對(duì)象。

(3) Minpts：核心對(duì)象在其Eps鄰域內(nèi)包含的最小點(diǎn)數(shù)。

(4) 直接密度可達(dá)：樣本中的兩個(gè)點(diǎn)p和q，若p是核心對(duì)象，且q在p的Eps鄰域內(nèi)，則稱p對(duì)q直接密度可達(dá)。

(5) 密度可達(dá)：對(duì)于樣本集合C，給定一串樣本點(diǎn)p1,p2,…，pn,p=p1,q=pn，若對(duì)象pi從pi-1直接密度可達(dá)，則對(duì)象q從對(duì)象p密度可達(dá)。

由于GGO與背景之間的對(duì)比度較低，且可能會(huì)存在密度不均勻的情況，使得在第一次密度聚類時(shí)，不能將全部的GGO包含在一類之中或GGO靠近邊界的部分會(huì)和背景劃分為一類，從而得不到完整的分割結(jié)果，因此本文提出一種二次密度聚類的方法。在第一次聚類后，根據(jù)超像素的類圓度、均勻度、密度小于血管的特性初步定位到GGO；根據(jù)鄰域矩陣，只對(duì)定位到的GGO進(jìn)行二次密度聚類，得到最終的結(jié)果。

1.4.2一次密度聚類

本文將DBSCAN聚類算法用于超像素而非像素[13]。將超像素作為核心對(duì)象，根據(jù)SLIC產(chǎn)生的超像素生成鄰域矩陣，計(jì)算該超像素與其周圍超像素之間的距離，若滿足距離要求則將其合并到一個(gè)簇中，然后以新合并的超像素作為起點(diǎn)，重復(fù)上述過(guò)程，直到?jīng)]有超像素加入到任何簇，得到聚類結(jié)果。由于經(jīng)SLIC后產(chǎn)生的超像素塊與其周圍超像素塊的距離相近，因此在第一次密度聚類計(jì)算距離時(shí)只計(jì)算顏色距離，計(jì)算公式如下：

d(i,j)=(lmj-lmi)2+(amj-ami)2+(bmj-bmi)2

(4)

式中：i、j為超像素；lm、am、bm為超像素三個(gè)顏色特征分量的均值。

經(jīng)過(guò)聚類后，GGO仍然存在于含有實(shí)質(zhì)的背景之中。因此，通過(guò)計(jì)算超像素的類圓度、標(biāo)準(zhǔn)差得到候選的GGO，然后根據(jù)GGO密度小于血管的特性得到GGO的精確定位。類圓度的度量標(biāo)準(zhǔn)如下：

(5)

式中：a是指目標(biāo)的面積；p是指目標(biāo)的周長(zhǎng)。m越接近于1，則表示目標(biāo)越接近于圓形。所以，候選GGO的確定規(guī)則如下：

(6)

式中：b為每個(gè)超像素的標(biāo)準(zhǔn)差；k為所有超像素中標(biāo)準(zhǔn)差的最小值。

選擇其中z值最大的三個(gè)類作為GGO的候選，在候選的GGO中選擇密度最小的區(qū)域，得到GGO的準(zhǔn)確定位。

1.4.3二次密度聚類

針對(duì)第一次密度聚類時(shí)不能將GGO完整地分割在一個(gè)簇中的問(wèn)題，本文提出二次密度聚類的方法，即在第一次密度聚類后，得到GGO的準(zhǔn)確定位，以此超像素作為二次密度聚類的起始簇，只對(duì)該簇進(jìn)行聚類。通過(guò)計(jì)算起始簇到其他簇的距離，根據(jù)閾值大小判斷其他簇是否能夠與起始簇合并。此外，要對(duì)第一次密度聚類后的圖像要重新計(jì)算簇的鄰域矩陣，確保滿足閾值條件的簇為起始簇的鄰域簇，否則，該簇不滿足合并條件。采用五維特征向量來(lái)衡量?jī)烧咧g的距離D′：

(7)

(8)

(9)

2 實(shí) 驗(yàn)

本文所用的含有GGO的肺部CT影像數(shù)據(jù)集均來(lái)源于大連醫(yī)科大學(xué)第二附屬醫(yī)院。數(shù)據(jù)集中包含19個(gè)序列，每個(gè)序列平均包含300幅CT圖像，所有圖片的像素均為512×512，其中每幅包含有GGO的圖像都由經(jīng)驗(yàn)豐富的醫(yī)生標(biāo)注。實(shí)驗(yàn)平臺(tái)為64位Windows 8操作系統(tǒng)，MATLAB R2016a，2.0 GHz處理器，4 GB內(nèi)存。

本文提出將邊緣信息融入到傳統(tǒng)的SLIC算法中，并對(duì)跨邊界初始超像素更新其聚類中心，本文算法與傳統(tǒng)的SLIC分割結(jié)果對(duì)比圖如圖5所示。從圖中可以看出，原始SLIC產(chǎn)生的超像素不能很好地貼和邊緣，使產(chǎn)生的結(jié)果中含有無(wú)關(guān)信息，而本文提出的算法具有較好的邊界黏附性。

(a) 傳統(tǒng)的SLIC (b) 邊緣敏感SLIC圖5 SLIC和邊緣敏感SLIC分割結(jié)果對(duì)比圖

對(duì)于二次密度聚類的合并閾值，本文采用一種自適應(yīng)閾值的方法。即通過(guò)計(jì)算第一次密度聚類得到的起始簇與其他簇的距離，對(duì)得到的距離大小進(jìn)行排序，并繪制折線圖，找到第一個(gè)斜率突變點(diǎn)。根據(jù)多次實(shí)驗(yàn)驗(yàn)證，選擇閾值為30，即當(dāng)不存在突變點(diǎn)或突變點(diǎn)大于30時(shí)，選擇距離為30，否則選擇突變點(diǎn)處的距離為合并閾值。距離排序后的折線圖如圖6所示，縱坐標(biāo)表示起始簇與其他簇的距離，橫坐標(biāo)表示距離對(duì)應(yīng)下每一個(gè)簇的密度聚類類別。

(a) 含有距離小于30的簇

圖6(a)表示密度分布不均勻或靠近邊緣區(qū)與背景對(duì)比度較低的GGO，此時(shí)，初始簇與鄰域簇的差別較小，距離較近，根據(jù)自適應(yīng)確定閾值的方法，此時(shí)的閾值為24.75。放大部分為第一個(gè)斜率突變點(diǎn)附近。圖6(b)表示密度分布均勻的GGO，經(jīng)一次密度聚類后能夠得到完整的分割結(jié)果，因此與其他簇的距離較大，此時(shí)距離閾值設(shè)為30。放大部分為距離較小的前10個(gè)點(diǎn)。

為驗(yàn)證本文算法的有效性，從影像數(shù)據(jù)集中隨機(jī)抽取50幅含有GGO的圖片進(jìn)行實(shí)驗(yàn)，肺結(jié)節(jié)的部分處理結(jié)果如圖7所示。

(a) 原始肺部圖像

由圖7(b)可以看出，經(jīng)過(guò)預(yù)處理之后，圖像中只剩肺實(shí)質(zhì)部分，而與肺實(shí)質(zhì)無(wú)關(guān)的組織(比如肺壁、機(jī)床以及患者衣物等)被去除，所以在進(jìn)行超像素分割時(shí)，除肺實(shí)質(zhì)外其他位置被視為背景，且被分割為接近標(biāo)準(zhǔn)的四邊形。這樣可以減少無(wú)關(guān)組織對(duì)于結(jié)果的影響。圖7(d)為使用SLIC得到的結(jié)果，可以看出，由于原始SLIC邊界黏附性較差，不融入邊界信息的SLIC得到的結(jié)果會(huì)產(chǎn)生過(guò)分割或欠分割，得到的結(jié)果較差。圖7(e)為密度聚類所得到的結(jié)果，由于GGO可能會(huì)存在局部密度不均勻，且邊界與背景的亮度差異過(guò)小，使得在聚類時(shí)無(wú)法將完整的GGO聚為一個(gè)簇，所以要進(jìn)行第二次密度聚類，以定位到的GGO為初始簇，只對(duì)該簇進(jìn)行聚類，得到完整的GGO分割結(jié)果。

此外，要保證在第一次密度聚類后GGO邊界區(qū)域不與背景劃為一簇，要使第一次聚類的距離閾值盡量小，經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證，第一次密度聚類的距離閾值設(shè)為8。圖7(f)為本文算法分割得到的GGO，可以看出，本文算法能更加準(zhǔn)確地得到GGO。

為了檢測(cè)本文算法的準(zhǔn)確率，采用準(zhǔn)確率(Segment Accuracy，SA)和靈敏度(Sensitivity)作為算法的評(píng)價(jià)標(biāo)準(zhǔn)。將放射科專家手動(dòng)分割結(jié)果作為評(píng)判的“金標(biāo)準(zhǔn)”，將“金標(biāo)準(zhǔn)”與本文分割算法所得到的結(jié)果進(jìn)行對(duì)比，計(jì)算面積重疊度，得到算法的準(zhǔn)確率[14]。準(zhǔn)確率定義為：

(10)

式中：S1為本文算法的分割結(jié)果；S2為專家手動(dòng)分割結(jié)果。SA的值越接近于1，代表分割準(zhǔn)確率越高。

靈敏度的概念定義為將實(shí)際的結(jié)節(jié)像素點(diǎn)正確判斷為感興趣區(qū)域(金標(biāo)準(zhǔn))結(jié)節(jié)像素點(diǎn)的比例。定義TP為檢測(cè)出真結(jié)節(jié)的個(gè)數(shù)；FN為沒(méi)有檢測(cè)出真結(jié)節(jié)的個(gè)數(shù)，因此靈敏度可以表示為：

(11)

算法的交叉對(duì)比結(jié)果如表1所示，其中第一行為原始SLIC+DBSCAN算法所得結(jié)果，可以看出，該算法的準(zhǔn)確率和靈敏度都較低；第二行為基于邊緣敏感的SLIC+DBSCAN算法所得結(jié)果，可以看出，該算法靈敏度提高到了86%，比原始算法提高了24個(gè)百分點(diǎn)；第三行為SLIC+二次DBSCAN算法所得結(jié)果，可以看出，這種算法的準(zhǔn)確率提高到了75.22%，比原始算法提高了19.05個(gè)百分點(diǎn)；第四行為本文算法，即基于邊緣敏感的SLIC+二次DBSCAN，可以看出，該算法的準(zhǔn)確率提高到了90.17%，比原始算法提高了34個(gè)百分點(diǎn)，靈敏度提高到了84%，比原始算法提高了22個(gè)百分點(diǎn)。

表1 算法準(zhǔn)確率交叉驗(yàn)證結(jié)果 %

不同算法得到結(jié)果如表2所示，可以看出，本文算法的分割準(zhǔn)確率和靈敏度均高于文獻(xiàn)[15]提出的算法；與文獻(xiàn)[6]所提出的算法相比，本文算法在靈敏度上雖然略低，但是在分割準(zhǔn)確率上要遠(yuǎn)高于該算法。

表2 算法準(zhǔn)確率對(duì)比 %

3 結(jié) 語(yǔ)

本文提出一種基于邊緣敏感的SLIC和二次密度聚類相結(jié)合的算法對(duì)GGO進(jìn)行分割。針對(duì)傳統(tǒng)的SLIC產(chǎn)生的超像素邊界黏附性較差的問(wèn)題，提出基于邊緣敏感的SLIC，其分割結(jié)果能夠很好地貼合邊界，為后續(xù)的聚類奠定基礎(chǔ)。隨后，利用DBSCAN定位到GGO所在的簇，由于GGO可能會(huì)存在密度分布不均勻或邊緣對(duì)比度過(guò)低等原因，導(dǎo)致在密度聚類后只得到部分GGO，為提高分割的完整性，提出二次密度聚類，只對(duì)GGO所在的簇進(jìn)行聚類，得到完整的GGO。實(shí)驗(yàn)結(jié)果表明，本文算法能夠更好地貼和圖像邊界且具有較高的準(zhǔn)確率和有效性，在圖像分割領(lǐng)域具有良好的應(yīng)用前景。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)，孤立型GGO的分割準(zhǔn)確率要高于肺壁黏連型GGO，下一步可針對(duì)孤立型GGO改進(jìn)該算法模型。

計(jì)算機(jī)應(yīng)用與軟件2021年1期

計(jì)算機(jī)應(yīng)用與軟件的其它文章: 投稿須知; 基于半量子的量子秘密信息互換協(xié)議; 基于顯著性語(yǔ)義屬性的交互式非標(biāo)人像檢索方法; 基于注意力模型的籃球視頻事件和關(guān)鍵角色檢測(cè)方法; 一種基于深度學(xué)習(xí)的視網(wǎng)膜病變圖像識(shí)別方法; 云數(shù)據(jù)中心能量與熱量感知的虛擬機(jī)合并與部署