陳樹越,黃 萍,朱 軍,劉佳鑌
(常州大學 信息科學與工程學院, 江蘇 常州 213164)
肺癌[1,2]的早期表現形式[3-5]是直徑小于3 cm的肺內類圓形肺結節。如何準確識別肺結節是肺部疾病診斷的難點,對于預防早期肺癌具有重要醫學意義。
針對孤立性肺結節的識別方法,Khobragade等[6]使用基于ANN的圖像分類算法來檢測肺部疾病,但存在過擬合的問題;Zhou等[7]提出基于SVM和CT圖像特征水平融合的肺結節檢測算法,但使用SVM時對參數和核函數的選取比較困難。相對上述傳統的分類算法,極限學習機(ELM-extreme learning machine)的泛化性能更好,能夠避免局部最小值和過擬合等問題。Chen等[8]利用基于小波的ELM在癲癇發作方面做了預測研究,實驗研究表明該方法不僅提高了檢測精度,而且提高了學習效率;孫俊等[9]在生菜葉片的研究中,利用ELM分類算法對氮素水平做了分類;Lu等[10]將改進的ELM算法應用到腦部檢測系統中,結果表明改進的ELM對于病理性腦部檢測的結果更加準確可靠。因此將ELM算法引入肺結節的識別,但在分類過程中,不相關特征會使分類器的性能下降。為了解決上述問題,將Relief特征加權框架運用于ELM分類中。首先根據候選結節的特征利用k-means聚類算法去除大量干擾結節檢測的血管,然后利用Relief特征加權ELM分類算法對候選結節分類。實驗結果表明,基于Relief特征加權ELM能較好地適用于肺結節識別。
肺結節CT圖像檢測與識別的研究對象主要是肺部CT圖像中的孤立性肺結節。圖1為肺結節檢測與識別的流程。

圖1 肺結節檢測與識別
為了減小肺結節的檢測范圍,提高結節檢測的準確率,肺實質分割在肺結節檢測與分類過程中必不可少。因此,利用一種自動分割肺實質區域的方法[11],該方法結合了閾值處理、區域生長以及形態濾波等技術。
如圖2(a)所示肺部CT圖像,肺實質與其周圍區域的灰度值相差較大,可首先采用最大類間方差閾值法對肺部CT圖像進行初始分割,如圖2(b)所示。利用區域生長、填充等方法來去除干擾組織,如背景、血管等,得到的肺實質模板如圖2(c)所示。最后將此肺實質模板乘以原始圖像即為要得到的完整的肺實質,如圖2(d)所示。

圖2 肺實質分割
采用最優閾值法對肺實質進行初始分割,去除肺實質中的干擾部分,得到肺實質感興趣區域。由于一些面積非常小的高亮噪聲點的存在,因此利用連通成分的方法來去除這些高亮噪聲點,最終得到的感興趣區域如圖3所示。

圖3 感興趣區域
通常情況下肺結節表現為圓形,而血管根據切片的方向不同表現為圓形血管、條狀血管、交叉型血管。由圖3所示的初步分割后的感興趣區域可以看出,感興趣區域含有大量的假陽性結節,大量的候選結節會增加后續特征提取與分類的工作量。因此為了進一步提取候選結節,減少假陽結節的數量,對初步分割后得到的感興趣區域進行篩選。
由于類圓形血管和初期的肺結節的形狀特征相同,所以僅僅通過形狀特征不能排除干擾候選結節篩選的假陽性。由于血管的灰度分布均勻,像素灰度值相差不大,而肺結節的灰度呈正態分布,中間亮,兩邊比較暗,像素灰度值相差較大,所以肺結節的灰度直方圖熵值比血管的灰度直方圖熵值大。利用k-means聚類與類圓度和灰度直方圖熵這兩個特征對感興趣區域進一步提取候選結節,減少假陽性結節,得到最終要提取的候選結節如圖4所示。

圖4 候選結節
圖4中黑色邊框部分表示聚類后得到的候選結節,由于每張孤立性肺結節的CT圖像中最多含有一個肺結節,所以圖中得到的候選結節中仍然存在假陽性。
1.3.1 特征提取
候選肺結節特征選擇的優劣將直接影響肺結節的分類結果。通過孤立性肺結節在CT圖像中的表現形態,提取類圓度M1和灰度直方圖熵M2對感興趣區域聚類,降低候選結節的假陽性,提高檢測效率。針對候選結節中仍然存在假陽性,繼續對候選結節進行識別分類,提取候選結節的特征,如灰度均值Ave、緊湊度M3和紋理特征,其中候選結節區域的紋理特征是通過灰度共生矩陣來分析肺結節的空間分布特征,選擇對比度Con,相關性Cor,能量Ery和熵Ent這4個參數作為描述反應候選結節區域變化的因子,反應不同灰色尺度在相對空間的分布特征。
(1)類圓度用來表示目標區域與圓形的相似度。其值越接近于1,說明與圓越相似。其表達式為
(1)
式中:A為肺結節區域內像素的總和。
(2)灰度直方圖熵表示圖像灰度區域的信息量,其表達式為
(2)
式中:c(k)為各個元素歸一化后得到的相應的灰度級的分布概率。
(3)灰度均值
(3)
式中:圖像I大小為M×N,I(x,y)為像素的(x,y)的灰度值。
(4)緊湊度表示邊緣光滑的程度。邊界越復雜越粗糙,緊湊度越小[12]。其表達式為
(4)
式中:P是區域輪廓的周長。
(5)對比度Con反映圖像紋理溝紋的深淺程度和清晰度。紋理溝紋越淺,對比度越小,圖像越模糊;反之,對比度變大,視覺效果也變得清晰。其表達式為

(5)
(6)相關性Cor用來衡量局部領域的線性依賴性。其表達式為
(6)
(7)能量Ery反映圖像灰度分布均勻性。圖像的紋理越粗,能量越大,反之越小。其表達式為

(7)
(8)熵Ent用來度量圖像具有的信息量。圖像中紋理越少,則該圖像的熵值越小,反之越大。其表達式為
Ent=-∑i,jp(i,j)logp(i,j)
(8)
1.3.2 特征歸一化
由于每個特征的提取都是單獨進行的,因此各個特征的數量級不同。所以不能直接將提取的特征數據直接進行分類處理,需要對特征進行歸一化處理。采用零均值標準化的方法將原始數據集歸一化為均值為0、方差為1的數據集,歸一化公式如下
(9)
式中:μ和σ分別為原始數據的均值和方差。
ELM[13]是在神經網絡基礎上發展而來的,用來求解單隱層神經網絡的算法。ELM通過隨機初始化輸入權重和偏置來產生唯一的解。
對于有L個隱層節點的單隱層神經網絡可以用數學模型描述如下
(10)

Hβ=T
(11)
式中:H是隱藏層節點的輸出,β為輸出權重,T為期望輸出

(12)
一旦輸入權重Wi和隱藏層的偏置bi被確定,隱藏層的輸出矩陣H就可以被唯一確定。通過求解Hβ=T線性系統代替訓練單隱層神經網絡。因此輸出權重β可以被確定為
(13)
式中:H+是矩陣H的Moore-Penrose廣義逆。
Relief算法是由Kira等[14]提出的,目前已經廣泛的應用于數據特征選擇、分類等方面。特征屬性的重要程度主要根據樣本類內和類間的距離來評判。

(14)
由于一些弱相關的特征會影響分類結果的準確性,因此給出了基于Relief特征加權的ELM分類算法(Relief-ELM算法)。
2.3.1 特征權重的計算
當一個屬性類別比較容易判斷時,意味著與同類樣本間的距離較近,此時特征屬性的權重就較小。反之,與非同類樣本間的距離較遠,特征屬性的權重就較大。在此規則基礎上,將Relief算法用于候選結節特征權重的計算,算法如下。
Algorithm 1:求解訓練集特征權重
Input:帶有標簽的候選結節特征數據X
Output:每組數據的權重向量
(2)fori=1 ton;
(3)隨機選擇一個樣本xi
(4)尋找xi類內最近鄰樣本L和類間最近鄰樣本M

利用式(14)對候選結節的特征權值進行訓練,特征分類能力越強的賦予的權重越大,反之,特征分類能力越弱的賦予的權重越小。
2.3.2 Relief-ELM分類模型思想
根據求出的候選結節各個特征的權值,對歸一化后的候選結節的特征數據進行縮放,將各個特征屬性向量乘以相應權重,作為輸入樣本輸入到ELM網絡模型進行訓練,最后利用訓練好的ELM網絡模型對肺結節測試數據集中的圖像進行自動分類。具體算法如下:
肺結節檢測訓練算法:
Algorithm 2:肺結節訓練算法
Input:L:隱藏層層數,T:醫生對肺結節訓練樣本的診斷結果,W:各個候選結節特征對應的特征權重;
Output:ELM的參數β;
(1)fori=1 toL
(2)隨機生成隱藏層偏置參數bi
(3)根據式(12)計算隱藏層輸出矩陣H;
(5)返回β
肺結節分類算法描述如下:
Algorithm 3:肺結節分類算法
Input:F為測試樣本,L,W,b,β;
Output:T對測試樣本的分類結果;
(1)利用F,W,b計算隱藏層輸出矩陣H;
(2)根據式(11)計算候選結節的分類結果T;
(3)返回T。
根據返回的結果T與醫生對肺結節的診斷結果進行對比來判斷分類器的分類效果。
交叉驗證能夠在有限的學習數據中從多個方向學習樣本來獲取盡可能多的有效信息,能夠有效地避免過擬合的問題,保證分類器的分化性能。采用四折交叉驗證,將肺部CT圖像被隨機分成4組,使得每組數量幾乎相等;用第一組作為測試集,其余的3組作為訓練集,獲得第一組分類的準確率A1;其余各組依照上面的方法對所有的數據進行分類得到其余兩組的準確率A2,A3,A4。計算分類的準確率如下式所示
ACCfinal=avg(A1,A2,A3,A4)
(15)
根據肺結節醫學影像表現,聚類后的候選結節要么是結節,要么是非結節即血管兩種情況。采用臨床醫學界的一種診斷疾病的方法-金標準來判斷目標區域是否為結節。肺結節診斷評價標準見表1。

表1 肺結節診斷評價標準
其中,TP表示結節被正確劃分的個數;FN表示結節被錯誤劃分的個數;TN表示非結節被正確劃分的個數;FP表示非結節被錯誤劃分的個數。肺結節分類識別檢測的結果采用敏感度、特異性、誤診率、漏診率、準確率作為實驗分類性能的評價指標。計算公式如式(16)所示
(16)
實驗數據采用肺部影像數據庫聯盟(lung image database consortium,LIDC)數據集[15]。從LIDC數據集中選擇128幅肺部CT圖像作為實驗數據,根據放射科醫生的注釋得知每幅圖像中只有一個結節。聚類后得到248個候選結節,其中包含128個真陽結節和120個假陽結節。
實驗將248個樣本的8個特征屬性數據運用Relief特征加權算法進行實驗,求出不同的特征屬性在分類中不同的貢獻。類圓度、灰度直方圖熵、灰度均值、緊湊度、對比度、相關性、能量和熵等8個屬性按照順序在Relief算法中通過四折交叉運算計算出的權重均值變化趨勢如圖5所示。其中,類圓度為8.14,灰度直方圖熵為6.81,灰度均值為7.80,緊湊度為1.15,對比度為0.16,相關性為0.11,能量為1.07,熵為0.17。

圖5 8個特征屬性的權重
按照從大到小順序排列,可知各個屬性的權重關系如下:屬性1>屬性3>屬性2>屬性4>屬性7>屬性8>屬性5>屬性6,可以看出屬性1類圓度是最主要的影響因素。其次是屬性3灰度均值和屬性2灰度直方圖熵,后面幾個屬性的權重大小相近,但是還是對分類有著不同的重要程度。
本文在特征選擇為了獲得最優特征組合,根據各個特征屬性權重的大小,從大到小不斷組合特征屬性,得到的準確率見表2。

表2 不同特征組合后的準確率
由表2可以看出特征屬性1、3、2、4、7即類圓度、灰度均值、灰度直方圖熵、緊湊度、能量這5個特征組合所得的分類準確率最高,所以將這5個特征選為最優特征組合。
對比實驗中檢測肺結節的步驟是:首先根據肺結節的形狀和灰度特征對感興趣區域聚類得到候選結節;然后提取候選結節的幾何特征和紋理特征,最后利用支持向量機(SVM)和極限學習(ELM)進行分類,將結節和非結節分離開來。基于交叉驗證的3種分類算法的肺結節檢測錯誤率的對比見表3。其中Y表示被檢測為非結節的樣本數量/該組結節樣本數,N表示被檢測為結節的樣本數量/該組非結節樣本數,T表示被錯檢的數量/該組測試的總的樣本數。從表中SVM算法、ELM算法以及本文算法相比較可以看出,SVM算法的錯檢率為13.31%,ELM算法的錯檢率為6.45%,可以看出相對于傳統的分類算法,ELM算法的錯檢率減少了一半,具有更好的分類性能。而本文算法的錯檢率只有4.03%,較傳統的ELM分類算法錯檢率有所降低,說明經過特征加權優化后的ELM相對于傳統的ELM更適用于肺結節的檢測。

表3 錯檢率對比
本文算法與SVM分類算法和ELM算法對比見表4。從表格實驗數據分析可知:本文方法對于肺結節檢測的精確度達到95.97%,而對比實驗SVM和ELM方法得到的準確率分別為是86.69%、93.55%,準確率分別提高了9.28%,2.42%。由于漏診對于患者是致命的,所以對于肺結節的檢測應該盡量減少漏診。本文方法在漏診率方面,相比較于SVM算法和ELM算法分別降低了12.15%、4.66%,這對于患者能夠提高肺癌的診斷質量和效率。本文方法的誤診率相對于對比實驗的方法分別降低了5.96%、0.18%。
根據式(16)計算出對比實驗SVM算法的敏感度和特異性分別為83.69%,90.65%,ELM算法的敏感度和特異性分別為91.18%,96.43%,而本文算法的敏感度和特異性分別為95.38%,96.61%。本文算法相對于SVM算法有11.69%敏感度的提高和5.96%特異性的提高。而相對于傳統的ELM算法有4.2%敏感度的提高和0.18%特異性的提高,這表明在權重分配時,Relief-ELM算法分配的權重科學,適用于肺結節的分類,具有較高的靈敏度和特異性。

表4 對比實驗
不同算法的分類性能評價如圖6所示,從圖中可以直觀地看出對比實驗SVM算法和ELM算法的準確率、敏感度和特異性都低于本文方法,而漏診率和誤診率均高于本文方法,表明Relief-ELM的各項評價指標都優于SVM算法和ELM算法。

圖6 不同算法的分類性能比較
所提出的基于聚類和特征加權ELM的兩級分類肺結節識別方法,首先利用肺結節的灰度和形狀特征提取候選結節,剔除假陽性結節,降低后續的工作量;再提取候選結節的特征,利用Relief特征加權算法對候選結節的每個特征賦予不同的權重,提高了診斷的準確率。權重較高的特征對于類別的區分能力就較強,權重低的對類別的區分能力就較弱。實驗結果表明:相對于SVM算法和傳統的ELM算法,Relief-ELM對肺結節的分類具有較好的分類性能,在提高準確率的同時,能夠降低誤診率和漏診率。今后的研究工作是在當前工作的基礎上對已經檢測出的肺結節進行良惡性分類。