符 堯,王俊峰,高 琳,姬郁林,張菊英
(1.四川大學 計算機學院,四川 成都610065;2.西南科技大學 計算機科學與技術學院,四川 綿陽621010;3.四川大學 華西醫院,四川 成都610041;4.四川大學 華西公共衛生學院,四川 成都610041)
在當前的肺結核診斷方式中,價格低廉且輻射量小的數字X 光照片 (digital radiography,DR)廣泛應用于臨床診斷,特別是大規模的體檢篩查。但在醫師的實際診斷過程中,由于肋骨、胸膜等重疊組織以及閱片醫師的個人閱歷等問題,存在的漏檢、誤判、效率低等問題[1]。針對該問題,Steven Schalekamp等[2]研發了肺結核計算機輔助系統 (CAD)輔助診斷。研究結果表明,使用該方案可以減小誤診率,同時提高閱片醫師的工作效率。
當前,Yu等[3]通過對整張DR 片的分析,判斷該DR片是否為異常DR 片,給醫師提供診斷支持,但該方法對病變不明顯的DR 片效果較差,且在實際診斷中,無法檢測出病變區域,給醫師提供直觀的診斷參考;而通用的病變區域檢測方法[4],存在漏檢率低、準確度低等問題。因此,本文提出一種基于SURF 算子的肺結核病變區域檢測方法,采用SURF算子檢測出疑似病變區域,根據疑似病變區域的特征,使用SVM 判斷病變區域,檢測出肺結核病變區域。
Tao Xu等的文獻中指出了肺結核病變區域檢測的通用框架[4]。首先輸入DR 片,并對其做預處理。其次使用模式識別等方法,檢測出疑似病變區域。再次提取疑似病變區域的特征,如形狀特征、紋理特征、密度特征等。最后使用分類器判斷候選病變區域是否為病變區域。
通用肺結核DR CAD 系統流程,如圖1所示。

圖1 通用肺結核DR CAD 系統流程
在該框架的基礎上,Rui Shen等[5]提出了一種混合的基于先驗引導 (hybrid knowledge-guided,HKG)的肺結核診斷框架。使用基于自適應閾值均值漂移聚類 (mean-shift clustering)來檢測候選區域,然后分割出候選區域中的重要部分,并提取梯度方向變化系數 (gradient inverse coefficient of variation,GICOV),最后使用貝葉斯分類器判斷候選區域是否為異常區域。然而該方法有一些局限,首先,當病變區域過小時,均值漂移聚類效果較差,且其參數難以確定;其次,當病變區域邊緣模糊時,GICOV 特征辨識度低。Tao Xu等[4]則提出了基于高斯模板匹配 (Gaussian-model-based template matching,GTM)檢測候選區域的方法,基于他們的空洞模板,該方法在空洞檢測上效果較好,但肺結核的影像學表現除了空洞,還有鈣化、節點、斑片等多種形式,故該方法局限性較大。
為了克服以上困難,本文提出了一種基于SURF 算子的肺結核病變區域檢測方法,流程如圖2 所示。在DR 片預處理的基礎上,首先分割肺實質區域;其次在肺實質圖像上使用SURF算子檢測圖像特征點,并剔除部分冗余特征點,結合尺度信息得到疑似病變區域;接著提取疑似病變區域的紋理、灰度值統計等特征;最后使用SVM 分類器,判斷疑似病變區域是否為病變區域,給醫師提供診斷支持。實驗結果表明,本文的方法可以獲得較低的漏檢率及較高的準確度。

圖2 本文提出的肺結核DR 片病變區域檢測流程
本文使用的300張實驗DR 片來源于參加十二五國家重大科技專項的24個醫院,由于實際拍攝的環境、拍攝方式的差異,在檢測疑似病變區域前,需要對DR 片進行預處理。本文使用直方圖均衡化加強DR 片的對比度以及高斯濾波去除高斯噪聲。
由于醫學圖像,特別是肺部DR 片中組織重疊、邊界模糊,因此,包含人工判斷的交互式分割才能得到最理想的分割效果。微軟研究院提出的GrabCut[6]算法,是對圖割 (graph cut)的優化,在交互式分割中有分割精確度高、交互式、運行速度快等優點,故本文使用的是基于Grab-Cut的交互式分割方法。分割效果如圖3 所示,其中圖3(a)為原始肺部DR 片圖像,圖3 (b)為本文方法分割后的DR 片圖像。
在得到肺實質區域之后,我們將在肺實質上檢測疑似病變區域,本部分由檢測疑似病變區域及篩查疑似病變區域組成。
2.3.1 檢測疑似病變區域

圖3 肺部分割結果
加速穩健特征 (speeded up robust features,SURF)[7]是 尺 度 不 變 特 征 轉 換 (scale-invariant feature transform,SIFT)的改進,以能夠快速地檢測出大量的特征點,在圖像匹配中得到了廣泛的應用。此外,由于SURF 算子的局部極值點特性,可以檢測到絕大多數病變點。因此,我們在肺實質圖像上使用SURF 算子檢測局部最值點,得到候選的特征點,再結合SURF 的尺度信息,得到疑似病變區域。
2.3.2 篩查疑似病變區域
又由于SURF算子檢測所有局部最值點的特性,2.3.1中得到的檢測結果中有大量冗余疑似病變區域,部分如圖4所示,為了剔除假陽性區域,抑制假陽性率,在此先對疑似病變區域進行初步篩查。根據分析,冗余特征區域主要有邊緣區域、重疊區域以及其它區域。

圖4 冗余疑似病變區域
(1)邊緣區域:邊緣區域因與肺實質外部相交,故能被SURF算子檢測出,如圖4 (a)所示。根據肺實質分割后的圖像中,肺實質區域外像素值為零的特性,本文提出一種快速的邊緣區域檢測法。
首先,根據特征點坐標和尺度,提取疑似候選區域為感興趣區域 (region of interest,ROI),然后以ROI中心點為原點,尺度半徑為半徑,構建特征圓。從圓心出發,以30°為夾角旋轉半徑,得到6條直徑線,統計6條直徑線上像素值為0的點。定義邊界率 (boundary ratio,BR)

式中:N——6條直徑線上像素值為0的點的數量,Λ——6條直徑線上像素點的總數量。當BR>10%時,該疑似病變區域為邊界點。
(2)重疊區域:由于同一區域可能有不同尺度,故存在重疊的疑似病變區域,如圖4 (b)所示。本文提出了基于重疊率 (overlapping ratio,OLR)的篩選法。定義如下

式中:S0——重疊部分面積,S——候選區域面積。本文實驗中,若OLR>40%,則判定為嚴重重疊,并去除該區域。
(3)其它區域:根據肺結核病專家的指導以及參考手冊[8],肺結核的主要病變特征如結節、鈣化、片團、斑片等,相比于非病變區域,其密度有著顯著的變化,根據此指南,我們可以篩除部分非結核病變區域,典型如圖4 (c)所示,該特征區域內灰度值基本一致。因此,實驗過程中,我們使用局部密度法與高斯拉普拉斯算子 (Laplace of Gaussian,LoG)邊緣檢測聯合判斷。
1)設疑似病變區域的半徑為R,則分別計算同圓心,半徑為R、R/2、2R 的3個區域的灰度均值,得到灰度均值為m1、m2、m3,有公式

式中:δ——密度差異因子。
2)在疑似病變區域內,使用LoG 算子檢測邊緣。
若滿足條件1)且2)中無邊緣線,則為非病變區域。
參考Stefan Jaeger等[9]的研究指南,本文選取以下4組特征,分別實驗單個特征、多特征融合的分類效果,以確定最適合本文方法的分類特征。
(1)SURF特征:通過在特征點周圍取一個方框,然后把該方框劃分為16個子區域每個子區域統計25個像素的水平方向和垂直方向的haar小波特征。特征向量的維度為64。
(2)“詞袋”(bag of words,BoW)特征:BoW 源于自然語言處理,后在計算機視覺中得到了應用。本文首先提取所有SURF 特征,以k 為1000 使用k 均值聚類,得到1000個單詞 (即語義字典),最后,對具體的特征點,把其歸到具體的詞里。特征向量的維度為1000。
(3)方向梯度直方圖特征 (HOG):在特征點周圍劃分單元區域,計算單元區域內的每個像素的方向梯度,并統計為的梯度直方圖,形成特征描述符。由于劃分尺寸不同,特征維度不同,本文取特征向量維度為900。
(4)統計特征 (statistical feature):Tan JH 等[10]使用統計特征,在結核DR 片的篩查上獲得了成功,因此,實驗過程中,我們選用了均值、方差、熵3種統計特征

其中,d(i)為i的分布

其中,φ(i)是灰度值為i的數量,Λ 是感興趣區域 (ROI)內像素點的總數量。
本文選用支持向量機 (SVM)構建分類器。SVM 是一種有監督學習的分類器,通過核函數變換,把原始向量映射到超平面之上,使原來線性不可分的向量,在超平面上線性可分[11]。SVM 的分類效果與構造超平面的核函數與參數有直接關系。在實際使用中,選用哪種核函數,沒有統一的標準[12]。本文選用以下4 種核函數作為比較,以確定最合適的核函數,相關參數則參考經驗。其中核函數有:
線性核 (linear)

多項式核 (polynomial)

徑向基函數 (RBF)核

Sigmoid核

而對SVM 分類效果影響最大的參數是懲罰系數c和核函數寬度g。為了得到最優的c和g,本文使用k-折交叉驗證的方法尋找最優參數[13]。k-折交叉驗證首先把完整的數據隨機分割成k 份,每份的大小相同,然后把其中的k-1份作為訓練數據,而剩下的作為測試數據,按照此方法訓練測試分類k次,每次訓練和分類過程中,使用網格尋優算法,得到最優的c和g。
本文主要從疑似病變區域的選取情況以及分類結果兩方面評估本文所提的方法。作為比較,我們實現了Rui Shen等[5]提出 的HKG 方法。
本文實驗使用的數據集來源于十二五重大傳染病國家科技重大專項,該項目對30萬人進行健康篩查,其中有約20萬人拍攝了DR 胸片。該DR 胸片通過鄉鎮衛生院放射科醫師、區縣CDC結核專家、四川大學華西醫院結核專家三級判斷,篩查出疑似活動性肺結核的DR 片,最后,四川大學華西醫院結核專家標注肺結核病變區域。
我們挑選了300張活動性肺結核DR 片作為實驗材料。該批DR 胸片全為后前位 (PA 位)拍攝的,拍攝者為20~60歲之間的體檢者,DR 片的圖像格式為JPEG,位深度為8,尺寸不完全規則,在2000*2000像素和2500*2500像素之間,像素間的物理尺寸為0.14mm。
本 文 使 用Tao Xu 等[4]提 出 的 缺 失 率 (missing rate,MR)作為評判方式。其計算公式為

式中:M ——缺失的病變區域數量,∑——總的病變區域數量。由于直徑小于5 mm 的病變點細微不可見,故本文實驗過程中不考慮該病變點。
在肺實質分割的基礎上,本文使用SURF 算子檢測特征點,結合尺度信息,得到疑似區域。再使用本文提出的疑似病變區域篩查法,剔除冗余區域。結果表明,每張DR片,本文所提篩查法剔除了約3800個冗余疑似區域,且剩余的200個疑似區域基本涵蓋了所有的病變區域。圖5為篩選前后的疑似區域對比,其中圖5 (a)為篩選前的疑似區域分布情況,圖5 (b)為篩選后疑似區域分布情況。

圖5 疑似區域篩選結果
對Rui Shen等[5]提出的基于均值漂移聚類檢測法,我們得到如表1所示的疑似病變區域檢測對比結果。由表可知,相比于均值漂移聚類,本文方法的疑似病變區域的檢測缺失率 (MR)下降了約27%,且檢測出的數量遠遠高于均值漂移聚類。

表1 疑似病變區域檢測結果
圖6為本文檢測實例,顯然,本文的方法,對絕大多數區域都能檢出,而MSC在病變區域不明顯 (如組1)時,檢出效果較差。
在最終分類前,首先要確定最合適的SVM 核函數及分類特征。

圖6 疑似病變區域檢測實例
首先,分別實驗單特征、融合特征在不同核函數下分類效果,以確定最合適的分類特征。如使用單個特征時,得到表2及圖7 是對單個特征分類效果測試結果,顯然,SURF特征分類效果較好。

表2 同核函數、不同特征分類結果

圖7 同核函數、不同特征分類結果ROC曲線
其次,選擇核函數時,分布使用4種不同的核函數構建SVM 分類器,隨機挑選出10張作為測試數據,其余的用于訓練分類器。如使用SURF 特征分類,得到如圖8所示的ROC曲線,以及表3的分類效果。顯然,對SURF特征,多項式核的SVM 分類效果略優于RBF核的SVM,明顯優于線性核和Sigmoid核的SVM。

表3 同特征、不同核函數分類結果

圖8 同特征,不同核函數的分類結果ROC曲線
按以上步驟以及k-折參數優化,確定最終的分類特征、分類器及參數,即SURF 特征結合HOG 特征,核函數為多項式,主要參數c=0.00087656,g=22.6274。使用此方法,得到了如圖9所示的分類結果以及如圖10所示的檢測結果。作為對比,本文采用Rui Shen等[5]提出HKG 方法,使用均值漂移聚類得到候選點后,再提取GICOV 特征用于分類,得到如表4所示的分類結果,ROC曲線如圖8所示。顯然本文方法可以獲得較高的分類準確度及AUC值。

圖9 本文方法與HKG 分類結果ROC曲線

圖10 本文方法檢測結果

表4 本文方法與HKG 分類結果對比
本文對方法中的主要兩部分,即疑似病變區域的選取以及病變區域的判斷做了詳細的測試及評估。顯然,基于SURF的疑似病變區域檢測具有較低的漏檢率以及較高的分類準確率,明顯優于Rui Shen等[5]的HKG 法。
由于SURF 算子檢測特征點的全面性,得到了表1所示的每張DR 片約200 的疑似病變區域,其中大量為非病變區域,即負樣本。即使通過分類器判斷,不可避免的會有非病變區域被判斷為病變區域,即負樣本被判斷為正樣本(FT)。考慮到實際輔助診斷時,高檢出率比低漏檢率更重要,即使有不少的FT 結果,診斷醫師也可以憑個人的經驗進一步判斷,而輔助診斷系統也起到了 “提示”的輔助功能,而高漏檢率可能會錯過重要的病變區域。因此,本方法在的低漏檢率在輔助診斷過程中更具有實際意義,相比與其它方法也更有優勢。
針對當前肺結核DR 片病變區域檢測的研究較少,當前方法的漏檢率較高,且通用性低等情況,本文提出一種基于SURF的肺結核DR 片病變區域檢測方法,并對該方法中系統框架的關鍵步驟進行了詳細分析和實驗研究,最后實現了肺結核DR 片病變區域檢測系統,得到了良好的效果,表明了本文所提方法的可行性。和已有的方法比較,本文的方法具有低漏檢率以及高檢測準確度的優點。
后續的研究將集中在:疑似病變區域篩選方法的優化;進一步提高檢測的準確度;優化本方法的運行速度;以及進一步判斷病變區域的類型,區分肺癌、結核等病灶類似但病理不同的情況。
[1]Noor NM,Rijal OM,Yunus A,et al.A statistical interpretation of the chest radiograph for the detection of pulmonary tuberculosis[C]//IEEE Conference on Biomedical Engineering and Sciences,2010:47-51.
[2]Steven Schalekamp,Bram van Ginneken,Emmeline Koedam,et al.Computer-aided detection improves detection of pulmonary nodules in chest radiographs beyond the support by bone-suppressed images[J].Radiology,2014,272:252-261.
[3]Yu P,Xu H,Zhu Y,et al.An automatic computer-aided detection scheme for pneumoconiosis on digital chest radiographs[J].Journal Digit Imaging,2011,24:382-393.
[4]Tao Xu,Irene Cheng,Richard Long,et al.Novel coarse-tofine dual scale technique for tuberculosis cavity detection in chest radiographs[J].EURASIP Journal on Image and Video Processing,2013,3:1-18.
[5]Shen R,Cheng I,Basu A.A hybrid knowledge guided detection technique for screening of infectious pulmonary tuberculosis from chest radiographs[J].IEEE Trans Biomed Eng,2010,57:2646-2656.
[6]Han Shoudong,Tao Wenbing,Wang Desheng,et al.Image segmentation based on grabcut framework integrating multiscale nonlinear structure tensor [J].IEEE Transactions on Image Processing,2009,18:2289-2302.
[7]Herbert Bay,Tinne Tuytelaars,Luc Van Gool.SURF:Speeded up robust features [J].Computer Vision and Image Understanding,2008,110:346-359.
[8]Long R,Ellis E.Canadian tuberculosis standards:7th edition[EB/OL].http://www.respiratoryguidelines.ca/tb-standards,2013.
[9]Stefan Jaeger,Alexandros Karargyris,Sema Candemir,et al.Automatic screening for tuberculosis in chest radiographs a survey [J].Quant Imaging Med Surg,2013,2:89-99.
[10]Jen Hong Tan,Rajendra Acharya U,Collin Tan,et al.Computer-assisted diagnosis of tuberculosis:A first order statistical approach to chest radiograph [J].Journal of Medical Systems,2012,36:2751-2759.
[11]Pasolli Edoardo,Melgani Farid,Tuia Devis,et al.SVM active learning approach for image classification using spatial information [J].IEEE Transactions on Geoscience and Remote Sensing,2014,52:2217-2233.
[12]Li Yang,Wen Dunwei,Wang Ke,et al.Mixed kernel function SVM for pulmonary nodule recognition[G].LNCS 8157:Image Analysis and Processing-ICIAP,2013:449-458.
[13]Zhang Junying,Liu Shenling,Wang Yue.Gene association study with SVM,MLP and cross-validation for the diagnosis of diseases[J].Progress in Natural Science,2008,18 (6):741-750.