丁建睿,黃劍華,劉家鋒,張英濤
(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150001哈爾濱)
特征選擇是圖像識別系統(tǒng)中的重要組成部分,根據(jù)特征選擇準(zhǔn)則是否依賴于學(xué)習(xí)算法,特征選擇方法可以分為:Filter模型、Wrapper模型和混合模型[1].最小冗余最大相關(guān)(mRMR)[2]是基于互信息(Mutual Information)的特征選擇方法,它根據(jù)最大統(tǒng)計(jì)依賴性準(zhǔn)則來選擇特征.支持向量機(jī)(SVM)[3]在很大程度上解決了過學(xué)習(xí)、非線性及維數(shù)災(zāi)難等模式識別中存在的問題,是目前針對小樣本估計(jì)和預(yù)測的最佳分類方法[4].mRMR與SVM結(jié)合的特征選擇與分類方法已成功應(yīng)用到地表分類[5]、遙感圖像分類[6]和X光圖像分類中[7].
彈性成像是測量生物組織的彈性信息并將其可視化的一項(xiàng)新技術(shù),其概念最早由Ophir[8]于1991年提出,經(jīng)過算法的不斷改進(jìn),目前已成功應(yīng)用于臨床.T.Shiina等[9]提出的彩色彈性成像技術(shù)將彈性圖像上的像素根據(jù)其彈性幅值編碼到256級偽彩色,顏色從紅到藍(lán),代表組織從軟到硬,彩色彈性圖像半透明的疊加到超聲圖像上.
本文針對目前臨床上評價彈性圖像存在的問題,利用CAD技術(shù)對彈性圖像進(jìn)行分析,提出了一種新的客觀、定量評價彈性圖像的方法.首先從彩色圖像中解碼得到彈性信息,然后提取病變區(qū)域的彈性特征,包括一階統(tǒng)計(jì)特征和紋理特征,為選取與分類最相關(guān)且相互間冗余度低的特征子集,采用最小冗余最大相關(guān)(mRMR)特征選擇算法,獲得優(yōu)化特征子集,最后采用帶有核函數(shù)的SVM分類器對樣本進(jìn)行訓(xùn)練和測試.實(shí)驗(yàn)結(jié)果表明該方法具有高準(zhǔn)確性和魯棒性.
生物組織的彈性信息是衡量病變中良、惡性的一個重要標(biāo)準(zhǔn).然而目前的醫(yī)學(xué)影像手段,包括X射線成像、超聲成像、磁共振成像等都無法反映病變的這一生物力學(xué)特性.彈性成像技術(shù)的出現(xiàn)解決了這一問題,為醫(yī)生臨床診斷提供了有效的參考依據(jù).目前利用CAD技術(shù)對彈性圖像進(jìn)行分析尚處于起步階段,部分學(xué)者將直方圖特征,如:均值、方差、以及病變區(qū)域與正常組織的彈性差和比值作為彈性圖像的特征[10-11],利用這些特征對彈性圖像進(jìn)行分析和分類,但這些特征都比較簡單,且未能反映病變區(qū)域彈性信息的空間分布.本文選擇提取彈性圖像上病變區(qū)域的一階統(tǒng)計(jì)特征來反映彈性信息的總體分布,提取紋理特征來反映病變區(qū)域的彈性信息的空間分布.另外根據(jù)圖1,將Hue歸一化到[0,1],選取Hue處于藍(lán)色區(qū)域的像素為硬度大的組織區(qū)域,其與病變區(qū)域面積的比值定義為硬組織占病變區(qū)域的面積比.
本文將彩色彈性圖像從RGB彩色空間變換到HSV彩色空間,其中Hue分量反映色彩信息,可以用來表示彈性信息.從RGB中獲取Hue分量的計(jì)算方法可表示為

Hue從0~360°分別對應(yīng)著顏色從紅,黃,綠,藍(lán)到紅,由于對彈性信息的彩色編碼為從紅到藍(lán),其中:藍(lán)色代表組織的彈性小,紅色代表組織的彈性大,而從式(1)中可以看出300°~360°和0~60°的紅色部分有重疊,為了準(zhǔn)確的獲取彈性信息,需要進(jìn)行處理,對于R≥B>G的像素,將其對應(yīng)的Hue賦值為0,效果如圖1所示.

圖1 反映病變區(qū)域的彈性圖像
在圖1(b)中由于Hue分量的重疊問題,造成一些在圖1(a)中為紅色的像素具有較高的Hue,沒有正確的反映彈性信息,而在圖1(c)中由于進(jìn)行了處理,圖1(a)中所有的紅色像素在圖1(c)中均為低Hue.
一階統(tǒng)計(jì)特征反映了病變區(qū)域全局的彈性信息,本文采用均值(Mean)、眾數(shù)(Mode)、方差(Variance)、偏斜率(Skewness)、峰度(Kurtosis)、熵(Entropy)、能量(Energy)、光滑度(Smoothness)作為一階統(tǒng)計(jì)特征(特征編號為F1-F8).
硬組織區(qū)域面積比定義為病變區(qū)域內(nèi)Hue>0.5的像素之和與病變區(qū)域面積之比,相比對彈性圖像的評分法,該特征定量的給出了病變區(qū)域內(nèi)部軟硬組織的比例(特征編號為F9).
圖像的紋理特征提供了像素灰度的空間分布信息,對于彈性圖像來說,病變區(qū)域的紋理特征反映了該區(qū)域彈性信息的空間分布,即病變區(qū)域組織的軟硬分布以及生長、浸潤狀況.對圖像紋理特征的描述分為統(tǒng)計(jì)描述方法和結(jié)構(gòu)化描述方法,由于統(tǒng)計(jì)描述方法計(jì)算簡單而被廣泛使用,共生矩陣是一種常用的圖像紋理統(tǒng)計(jì)描述方法.
共生矩陣[12]定義為距離為d,方向?yàn)棣鹊幕叶燃塱和j的聯(lián)合概率密度,它不僅反映了灰度的分布特性,也反映了具有相同灰度級的位置分布特性,是有關(guān)圖像灰度變化的二階統(tǒng)計(jì)特征,其元素Cd,θ(i,j,d,θ)定義為

式中:(x1,y1)、(x2,y2)分別為彈性圖像中病變區(qū)域的像素;Ⅰ(·)為像素的Hue;‖·‖為滿足條件的像素對的個數(shù).本文提取4個方向上(θ=0°,45°,90°,135°),4個距離(d=1,2,3,4)的16個共生矩陣,為減少計(jì)算復(fù)雜性并保留圖像細(xì)節(jié),64個Hue用來計(jì)算共生矩陣.從共生矩陣中提取對比度(contrast),相關(guān)(correlation),能量(energy)和一致性(homogeneity)4個特征,為減少特征空間的維數(shù),對同一距離的特征進(jìn)行平均,一共從共生矩陣中提取16個特征(特征編號為F10-F25).
本文從彈性圖像的病變區(qū)域總共提取了25個特征,特征之間的相關(guān)性和冗余性會降低分類的準(zhǔn)確率,同時醫(yī)學(xué)圖像通常屬于小樣本學(xué)習(xí),特征過多將提高分類器的復(fù)雜度,造成過擬合,降低分類器的泛化能力,因此需要對特征集合進(jìn)行選擇和優(yōu)化.
本文采用“最小冗余最大相關(guān)”(mRMR)方法進(jìn)行特征選擇.特征選擇的目的是從特征空間中尋找與目標(biāo)類別有最大相關(guān)性且相互之間具有最少冗余性的m個特征[13],最大相關(guān)和最小冗余的定義為

式中:S為特征集合;c為目標(biāo)類別;Ⅰ(xi;c)為特征i和目標(biāo)類別c之間的互信息;Ⅰ(xi,xj)為特征i與特征j之間的互信息.
給定兩個隨機(jī)變量x和y,它們之間的互信息根據(jù)其概率密度函數(shù)p(x),p(y)和p(x,y)分別定義為

對于多元變量Sm和目標(biāo)類別c,互信息定義為

將式(2),(3)進(jìn)行組合,可以得到“最小冗余最大相關(guān)”(mRMR)的特征選擇標(biāo)準(zhǔn)為

式(4)表示應(yīng)該選擇與類別最大相關(guān)而與候選特征最小冗余的特征.假定已確定一個有m個特征的數(shù)據(jù)集Sm,下一步需要從數(shù)據(jù)集{S-Sm}中選擇使得式(4)最大化的第m+1個特征為

本文采用帶有核函數(shù)的SVM(KSVM)分類器對彈性圖像進(jìn)行分類,訓(xùn)練樣本被KSVM分類器映射到高維空間以獲得優(yōu)化的分類平面,KSVM具有泛化能力強(qiáng)和可以通過將樣本映射到高維空間以解決非線性分類問題的優(yōu)點(diǎn).

兩類問題可以通過利用KSVM最小化來進(jìn)行求解其中:?ξl≥0,wxl+b≥1-ξlif yl=-1;且
wxl+b≤-1+ξlif yl=-1.
式中:w為需要求解的分隔平面;ξ為軟邊緣;xl為訓(xùn)練樣本;yl為xl的已知類別;L為訓(xùn)練樣本的個數(shù);C為常數(shù).
上述問題可以利用拉格朗日方法變換為尋找參數(shù)向量α0以最大化為

滿足

式中K(xi,xj)為核函數(shù),對于每個訓(xùn)練樣本xi,有與之對應(yīng)的參數(shù)α0i,如果≠0,該訓(xùn)練樣本稱為支持向量(support vector).訓(xùn)練結(jié)束后,對于測試樣本x的類別為

式中:xS為支持向量;NSV為支持向量的個數(shù);K(x,xS)為核函數(shù).
本文采用RBF核函數(shù),其定義為

通過網(wǎng)格搜索法,最終選擇性能最優(yōu)的C和γ值.
為了驗(yàn)證本文的方法在彈性圖像上應(yīng)用效果,本文對125例甲狀腺彈性圖像進(jìn)行了分析處理.本文采用的所有甲狀腺彈性圖像由哈爾濱醫(yī)科大學(xué)附屬第二醫(yī)院提供,并由哈爾濱醫(yī)科大學(xué)附屬第二醫(yī)院超聲科專家對圖像中的病變區(qū)域進(jìn)行手工標(biāo)注,所有病例均經(jīng)過病理檢驗(yàn),其中:56例惡性,69例良性.超聲圖像和彈性圖像均采用配備線性探頭,中心頻率為6-13MHz的日立Vision900商用超聲設(shè)備獲得.
圖2(a),(b)分別為一例惡性腫瘤和一例良性腫瘤的彈性圖像.

圖2 一例惡性腫瘤和一例良性腫瘤的彈性圖像

表1 分類準(zhǔn)確率
由于特征之間存在冗余和相關(guān),當(dāng)選取所有特征進(jìn)行分類時并不能達(dá)到最佳效果,當(dāng)選擇由mRMR算法所選擇的前5位特征進(jìn)行分類,在實(shí)驗(yàn)所用的樣本集合上達(dá)到最佳效果,可見mRMR算法有效的去除了特征之間的冗余和相關(guān).
為進(jìn)一步測試方法的魯棒性,從相同病例中選取125幅未經(jīng)訓(xùn)練的圖像作為測試樣本,利用已經(jīng)訓(xùn)練好的分類器進(jìn)行分類,測試結(jié)果如表2所示.

表2 相同病例不同圖像的測試結(jié)果
首先,影像醫(yī)師在超聲圖像上勾勒病變區(qū)域,該區(qū)域被自動映射到對應(yīng)的彈性圖像上;彩色彈性圖像從RGB空間變換到HSV空間,特征提取自病變Hue分量圖像中的病變區(qū);采用mRMR算法進(jìn)行特征選擇后,取排名前5位的特征作為樣本采用KSVM進(jìn)行訓(xùn)練和測試,這些特征分別為F9:硬區(qū)域面積比;F20:共生矩陣(d=3)的能量(Energy)特征;F21:共生矩陣(d=3)的同質(zhì)(Homogeneity)特征;F5:一階統(tǒng)計(jì)特征中的峰度(Kurtosis)特征;F23:共生矩陣(d=4)的相關(guān)(Correlation)特征.其中硬區(qū)域面積比可以認(rèn)為是評分法的一種量化形式,而共生矩陣的特征及一維統(tǒng)計(jì)特征反映了彈性信息的空間分布和總體分布,這些特征反映了病變區(qū)域的軟硬程度及硬度分布情況.
在實(shí)驗(yàn)中采用“留一”(leave-one-out)測試法[14],一幅圖像用來測試,其他圖像用來訓(xùn)練,該過程不斷迭代,直至所有圖像都被測試過為止.
方法的性能采用分類準(zhǔn)確率來評價,定義正確分類和錯誤分類的惡性病例個數(shù)為真陽性(True Positive,TP)和假陰性(False Negative,F(xiàn)N),正確和錯誤分類的良性病例個數(shù)為真陰性(True Negative,TN)和假陽性(False Positive,F(xiàn)P),分類準(zhǔn)確率定義為:(TP+TN)/(TP+TN+FP+FN).
為了證明5個特征是否為最佳特征集合,分別對4個特征和6個特征的情況進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.
由于125例用作測試的圖像未參加訓(xùn)練,性能有所下降,但仍然達(dá)到了88%的準(zhǔn)確率,證明采用優(yōu)化特征集合所得到的分類器具有良好的泛化能力,驗(yàn)證了方法的穩(wěn)定性和可靠性.
VISION 900可以根據(jù)影像醫(yī)師勾勒的正常組織區(qū)域和病變區(qū)域自動計(jì)算兩區(qū)域的平均彈性比值,稱為彈性計(jì)算(strain ratio),該值越大說明病變區(qū)域與正常組織的彈性差異越大,病變?yōu)閻盒缘目赡苄跃驮酱?用該值進(jìn)行分類的結(jié)果和采用本文方法分類的結(jié)果比較如表3所示.

表3 與儀器計(jì)算的彈性比值的比較
彈性比值法試圖用定量的方法來評價彩色彈性圖像,但由于病變區(qū)域與正常組織區(qū)域需要影像醫(yī)師手動進(jìn)行選擇,同樣具有主觀性,容易造成假陽性和假陰性.實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以客觀、定量的評價彈性圖像,分類性能優(yōu)于彈性比值法.
彈性圖像評分法是影像醫(yī)師根據(jù)彈性圖像病變區(qū)域的色彩分布,人為主觀給出的分值,用來評價圖像的良惡性程度,甲狀腺彈性圖像中通常采用4分評分法,分值越高,其惡性程度越高.為了與該方法進(jìn)行比較,超聲專家對125例甲狀腺彈性圖像分別進(jìn)行了評分,評分法得到的結(jié)果與本文提出方法的結(jié)果比較如表4所示.

表4 與評分法的比較
由于評分法對醫(yī)師要求很高,并且與環(huán)境、心理等眾多因素有關(guān),因此具有很強(qiáng)的主觀性,而本文提出的方法可以對彈性圖像進(jìn)行客觀、定量的評價,性能遠(yuǎn)遠(yuǎn)高于評分法的結(jié)果.
1)實(shí)驗(yàn)結(jié)果表明該方法達(dá)到了預(yù)期的效果,與現(xiàn)存的方法相比,具有更高的準(zhǔn)確率和可靠性.
2)有效特征的選擇降低了分類器的復(fù)雜度,減少了計(jì)算量,提高了泛化能力,為本方法在實(shí)時醫(yī)學(xué)圖像處理系統(tǒng)中的應(yīng)用奠定了基礎(chǔ).
3)利用該方法對甲狀腺彈性圖像進(jìn)行定量的分析,能夠幫助醫(yī)生客觀、準(zhǔn)確的判斷病變的性質(zhì),為進(jìn)一步的診斷提供了有效的參考依據(jù).
[1]LIU Huan,YU Lei.Toward integrating feature selection algorithms for classification and clustering[J].IEEE Transactions onKnowledgeandDataEngineering,2005,17(4):491-502.
[2]DING C,PENG H.Minimum redundancy feature selection from microarray gene expression data[J].Journal of Bioinformatics and Computational Biology,2005,3(2):185-205.
[3]VAPNIK V.The nature of statistical learning theory[M].New York:Springer Verlag,2000.
[4]顧志偉,吳秀清,荊浩,等.一種基于特征選擇的醫(yī)學(xué)圖像檢索方法[J].中國生物醫(yī)學(xué)工程學(xué)報,2007,26(1):30-34.
[5]李士進(jìn),陶劍,林林,等.面向宏觀地表分類的特征選擇算法比較研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(21):130-132.
[6]劉峰,龔健雅.一種基于多特征的高光譜遙感圖像分類方法[J].地理與地理信息科學(xué),2009,25(3):19-22.
[7]YOON Sejong,KIM Saejoon.Mutual information-based SVM-RFE for diagnostic classification of digitized mammograms[J].Pattern Recognition Letter,2009,30(16):1489-1495.
[8]OPHIR J,CESPEDES I,PONNEKANTI H,et al.Elastography:a quantitative method for imaging the elasticity of biological tissues[J].Ultrasonic imaging,1991,13(2):111-134.
[9]SHIINA T,YAMAKAWA M,NITTA N,et al.Clinical assessment of real-time,freehand elasticity imaging system based on the combined autocorrelation method[C]//Proceedings of the IEEE Ultrasonics Sympos.Washington:IEEE Xplore,2003:664-667.
[10]Shirley SELVAN M K,SHENBAGADEVI S,SURESH S.Feature extraction for characterization of breast lesions in ultrasound echography and elastography[J].Journal of Computer Science,2010,6(1):67-74.
[11]Huang Chiun-Sheng,MOON Woo-Kyung,SHEN Wei-Chih,et al.Analysis of elastographic and B-Mode features at sonoelastography for breast tumor classification[J].Ultrasound in Medicine and Biology,2009,35(11):1794-1802.
[12]NEWELL D,NIE K,CHEN J H,et al.Selection of diagnostic features on breast MRI to differentiate between malignant and benign lesions using computer-aided diagnosis:differences in lesions presenting as mass and nonmass-like enhancement[J].European Radiology,2010,20(4):771-781.
[13]PENG H,LONG F H,DING C.Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[14]CHANGMing-wei,LINChih-jen.Leave-one-out bounds for support vector regression model selection[J].Neural Computation,2005,17(5):1188-1222.