孔喜梅,木拉提·哈米提△,嚴傳波,姚娟,孫靜
(1.新疆醫科大學醫學工程技術學院,烏魯木齊830011;2.新疆醫科大學第一附屬醫院影像中心,烏魯木齊830011)
肝包蟲病又稱為肝棘蚴球病,可分為細粒棘球蚴病和泡狀棘球蚴病,是我國西北畜牧業發達地區常見的在人體肝臟內而引起的人畜共患寄生蟲病,其膨脹性生長過程中對肝組織產生壓迫癥狀,及其并發癥都可對人體造成嚴重的危害[1-2]。臨床上,CT診斷肝包蟲的效果優于B超與MRI,由于CT掃描的層次較薄,且有著較高的橫斷面圖像分辨率,可觀察到細微的病灶結構;同時能夠顯示肝包蟲病的結構、位置、形態及大小等,且不同疾病階段時期的病理形態不相同,能夠為臨床治療提供參考依據[3]。
紋理分析能夠鑒定物質特有的屬性和特征,用于分類、分割和識別。在過去的各種特征提取和分類技術的應用過程中都只是為了進行紋理分析。近年來,國內外學者提出了大量的紋理特征提取算法,較著名的有灰度共生矩陣(GLCM)、分形維數、灰度梯度共生矩陣及小波變換等。例如,周晶晶等[4]提出利用灰度共生矩陣法分析肝包蟲CT圖像的紋理特征,主要描述了肝包蟲CT圖像的紋理和灰度分布的差異,結合肝包蟲病癥的特點,將灰度共生矩陣和最大類間距結合,使用Bayes判別分析,一定程度上有助于對肝包蟲CT圖像進行分類和檢索;員偉康等人[5]選取了新疆地方性肝包蟲病中的單囊型肝包蟲和正常肝臟CT圖像為研究對象,提取灰度直方圖、灰度共生矩陣和kc復雜性三種特征組成綜合特征進行分類,最后使用Fisher判別分析法對特征的分類能量進行評價,得到了較高的分類準確率。
目前,以小波分析為代表可實現多分辨率,并在時域和頻域都能表征信號的局部特征的信號處理方法已經越來越多的應用到醫學圖像的研究中[6-7],在肝臟 CT圖像[8]、腦 CT圖像[9]、乳腺 X線圖像[10]等領域已經取得了較為出色的成效。而針對小波變換進行肝包蟲CT圖像特征提取這一方面幾乎為零,因此,本研究擬采用一種基于小波變換的紋理分析方法,利用2種小波變換將圖像分解成不同的子帶,提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征組成特征集。由于所提取的特征之間存在一定的冗余性,因此,使用單因素方差分析法篩選出優化的特征子集,并利用決策樹C4.5分類器進行訓練和測試,為新疆地方性肝包蟲計算機輔助診斷系統奠定基礎。
實驗中選用的正常肝臟CT圖像和多子囊肝包蟲CT圖像,來自于新疆醫科大學第一附屬醫院及南北疆各地州市醫院,經影像科醫師進行指導分類,有效樣本共計200例,其中正常人100例,多子囊肝包蟲患者100例,樣本采集均在40歲以上,男性多于女性。
由于實驗需求在多個地方進行圖像的采集過程中,不同的機器所得到的圖像分辨率會有所不同,而實際應用中,我們也只是對整幅圖像中的感興趣病灶區進行分析。但是不同圖像的感興趣區域的分辨率差異可能成數量級變換,這些差異很容易在分類過程中造成準確率的下降。因此,在選擇感興趣病灶區前,先對圖像進行預處理,降低分辨率的差異以免得到的分類性能較差。
本研究對圖像進行預處理的步驟:(1)灰度尺寸歸一化由于病灶位置、尺寸大小各不相同,因此,采用均勻量化的方法對圖像進行尺寸歸一化,進一步對圖像進行灰度轉換以減少計算機運行速度及運算量;(2)圖像去噪 CT圖像在攝片過程中會受到各種噪聲的干擾,影響成像的質量,存在的噪聲也會干擾圖像特征提取的結果,采用中值濾波對正常和多子囊肝包蟲CT圖像進行濾波,抑制噪聲,同時不會丟失圖像細節;(3)圖像增強 使用自適應直方圖均衡化使CT圖像的灰度分布更均勻,細節描述更清晰。
感興趣病灶區的選擇步驟:首先,如圖1所示,在每幅圖像中,根據病變區域的面積大小,用矩形框分割出不同大小的目標區域,分割時盡可能將肝包蟲病變區域全部包含在內。其次,對感興趣病灶區域內的分辨率進行手工調整,使相同面積的感興趣病灶區域像素數處于同一數量級。

圖1 感興趣病灶區域(a)正常肝臟;(b)多子囊肝包蟲Fig 1 Region of Interest Lesion
小波變換作為一種信號分析的數學工具,在科學技術界已經成為一個熱門話題。經過幾十年的發展,它不僅在理論和方法上取得了突破性的進展,而且在信號與圖像處理、計算機視覺與編碼、模式識別等領域中也得到越來越多的關注和重視[11]。因此,被譽為“數學顯微鏡”,是調和分析發展史上的里程碑[12]。
2.2.1 小波變換基本原理 連續小波變換主要用于理論分析,實際應用中離散小波變換更適于計算機處理。把連續小波變換中的尺度參數a和平移參數b的離散化公式分別取作,其中j,k∈Z,擴展步長是固定值[13]。所以對應的離散小波函數 Ψj,k(t)可寫成:

相應的離散小波變換定義為:

其重構公式為:

c是一個與信號無關的常數。
只有當對尺度參數a和平移參數b離散化,并且能從這些離散點上的值完全重構f(t)時,小波變換才能成為實際可行的分析工具。
取 a0=2,b0=1,每個網格點對應的尺度為 2j,而平移為2jk。由此得到的小波:

稱為二進小波。相應的小波變換可表示為:

由于圖像是二維信號,因此,在應用小波變換對圖像進行處理的過程中,需要把原來的基于一維的小波變換推廣到二維。其中二維的尺度函數為:

上式中的Ψ(x)和Ψ(y)為一維小波變換的尺度函數。
2.2.2 二維小波分解 小波變換將一維時域函數映射到二維“時間-尺度”域上,即小波變換的多分辨率分析[8]。
對每一幅CT圖像進行3層小波分解,分解步驟如下[14]:(1)圖像經過第一層小波分解,進行隔行隔列采樣后,即二維圖像經一次小波變換,分解為原圖像1/4大小的四個子圖像:低頻近似分量LL、水平細節分量HL、垂直細節分量LH和對角細節分量HH,其中L和H分別表示低通和高通濾波輸出。得到的這些子圖像分別從不同角度描述了原圖像。(2)第二次小波變換時又可以進一步的將該近似分量LL子帶分解成1個低頻部分和3個高頻部分,以此類推逐級進行分解。各級的分解系數反映了信號在不同分辨率下,即不同尺度下的低頻信息和高頻信息。對圖像進行3層小波分解,見圖2。

圖2 三層小波分解示意圖Fig 2 Schematic diagram of three layer wavelet decomposition
紋理特征提取的效果主要取決于小波基的選擇和小波分解層數。國內外的研究者已經對不同的小波基從不同的角度出發,進行大量的實驗驗證,并應用于圖像紋理特征提取的領域,得到了較好的實驗效果[15-16]。在實際應用中,對小波基的選擇,一般考慮對稱性,本研究主要考慮2種正交小波sym4和db4,sym4具有近似對稱性,db4具有不對稱性。將這兩種小波用于新疆地方性肝包蟲CT圖像的紋理特征提取中。圖3是一幅多子囊肝包蟲CT圖像利用sym4小波進行的3層小波分解圖。

圖3 多子囊肝包蟲CT圖像3層分解圖(a)原始圖像;(b)3層小波分解圖Fig 3 Three layer decomposition of multiple daughter hydatid cyst CT images
圖像經過小波變換可以得到很多描述紋理信息的特征,其中能量作為特征的方法被廣泛應用。實驗過程中,小波分解層并不是越多越好,經過多次試驗比較,并考慮到計算的復雜度及計算機運行速度,將原圖像進行3層小波分解,提取每層子通道的高頻系數。由于第三層的低頻子圖反映的是紋理圖像的整體概貌,其特征提取無紋理上的意義,所以將其舍去。因此,本研究利用兩種小波基對原圖像分別進行3層小波分解,得到高頻子圖數目分別為9個,然后對每幅高頻子圖應用式(7)計算其能量值[17]。計算能量值公式如下:

其中M,N為圖像的行和列數,P為第i行j列的值。
基于小波變換的新疆地方性肝包蟲CT圖像特征提取的算法如下:
(1)對每一幅經過預處理后的CT圖像選擇其感興趣病灶區;
(2)選用sym4和db4兩種小波基分別對提取的感興趣病灶區CT圖像進行3層小波分解,最終各獲得了一個低頻子圖和9個不同方向的高頻子圖;
(3)提取1~3層各方向高頻子圖的系數,計算小波系數能量值,分別得到9個能量特征:Es=[Esd1,Esh1,Esv1;Esd2,Esh2,Esv2;Esd3,Esh3,Esv3]
Ed=[Edd1,Edh1,Edv1;Edd2,Edh2,Edv2;Edd3,Edh3,Edv3]
(4)分別對得到的特征向量進行統計學方法,篩選出最優的特征,構造用于分類的特征向量,結果分別記作 Eso和 Edo,則 Eso=[Esv1,Esh2,Esv2,Esd3,Esh3,Esv3];Edo=[Edd1,Edv1,Edd2,Edh2,Edv2,Edd3,Edh3,Edv3]
(5)用決策樹C4.5分類器對正常肝臟和多子囊型肝包蟲進行分類,通過試驗比較,選擇出適合于進行特征提取的小波基。圖4給出了基于小波變換的特征提取與決策樹C4.5進行分類的算法框圖。

圖4 CT圖像經小波變換后進行特征提取和決策樹C4.5分類的處理框圖Fig 4 After wavelet transform for process diagram of feature extraction and C4.5 decision tree
Quinlan JR于1993年提出了C4.5算法,它是以ID3算法為核心的完整的決策樹生成系統[18]。它通過兩個步驟來建立決策樹:樹的生成階段和樹的剪枝階段。C4.5算法在ID3的基礎上增加了對連續型屬性和屬性值空缺情況的處理,對樹剪枝也有了較成熟的方法[19-20]。
與ID3不同,C4.5采用基于信息增益率的方法選擇測試屬性。信息增益率等于信息增益對分割信息量比值。
比較ID3算法,C4.5算法在效率上有了很大的提高。不僅可以直接處理連續型屬性,還可以允許訓練樣本集中出現屬性空缺的樣本。生成的決策樹的分枝也較少。信息增益函數對于那些可能產生多分支輸出的測試傾向于產生大的函數值,但是輸出分支多,不表示該測試對未知的對象具有更好的預測效果,信息增益率函數可以彌補該缺陷[21]。以往的經驗說明信息增益率函數比信息增益函數更優越,能穩定的選擇好的測試。
為了客觀地評價分類算法的性能,本研究采用正確率、敏感性和特異性來定性評價,常用的各項指標計算方法如下[22-24]:

其中,tp(true positive,tp.)為真陽性例數,即被正確分類的正常肝臟圖像例數;tn(true negative,tn)為真陰性的例數,即被正確分類的多子囊肝包蟲圖像例數;fp(false positive,fp)為假陽性的例數,即多子囊肝包蟲圖像被錯分為正常肝臟圖像例數;fn(false negative,fn)為假陰性的例數,即正常肝臟圖像被錯分為多子囊肝包蟲圖像例數。另外,在分類過程中可以獲得每一個測試樣本到決策面的距離,將每一個距離作為一個閾值,可以得到相應的受試者工作特征(receiver operating characteristic,ROC),ROC曲線下面積(area under the curve,AUC)也可以作為一個量化分類器好壞的指標。
本研究使用單因素方差分析進行特征的篩選,將得到的最優能量特征組成一個新的特征組。兩種小波基提取的正常肝臟圖像及多子囊肝包蟲圖像各項特征參數間差異有統計學意義(P<0.05),結果見表1、表2。

表1 sym4小波提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征指標Table 1 sym4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images

表2 db4提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征指標Table 2 db4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images
本實驗選擇的均是經臨床醫師診斷的肝包蟲CT圖像進行分類研究,在MATALB R2010a環境下對正常肝臟和多子囊肝包蟲各100幅CT圖像進行分類仿真,分別使用兩種小波基提取新疆的地方性肝包蟲CT圖像,將經篩選的特征輸入C4.5決策樹分類器進行分類。在數據集中,取出特定的百分比的數據用于訓練,其余的數據用于測試,以此來評價分類器預測分類的性能。本研究依次選取10%-90%的樣本作為訓練樣本,其余的作為測試樣本。見圖5。
從圖5可得,db4小波提取的紋理特征所得的分類準確率趨勢明顯高于sym4小波提取的紋理特征所得的分類準確率。
由表3可知,依次選取10%~90%的樣本作為訓練樣本,其余的作為測試樣本,可以分別得到db4小波算法及sym4小波算法的平均分類準確率、平均靈敏度、平均特異性和平均 ROC曲線下的面積。

表3 db4和sym4兩種小波算法的平均分類結果Table 3 db4 and sym4 wavelet algorithm of average classification result
其中db4小波算法結合C4.5決策樹進行分類所獲得的ROC曲線下的面積明顯大于sym4小波算法結合C4.5決策樹分類所獲得的ROC曲線下的面積,見圖6。
此外,文獻[4]中,分別選取正常肝臟和多子囊型肝包蟲CT圖像50幅進行試驗,并使用灰度共生矩陣、最大類間距及Bayes算法得到正常肝臟與多子囊型肝包蟲CT圖像,平均分類準確率為75%。而本研究也分別隨機選取50幅正常肝臟和多子囊型肝包蟲CT圖像為研究對象,分別求兩種小波的平均準確率,并將本文的方法與文獻[4]方法進行比較。結果表明,本研究使用的方法得到的分類準確率高于文獻[4]方法得到的分類準確率,見圖7。

圖6 db4和sym4兩種小波算法的ROC曲線圖Fig 6 db4 and sym4 wavelet algorithm of ROC curves

圖7 三種算法結果對比圖Fig 7 Three algorithm results contrast figure
因此,db4小波算法提取的新疆地方性肝包蟲CT圖像的紋理特征更適合于對肝包蟲CT圖像進行分類,對于建立肝包蟲的數字化診斷標準具有較好的效果。
本研究選取正常肝臟和多子囊型新疆地方性肝包蟲醫學CT圖像為研究對象,提出了基于db4和sym4兩種小波基的小波變換算法分析技術,分別提取正常肝臟和多子囊型肝包蟲CT圖像的高頻信息,計算其能量值。采用統計學方法進行特征選擇,證明了正常肝臟和多子囊型肝包蟲CT圖像在紋理特征上存在顯著差異。并在此基礎上,使用C4.5決策樹分類器構建分類模型。實驗結果表明,采用db4小波進行3層分解,并通過統計學分析方法進行特征選擇后,利用C4.5決策樹分類效果最佳。總之,研究肝包蟲CT影像數字特征的提取和分析有助于發現和利用更多潛在的、有用的信息,為計算機輔助診斷新疆地方性肝包蟲CT圖像疾病提供有力的臨床依據。