于 超,王 璐,程道文
(1.長春工業大學人文信息學院,吉林 長春 130122;2.長春工業大學應用技術學院,吉林 長春 130012;3.長春工業大學基礎科學學院,吉林 長春 130012)
作為當前信息決策領域的重要組成的圖像數據挖掘技術被大量地應用于醫學影像輔助診斷、地質與海洋資源勘探、衛星圖像分析等多種領域.[1]紋理特征、決策樹、分類規則和人工神經網絡等技術是目前比較常用的圖像數據挖掘方法.[2-4]如能量、熵、慣性矩、局部平穩和相關系數等紋理描述受外界影響較小,能夠直觀反映圖像灰度空間分布特征的紋理,在宏觀和微觀結構兩方面較為準確地描述了圖像的特性.[5-8]因此,在圖像分析與輔助決策中,上述因素能夠起到非常大的作用.醫學影像種類繁多,作為其重要組成部分的CT圖像在輔助診斷中起到關鍵作用.但是其紋理特征的數據量極大,如果對其數據進行直接挖掘,效率不高,準確率也有限.因此,本文提出了一種利用圖像降階結合Apriori算法對醫學圖像紋理特征進行挖掘的模型,將醫院信息系統(HIS)中病患特征與降階處理后病患醫學圖像紋理特征相融合,通過剪枝技術建立關聯規則庫,采用規則庫中的規則對醫學圖像進行信息挖掘.
對于表達醫學圖像特別是CT圖像這類無規則圖像中的隨機紋理,需要的模板維數和個數都會非常大,在這種情況下,數據挖掘的空間對比于規則紋理來說將會極其復雜.因此,如果直接抽取圖像紋理特征來對此類醫學影像進行圖像特征挖掘,其復雜度會非常高,效率也很低.假定圖像m×m的區域內有G種灰度值,則該區域會產生m2G個項,則減少項的數量就會直接減少搜索空間[9],從而提高未來的挖掘效率.而減小該區域內項的方法是縮小m值和降低區域內灰度個數G.本文按通行的計算機圖像降階處理方式所采用的灰度降階公式為
h=g×N/max_gray×(max_gray/N).
(1)
其中:max_gray為區域內像素最大灰度值,N指將圖像降為N階,g為圖像原始灰度值,h為降階后圖像對應的灰度值.通過文獻[10]的研究結果表明,將圖像降為4階后,基本未影響到圖像的細節信息,而圖像的視覺感受也十分接近原圖像.因為體現圖像紋理特征的高頻特征信息并不會隨著圖像的降階處理而受到影響,所以在此基礎上,將圖像降為4階,可以大大地減少挖掘空間,為后續的紋理特征提取與挖掘提供方便.
統計法和頻譜法是兩種主要的紋理特征提取與分析方法,本文應用灰度共生矩陣提取降階后圖像的紋理特征信息.[11-12]灰度共生矩陣中有相關度特征、信息理論特征、統計特征以及紋理特征共4類14個特征參數包含著圖像紋理信息[13].根據文獻[13]的研究,本文選取了局部平穩、能量、相關系數、慣性矩和熵這5個表達紋理特征能力較強的參數.局部平穩計算公式為
(2)
L(d,θ)反映了圖像紋理的平穩性,即圖像區域內變化的趨勢.該值越大,表明在區域內圖像的紋理變化越小,而且紋理均勻[13].能量計算公式為
(3)
E(d,θ)反映了圖像紋理的精細度,該值越小,表明區域內圖像的紋理精細度越高[13].
相關系數計算公式為:

(4)
C(d,θ)即反映了區域內圖像的灰度共生矩陣行與列的線性相關性,又反映了區域內圖像紋理的均勻程度[13].慣性矩計算公式為
(5)
I(d,θ)是灰度共生矩陣的二次統計量,反映了圖像紋理的溝紋深淺度,直接反映了某個像素值及其領域像素值的亮度對比情況.即該值越大,圖像的溝紋越深,對比度越強,視覺效果更清晰.[13]熵的計算公式為

(6)
H(d,θ)是區域圖像的信息度量,其值越大,表明了圖像非均勻程度和復雜度越高,隨機度和噪聲越大.[13]
所采集的幾類紋理特征值為數值型特征,如需進行關聯特征挖掘,需要將其轉換為特征屬性.本文采用了數值型特征值預處理方式.
假定有一數值型特征項集合I={i1,i2,…,im},有一實數集合P,則特征屬性集合為Iv={〈ik,v〉∈I×P},數值型特征項ik具有屬性v,表示為元組〈ik,v〉.由于ik可分為數值型數據和范疇性數據,因而需進一步處理特征屬性集合.IR={〈ik,l,u〉∈I×P×P|l≤u},如果ik為數值型數據,則l≤u;如果ik為范疇性數據,則l=u.當數值型屬性ik具有[l,u]范圍的取值時表示為〈ik,l,u〉∈IR.當X?IR時,attributes(X)表示為集合{x|〈x,l,u〉∈X},其中x為數值屬性項.設[n1,n2]為特征值M的取值范圍,則其對應的數值屬性集為{m|〈m,l,u〉k∈IR,l,u∈[n1,n2]}.對于[l,u]這一數值屬性值域區間的劃分,首先結合特征值的性質與實驗數據,確定[n1,n2]這個特征值的取值范圍,然后根據特征值自身的特點將該取值范圍劃分成相等的若干個區間.按照如上原則,最終得到IR這一數值屬性集合,即特征集合(見表1).

表1 特征值屬性集合及區域劃分
本文提出的圖像挖掘數據庫的建立:結合醫院信息系統中的病患病史信息、病患自然信息以及前面抽取出的圖像紋理特征信息,將這些信息以事物的形式存入數據庫中.用(CTID;LayID;i1,i2,…,in;j1,j2,…,jm;Class)作為數據庫記錄的存儲形式.其中:CTID為事務編號;LayID表示CT圖像層編號;ix為圖像的紋理特征信息;jx為醫院信息系統中的病患相關信息;Class表示圖像是否正常.為了更準確地發現關聯規則,抽取正常圖像的所有5種紋理特征信息和抽取病變圖像中病灶點區域的紋理特征信息建立數據庫.
應用Apriori算法挖掘已建立的圖像挖掘數據庫中的數據,從而建立提取的圖像紋理特征信息與圖像是否有病變這一結論之間的關聯規則.關聯規則的條件為特征數據庫中數據的合區形式,關聯規則的推出結論為圖像是否懷疑有病變特征,即圖像是否正常.
圖像紋理關聯規則的挖掘分為訓練階段和測試階段[14-15].訓練階段:用明確知道病變特征的分類圖像來訓練系統,合并圖像紋理特征以及病患自然特征,并將其存入圖像挖掘數據庫,應用Apriori算法挖掘數據庫中滿足約束條件的關聯規則;測試階段:利用訓練階段得到的關聯規則分類不知道是否有病變的CT圖像,一旦匹配,即可將CT圖像分類為正常和異常2種類型,進而通過專家校驗來判定關聯規則分類圖像的準確性.
本文獲取關聯規則的方法:將圖像挖掘數據庫中的特征合區集合作為關聯規則的前件,將圖像所屬類別作為關聯規則的后件.將圖像挖掘數據庫中每2 000條數據作為一組,共抽取10組數據用來建立關聯規則的挖掘模型.將其最小支持度設置為25%,最小可信度設置為50%.用10組數據中的第1組數據作為測試樣例,其余的9組數據作為訓練樣本,將訓練得到的關聯規則應用于第1組測試樣例,從而獲得一個圖像分類結果準確率.將以上的過程重復10次,分別用于10組數據,最后將10組測試的準確率取均值,以此均值作為模型的綜合準確率.
在實驗過程中,先后使用了2組圖像樣本,第1組樣本中異常圖像(紋理特征反映有病變特性)和正常圖像所占比例為70%和30%,該組圖像訓練出的關聯規則綜合準確率為66.60%(見表2中結果1的準確率);第2組樣本中將2種圖像的比例調整為1∶1,即各占50%,該組圖像訓練出的關聯規則綜合準確率提升為77.68%(見表2中結果2的準確率).但這個準確率仍然不滿足醫學輔助診斷的要求.為了提高準確率,對第2組平衡數據訓練得到的規則集合使用對關聯規則進行剪枝處理的方法,通過剪枝,提出規則中影響判定準確率的噪音,具體剪枝方式如下:
(1) 若存在2條規則,其前件相同但是結論卻相反,則將這兩條規則同時從關聯規則庫中刪除.
(2) 若存在規則a與規則b.(ⅰ)兩條規則的前件條件不同但是結論相同;(ⅱ)規則a的前件條件是規則b前件條件的子集.則在滿足如下條件之一的情況下,在關聯規則庫中保留規則a,刪除規則b.
(a)規則b的可信度低于規則a;
(b)規則a與規則b的可信度相同,規則b的支持度低于規則a;
(c)規則a與規則b的支持度與可信度均相同,規則b的前件條件多于規則a.
按照上述規則對第2組平衡數據訓練得到的關聯規則集合進行剪枝處理之后,新的關聯規則庫綜合判斷準確率為88.74%(見表2中結果3的準確率),與原有的關聯規則庫相比,準確率有了一定的提升,也基本滿足了醫學輔助診斷的要求.

表2 關聯規則庫準確率對比表
結合自然語言可以將關聯規則庫中的規則按照一定醫療診斷結論予以解釋.
(1) 關聯規則:0<能量<0.3≥圖像異常.
規則解釋:紋理特征值中的能量主要反映了圖像的平滑度,反映了灰度分布在一定范圍內連續變化的情況,能量越低則紋理平滑度越高.基于以上原則,可以解釋為當一幅肝部CT圖像紋理特征中的能量值在(0,0.3)這一區間上時,肝部表面紋理粗糙,有纖維化的可能.
(2) 關聯規則:0.70<局部平穩<0.74&&0<相關系數<0.1≥圖像正常.
規則解釋:當一幅CT圖像排列規律較強,同時局部均勻程度又介于0.7~0.74這一區間時,可以得出圖像正常這一結論.
在進行規則挖掘時,最小置信度和最小支持度是2個重要參數,例如定義“0.70<局部平穩<0.74&&0<相關系數<0.1≥圖像正常”的支持度為S,置信度為C,則S=0.70<局部平穩<0.74&&0<相關系數<0.1≥圖像正常/數據庫中全部圖像;C=0.70<局部平穩<0.74&&0<相關系數<0.1≥圖像正常/0.70<局部平穩<0.74&&0<相關系數<0.1的圖像,要求C≥0.5并且S≥0.25.
按照上述方式對關聯規則庫中的規則進行解釋,得出的結論見表3.

表3 關聯規則解釋的部分結論
借助數據挖掘方法在圖像中的應用,提出了一種利用圖像降階結合Apriori算法的對醫學圖像紋理特征進行挖掘的模型.將醫院信息系統(HIS)中病患特征與病患的醫學圖像紋理特征相融合,通過剪枝技術建立關聯規則庫,采用規則庫中的規則對醫學圖像進行了信息挖掘.實驗結果表明,依靠本方法挖掘的關聯規則能夠很好地表達紋理,并對醫療輔助診斷起到了一定的幫助.未來將進一步對關聯規則進行擴充,用更多的數據訓練挖掘規則并改進算法,進一步提高關聯規則輔助判斷的準確率.