李 晨,王 巍
(1.西安工業大學北方信息工程學院 陜西 西安 710032;2.航天恒星空間技術應用有限公司 陜西 西安 710077)
在醫學圖像處理中,雖然支持向量機已應用于圖像分割,并取得了較好的分割效果,但是沒有考慮到相關應用領域的先驗知識,對受噪聲影響的醫學圖像,其分割效果還有待于進一步提高。基于先驗知識的支持向量機可以較好地解決噪聲的影響,它將對象中已知的一部分機理提取出來,作為先驗知識,然后將其與樣本數據相結合,共同建立可靠的樣本模型。
先驗知識,是指對于學習任務除訓練數據外可得到的所有信息,涵蓋范圍很廣。例如在字符自動識別中最難區分的兩個字符是0(零)和O(歐),因為他們的類間距離最近,識別的誤差一般集中在這兩個字符中。而由先驗知識可以知道在某些位置只可能是特定的字符,例如在一串字母中的字符是O(歐)的可能性要遠遠大于是0(零)的可能性,反之,在如果前后都是阿拉伯數字則該字符更加可能是0(零)。
目前人工智能領域的學者將先驗知識引入SVM分類模型中,主要有以下2個研究方向:1)如何選擇特定背景知識下的核函數;2)直接把先驗知識引入SVM分類器中,包括直接在訓練樣本中引入先驗知識屬性,然后統一通過SVM表示,文中是基于后者的研究。
在原始的訓練數據集中,除了數據屬性之外還設置一個標明該樣本所屬類別的類標簽,把每個樣本屬于該類的置信度作為一個連續屬性加到樣本的屬性中。最終SVM分類面產生這樣的意義:如果某一樣本的置信度越大,那么它離分類面的距離相對于沒有考慮置信度時的距離應該要大,反之就要小。即在實驗中要考慮的距離是一種帶權的距離,而這個權值正是樣本的置信度。如圖1所示:黑點和白點分別表示了兩類樣本,而它們的面積則代表樣本屬于該類的置信度的大小。從圖1可知,對于置信度較大的樣本,它離分類面的距離也應該相對較大。

圖1 引入置信度后的支持向量示意圖Fig.1 Schematic diagram of support vector which introduced in confidence level
置信度反映在對支持向量到分類面的間隔的重新定義、對傳統SVM算法中兩個樣本進行線性約束優化拉格朗日系數,以及每一次優化后的誤差計算工作上。在第一部分中,目標是通過解析方法對兩個樣本進行帶置信度的優化。設x1和x2是兩個被選中進行優化的樣本。由于要滿足線性約束,也就是它們對應的系數對(a1,a2)必須在一條直線上:

且滿足一個區域約束,也即正方形約束,因為是軟間隔分類面的緣故,否則就是區間約束。g(v1)C≥a1≥0,g(v2)C≥a2≥0與傳統的SMO算法類似,可以從該約束條件得出a2更嚴格約束U≤a2new≤V,對于x1和x2是同類樣本,也就是說y1=y2,有:

對于x1和x2是不同類樣本,也就是說y1≠y2,有:

令 h(x)為目標的分類超平面方程,則 h(x)可以表示如下:

則訓練誤差E可以表示如下:

于是可以得到對于優化后的系數表達式:

再考慮軟間隔要滿足的約束條件U≤a2new*≤V,有:

與傳統SVM類似,于是可以得到a1new的表達式:

醫學圖像在成像過程中,由于熱、電噪聲、磁場的不均勻性、射頻線圈、局部體效應等諸多因素的影響,使醫學圖像中不同組織與結構之間存在混迭現象。在處理樣本的不精確性時,對不同的樣本賦予不同的置信度,使不同的樣本在重構最優超平面時有不同的貢獻。
圖2所示為兩個不同類中樣本之間緊密度的差別。從圖2(a)與(b)中可見,樣本x到各自所在類中心之間的距離相等,如果僅依據距離來確定置信度,則兩者屬于各自類的置信度相同。然而,沒有考慮圖2(a)中樣本x與類中其它樣本之間的距離遠小于圖2(b)中樣本x與類中其它樣本之間的距離這一實際情況,圖2(a)中樣本x可能為有效樣本,而圖2(b)中樣本x為野值的可能性非常大。事實上,圖2(a)中樣本x屬于所在類的置信度應大于圖2(b)中樣本x屬于所在類的置信度。

圖2 兩個不同類中樣本之間緊密度差別示意圖Fig.2 Schematic diagram of tightness difference between two different kinds of samples
針對這種情況,提出了基于樣本緊密度的置信度確定方法,即在確定樣本的置信度時,既要考慮樣本到所在類中心之間的距離,還要考慮樣本與類中其它樣本之間的關系,而樣本與類中其它樣本之間的關系可通過類中樣本的緊密度來反映。
由以上分析可知,基于緊密度的置信度的計算由兩部分構成:

其中,
1)vi為樣本xi屬于所在類的置信度;
2)μd(xi)由下面 Zadeh定義的標準 S形函數改造確定,反映樣本xi到所在類中心之間的距離。

其中,di為樣本與所在類中心之間的距離,由下式確定:

3)μk為樣本xi與所在類中心之間的模糊連接度,反映xi樣本與類中其它樣本之間的緊密度關系,其由下式確定:

文中實驗所用的腦部圖片都是從brainWeb數據庫中下載,圖像大小為181×217像素,每片圖像的厚度為1 mm,T1加權的MRI圖像,20%的灰度非均勻性。為了驗證改進算法的可靠性和穩健性,文中對不同噪聲圖像進行實驗,如圖3所示。
分類結果見圖4所示。
過選擇不同的函數對3種不同噪聲級的圖片進行了分類錯誤率的統計,詳見如表1、2、3所示。
由表1、2、3可以看出,在0%噪聲情況下,置信度函數與松弛標準函數之間在滿足3倍關系的時候分類誤差率最小;在3%噪聲情況下,置信度函數與松弛標準函數之間在滿足4倍關系的時候分類誤差率最小;在9%噪聲情況下,置信度函數與松弛標準函數之間在滿足6倍關系時分類誤差率最小。
由此可以看出,在噪聲情況越大的情況下,增大一定量的松弛標準函數對于錯分樣本能起到一定的抑制作用。但是置信度函數與松弛標準函數之間在滿足單調性的基礎上。
對3種噪聲圖像進行的分類錯誤率與傳統的支持向量機作比較詳如表4所示。

圖3 不同噪聲級別的原始圖Fig.3 Primitive graphs of different noise grade

圖4 不同噪聲級別圖像分割結果Fig.4 Results of different noise grade image segmentation

表1 0%噪聲圖像函數選擇與分類誤差率Tab.1 Noise image function selection and classification error rate in 0%

表2 3%噪聲圖像函數選擇與分類誤差率Tab.2 Noise image function selection and classification error rate in 3%

表3 9%噪聲圖像函數選擇與分類誤差率Tab.3 Noise image function selection and classification error rate in 0%

表4 不同噪聲級別分類誤差率Tab.4 Classification error rate in different noise grades
由表4可以看出,當圖像中不含噪聲時,基于先驗知識的支持向量機和傳統支持向量機分類誤差率相差不多,當圖像中含有噪聲時,采用基于先驗知識的支持向量機方法,其分類錯誤率比采用傳統支持向量機方法的錯誤率低,并且在噪聲越大,基于先驗知識的支持向量機與傳統支持向量機分類誤差率差值越大。實驗表明了基于先驗知識的支持向量機具有良好的分割性能,對噪聲有較強的抵抗力。從圖4可以看出,基于先驗知識的支持向量機分割效果比較清晰,信噪比較好,對噪聲具有較強的抑制性。
文中研究內容為基于先驗知識的支持向量機在醫學圖像分割中的應用,選擇了醫學圖像領域具有代表性的核磁共振圖像作為實驗對象,取得的主要研究成果有以下幾個方面:
1)對支持向量機理論以及現有的基于先驗知識的支持向量機進行了深入的研究,提出改進算法,即針對醫學圖像的特點,確定了以樣本緊密度信息這一先驗知識構造置信度函數。
2)將改進算法應用于腦部核磁共振圖像分割中,對樣本采用交叉驗證,實驗結果表明改進算法較傳統支持向量機有較好的分類能力,即使在9%的噪聲情況下也能得到較好的泛化準確率。實驗數據的獲取是引用了國外一種比較權威的算法評價方法,用以客觀地分析改進算法。
[1]邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2002.
[2]CHEN Chang-wen.Knowledge-based approach to volumetric medical image segment-ation[J].IEEE International Conference on Image Processing Los Alamitos,USA:IEEE,1994(3):493-497.
[3]Tuceryan M.Moment-based texture segmentation[J].Pattern Recognition Letters,1994,15(7):659-668.
[4]Sahbi H,Geman D.A hierarchy of support vector machines for pattern detection[J].Journal of Machine Learning Research,2006(7):27-29.
[5]Cristianini.支持向量機導論[M].李國正,王猛,曾華軍,譯.北京:電子工業出版社,2004.
[6]王磊.支持向量機學習算法的若干問題研究 [D].成都:電子科技大學,2007.