牛琳 張雨薇 張露馨
摘 要:運用MATLAB軟件對乳腺癌X光片做預處理、特征提取、基于SVM算法的分類器識別及輔助診斷。經反復實驗完成紋理特征提取、核函數選取、參數優化、樣本優化等步驟,為影像學醫師的診斷預測提供一種便捷有效的輔助方式,減輕了醫生的工作量,提高了醫生的工作效率,降低漏診誤診的機率。
關鍵詞:乳腺癌X光片;輔助診斷;SVM算法;特征提取
中圖分類號:TP311 文獻標識碼:A
1 引言(Introduction)
當前,健康問題變得愈加備受關注,影響健康的因素有很多,例如各方面的壓力、飲食習慣、特殊環境影響等。正因如此,越來越多的女性,患上乳腺癌[1]。按照WHO 2014年報道,乳腺癌是中國女性最常見的癌癥,在全球范圍內,中國占據新診斷乳腺癌病例的12.2%,占據乳腺癌死亡的9.6%[2]。歐美國家顯然是這些年乳腺癌發病率篩查最為成功的國家,乳腺癌的病死率已經逐年在下降。而在我國,乳腺癌的排查技術和早期預防乳腺癌疾病的意識不足,中國新發病例在全世界乳腺癌新發病例的占比為12%[3]。超聲檢查是乳腺疾病診斷中常規的檢查方式,在乳腺疾病超聲圖像中,進行定量化分析是十分重要的,可以找出病變區域,輔助治療,減小誤差。對于乳腺疾病的超聲圖像,區別與診斷,主要依賴醫生的經驗,由于沒有量化指標,而且有時判斷會出現誤差[4]。針對這些問題,國內外學者提出了很多計算機輔助診斷系統,以提高乳腺超聲圖像診斷的效率與正確率。計算機輔助診斷系統可為臨床醫生的診斷供給較為真實有效的輔助訊息,尤其是在提升乳腺癌診斷準確率方面施展著重要的功能,是初期檢測乳腺癌的重要方式[5]。本文主要研究基于SVM算法的乳腺癌X光片輔助診斷系統,運用該系統能夠減少影像科醫師的工作量,提高其工作效率,縮小漏診誤診的幾率,為影像學醫師的診斷預測提供一種便捷有效的方式。同時結合影像學醫師豐富的經驗能力可以有效避免患者錯過治療的最佳時間。
2 相關技術研究(Research on related technology)
2.1 特征提取研究
圖像的特征提取是模式識別算法中一個及其重要的部分,它的目的是用于量化目標的重要特性,比如說圖像的紋理、灰度、亮度、邊緣、輪廓、形狀等都是相對于圖像的特征,在模式識別的算法中,被量化的圖像特征將作為智能算法機器學習的輸入,構成特征空間,學習算法將在該特征的基礎上進行學習,進而構建所需的分類器模型[6]。
乳腺的特征提取一般有紋理特征、空間集方法提取乳腺腫塊特征、光學特征、多種圖像的底層全局特征、基于邊緣領域的乳腺腫塊的特征提取方法。
2.2 支持向量機(SVM)分類算法研究
計算機輔助診斷在臨床上對早期乳腺癌的檢測中起到很大的作用,常用的算法有:支持向量機、人工神經網絡分類、模糊邏輯分割、小波變換處理、統計學特征提取等,以及這幾種方法的結合智能算法處理方法[7]。
支持向量機(Support Vector Machine,SVM)是一種模式識別算法,它根據統計學習理論,主要是VC維理論和結構風險最小原理,在復雜的模型和學習的能力中探求最佳中性,以便達到最優推行[8]。SVM的特點是解決小樣本的問題。
影響支持向量機分類方法的因素主要有:核函數的選取和參數的優化。核函數包括徑向基函數、多項式函數、S形函數。主要的參數中懲罰因子的數值取值決定了支持向量機的準確率。懲罰因子的數值越大就代表了對訓練誤差值的懲罰越大[9]。當它的值太小時,會導致訓練誤差較大;取值過大時,雖然會降低誤差值,但會導致過度擬合的情況。
3 系統設計與實現(System design and implementation)
3.1 系統總體設計
基于SVM算法的乳腺癌X光片輔助診斷系統主要分為四個模塊,分別是樣本圖像預處理、特征提取、分類器處理和診斷結果。具體的系統實現步驟為:首先是訓練建模階段,導入待訓練的乳腺癌X光片作為SVM分類器的訓練樣本,對圖像進行預處理,依據乳腺癌X光片特點提取紋理特征,用于SVM分類器訓練,經過反復調整參數,優化樣本等步驟,建立符合乳腺癌X光片分類的SVM模型。然后進入測試模型階段,導入測試樣本,經過圖像預處理、特征提取后在訓練好的SVM模型中進行分類判斷。系統流程圖如圖1所示。
3.2 乳腺癌X光片的預處理和特征提取模塊
超聲檢查是乳腺疾病診斷中常規的檢查方式,這樣的成像機制會在圖像上產生一些斑點狀的噪聲,也會造成圖像的亮度分布不均勻。圖像預處理的功能是除去圖像中無關的信息,尋找有價值的數值信息,增強信息的可檢測性,進而提高特征提取、分類識別的準確率。本文的圖像預處理采用中值濾波算法進行圖像去噪。中值濾波法的優點:抑制效果很好,畫面的清晰度基本保持;缺點:對高斯噪聲的抑制效果不是很好。中值濾波法圖像去噪效果如圖2所示。
得到消除噪點的圖像后,可以更清楚的觀察乳腺腫塊的大小和形狀,但有部分腫塊的邊緣比較模糊,無法直接進行特征提取。此時需要通過圖像增強方法增強乳腺X光圖像的明暗度對比,使腫塊的邊緣更清晰,方便醫生觀察與計算機的特征提取。本文選擇了直方圖均衡化進行圖像增強,效果如圖3所示。
乳腺癌X光片中,識別腫塊可以通過觀察,一般局部相對較亮,形狀接近于橢圓狀,具有無明顯縫隙內核的星芒狀物或實質團塊[10]。
乳腺癌的特征提取一般有紋理特征、空間集方法提取乳腺腫塊特征、光學特征、多種圖像的底層全局特征、基于邊緣領域的乳腺腫塊的特征提取方法。在本文中,使用乳腺的紋理特征作為圖像特征表示乳腺病灶區域,采用灰度共生矩陣方法提取紋理特征。灰度共生矩陣描述的是具有某種空間位置關系的兩個像素的聯合分布。為了定義描述紋理的方法,前人使用過三種主要方法,本文所采納的是基于共生矩陣的紋理特征提取。
紋理提取的步驟如下:
(1)灰度級量化:依據人的視覺特性,通過部分較粗的紋理特性判定,能夠得到大多數圖像的相近指數。首先,對原始圖像質量進行壓縮,然后生成圖像共生矩陣。例如,級別分成16、32和64。通過訓練發現16級的圖像特征提取的效果較為明顯。(2)特征值測定:本文選用能量、熵、慣性矩、相關度,四個紋理參考指標。求能量、熵、慣性矩、相關度的均值和標準差作為最終八維紋理特征。(3)特征向量的歸一化:因為上述特征值的取值范圍不相同,所以要對這些特殊的值進行歸一化處理。
由于需要提取特征的圖片數量較大,這里設置了批量提取特征的功能,可以一次性提取文件夾內的所有圖片特征。使用循環函數,對上述圖像處理到特征提取的步驟進行循環。運行結束后數據會生成一個Excel表格,存儲在文件夾中,提供給分類器那邊進行分類處理。此部分系統操作界面,如圖4所示。
some pictures)
3.3 乳腺癌X光片的分類器訓練模塊
提取乳腺X光片中的特征指標,以此輸入來訓練SVM。本文使用林智仁教授提出的LIBSVM工具箱,進行樣本圖片訓練和預測。選擇徑向基函數作核函數,是因為它有很多優點,例如:(1)具有非線性映射性質,可對數據非線性可分情況進行處理。(2)可退化為線性核函數,選取合適的核函數參數及適當的代價系數,徑向基函數能發揮與線性核函數同樣的作用。(3)參數指標符合需求,S形核函數與徑向基函數的算法體現也較為接近,而且挑選S形核函數需要探討有關的核函數參數[9]。
分類器處理模塊,包括導入訓練樣本、調試參數、訓練樣本圖像、測試樣本圖像,判斷預設標準和測試待測圖像幾個步驟。調試參數主要選擇核函數和核函數參數的優化,使及其訓練學習達到最優值,測試樣本圖像準確率,若樣本圖像測試結果優良,則需進行測試待測醫學圖像,否則還需調整優化參數。
本訓練建模選用最大分類正確率相對的懲罰因子c和核參數δ,用來支持向量機分類器,c取100,δ取1。
SVM訓練界面如圖6所示。
4 實驗結果(Experimental results)
本設計選用MATLAB 2017a軟件,系統運行截圖如圖4和圖5所示。在訓練建模過程中,共采集了180個志愿者的乳腺X光片,共32張正常乳腺X光片,以及148張乳腺腫瘤X光片。采用隨機抽取的方式選取乳腺X光片,將所有樣本180張圖片平均分為六組,前三組作為測試集(即每30張乳腺X光片為一組)剩下三組當作訓練組。使用交叉循環法反復訓練六次,每次選出一個直接作為測試樣本,將六次的交叉循環辨別率的平均值作為實驗結果。分類建模完成后,檢測150張待測圖片準確率達到83.3%。
5 結論(Conclusion)
本文設計和實現了基于SVM算法的乳腺癌X光片輔助診斷系統,該系統的判斷準確率還可以從三方面進一步提高。
(1)在模式識別的算法中,被量化的圖像特征將作為智能
算法學習的輸入,因此應深入研究乳腺癌X光片的病理特征和圖像本身成像效果,進一步提高圖像預處理和特征提取的質量。
(2)在模式識別的算法方面可以考慮改進參數的優化方法以提高算法的效率。
(3)在模式識別中訓練模型的性能與參與訓練的樣本有直接的關系,因此提高訓練樣本的數量,以及樣本的覆蓋范圍,能夠有效提高最終的判斷準確性。
參考文獻(References)
[1] 王欣,連臻強.中國乳腺癌篩查現狀和評價[J/CD].中華乳腺病雜志(電子版),2015,9(3):159-162.
[2] Fan L,Strasser-Weippl K,Li JJ,et al.Breast cancer in China[J].Lancet Oncol,2014,15(7):279-289.
[3] 張欣.基于統計模型的乳腺癌微鈣化病灶輔助檢測研究[D].西北大學,2010.
[4] 章永來,史海波,尚文利,等.面向乳腺癌輔助診斷的改進支持向量機方法[J].計算機應用研究,2013,30(8):2373-2376.
[5] 郗冬冬.基于人機智能融合的乳腺癌輔助診斷方法[D].杭州電子科技大學,2015.
[6] 陽維.乳腺腫瘤的超聲圖像特征定量分析與良惡性識別[D].上海交通大學,2009.
[7] 周悅.基于乳腺X線圖像的計算機輔助診斷方法研究[D].蘭州大學,2014.
[8] 郝欣.基于乳腺癌X線腫塊影像的計算機輔助診斷技術研究[D].浙江大學,2013.
[9] 王迪.在線和分解支持向量機學習算法研究[D].中國科學院大學,2012.
[10] Cascio D,Fauci F,Magro R,et al.Mammogram segmentation by contour searching and mass lesions classification with neural network[J].IEEE Transactions on Nuclear Science,2006,53(5):2827-2833.
作者簡介:
牛 琳(1978-),女,碩士,講師.研究領域:數據挖掘,信息管理系統.
張雨薇(1995-),女,本科生.研究領域:信息管理系統.
張露馨(1995-),女,本科生.研究領域:信息管理系統.