李東+盧虹冰
摘 要: 提出了一套結合特征篩選及參數設定的方法,使用支持向量機來辨別腫瘤良惡性,并利用人工免疫算法進行特征篩選及決定支持向量機的參數。針對由PHILIPS ATL HDI 3000超聲波掃描儀獲得的220幅圖片的處理結果顯示,在此所提出的方法能使乳房腫瘤的分類正確率達到95.71%,并大幅縮短支持向量機的訓練時間。
關鍵詞: 乳腺腫瘤; 人工免疫算法; 特征提取; 支持向量機; 計算機輔助診斷
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2014)04?0108?04
Breast tumor image recognition based on artificial immune system algorithm
LI Dong1,2, LU Hong?bing1
( 1. Biomedical Engineering Department, Fourth Military Medical University, Xian 710032, China;
2. Information Department, Second People's Hospital of Linfen City, Linfen 041000, China)
Abstract: An approach combining the feature selection and parameter setting is proposed, in which SVM is adopted to recognize whether a tumour is malignant or not, and the AIS algorithm is utilized to select the tumor features and determin the parameters of SVM. The experimental results indicate that the approach can make the classification accuracy of the breast tumour reach to 94.63%, improve the correctness of adjusting the quale of a breast tumour, and shorten training time of the computer?aided diagnosis system based on ultrasound breast image.
Keywords: breast tumour; AIS algorithm; feature extraction; SVM; computer?aided diagnosis
0 引 言
乳癌屬于較易在早期發現征兆的癌癥,如果能及早診斷與治療,不但有機會保留完整的乳房,存活率也大為提高。目前較常見的乳癌圖像檢測方法有乳房X光造影、乳房超聲波造影及核磁共振造影等[1]。其中乳房超聲波造影具有操作便利,無放射性,非侵入性及價格相對較低廉等優勢,廣為各醫療機構所采用。
本文驗證了將人工免疫算法結合支持向量機應用于超聲波乳房腫瘤圖像診斷上的效果,希望可以通過人工免疫算法所具有的抗體復制、變異以及與抗原間的親和力提升等功能,來提高乳房腫瘤識別的成功率。
1 乳腺超聲波圖像處理
在超聲波腫瘤圖像中,良性腫瘤和惡性腫瘤在形狀上往往會有很大的差異[2]。如圖1所示,良性腫瘤的輪廓多半較為平滑且規則, 惡性腫瘤的輪廓則通常較破碎且不規則,因此可通過形狀特征來識別腫瘤的良惡性。目前常用的乳房超聲波圖像特征包含形狀、音波回音性、腫瘤邊緣和音波衰減等。
圖1 乳腺超聲波圖像處理圖示
1.1 乳腺超聲波圖像預處理
原始的超聲波圖像因為其有大量的噪聲,對于在檢測一些細節特征時敏感度較低,所以在提取特征前,需先使用一系列的圖像預處理方法才能獲取比較精確的良惡性腫瘤外形;預處理結果將直接影響被測數據的特征值,進一步決定了分類的效果[3?4]。
首先,根據文獻[5]中使用方法,將每張原始的超聲波圖像先以混合噪聲圖像濾波算法去除其噪聲及斑點,為了取得更精準的腫瘤外形,采用邊緣檢測方法提取圖像中的腫瘤邊界信息,提高腫瘤輪廓與背景之間的對比度,最后,以水平集Level set方法將腫瘤的形狀從圖像中分割出來,以計算特征值。處理結果如圖2所示。
圖2 超聲波圖像處理結果
1.2 乳腺超聲波圖像特征提取
腫瘤的形狀特征與紋理相對不易因為設備的變化而產生較大差異,因此,腫瘤的幾何形狀與紋理比其他特征屬性穩定。本文主要研究乳房超聲波圖像中腫瘤的形狀和紋理特征,紋理特征主要有Huang等提出的auto?covariance coefficient[6?7],以及Garra 等提出的contrast of grey level[8?9],幾何特征主要有有Stavros等提出的spiculation特征以及Sehgal等提出的margin sharpness特征[10?12]。參考圖3,圖中:白色虛線表示最大直徑(圖3(a),(b)),紅色線為最小包裹多邊形和矩形(見圖3(b),(c))。本文采用六種幾何特征:
圖3 超聲波圖像中腫瘤的形狀和紋理特征
幾何特征定義如下:
[E1=π?SP2,E2=SM_D2,E3=MD/SDE4=CSCP,E5=CS-SN,E6=SS]
如圖3所示,式中S為腫瘤面積(stick算法得到區域包裹的總像素點);P為腫瘤周長(stick算法得到區域包裹曲線的總像素點),MD和SD分別為最大直徑最小直徑,如圖3所示,CS和CP是最小包裹凸多邊形面積和周長;N為最小包裹凸多邊形的邊數量;SS為包裹最小矩形面積。
紋理特征采用李曉峰等[1]提出的歸一化自相關系數的紋理特征:
[AΔm,Δn=1M-ΔmN-Δn· i=0M-Δm-1 j=0N-Δn-1fi,j-ffi+Δm,j+Δn-f]
紋理特征共計24個,加上6個幾何特征,構成一個30維特征向量。
2 人工免疫算法原理
人工免疫系統的模型最早出現于1986年,由Farmer等人所提出的免疫網絡動態模型,開啟了生物免疫學說與人工智能結合的研究議題。接著在1996年12月由日本所舉辦的免疫系統國際專題研討會上,正式提出并確立人工免疫系統(Artificial Immune System)的概念。1997年,IEEE System, Man and Cybernetics 成立了人工免疫系統及應用的分會,此后以人工免疫系統為主題的國際會議陸續在世界各地舉辦,顯示這門領域的研究開始受到重視。
由于人工免疫系統的興起,近年來,基于各項生物免疫機制而開發出的人工免疫算法紛紛被提出,以下將針對基于免疫學基本原理 所設計出的3種典型人工免疫算法,包含了陰性選擇算法、復制選擇算法以及人工免疫網絡做介紹:
抗體的多樣性對于提高遺傳算法(IGA)的全局搜索能力同時保證不陷于局部最優解,同時自我調節機構可提高遺傳算法(IGA)的局部搜索能力,并且免疫記憶功能可以加快搜索速度,提高遺傳算法的總體搜索能力。具體的說就是用2個免疫操作來優化遺傳算法:抵抗;免疫選擇。
抵抗:假設個體[x],抗體操作的意思是基于先前的信息在某些位上修改基因來最大可能的獲得高的適應度。假設一個群體為[c=x1,x2,…,xn0],在[c]上的抗體操作即是[nα=αn]個體是從先前知識按比例[α]選擇出來的。這個操作的數量和有效性在IGA中有著重要的角色。如圖4所示。
免疫選擇:先是檢查抗生物,如果比父輩的適應度小,則表示在交叉變異時出現了嚴重的基因損壞,這樣就將父輩來進行下一次競爭。然后是退火選擇[4]:從先前的后代中選擇個體時引入概率:[Pxi=efxiTki=1n0efxiTk],其中:[fxi]是個體[xi]的適應度,[Tk]是溫度控制序列趨于0。
IGA算法步驟:
(1) 創建初始群體[A1];
(2) 判斷是否符合條件,符合則停止;
(3) 對當前群體執行交叉、變異操作得到下一代;
(4) 執行抗體、免疫操作,跳轉到(2)。
圖4 初始抗體表示
3 基于人工免疫優化的SVM乳腺腫瘤識別
李曉峰提出了采用支持向量機(SVM)對腫瘤圖像進行識別,取得了較好的結果,但是支持向量機本身對于噪聲和訓練集的極端值非常敏感,且多個特征值如果未經適當篩選也可能會導致支持向量機對腫瘤分類的正確率降低,因此本文利用人工免疫算法來篩選特征值,以及決定支持向量機中 用來將數據轉換到更高維度空間之徑向基核函數(Radial Basis Kernel,RBF)的參數C與參數γ。
算法流程圖如圖5所示,參考上訴第2節免疫算法原理介紹具體過程如下:
(1) 人工免疫算法首先會產生出數組采用二進制編碼的初始抗體, 示意如圖6所示。抗體中每n個位決定一個參數。由于每組初始抗體需決定支持向量機的兩個參數及30個特征篩選結果,因此一組抗體的總長度為32n。
(2) 二進制初始抗體中所有的值皆是由隨機隨機數來決定。每段參數的值都產生后,會先將原本二進制的參數轉換成十進制。
(3) 所有初始抗體以二進制編碼分別進行復制及變異的動作,其中保留住親和力最高的抗體以進行下個階段的循環。整個人工免疫演算法的循環會持續直到親和力達到預設的目標或是執行到設定的循環次數為止。
4 實驗及結果分析
本文共采用了 220個超聲波乳房腫瘤圖像樣本,其中包含120 個良性腫瘤及100個惡性腫瘤的確定病例,病患的年齡分布為18~64歲。所有的超聲波圖像樣本均攝自于PHILIPS ATL HDI 3000超聲波掃描儀,掃描頻率為5~10 MHz,掃描寬度為38 mm。220個被測的超聲波乳房腫瘤圖像樣本以隨機的方式分成5組,并輪流選擇其中一組樣本進行測試,其余四組則用來作為SVM的訓練集。
圖5 人工免疫算法優化SVM流程圖
計算機配置為Intel Core i5?2400處理器,頻率2.6 GHz。內存容量4 GB。操作系統為64 位Microsoft Windows 7 SP1。人工免疫算法參數:人工免疫算法預設的初始抗體數目為5組。一般抗體的復制率為10倍,具有最佳親和力的抗體則會復制30倍。在二進制抗體中每8個位決定一個實驗參數。整個人工免疫算法運算的循環次數為400次。支持向量機的參數C及y之范圍分別為1~1 000及0.001~0.999。待篩選的特征共30個,特征篩選的比例為20%。實驗結果如表1所示。
表1 實驗結果
由于原始的支持向量機僅靠參數C與參數γ的排列組合使用網格搜尋法(Grid Search),最多可能執行999 000次(C的范圍介于1~1 000,每次增加1 ; γ的范圍介于0.001~0.999,每次增加0.001),再加上使用30緯特征使得執行次數較大。而本文提出的方法在較少的循環數量級上就找到了合適參數,并且將參數與特征聯合進行優化,與文獻[1]相比使用較少特征取得了較好的效果。篩選出的特征數量在5~7個之間,同時免疫算法設置的合適C和γ參數保證了SVM在較低執行次數下就取得較好結果。
如圖6所示,在特征篩選準確度與效率方面,通過與常用的PCA降緯方法相比,采用統一的分類器?支持向量機,分別使用以下3種方法,采用本文提出的免疫算法篩選特征;采用PCA算法對特征數據降緯;不降緯,直接將特征數據送入分類器。從以下常用的評價指標做了對比[1],ROC曲線圖見圖6。
[Accuracy=TP+TN/TP+TN+FP+FNSenitivity=TP/TP+FNSpecificity=TN/TN+FPPositivePredictiveValue=TP/TP+FPNegativePredictiveValue=TN/TN+FN]
圖6 本文方法與PCA及本文方法ROC曲線圖
5 結 論
本文使用了人工免疫算法結合支持向量機對超聲波乳房腫瘤圖像進行分類。通過人工免疫算法進行特征篩選并獲取支持向量機的最優參數,使支持向量機在不影響正確率前提下降低分類時所花費的時間。由實驗結果數據可知,利用人工免疫演算法先篩選特征的步驟能大幅降低支持向量機因計算冗余特征值所耗費的時間。而用來決定徑向基核函數的參數C與γ可以大幅縮短支持向量機的執行次數。除了本文方法外,未來可以考慮采用由其他生物免疫系統概念發展出來的方法,如免疫算法與其他著名算法相結合的應用,如與基因算法結合的免疫基因演算法(Immune Genetic Algorithm)、與粒子群算法結合的免疫粒子群演算法(Immune Particle Swarm Algorithm)和與蟻群算法結合的免疫蟻群算法(Immune?ant Colony Algorithm)等。
參考文獻
[1] 李曉峰.基于支持向量機的超聲乳腺腫瘤圖像計算機輔助診斷系統[J].光電子·激光,2008(1):65?67.
[2] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Support vector machines for diagnosis of breast tumors on US images [J]. Academic Radiology, 2003, 10(2): 189?197.
[3] 李曉峰.基于超聲圖像的乳腺癌計算機輔助診斷關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2008.
[4] 高超,須文波,孫俊.新的強高斯噪聲自適應濾波方法[J].計算機工程與應用,2011(28):10?12.
[5] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Improvement in breast tumor discrimination by support vector machines and speckle?emphasis texture analysis [J]. Ultrasound in Medicine & Biology, 2003, 29(5): 679?686.
[6] HUANG Yu?len, CHEN Dar?ren, LIU Ya?kuang. Breast cancer diagnosis using image retrieval for different ultrasonic systems [C]// Proceedings of 2004 International Conference on Image Processing. [S.l.]: ICIP, 2004, 5: 2957?2960.
[7] GARRA B S, KRASNER B H, HORII S C, et al. Improving the distinction between benign and malignant breast lesions: the value of sonographic texture analysis [J]. Ultrasonic Imaging, 1993, 15(4): 267?285.
[8] KUO W?J, CHANG R?F, LEE C C, et al. Retrieval technique for the diagnosis of solid breast tumors on sonogram [J]. Ultrasound in Medicine & Biology, 2002, 28(7): 903?909.
[9] 莫宏偉,郭茂祖,畢曉君.人類免疫系統仿真與建模研究綜述[J].計算機仿真,2008(1):6?9.
[10] TARAKANOV A O, NICOSIA G. Foundations of immuno?computing [C]// Proceedings of First IEEE Symposium on Foundations of Computational Intelligence. [S.l.]: FOCI, 2007: 210?221.
[11] PARSHANI R, CARMI S, HAVLIN S. Epidemic threshold for the SIS model on random networks [J]. Physical Review Letters, 2010, 122: 112?114.
[12] 李男.基于PCA的乳腺腫塊輔助診斷方法研究[D].沈陽:沈陽工業大學,2013.
表1 實驗結果
由于原始的支持向量機僅靠參數C與參數γ的排列組合使用網格搜尋法(Grid Search),最多可能執行999 000次(C的范圍介于1~1 000,每次增加1 ; γ的范圍介于0.001~0.999,每次增加0.001),再加上使用30緯特征使得執行次數較大。而本文提出的方法在較少的循環數量級上就找到了合適參數,并且將參數與特征聯合進行優化,與文獻[1]相比使用較少特征取得了較好的效果。篩選出的特征數量在5~7個之間,同時免疫算法設置的合適C和γ參數保證了SVM在較低執行次數下就取得較好結果。
如圖6所示,在特征篩選準確度與效率方面,通過與常用的PCA降緯方法相比,采用統一的分類器?支持向量機,分別使用以下3種方法,采用本文提出的免疫算法篩選特征;采用PCA算法對特征數據降緯;不降緯,直接將特征數據送入分類器。從以下常用的評價指標做了對比[1],ROC曲線圖見圖6。
[Accuracy=TP+TN/TP+TN+FP+FNSenitivity=TP/TP+FNSpecificity=TN/TN+FPPositivePredictiveValue=TP/TP+FPNegativePredictiveValue=TN/TN+FN]
圖6 本文方法與PCA及本文方法ROC曲線圖
5 結 論
本文使用了人工免疫算法結合支持向量機對超聲波乳房腫瘤圖像進行分類。通過人工免疫算法進行特征篩選并獲取支持向量機的最優參數,使支持向量機在不影響正確率前提下降低分類時所花費的時間。由實驗結果數據可知,利用人工免疫演算法先篩選特征的步驟能大幅降低支持向量機因計算冗余特征值所耗費的時間。而用來決定徑向基核函數的參數C與γ可以大幅縮短支持向量機的執行次數。除了本文方法外,未來可以考慮采用由其他生物免疫系統概念發展出來的方法,如免疫算法與其他著名算法相結合的應用,如與基因算法結合的免疫基因演算法(Immune Genetic Algorithm)、與粒子群算法結合的免疫粒子群演算法(Immune Particle Swarm Algorithm)和與蟻群算法結合的免疫蟻群算法(Immune?ant Colony Algorithm)等。
參考文獻
[1] 李曉峰.基于支持向量機的超聲乳腺腫瘤圖像計算機輔助診斷系統[J].光電子·激光,2008(1):65?67.
[2] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Support vector machines for diagnosis of breast tumors on US images [J]. Academic Radiology, 2003, 10(2): 189?197.
[3] 李曉峰.基于超聲圖像的乳腺癌計算機輔助診斷關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2008.
[4] 高超,須文波,孫俊.新的強高斯噪聲自適應濾波方法[J].計算機工程與應用,2011(28):10?12.
[5] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Improvement in breast tumor discrimination by support vector machines and speckle?emphasis texture analysis [J]. Ultrasound in Medicine & Biology, 2003, 29(5): 679?686.
[6] HUANG Yu?len, CHEN Dar?ren, LIU Ya?kuang. Breast cancer diagnosis using image retrieval for different ultrasonic systems [C]// Proceedings of 2004 International Conference on Image Processing. [S.l.]: ICIP, 2004, 5: 2957?2960.
[7] GARRA B S, KRASNER B H, HORII S C, et al. Improving the distinction between benign and malignant breast lesions: the value of sonographic texture analysis [J]. Ultrasonic Imaging, 1993, 15(4): 267?285.
[8] KUO W?J, CHANG R?F, LEE C C, et al. Retrieval technique for the diagnosis of solid breast tumors on sonogram [J]. Ultrasound in Medicine & Biology, 2002, 28(7): 903?909.
[9] 莫宏偉,郭茂祖,畢曉君.人類免疫系統仿真與建模研究綜述[J].計算機仿真,2008(1):6?9.
[10] TARAKANOV A O, NICOSIA G. Foundations of immuno?computing [C]// Proceedings of First IEEE Symposium on Foundations of Computational Intelligence. [S.l.]: FOCI, 2007: 210?221.
[11] PARSHANI R, CARMI S, HAVLIN S. Epidemic threshold for the SIS model on random networks [J]. Physical Review Letters, 2010, 122: 112?114.
[12] 李男.基于PCA的乳腺腫塊輔助診斷方法研究[D].沈陽:沈陽工業大學,2013.
表1 實驗結果
由于原始的支持向量機僅靠參數C與參數γ的排列組合使用網格搜尋法(Grid Search),最多可能執行999 000次(C的范圍介于1~1 000,每次增加1 ; γ的范圍介于0.001~0.999,每次增加0.001),再加上使用30緯特征使得執行次數較大。而本文提出的方法在較少的循環數量級上就找到了合適參數,并且將參數與特征聯合進行優化,與文獻[1]相比使用較少特征取得了較好的效果。篩選出的特征數量在5~7個之間,同時免疫算法設置的合適C和γ參數保證了SVM在較低執行次數下就取得較好結果。
如圖6所示,在特征篩選準確度與效率方面,通過與常用的PCA降緯方法相比,采用統一的分類器?支持向量機,分別使用以下3種方法,采用本文提出的免疫算法篩選特征;采用PCA算法對特征數據降緯;不降緯,直接將特征數據送入分類器。從以下常用的評價指標做了對比[1],ROC曲線圖見圖6。
[Accuracy=TP+TN/TP+TN+FP+FNSenitivity=TP/TP+FNSpecificity=TN/TN+FPPositivePredictiveValue=TP/TP+FPNegativePredictiveValue=TN/TN+FN]
圖6 本文方法與PCA及本文方法ROC曲線圖
5 結 論
本文使用了人工免疫算法結合支持向量機對超聲波乳房腫瘤圖像進行分類。通過人工免疫算法進行特征篩選并獲取支持向量機的最優參數,使支持向量機在不影響正確率前提下降低分類時所花費的時間。由實驗結果數據可知,利用人工免疫演算法先篩選特征的步驟能大幅降低支持向量機因計算冗余特征值所耗費的時間。而用來決定徑向基核函數的參數C與γ可以大幅縮短支持向量機的執行次數。除了本文方法外,未來可以考慮采用由其他生物免疫系統概念發展出來的方法,如免疫算法與其他著名算法相結合的應用,如與基因算法結合的免疫基因演算法(Immune Genetic Algorithm)、與粒子群算法結合的免疫粒子群演算法(Immune Particle Swarm Algorithm)和與蟻群算法結合的免疫蟻群算法(Immune?ant Colony Algorithm)等。
參考文獻
[1] 李曉峰.基于支持向量機的超聲乳腺腫瘤圖像計算機輔助診斷系統[J].光電子·激光,2008(1):65?67.
[2] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Support vector machines for diagnosis of breast tumors on US images [J]. Academic Radiology, 2003, 10(2): 189?197.
[3] 李曉峰.基于超聲圖像的乳腺癌計算機輔助診斷關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2008.
[4] 高超,須文波,孫俊.新的強高斯噪聲自適應濾波方法[J].計算機工程與應用,2011(28):10?12.
[5] CHANG Ruey?feng, WU Wen?jie, MOON W K, et al. Improvement in breast tumor discrimination by support vector machines and speckle?emphasis texture analysis [J]. Ultrasound in Medicine & Biology, 2003, 29(5): 679?686.
[6] HUANG Yu?len, CHEN Dar?ren, LIU Ya?kuang. Breast cancer diagnosis using image retrieval for different ultrasonic systems [C]// Proceedings of 2004 International Conference on Image Processing. [S.l.]: ICIP, 2004, 5: 2957?2960.
[7] GARRA B S, KRASNER B H, HORII S C, et al. Improving the distinction between benign and malignant breast lesions: the value of sonographic texture analysis [J]. Ultrasonic Imaging, 1993, 15(4): 267?285.
[8] KUO W?J, CHANG R?F, LEE C C, et al. Retrieval technique for the diagnosis of solid breast tumors on sonogram [J]. Ultrasound in Medicine & Biology, 2002, 28(7): 903?909.
[9] 莫宏偉,郭茂祖,畢曉君.人類免疫系統仿真與建模研究綜述[J].計算機仿真,2008(1):6?9.
[10] TARAKANOV A O, NICOSIA G. Foundations of immuno?computing [C]// Proceedings of First IEEE Symposium on Foundations of Computational Intelligence. [S.l.]: FOCI, 2007: 210?221.
[11] PARSHANI R, CARMI S, HAVLIN S. Epidemic threshold for the SIS model on random networks [J]. Physical Review Letters, 2010, 122: 112?114.
[12] 李男.基于PCA的乳腺腫塊輔助診斷方法研究[D].沈陽:沈陽工業大學,2013.