周孟然 卞 凱* 劉衛勇 陳焱焱 胡 鋒 來文豪 閆鵬程
1(安徽理工大學電氣與信息工程學院 安徽 淮南 232001)2(中國科學技術大學附屬第一醫院(安徽省立醫院) 安徽 合肥 230001)3(合肥博諧電子科技有限公司 安徽 合肥 230088)
癌癥是嚴重威脅人類身體健康的疾病之一,癌癥的出現率與死亡率一直居高不下[1],這不但影響著人們的正常生活,而且高額的醫療費用還會給人們帶來了巨大的經濟負擔,為此,越來越多的研究者開始致力于癌癥的診斷與治療方法的研究[2]。其中,乳腺癌的發病率僅次于肺癌,位于全球癌癥發病率的第二位[3],對于惡性腫瘤能夠做到早察覺、早診斷、提前醫治,可有效避免癌癥晚期由于癌細胞擴散和轉移,而錯過最佳的治療時期,減少疾病和化療所帶來的痛苦。
傳統的乳腺癌診斷方法主要是細針穿刺細胞法[4],通過觀察所采集組織切片的異常細胞來判斷癌變程度,這種方法需要有資深臨床經驗的專家進行操作,但可能會由于各種不確定性因素造成錯誤診斷的情況時有發生。近幾年來,模式識別的機器學習、深度學習知識已廣泛應用于癌癥等醫療健康的診斷與發病預測[5],并取得了不少的研究成果。如周華平等[6]將分別改進視野范圍和移動步長的魚群算法對極限學習機進行優化,建立乳腺腫瘤數據學習模型,實現了乳腺腫瘤的快速識別。該方法雖然識別速度快,但選取的是所有特征,未能排除低關聯性冗余特征及隨機噪聲的干擾。王平等[7]則利用改進的隨機森林算法搭建乳腺腫瘤診斷模型對惡性腫瘤進行識別。該方法雖然解決了誤差代價敏感的不平衡分類問題,但調參過程無法精確控制模型內部的運行。林俊等[8]將提取特征后的乳腺癌數據用BPSO搜索最優子集,支持向量機建模。該方法雖然達到了預期的識別精度,但耗時較長。
SVM-RFE是一種特征提取方法,它可以消除多特征屬性中重要度低的變量信息,減少噪聲的干擾,有利于訓練模型的搭建。SVM-RFE已用于網絡安全、精準農業、醫學等領域的研究,如Sahran[9]將SVM-RFE嵌入過程與絕對余弦濾波方法相結合,對前列腺組織病理進行分級。王婷[10]利用SVM-RFE對釣魚詐騙網站進行檢測,預防網頁攻擊。陳輝煌[11]采用SVM-RFE對鮮茶葉的高光譜數據進行特征波段提取,實現了鮮茶葉分類與識別。
GWO屬于新型群智能優化算法,它主要用于優化函數和聚類等問題,以提高訓練模型的性能,如Abdelshafy[12]采用混合PSO-GWO方法對可再生能源驅動的并網海水淡化裝置進行優化設計。孫俊[13]將迭代保留信息變量法與GWO優化的支持向量回歸模型相結合,用于檢測番茄葉片的含水量。劉二輝[14]把改進的GWO算法用于小車的路徑規劃問題研究,實現了更優的路徑自動引導機制。
本文采用SVM-RFE算法先對乳腺癌數據的屬性進行特征提取和降維處理,減少了冗余特征及隨機噪聲的干擾。將GWO與SVC結合的GWO-SVC優化分類模型建模用于乳腺癌的預測診斷,識別精度高、模型簡單,具有應用的可行性與實際推廣價值。
SVM-RFE是由Isabelle Guyon等提出的數據特征提取降維方法[15]。SVM-RFE屬于需要通過模型的性能進行評價特征優勢的Wrapper法,RFE算法采取貪心原理先優先保留特征集合,利用SVM的最大間隔原理進行序列后向選擇,根據分類器權值ω作為特征排序評判標準刪選出保留大量重要度高的特征屬性信息。
SVM-RFE消去低重要度特征屬性的步驟如下:
(1) 輸入訓練樣本數據A={α1,α2,…,αn}T及類別標簽l={l1,l2,…,ln}T。
(2) 初始化特征屬性集合W={W1,W2,…,Wn}及重新排序的特征屬性集合W*={}。
(3) 用目前的SVM分類器對輸入數據進行訓練,獲取特征屬性的有關參量信息。
(4) 計算特征代價函數:
h(x)=-0.5ATI(-x)A+0.5ATI(x)
(1)
式中:I是一個具有元素lijK(xi,xj)的矩陣,I(-x)為消除x個特征后的矩陣,K表示的是xi與xj之間相關性的核函數。
(5) 根據權值向量ω作為特征重要度排序標準,重新排序特征屬性集合。獲得特征屬性排序集合:
(6) 根據SVM分類器訓練好的分類精度大小對最終特征屬性進行選取,得到消除后的特征屬性集合:
灰狼優化(Grey Wolf Optimization, GWO)是由Mirjalili等于2014年提出的一種先進的啟發式群智能優化算法[16],主要是仿照灰狼社會等級制度及其捕食行為方式所研究出的算法[17]。在訓練模型搭建的過程中,用灰狼優化算法優化支持向量分類(support vector classification, SVC)算法的懲罰系數c和核函數參數g,改變模型性能,得到比較理想的分類準確率。
GWO尋優SVC參數的步驟如下:
(1) 由可行域X={x1,x2,…,xn}生成父代灰狼、突變灰狼和子代灰狼三種規模相同的原始群體。
(2) 初始化原始狼群的位置,獲取種群中灰狼個體的適應度η,狼群個體位置由懲罰系數c和核函數參數g組成。
(3) 搜索父代灰狼排名順序前三位的個體,不斷更新灰狼捕食獵物時所處位置,可由如下公式計算:
Q(t+1)=[(Qα-K1|Q-H1Xα|)+(Qβ-K2|Q-
H2Xβ|)+(Qγ-K3|Q-H3Qγ|)]/3
(4)
式中:Qα、Qβ、Qγ表示為灰狼所在位置,K1、K2、K3、H1、H2、H3表示為比例系數。
(4) 更新參數Z、V、a的值:
Z=2l2
(5)
V=2cl1-c
(6)
(7)
(5) 輸出的全局最優位置即為SVC中的c和g的最優值,如果沒有達到迭代次數,則返回步驟(3)。
(6) 利用優化后的c、g建立SVC模型進行分類。
為了驗證本文所敘述方法的有效性與可行性,采用UCI數據庫中威斯康辛大學569個病例的乳腺癌數據集,其中有357個良性腫瘤病例、212個惡性腫瘤病例。本研究工作選取560個病例作為研究對象,其中有350個良性病例、210個惡性病例,該數據前兩條屬性為病例編號和診斷結果,第3~12條屬性特征為乳腺腫瘤病灶組織的細胞核顯微圖像的量化特征,分別是半徑大小、紋理、周長、面積、平滑程度、密實度、凹度、凹點數、對稱性、分形維數,其他各屬性依次是量化特征的平均值、標準差、最壞值。仿真實驗針對后30條特征屬性,診斷結果作為標簽進行,最后可以根據細胞核顯微圖像的量化特征診斷乳腺癌腫瘤是良性或者是惡性的。
按4∶1的比例把乳腺癌數據集560個病例隨機劃分成訓練集和測試集,采用順序劃分法,隨機選取448個病例樣本作為訓練集(良性病例280個、惡性病例168個),剩余112個病例樣本作為測試集(良性病例70個、惡性病例42個)。仿真測試將采用劃分好的訓練集和測試集進行數據建模實驗。實驗所用電腦的硬件條件為英特爾酷睿i7處理器,4 GB內存,Win7系統,在軟件MATLAB R2016b環境下利用算法對數據進行仿真測試,支持向量機選擇libsvm-mat-3.0工具包運行。
SVM模型的默認初始懲罰系數c取值為2,核函數參數g取值為1,核函數類型選擇徑向基(RBF)核函數。為了避免特征屬性數據值的差異過大,對訓練速率和結果的影響,將數據按比例歸一化到[0,1]區間范圍內。現采用SVM-RFE 算法將560個病例(良性350例、惡性370例)數據進行次要屬性約簡工作,如圖1所示,橫坐標為屬性條數,縱坐標為權值大小。該統計圖依據SVM-RFE算法的訓練結果展現了乳腺癌數據30條屬性特征的權重ω大小,充分反映出乳腺癌各條屬性之間的重要程度存在著明顯差異。可以清楚看到第22條屬性的權值最大,達到4.87,重要程度較高的區域主要集中在第21至25條屬性范圍和28、29條屬性,值都達到2.5以上,說明細胞核顯微圖像量化特征部分標準差及最壞值涵蓋了數據的大量重要信息。而第17至19條屬性和第26條屬性的權值都在0.1以下,則這些屬性特征重要程度很低。由不同屬性的權值大小按從大到小排序的方式可得到新的重要度屬性排序為{22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14,16,15,6,9,5,20,30,12,17,18,19,26}。

圖1 權值條形統計圖
因為第一條屬性為最后一個被消去的屬性,也是最重要的屬性,所以要以特征排序中第一條屬性特征為基準,每次按一條屬性特征的量依次增加和擴展,組成不同屬性的特征集合。特征屬性與分類準確率關系如圖2所示,橫坐標為屬性條數,縱坐標為支持向量機分類準確率。當選擇的屬性集合從1條增廣到4條特征時,訓練集和測試集的準確率迅速增加且增幅很大。再由4條擴展到6條屬性特征時,訓練集和測試集的準確率發生輕微下降的現象。最后當由6條屬性特征擴展到18條屬性特征時,訓練集和測試集的準確率達到最大值,后面屬性特征的準確率都開始慢慢趨于穩定。

圖2 特征屬性與分類準確率關系
觀察到前18條屬性特征的分類準確率結果值整體呈上升趨勢,當訓練集的準確率在嵌套特征屬性集合為{22,21,23,25,28,29,24,2,8}時首次增長到最大值98.21%,其中有8個病例誤判,而測試集的準確率在屬性集合選擇為{22,21,23}時,首次達到最大值98.21%,其中有2個病例誤判,之后在選擇屬性集合為{22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14}時,測試集準確率第二次達到最大值98.21%。從提高預測精度角度來看,特征提取就是要選擇特征子集來增加分類精度,或者在不降低分類精度的條件下降低特征集維數的過程[18]。因此,最高預測精度對應的最小特征子集,即為該特征排序的最優特征子集,并根據奧卡姆剃刀原則(使訓練模型不太復雜)[19],最終選取包含18條屬性的集合作為SVM-RFE所約簡出的最優特征子集,較全部屬性減少了12個。
利用上述SVM-RFE所約簡出的18條屬性特征乳腺癌數據作為輸入,診斷結果作為標簽,搭建GWO-SVC模型,分析乳腺癌診斷判別結果。GWO中的初始狼群數量設為10,最大迭代次數設為20代,懲罰系數c和核函數參數g搜索區間為[0,100]。最后CV意義下的最佳交叉驗證精度為89.28%,訓練集的分類結果如圖3所示,診斷類別標號0代表良性,1代表惡性,訓練集分類準確率為99.33%,3個病例識別錯誤。測試集的分類結果如圖4所示,可以看出測試集僅有一個病例識別錯誤,為第73個病人,測試集分類準確率高達99.11%,表明該方法很好地適用于乳腺惡性腫瘤識別檢測。

圖3 訓練集分類結果圖

圖4 測試集分類結果圖
為了驗證GWO-SVC模型結合RFE-SVM算法用于乳腺腫瘤診斷的識別精度與診斷效果,本文將與特征提取18條屬性的未優化支持向量機分類結果進行縱向對比,與布谷鳥(CS)、人工蜂群(ABC)、螢火蟲(FA)、粒子群(PSO)、遺傳算法(GA)這幾種群智能算法優化的支持向量機分類結果進行橫向對比,利用MATLAB R2016b軟件對UCI數據集中乳腺癌數據提取18條屬性后的數據進行算法仿真測試。為了保證條件統一,初始種群數量都設置為10,迭代次數都設置為20。數據未歸一化的對比分類結果如表1所示,雖然各建模方法訓練集的準確率達到100%,但是測試集的準確率很低,平均準確率僅有63.01%,因為乳腺腫瘤顯微圖像半徑大小、紋理、周長、面積,這4個量化特征數據值都遠大于其他量化特征值,造成訓練時間增大,也導致最終無法收斂,識別精度不高。

表1 未歸一化的對比分類結果
表2為歸一化到[0,1]區間的對比分類結果表,可以看到雖然ABC算法能使訓練集分類準確率達到100%,但測試集分類準確率要小于GWO和CS,且訓練時間較長。GWO和CS算法在測試集建模中準確率最高,都僅有一個病例識別錯誤,模型的預測性能得到提升,但GWO-SVC模型的訓練時間要明顯快于CS-SVC。綜合分類準確率和時間來看,最終的GWO-SVC模型用于乳腺腫瘤的診斷是可靠且有效的。通過比較表2和表3可以看出,經過[0,1]歸一化后數據所建立模型在訓練速度及精度上都有所提高。

表2 歸一化的對比分類結果
良好的泛化性能可保證訓練模型的可靠性,本文所用算法如果對于不同數據集都能取得良好的分類效果,則可體現出該算法有較強的適應能力與泛化性能。現采用UCI數據庫中的106個乳腺樣本的電阻抗特性數據進行算法泛化性能的驗證,樣本分為病變組織和正常組織,隨機劃分成80個訓練集(正常40個、病變40個)和26個測試集(正常12個、病變14個),使用MATLAB R2016b軟件將劃分好的樣本先進行SVM-RFE屬性約簡,再利用GWO-SVC建模(統一采用[0,1]歸一化處理),與未經優化的SVC對比分類結果如表3所示。不管是訓練集還是測試集的準確率都高于普通SVC,訓練集準確率提升了18.75%,全部分類正確,測試集準確率提升了11.53%,僅一個樣本錯分,耗時僅需約0.79 s,滿足癌癥診斷的分類精度和時間,而未經參數優化的SVC分類準確率都不高,可能發生了欠擬合。

表3 對比分類結果
本文先通過SVM-RFE對乳腺癌數據集的30條屬性進行重要特征提取,并結合GWO-SVC算法建立乳腺腫瘤診斷模型,最后對比不同種建模方法下分類結果不難發現:
(1) 利用SVM-RFE法所約簡出18條屬性就可以代表30條屬性信息的重要特征,排除了次要屬性數據干擾,簡化了模型的復雜程度,增強了學習效率。
(2) 在訓練過程中,GWO優化的c、g參數用于SVC的乳腺腫瘤診斷建模不僅擁有很高的識別精度,避免過擬合及欠擬合的發生,還保證了高精度下的快速診斷,節省了時間。歸一化后的數據擺脫了樣本數據差異過大的影響,加快了最優解速度,提高了分類精度。
(3) GWO-SVC模型適應能力、可靠性強,泛化性能和魯棒性好,不僅適用于乳腺腫瘤的惡性識別,還適用于乳腺病變組織等其他癌癥疾病的識別。
(4) SVM-RFE結合GWO-SVC算法應用于乳腺腫瘤診斷是可行的,使惡性腫瘤做到早發現、早診斷、早治療,對于癌癥能取得良好的醫治效果。