王勇 吳慕云



摘要:使用粒子群算法優(yōu)化支持向量機的懲罰因子和核參數(shù),提高分類的精度。粒子群算法收斂速度快,但是容易陷入局部最優(yōu)。引入鯨魚算法的包圍運動和螺旋運動機制,形成參數(shù)自適應的混合粒子群優(yōu)化算法,提升了算法的精度。在對數(shù)據(jù)進行預處理之后,80%的數(shù)據(jù)用于模型的訓練,剩余20%用于模型的測試。每次實驗分別按照比例隨機生成的訓練集和測試集進行20次預測,計算平均正確率。實驗表明,自適應混合粒子群算法優(yōu)化精度高于標準粒子群算法和鯨魚算法。
關(guān)鍵詞:乳腺癌;支持向量機;自適應;粒子群優(yōu)化算法
中圖分類號:TP391.4? ???????文獻標識碼:A???????? 文章編號:1672-4437(2024)02-0067-04
0引言
目前診斷乳腺癌的方法有觸診、乳腺彩超、磁共振以及乳腺穿刺等方法。隨著數(shù)據(jù)科學和人工智能技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡、支持向量機等機器學習方法被應用于乳腺癌的診斷與篩查。以BP網(wǎng)絡為代表的人工神經(jīng)網(wǎng)絡具有很強的非線性擬合能力,但是網(wǎng)絡結(jié)構(gòu)以及權(quán)值、閾值的選取仍缺乏系統(tǒng)理論的指導[1]。相比之下,處理分類問題,支持向量機具有一定的優(yōu)勢。在使用支持向量機的過程中,懲罰因子和核參數(shù)等直接影響支持向量機的分類精度。粒子群算法、煙花算法等群體智能算法被應用于支持向量機參數(shù)的優(yōu)化[2]。群體智能算法采用個體在空間中按照一定規(guī)律運動,通過個體之間的相互協(xié)作在可行域內(nèi)搜索全局最優(yōu)解。該方法適用于復雜的最優(yōu)化問題,但是容易陷入局部最優(yōu)。因此,設計計算方便、高精度的算法優(yōu)化支持向量機的參數(shù),對提高乳腺癌診斷的正確率具有重要意義。
1 數(shù)據(jù)的預處理
使用美國威斯康辛大學醫(yī)院William Wolberg醫(yī)生創(chuàng)建的乳腺癌診斷數(shù)據(jù)集[3]。由乳腺腫塊的細針穿刺(FNA)的數(shù)字圖像計算出細胞核的形態(tài)特征,以進一步判斷腫瘤是良性或者惡性。采集患者乳腺細胞核半徑、紋理、周長、面積、平滑度、緊湊度、凹度、凹點、對稱性和分型維數(shù)這10個特征,并分別計算出這10個特征的平均值、標準差和最大值,由此構(gòu)成30個特征向量。數(shù)據(jù)共569個樣本,形成了維度為569×30的特征集。所有樣本被分為兩類:M表示惡性,B表示良性。為了便于后續(xù)處理,對每個特征向量 按照式(1)進行數(shù)據(jù)歸一化處理, 、 分別為第 個特征量的最大值、最小值。
(1)
2 支持向量機
支持向量機分類效果好、應用范圍廣泛。在二分類中存在 個樣本 構(gòu)成的數(shù)據(jù)集,其中 。樣本中 是 維的特征向量, 代表分類的類別。在支持向量機訓練的過程中,在 維空間中求解一個超平面 ,將兩類不同的樣本分類隔開。 是權(quán)重向量決定超平面的方向。 是類別 中任意一點到超平面的垂直距離。因此對超平面的求解轉(zhuǎn)化為一個二次規(guī)劃問題[2]:
(2)
其中, 是松弛因子, 是懲罰因子。若空間中的超平面無法將訓練樣本完全隔開,在目標函數(shù)中引入懲罰函數(shù) 控制訓練誤差對目標函數(shù)的懲罰量。 取值過小,模型復雜度低,容易欠擬合。反之,模型復雜,結(jié)構(gòu)風險大,容易過擬合。
數(shù)據(jù)在原始空間中不是線性可分的情況下,可將其通過核函數(shù)映射到高維空間中求解。在分類問題中常用的核函數(shù)有高斯核:
(3)
其中, 是高斯核函數(shù)的核參數(shù), 取值越小,模型的分類越精細,模型容易過擬合。 取值越大越會造成訓練不充分,模型欠擬合。因此,懲罰因子 和核參數(shù) 直接決定支持向量機的性能,必須通過高效、精確的優(yōu)化算法確定其值。
3 自適應混合粒子群算法優(yōu)化支持向量機
粒子群算法(Particle Swarm Optimization,? PSO)的計算相對簡單,收斂速度快,因此應用廣泛。基于粒子群算法搜索支持向量機的懲罰因子 和核參數(shù) 的最優(yōu)組合。首先在可行域內(nèi),初始化一個 的呈均勻分布的矩陣 作為初始種群,粒子 為該粒子所處的位置,代表一組待優(yōu)化參數(shù)的潛在最優(yōu)解。以測試集上分類的正確率作為適應度函數(shù)評價每個粒子所處位置的優(yōu)劣。第 次迭代運算中第 個粒子運動過程中經(jīng)歷的最優(yōu)位置為 ,種群的全局最優(yōu)位置為 。尋優(yōu)過程中,每個粒子根據(jù)個體最優(yōu)值和種群最優(yōu)值更新第 次迭代運算中自身的位置 和速度? [4]:
(4)
(5)
為慣性權(quán)重,用于平衡粒子在空間中的全局搜索能力和局部搜索能力。在更新速度的過程中, 、 為加速度因子, 是個體最優(yōu)位置所占權(quán)重, 是全局最優(yōu)位置所占權(quán)重。 、 是分布于 區(qū)間的隨機數(shù)。在優(yōu)化過程的中后期,粒子會逐步聚集,粒子種群容易陷入局部最優(yōu)。為了克服這一不足,在尋優(yōu)過程的初期,注重粒子在可行域內(nèi)的全局搜索能力,隨著迭代次數(shù)的增加,強調(diào)粒子的局部搜索能力。因此,在 次迭代運算中, 的取值按照公式(6)隨著迭代次數(shù)的增加逐步減小,其中 是初始慣性權(quán)重, 為終止慣性權(quán)重。
(6)
尋優(yōu)過程中,粒子個體最優(yōu)位置所占比重逐步減小,而全局最優(yōu)位置所占比重隨著迭代次數(shù)逐步增加。采用雙曲正切函數(shù)按照公式(7)在 區(qū)間內(nèi)調(diào)節(jié)第 次迭代運算 、 的值,參數(shù) 用于限定雙曲正切函數(shù)的范圍[5]。
(7)
(8)
為了降低粒子迅速聚集而陷入局部最優(yōu)的概率,引入鯨魚優(yōu)化算法(Whale Optimization Algorithm,WOA)中的包圍運動機制和螺旋運動機制[6]。多種運動機制并存,提升了可行域內(nèi)的尋優(yōu)精度。如圖1所示,初始化粒子群參數(shù)之后,根據(jù)式(4)、式(5)更新粒子的速度和位置。當?shù)?次迭代運算中,第 個粒子所處位置 的適應度值 小于第 次運算的適應度值 時,則切換到鯨魚算法的尋優(yōu)策略。按照式(9)所示, 為 之間的隨機數(shù), 時,使用包圍運動的策略,根據(jù)種群最優(yōu)位置 更新位置得到 ;而 時,基于螺旋包圍運動更新位置得到 。如果所使用優(yōu)化策略得到的位置都不能優(yōu)于前一次的結(jié)果 ,則選擇最優(yōu)解 作為最終的結(jié)果。
(9)
其中, , 為 之間的隨機數(shù), , , 。
4 實驗分析
為了驗證自適應混合粒子群算法優(yōu)化高斯核支持向量機懲罰因子 和核參數(shù) 的精度。采用威斯康辛乳腺癌數(shù)據(jù)集80%的樣本作為訓練集,剩余20%的樣本作為測試集。選取默認參數(shù)rbf內(nèi)核支持向量機、標準粒子群算法、鯨魚優(yōu)化算法[7]以及自適應混合粒子群算法分別優(yōu)化的支持向量機作為測試算法。每次實驗中,分別按照比例隨機生成訓練集和測試集進行20次訓練和測試。20次測試結(jié)果的平均正確率為 ,每20次測量結(jié)果的標準差為 。各優(yōu)化算法的適應度值 。
標準粒子群算法、鯨魚優(yōu)化算法和自適應混合粒子群算法粒子的種群規(guī)模 ,最大迭代次數(shù) , , 。標準粒子群算法的慣性權(quán)重 , , 。自適應混合粒子群算法初始慣性權(quán)重 ,終止慣性權(quán)重為 ,加速度因子的 , , 。20次迭代運算中,標準粒子群算法在尋優(yōu)的過程中,粒子迅速向個體最優(yōu)值和全局最優(yōu)值運動,容易陷入局部最優(yōu)(如圖2所示)。而自適應混合粒子群算法有效地平衡了個體極值和全局極值的信息,并采用多種尋優(yōu)策略共同作用,提升了優(yōu)化的精度。不同算法的訓練正確率和測試正確率以及20次測試結(jié)果的標準差如表1所示。針對20次不同的測試樣本,標準粒子群算法的平均訓練正確率為1.00000,而平均測試正確率僅為0.95965,存在過擬合的情況,但是依舊高于默認參數(shù)的支持向量機。自適應混合粒子算法的測試結(jié)果的平均值正確率為0.97719,標準差為0.01490,表現(xiàn)出了較強的泛化能力。如圖3所示,自適應混合粒子群算法的測試正確率顯著優(yōu)于標準粒子群算法和鯨魚算法。
5 結(jié)語
目前,乳腺癌仍然是威脅女性健康的主要疾病之一。將數(shù)據(jù)科學與機器學習技術(shù)相結(jié)合,對提高乳腺癌診斷的準確率具有重要意義。對于乳腺癌數(shù)據(jù)集此類多維度特征向量的二分類問題,支持向量機具有一定的優(yōu)勢。在對支持向量機懲罰因子 和核參數(shù) 的優(yōu)化過程中,在標準粒子群算法中引入?yún)?shù)自適應機制和包圍運動、螺旋運動的搜索機制,有效地降低了粒子過快聚集而陷入局部最優(yōu)的概率,提高了粒子群算法的精度。
—
參考文獻:
[1]許美賢,鄭琰,李炎舉,等.基于PSO-BP神經(jīng)網(wǎng)絡與PSO-SVM的抗乳腺癌藥物性質(zhì)預測[J].南京信息工程大學學報(自然科學版),2023,15(1):51-65.
[2]王謙.改進煙花算法及其在特征選擇和SVM參數(shù)聯(lián)合優(yōu)化中的應用[D].南京:南京信息工程大學,2020.
[3]WOLBERG W, MANGA SARIAN O, STREET N, et al. Breast Cancer Wisconsin (Diagnostic)[DB/OL]. (1995-10-31) [2023-11-23].https://archive.ics.uci.edu/ dataset/17/dataset/17/breast+cancer+wisconsin+diagnostic
[4]李俊,李濟順,HAL G,等.混沌區(qū)間多目標粒子群優(yōu)化算法及其應用[J].機械科學與技術(shù),2022,41(7):1031-1038.
[5]路復宇,童寧寧,馮為可,等.自適應雜交退火粒子群優(yōu)化算法[J].系統(tǒng)工程與電子技術(shù),2022,44(11):3470-3476.
[6]李安東,劉升.混合策略改進鯨魚優(yōu)化算法[J].計算機應用研究,2022,39(5):1415-1421.
[7]劉一格,趙振宙,馬遠卓,等.基于鯨魚優(yōu)化算法的串列風力機主動尾流控制策略[J].中國電機工程學報, 2024,44(9):3702-3710.