999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進鯨魚算法優化支持向量機實現乳腺癌預測

2024-09-14 00:00:00高濤袁德成
現代電子技術 2024年11期

摘" 要: 為了更好地通過人體肥胖的相關指數預測乳腺癌的存在,以抵抗素、葡萄糖、年齡和身體質量指數作為數據特征構造預測模型,通過研究支持向量機(SVM)的參數對模型的性能影響,提出一種基于自適應機制策略改進的鯨魚算法,即參數自適應鯨魚優化算法(PAWOA)用來尋找最優參數。采用Tent映射對種群位置初始化,引入自適應參數[p*]代替隨機閾值加速收斂速度,針對給定的目標函數對每個搜索個體進行求解,計算適應度后找到全局最優解,增強種群的全局尋優性能。實驗結果表明,優化后的模型精確度提升12.44%,召回率提升13.57%,[F1]評分提升13.14%。可見,該預測模型擁有更好的效果可以用于輔助判斷乳腺癌。

關鍵詞: 鯨魚優化算法; 支持向量機; 自適應參數; 數據預處理; 乳腺癌細胞分類; Tent映射

中圖分類號: TN911?34; TP391" " " " " " " " 文獻標識碼: A" " " " " " " " " " " " "文章編號: 1004?373X(2024)11?0156?05

Improved whale optimization algorithm to optimize support vector

machine for breast cancer prediction

GAO Tao, YUAN Decheng

(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China)

Abstract: In order to better validate the associations between the presence of breast cancer and correlation index of obesity, a prediction model is constructed based on data features such as resistin, glucose, age and BMI (body mass index). By studying the influence of parameters of support vector machine (SVM) on the performance of the model, an improved whale optimization algorithm (IWOA) based on adaptive mechanism strategy, namely parameter adaptive whale optimization algorithm (PAWOA), is proposed to find out the optimal parameters for the SVM. The population positions are initialized with the Tent mapping. An adaptive parameter [p*] is introduced to replace the random threshold value in order to accelerate the convergence speed. Each search individual is solved with respect to the given objective function, and the global optimum solution is found out after calculating the fitness, so as to improve the global optimization performance of the population. The experimental results show that the precision of the optimized model is improved by 12.44%, its recall rate is improved by 13.57%, and its [F1] score is improved by 13.14%. It can be seen that the prediction model has a better effect and can be used to assist in diagnosing the breast cancer.

Keywords: WOA; SVM; adaptive parameter; data preprocessing; breast cancer cell classification; Tent mapping

0" 引" 言

在醫學上,乳腺癌診斷的常見方法有影像學檢查和病理檢查[1?3]。隨著機器學習的發展,不少研究人員都將機器學習技術應用在乳腺癌檢測等方面。文獻[4]將TCGA數據庫中4種組學數據進行融合,提高隨機森林的預測性能。文獻[5]采用人工魚群算法優化隨機森林實現對乳腺癌細胞的精確分類。文獻[6]提出免疫分類算法研究算法分類準確率與屬性缺失樣本間的聯系。但上述研究中所用數據均忽視了與乳腺癌相關的病理特征。文獻[7]在證實乳腺癌的存在與人體肥胖有關后,認為常規會診和血液分析收集的人體測量數據和參數可以組成更加高效的數據集。最終,在收集的數據中篩選出抵抗素、葡萄糖、年齡和身體質量指數作為特征建立穩定的預測模型輔助醫護人員進行乳腺癌診斷。略有不足的是,文獻[7]的研究并未將數據劃分為測試集和訓練集,所生成模型是基于相同數據上的評估,并不一定是未來數據性能的良好指標。另外,所選擇的分類器,85%的分類精度也有待提升[7]。

對此,本文提出參數自適應鯨魚優化算法(Parameter Adaptive Whale?optimization Algorithm, PAWOA)對支持向量機的參數進行全局尋優,構造出一種更加合適的分類模型。不僅實現對分類精度的提升,也可以對測試集數據進行精確預測,從而更廣泛地應用于通過人體肥胖指標判斷乳腺癌。

1" 鯨魚優化算法

1.1" 標準鯨魚優化算法

鯨魚優化算法是經典的智能優化算法[8],鯨魚在圍捕過程中需要不斷調整自身位置,如式(1)所示:

[D=CX*(t)-XX(t+1)=X*(t)-AD]" (1)

式中:[t]表示目前的迭代次數;[X*(t)]表示目前適應度最好的鯨魚位置;[X(t)]表示目前迭代位置次數中鯨魚的位置;[A]和[C]表示系數。[A]和[C]由式(2)得出:

[A=2ar1-aC=2r2a=2-2tTmax]" (2)

式中:[r1]和[r2]是隨機數,范圍為[0,1];[a]的值從2到0下降;[t]為目前的迭代次數,[Tmax]表示未初始設置的最大迭代次數。之后鯨魚通過螺旋運動不斷更新自己的位置,數學模型如式(3)所示:

[X(t+1)=X*(t)+Deblcos(2πl)]" (3)

式中:[D=X*(t)-X(t)]表示最優位置與第[i]只鯨魚間的距離;[b]表示螺旋常數;[l]是范圍為[-1,1]的隨機數。假設式(1)或式(3)的使用概率都是50%,則有如下數學模型:

[X(t+1)=X*(t)-AD," " " " " plt;0.5X*(t)+Deblcos(2πl)," " " " " p≥0.5]" (4)

式中[p]是[0,1]范圍的隨機數。

在隨機搜捕過程中,為了確定位置,鯨魚會將搜索獵物的范圍設定在一個隨機范圍中。當[A]gt;1時,鯨魚在全局范圍內隨機搜索獵物,如式(5)所示:

[D=CXrand-X(t)X(t+1)=Xrand-AD]" (5)

式中[D]和[Xrand]表示鯨魚群中任意鯨魚的位置。

1.2" 基于Tent混沌映射優化鯨魚算法

Tent映射產生混沌序列對鯨魚種群進行初始化[9],為了初始解就可以在解空間中更加均勻,良好的初始種群對算法收斂速度和精度都有幫助[9]。

[zi+1=2zi," " "0≤z≤0.52(1-zi)," " "0.5lt;zi≤1] (6)

式中:[zi]表示第[i]次映射的函數值,[i]表示映射次數,設定初始值[z0],按照式(6)生成下一個個體,直至滿足要求。然后引入自適應權重,目的在于使鯨魚在包圍獵物的過程中不斷螺旋運動更新位置,隨著迭代次數的增加,權值[w]會線性遞減。在初期,算法權重系數較大時,算法更加注重全局搜索能力,但隨著迭代次數的增加,同時權重系數不斷減小,算法搜索范圍就會趨向于某一區域,這樣就避免陷入局部最優,實現求解精度的提升。鯨魚位置的更新公式如式(7)所示:

[X(t+1)=wX?(t)-AD," " " plt;0.5Deblcos(2πl)+wX?(t),nbsp; " "p≥0.5] (7)

[w(t)=e-tmax_iterk] (8)

式中:[t]表示當前迭代次數;max_iter表示最大迭代次數;[k]表示調節系數,目的在于調節權重大小。

1.3" 自適應閾值[p*]

在標準的鯨魚優化算法中,一般設定概率閾值為0.5,用于協調螺旋和包圍過程的同步,以隨機選擇兩種運動方式[13]。然而,這種方式可能導致收斂速度過慢,尤其是隨著迭代次數逐漸增加。因此,為了改善收斂速度,本文引入自適應參數[p*]代替原先的概率閾值,[p*]會隨著迭代次數的改變而改變,取值范圍為[0,1]。這樣在不同時期,鯨魚都有較大的概率找到當前合適的捕食策略,從而協調算法的局部開發能力和全局尋優能力,進而提高算法收斂速度,自適應參數[p*]的表達式如式(9)所示:

[p*=1-11+λ?λ?tλmax_iter+μ?tμmax_iter] (9)

式中:[t]表示當前迭代次數;max_iter表示最大迭代次數;[λ]、[μ]為控制參數,實驗中取值為:[λ]=0.5,[μ]=0.2。鯨魚狩獵公式改寫后,如式(10)所示:

[X(t+1)=wX?(t)-AD," " " plt;p*Deblcos(2πl)+wX?(t)," " " p≥p*] (10)

改進鯨魚優化算法主要步驟如下:

1) 初始化鯨魚群的基礎參數、種群規模[n]、對數螺線形狀參數[b]、最大迭代次數max_iter和問題維數[D];

2) Tent混沌映射對鯨魚位置進行初始化;

3) 求解目標函數,計算所有搜索個體的適應度,找到當前最優解;

4) 若[plt;p*]且[A]lt;1,則按式(3)進行更新;

5) 若[plt;p*]且[A][≥]1,按WOA對應公式進行螺旋運動對獵物進行更新;

6) 若[p≥p*],按式(4)進行全局搜索;

7) 更新位置后,計算所有個體的適應度值,比較之前的最佳搜索位置,若優于[X*],則替換[X*];

8) 若迭代到最大迭代次數則中止迭代,若迭代次數不滿足最大迭代次數,則繼續執行步驟4),最后輸出最優解和適應度值。

2" 支持向量機分類模型的建立

2.1" SVM預測原理

SVM(Support Vector Machine)是最常見的處理非線性問題的監督學習算法,SVM通過使用核函數映射將非線性問題轉化為線性可分的分類問題,并通過帶有拉格朗日函數的方法解決最優化問題。引入拉格朗日乘子約束數據點到超平面的距離,如式(11)所示:

[min12i=1nj=1n(a?i-ai)(a?j-aj)K(xi,xj)+εi=1n(a?i+ai)-i=1nyi(a?i-ai)s.t." " i=1n(ai-a?i)=0" " " " " " " " " " " " " " " " " " " " " " 0≤ai,a?i≤cn" " " " " " " " " " " " " " " " " " " " ] (11)

式中:[ai]和[a?i]為拉格朗日乘子,通過構建帶有拉格朗日乘子的優化問題,將原始問題轉變為對拉格朗日乘子的求解。面對樣本輸入和輸出間的復雜非線性慣性,參數選取少、計算效率高的高斯徑向基核函數可以良好解決這類問題[10]。采用效果更好的徑向基公式(見式(12))為核函數,利用式(11)的極小化問題解出最優分類函數(見式(13))。

[K(xi,xj)=exp-x-y22σ2]" (12)

[f(x)=i=1n(ai-a?i)K(xi,x)+b]" (13)

2.2" 改進鯨魚算法優化支持向量機

PAWOA算法優化SVM模型構建如圖1所示。

2.3" 參數優化和評價標準

懲罰函數[C]和RBF核系數[g]對SVM的分類性能有著顯著性影響[10]。其中,懲罰系數[C]用于控制分類錯誤的懲罰程度,使決策邊界更加平滑;核系數[g]用于將原始特征空間映射到高維特征空間,決定訓練樣本數據的范圍和分布特性,[g]值的合理取舍可以在過擬合和欠擬合間找到平衡。分類結束后,使用準確率、Recall和[F1]評分作為評價指標,衡量模型的準確性和精度[5]。

1) 準確率:正確分類個數與總分類數的比值。

[Accuracy=ncorrectntotal]" (14)

2) Recall:也稱為召回率,表示預測結果中預測為正類占實際正類的比例。

[Recall=TPTP+FP] (15)

3) [F1]評分:Recall與準確率的加權計算結果。

[F1=2×Accuracy×RecallAccuracy+Recall] (16)

3" 數據處理

原始數據集來自于葡萄牙科英布拉大學醫學院生物統計和醫學信息實驗室的公開數據集[7]。已知每個乳腺癌細胞共有9類特征,具體見表1,需要對正常細胞和乳腺癌細胞進行分類。

實驗中選擇抵抗素、葡萄糖、年齡和身體質量指數作為特征用于構造乳腺癌預測模型[7]。由于原始數據中存在缺失值、異常值、重復值等現象,需要對數據進行預處理,清理這些錯誤數據,提高數據準確性和完整性。另外,不同的數據分析算法和模型對數據的要求不同,數據預處理可以將原始數據轉換為適合特定算法或模型的形式,從而提高模型的分類準確性和可解釋性。

3.1" 數據均衡化

由于數據集中的正常乳腺細胞和乳腺癌細胞的數據不平衡,分類算法往往更加偏向于多數類,忽視較少類別,導致模型對少類樣本的識別率降低。因此,需要對數據均衡化處理。為了解決數據不均衡可能產生的相對誤差,實驗引入隨機欠采樣[11]對數據集進行均衡化處理。隨機欠采樣在多類樣本中隨機抽取樣本,抽取數量與少類樣本數一致,將抽取樣本與少類樣本構建新的數據集。

3.2" 數據歸一化

由于乳腺癌細胞特征在數據集中存在不同的度量單位和數量級,而且不同特征間存在較大差異。如果直接對原始數據進行分類處理,模型可能會更加關注較大指標而忽視其他特征,導致結果出現相對誤差。因此,為了確保模型分類結果的有效性和可靠性,消除不同量綱數據對結果的影響,用式(17)對乳腺癌細胞的各個特征數據進行歸一化[12]處理。

[x=x-xminxmax-xmin] (17)

式中:[x]為數據值;[xmin]和[xmax]分別為各個特征最大值和最小值。

4" 實驗仿真與結論

4.1" 數據預處理

原始數據中乳腺癌細胞的數據遠多于正常乳腺細胞的數據,導致分類模型在判斷的時候更加傾向于多類樣本。故而需要對多類樣本進行隨機欠采樣,讓兩類細胞的特征數據保持一致。之后,再對新的數據集進行歸一化處理,直接調用Python中的MaxScaler( )函數分別執行即可。然后,劃分為訓練集和測試集,其中訓練集占80%,測試集為20%,具體數量分布見表2。

對數據集中的不同特征進行分析,以BMI、葡萄糖為例,對比預處理前后特征的分布,如圖2、圖3所示。由圖可知,在預處理之前,數據集的數值通常集中在一個較小的范圍內。通過預處理,不僅可以消除特征之間的量綱差異也使得各個特征的分布更為分散。保證模型可以均衡地考慮所有類型數據,提升了模型的分類可靠性。

4.2" 仿真實例

對PAWOA算法的參數設置如表3所示。

對現有數據預處理后,設定好初始參數,劃分好數據集。將數據輸入優化好的模型中,模型的分類精度隨著迭代次數而改變,結果如圖4所示。

由圖4可知,當迭代次數在15次后,模型的分類精度趨于穩定。模型的分類精度最高達到95.24%。此時,對應的支持向量機的懲罰系數[C]和核系數[g]分別為:0.376和0.545。為了更好地說明PAWOA優化支持向量機具有優越性,實驗選擇該算法與邏輯回歸、隨機森林和支持向量機進行對比,探究不同算法的分類性能。從準確率、召回率和[F1]值進行評估,比較結果如表4所示。

作為檢驗算法分類性能的重要指標,準確率越高,則分類算法效果越好。由表4可知:支持向量機的準確率為82.86%,而隨機森林和邏輯回歸的分類準確率分別為77.14%和86.67%;而本文提出的PAWOA算法優化支持向量機對乳腺癌的識別準確率達到了95.24%。另外,本文所提的優化算法模型在召回率和[F1]值上相較其他算法也得到了提升。

5" 結" 論

本文通過改進鯨魚算法優化支持向量機實現對乳腺癌的預測,得到以下結論:

1) 模型對測試集中數據表現出高準確率的分類性能,證明該模型可以用于對新數據的屬性判斷。

2) 該模型可以將針對肥胖相關的指標用于預測乳腺癌的存在。

注:本文通訊作者為高濤。

參考文獻

[1] 蘇愛江,羅揚,毛愛琴.超聲引導下穿刺活檢對早期乳腺癌的診斷價值[J].實用癌癥雜志,2018,33(3):377?379.

[2] BRAY F, FERLAY J, SOERJOMATARAM I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA: A cancer journal for clinicians, 2018, 68(6): 394?424.

[3] 何欣穎,吳黎明,鄭耿哲,等.基于Inception?ResNet?v2的乳腺癌輔助診斷方法[J].自動化與信息工程,2020,41(1):16?21.

[4] 齊惠穎,江雨荷.基于多組學數據融合構建乳腺癌生存預測模型[J].數據分析與知識發現,2019,3(8):88?93.

[5] 王冬,曲媛,劉玉航,等.基于優化隨機森林算法的乳腺癌分類診斷[J].計算機工程與設計,2022,43(3):706?712.

[6] 鄧澤林,譚冠政,葉吉祥,等.一種用于乳腺癌診斷的免疫分類算法[J].中南大學學報(自然科學版),2010,41(4):1485?1490.

[7] PATRíCIO M, PEREIRA J, CRISóSTOMO J, et al. Using resistin, glucose, age and BMI to predict the presence of breast cancer [J]. BMC cancer, 2018, 18(1): 29.

[8] 楊炳媛,袁杰,郭園園.一種自適應鯨魚快速優化算法[J].計算機工程與科學,2023,45(1):145?153.

[9] 馬曉寧,李笑含.基于Tent混沌映射的可復制的鯨魚算法[J].計算機仿真,2022,39(8):363?368.

[10] 李杰,靳孟宇,馬士豪.改進粒子群算法優化支持向量機的短期負荷預測[J].測控技術,2021,40(4):76?79.

[11] 肖衡,李莉莉.基于隨機欠采樣算法的信用風險研究[J].青島大學學報(自然科學版),2022,35(4):126?130.

[12] 羅玉彬,牛冉雯.樣本數據歸一化對GPS高程轉化結果的影響分析[J].測繪通報,2013(8):33?35.

[13] 顏妍.基于改進鯨魚優化算法的供水管網優化研究[D].濟南:濟南大學,2023.

作者簡介:高" 濤(1995—),男,安徽合肥人,研究生,CCF學生會員(P5782G),研究方向為機器學習。

袁德成(1960—),男,內蒙古阿拉善左旗人,工學博士,二級教授,博士生導師,主要研究領域為建模仿真、預測控制、實時優化、數據驅動的控制設計等。

主站蜘蛛池模板: 岛国精品一区免费视频在线观看| 91欧美亚洲国产五月天| 国产精品密蕾丝视频| 欧美日本在线播放| jizz在线观看| 亚洲欧洲天堂色AV| 亚洲精品福利视频| 三级视频中文字幕| 国产网友愉拍精品视频| 午夜色综合| 欧美有码在线观看| 色综合天天视频在线观看| 国产精品污视频| 国产18在线播放| 99激情网| 精品国产成人a在线观看| 伊人福利视频| 成年A级毛片| 免费AV在线播放观看18禁强制| 国产免费怡红院视频| 国产成人精品一区二区| 国产永久在线视频| 免费一级大毛片a一观看不卡| 日韩色图区| 日韩无码真实干出血视频| 久久国产精品电影| 欧美国产日韩在线| 国产精品v欧美| 亚洲黄色成人| 国产精品网址你懂的| 国产一区二区色淫影院| 欧美激情成人网| 久久99蜜桃精品久久久久小说| 国产精品美女网站| 91精品国产91久久久久久三级| 99久久国产综合精品2023| 欧美啪啪网| 一级毛片在线播放| 亚洲美女一级毛片| 久青草免费视频| 亚洲综合精品香蕉久久网| 亚洲av无码久久无遮挡| 嫩草国产在线| 伊人色天堂| 成人伊人色一区二区三区| 国产成年无码AⅤ片在线| 亚洲天堂网在线播放| 在线五月婷婷| 成年网址网站在线观看| 亚洲一区二区三区香蕉| 亚洲av无码专区久久蜜芽| 大香伊人久久| 国产成人亚洲毛片| 精品国产香蕉伊思人在线| 免费在线观看av| 色天堂无毒不卡| 国产欧美精品专区一区二区| 亚洲欧美日本国产综合在线| 精品色综合| 亚洲—日韩aV在线| 在线永久免费观看的毛片| 伊人久久久大香线蕉综合直播| www.亚洲色图.com| 新SSS无码手机在线观看| 久久精品国产精品一区二区| 高清国产在线| 成年A级毛片| 中文成人无码国产亚洲| 国产av无码日韩av无码网站| 国产在线视频自拍| 久久99精品久久久大学生| 日韩不卡免费视频| 欧美日韩免费在线视频| 免费人成网站在线观看欧美| 高清精品美女在线播放| 亚洲国产成人精品青青草原| 无码电影在线观看| 成人在线天堂| 亚洲人成网站日本片| 好紧太爽了视频免费无码| 欧美a在线视频| 亚洲人成网站色7799在线播放 |