中圖分類號:TP399 文獻標志碼:A 文章編號:1671-5489(2025)04-1117-05
Improve Dung Beetle Algorithm to Optimize Machine Learning Model
FEI Minxue1,HUANG Dongyan1,GUO Xiaoxin 2,3 ( (1. College of Engineering and Technology, Jilin Agricultural University,Changchun 130l18,China;
2. College of Computer Science and Technology, Jilin University, Changchun 1300l2, China;
3. Key Laboratory of Symbolic Computation and Knowledge Engineeing of Ministry of Education, Jilin University,Changchun 130012,China)
Abstract: Aiming at the problem of low accuracy of traditional support vector machines (SVM),we proposed an LDBO-SVM model. Firstly,in order to solve the problem of uneven distribution of the initial solution of the original dung beetle optimization algorithm,the Logistic chaotic map was introduced into the algorithm to construct the LDBO algorithm. Secondly,the LDBO algorithm was used to optimize the internal penalty factor and kernel parameters of the traditional support vector machine,and the LDBO-SVM model was constructed. Finally,in order to verify the performance of LDBO-SVM model, LDBO-SVM model was compared with the improved SVM by using five other population intelligent optimization algorithms. The experimental results show that the accuracy of LDBO-SVM model reaches 94.53% , and can accurately predict student achievement, providing assistance for teachers to improve their teaching plans.
Keywords:machine learning; support vector machine; dung beetle optimization algorithm;parameteroptimization
目前,神經網絡模型[1-2]備受關注,廣泛應用于各領域中.神經網絡模型雖然在各領域中都展現了獨特的優勢,但針對小數據集,其性能低于機器學習模型[3-5].機器學習模型不需要大量的數據集訓練即可達到很好的擬合效果,所以針對小數據集,機器學習模型更有優勢.但隨著社會需求的提高,傳統機器學習模型的弊端逐漸開始嚴重影響模型的性能,導致最后結果遠未達預期.
為提升傳統機器學習模型的性能,大量研究開始將各種優化方法集成到機器學習模型中.Innan等[6]結合現有的兩種支持向量機(support vector machines,SVM)的優勢構建了QVK-SVM模型,實驗證明該支持向量機具有較好的性能.Shrivastava等[7]關注到支持向量機易受決策邊界附近有噪聲樣本的影響,提出了一種新的損失函數,并將該損失函數集成到支持向量機中,以此構建了Eagle-SVM模型,具有較好的魯棒性.Rizwan 等[8]為解決傳統支持向量機忽略了半徑的最小化問題與類之間最佳超平面的配置是無效的問題,提出了一種新的加權半徑支持向量機(WR-SVM),仿真實驗結果表明,該模型具有較好的分類精度.可見,對傳統機器學習模型進行改進可以提升模型的性能.
群智能優化算法[9-11]在優化領域取得了卓越的效果,尤其是參數優化領域,其中包括支持向量機的參數優化[12-14].基于此,本文將改進的蜣螂優化(dung beetle optimizer,DBO)算法集成到傳統支持向量機中,并將新構建的模型應用于學生成績預測.
1算法設計
1.1 改進蜣螂優化算法
1. 1. 1 蜣螂優化算法
蜣螂優化算法通過模擬自然界中蜣螂的生活行為進行數學建模.自然界中,蜣螂所有生活行為都以糞球為核心,包括滾動糞球、通過糞球繁殖、小蜣螂覓食和偷竊糞球.在滾動糞球過程中會遇到障礙物,因此將滾動糞球行為分為兩種:一種是無障礙物滾動糞球;另一種是有障礙物滾動糞球.因此,蜣螂優化算法在數學建模時將算法分為四部分.無障礙滾動糞球數學建模如下:
其中: Ψt 表示迭代次數; xi(t) 表示蜣螂的位置; K 表示偏轉系數的常數; b 為定值; α 為自然系數,表示是否偏離原來方向; Δx=∣xi(t)-Xw∣ 用于模擬光照射強度的變化, Xw 表示全局最差位置.
當遇到障礙物時,蜣螂會在糞球上跳舞,以此重新確定方向,數學建模如下
其中 θ 表示撓度角.繁殖行為數學建模公式如下:
其中 Bi(t) 表示繁殖出卵球的位置信息, b1 和 b2 為兩個獨立的向量, Xpart* 為局部最優位置, LBpart? 和UBpart* 分別表示繁殖區域的下界和上界.規定繁殖區域是為保證蜣螂可以在安全范圍內繁殖,計算公式如下:
LBpart*=max{Xpart*×(1-R),LBP},
UBpart*=min{Xpart*×(1+R),UBP},
其中 LBP 和 UBP 分別表示實際優化問題的下限和上限;
R=1-t/T,
T 為最大迭代次數.
小蜣螂沒有豐富的覓食經驗,所以要規定最佳區域引導蜣螂覓食,最佳區域下界、上界計算公式如下:
其中 LBall* 和 UBall* 分別表示最佳覓食區域的下界和上界, Xall* 表示全局最佳覓食位置.小蜣螂位置更新公式如下:
其中 C1 表示隨機數, C2 為隨機向量.偷竊糞球數學建模公式如下:
xi(t+1)=Xall*+β×F×(|xi(t)-Xpart*|+|xi(t)-Xall*|),
其中 F 表示服從正態分布的隨機向量, β 表示恒定值.
1.1.2 LDBO算法
群智能優化算法雖然有很強的尋優能力,但普遍存在初始解隨機性過大、分布不均勻等問題.為解決該問題,混沌映射[15-16]被引入到群智能優化算法的種群初始化中,蜣螂優化算法也存在上述問題,本文在蜣螂優化算法的種群初始化中引入Logistic 混沌映射[17],計算公式如下:
其中: μ 為控制參數,取值為(0,4]; X∈(0,1) .新構建的算法命名為LDBO,其以Logistic混沌映射替代原始蜣螂優化算法種群初始化機制,避免了初始種群隨機性過大,同時也解決了初始解不豐富的問題.
1.2 支持向量機
支持向量機是機器學習的一種,其在二分類問題中展現了良好的性能,尤其是針對少量樣本數據集[18-20].SVM的核心思想是將低維特征通過函數映射到高維空間中,然后以此尋找最優超平面,并以該超平面作為后續分類的依據,圖1為最優超平面示意圖.SVM內部有兩個重要參數,分別是懲罰因子和核參數,這兩個參數值會直接影響SVM的性能.
1.3 改進支持向量機模型
為優化傳統SVM的性能,本文應用新構建的LDBO算法優化SVM內部的懲罰因子和核參數,該模型命名為LDBO-SVM,模型偽代碼如下.
LDBO-SVM偽代碼.
初始化參數;
應用Logistic混沌映射初始化初始種群;
While ( ?t
For i=1:N If i∈ 滾球蜣螂根據式(1)或式(2)更新蜣螂位置;End ifIf i∈ 繁殖蜣螂根據式(3)更新卵球位置;End ifIf i∈ 小蜣螂根據式(8)更新小蜣螂位置;End ifIf i∈ 偷竊蜣螂根據式(9)更新偷竊蜣螂位置;End if
End fort=t+1
End while
輸出最優解和適應度值;
將最優解賦值給SVM.
2 實驗及結果分析
2.1 數據集
實驗數據集收集于多個開源平臺,共145個樣本,每個樣本包含11個特征.為避免評價標準過于單一,特征信息不僅包括學生上課的信息,同時也包括學生課外活動的信息等,以保證評價結果的全面性.實驗數據集特征信息列于表1.將樣本分為兩類,分別為失敗和不失敗.
2.2 實驗設置
本文實驗全部在實驗室進行,模型依托于MATLAB實現.為驗證本文模型的有效性,將本文模型與經過其他5種群智能優化算法改進的支持向量機進行比較.5種群智能優化算法分別為蜣螂優化算法、遺傳算法(genetic algorithm,GA)、粒子群優化(particle swarm optimization,PSO)算法、鯨魚優化算法(whale optimization algorithm,WOA)和灰狼優化(grey wolf optimization,GWO)算法.將所有模型基于準確率和訓練時間進行對比.
2.3 模型實驗結果
各模型準確率對比結果如圖2所示.由圖2可見:本文LDBO-SVM模型準確率最高,達94.53% ,說明應用本文模型預測學生成績可靠,教師可以以本文模型的預測結果作為改進教學計劃的依據;由原始DBO優化的SVM模型準確率達93.90% ,排名第二,比LDBO-SVM 模型低0.63個百分點,說明本文算法LDBO具有更好的尋優能力,可以更大幅度地提升傳統SVM的性能;WOA-SVM和GWO-SVM模型分別排名第三和第四,準確率分別達 93.82% 93.79% ; GA-SVM和PSO-SVM模型排名最后兩位,其中GA-SVM
的準確率最低,僅有 93.19% .實驗結果表明,LDBO-SVM與其他模型相比,準確率提高了0.63~1.34 個百分點,可作為學生成績預測的輔助性工具.各模型訓練時間對比結果列于表2.
由表2可見:GA-SVM模型的訓練時間最長,達 3.870 09s ;DBO-SVM模型的訓練時間最短,僅有 3.545 37s ;本文LDBO-SVM模型排名第二,訓練時間為 3.55180s ,與排名第一的DBO-SVM模型相比,僅相差 0.006 43s ,與其他模型相比,LDBO-SVM模型在訓練時間上仍有優勢,其訓練時間少于其他模型.本文LDBO-SVM模型雖然訓練時間不是最短的,但其具有最高的預測準確率,所以LDBO-SVM模型綜合性能最好.
綜上所述,針對傳統支持向量機準確率較低的問題,本文提出了一種新的機器學習模型LDBO
SVM.在原始蜣螂優化算法種群初始化中加人了混沌映射,構建了LDBO算法,且為優化傳統 SVM性能,將 LDBO 集成到 SVM中,構建LDBO-SVM模型.實驗結果證明本文模型預測準確率最高.
參考文獻
[1]KHOEI T T, SLIMANE H O, KAABOUCH N. Deep Learning: Systematic Review, Models, Challenges,and Research Directions [J]. Neural Computing 8. Applications,2023,35(31):23103-23124.
[2]WANG L N, ZHENG YC,WEI H X,et al. Stretching Dep Architectures:A Deep Learning Method without Back-Propagation Optimization [J]. Electronics,2023,12(7): 1537-1-1537-21.
[3]VON RUEDEN L,MAYER S,BECKH K,et al. Informed Machine Learning:A Taxonomy and Survey of Integrating Prior Knowledge into Learning Systems [J]. IEEE Transactions on Knowledge and Data Engineering, 2023,35(1):614-633.
[4]ZHANG Y D,GORRIZ JM,NAYAK D R. Optimization Algorithms and Machine Learning Techniques in Medical Image Analysis [J]. Mathematical Biosciences and Engineering,2023,2O(3): 5917-5920.
[5]ZHOU C M,WANG Y, XUE Q,et al. Diffrentiation of Bone Metastasis in Elderly Patients with Lung Adenocarcinoma Using Multiple Machine Learning Algorithms [J]. Cancer Control, 2O23,30:1-9.
[6]INNAN N, KHAN M A Z,PANDA B,et al. Enhancing Quantum Support Vector Machines through Variational Kernel Training [J]. Quantum Information Processing,2023,22: 374-1-374-18.
[7]SHRIVASTAVA S,SHUKLA S,KHARE N. Support Vector Machine with Eagle Loss Function [J]. Expert Systems with Applications,2024,238:112168-1-112168-16.
[8]RIZWAN A, IQBAL N,AHMAD R,et al. WR-SVM Model Based on the Margin Radius Approach for Solving the Minimum Enclosing Ball Problem in Support Vector Machine Clasification [J]. Applied Sciences-Basel, 2021,11(10):4657-1-4657-21.
[9]CHEN S H, ZHANG C Q,YIJP. Time-Optimal Trajectory Planning for Woodworking Manipulators Using an Improved PSO Algorithm [J]. Applied Sciences-Basel,2023,13(18):10482-1-10482-22.
[10]HSIEH C H, ZHANG Q, XU Y,et al. CMAIS-WOA: An Improved WOA with Chaotic Mapping and Adaptive Iterative Strategy [J]. Discrete Dynamics in Nature and Society, 2023,2023: 8160121-1-8160121-18.
[11]BANAIE-DEZFOULI M, NADIMI-SHAHRAKI M H, BEHESHTI Z. BE-GWO: Binary Extremum-Based Grey Wolf Optimizer for Discrete Optimization Problems [J]. Applied Soft Computing,2023,146:110583-1-110583-18.
[12]HUANG W C,LIU H Y, ZHANG Y,et al. Railway Dangerous Goods Transportation System Risk Identification: Comparisons among SVM, PSO-SVM,GA-SVM and GS-SVM [J]. Applied Soft Computing, 2021,109:107541-1-107541-16.
[13]HUANGQ H,WANG C,YE Y,et al. Recognition of EEG Based on Improved Black Widow Algorithm Optimized SVM[J]. Biomedical Signal Processing and Control, 2023,81: 104454-1-104454-11.
[14]LI J,LIU H,SUN S B,et al. Prediction of Complex Acute Appendicitis Based on HGS-MSVM[J]. IEEE Access,2023,11: 84336-84345.
[15]ADHIKARI S,KARFORMA S. An Eficient Image Encryption Method Using Henon-Logistic-Tent Chaotic Pseudo Random Number Sequence [J]. Wireless Personal Communications,2023,129(4): 2843-2859.
[16]HU A Q,GONG X X,GUO L. Joint Encryption Model Based on a Randomized Autoencoder Neural Network and Coupled Chaos Mapping [J]. Entropy,2023,25(8): 1153-1-1153-24.
[17]DONG Y M,YIN C H, XU C,et al. A Quantum Image Encryption Method for Dual Chaotic Systems Based on Quantum Logistic Mapping [J]. Physica Scripta,2024,99: 015103-1-015103-18.
[18]QIN Z F,LI QQ. An Uncertain Support Vector Machine with Imprecise Observations [J]. Fuzzy Optimization and Decision Making,2023,22(4):611-629.
[19]WANG F,XIE K L,HAN L,et al. Research on Support Vector Machine Optimization Based on Improved Quantum Genetic Algorithm [J]. Quantum Information Processing,2023,22(10): 380-1-380-27.
[20]LI JY,CHAO S W. A Novel Twin-Support Vector Machines Method for Binary Classification to Imbalanced Data [J]. Journal of Intelligent amp; Fuzzy Systems, 2023,44(4): 6901-6910.
(責任編輯:韓嘯)