999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Optuna框架的Lp范數約束下多核支持向量機在違約風險預測中的應用

2024-09-14 00:00:00鄭怡昕王重仁
現代電子技術 2024年6期

摘 "要: 針對違約數據存在數據量大、維度多、不平衡及噪聲大等缺點,提出一種改進的支持向量機方法,即基于Optuna框架的Lp范數約束的代價敏感的多核支持向量機(Lp?Optuna?SVM)。該方法采用成本矩陣對不同預測錯誤賦予不同數值,通過多核學習引入多核混合核函數組合;同時采用Optuna優化框架對犯錯成本、核函數的參數和權重實現了自動化的調優過程;還在核函數權重上引入Lp范數約束,以提高模型對噪聲和異常數據的魯棒性。最后,對4種常用的基礎核函數組合的Lp?Optuna?SVM進行探討,并與單核支持向量機以及K鄰近法、邏輯回歸、高斯貝葉斯進行對比。結果表明,在給定數據集上,Lp?Optuna?SVM在違約數據上的g?mean和AUC均高于其他算法,并且在加了不同方差的噪聲數據集上,該算法整體依舊保持較好的魯棒性。

關鍵詞: 多核支持向量機; Optuna優化框架; Lp范數約束; 多核學習; 不平衡數據集; 違約風險預測

中圖分類號: TN919?34; TP311 " " " " " " " " " 文獻標識碼: A " " " " " " " " " " "文章編號: 1004?373X(2024)06?0147?07

Application of Lp?norm?constrained multi?kernel support vector machine based on Optuna framework in default risk prediction

ZHENG Yixin, WANG Chongren

(Shandong University of Finance and Economics, Jinan 250002, China)

Abstract: In allusion to the drawbacks of large data volume, multiple dimensions, imbalance, and high noise in default data, an improved support vector machine method is proposed, which is a cost sensitive multi kernel support vector machine (Lp Optuna SVM) based on the Lp?norm?constrained of the Optuna framework. In this method, a cost matrix is used to assign different values to different prediction errors, and the combinations of multi kernel mixed kernel function is introduced by means of multi kernel learning. The Optuna optimization framework is used to automate the tuning process for error costs, kernel function parameters, and weights. The Lp?norm?constrained is introduced on kernel function weights, so as to improve the model's robustness against noise and outlier data. The Lp?Optuna?SVM of four commonly used combinations of basic kernel functions is explored and compared with single kernel support vector machines, K?nearest neighbor method, logistic regression, and Gaussian Bayes. The results show that, on the given dataset, Lp?Optuna?SVM has higher g?mean and AUC on default data than those of other algorithms, and this algorthm can overall maintain good robustness on noisy datasets with different variances.

Keywords: multi?kernel support vector machine; Optuna optimization framework; Lp?norm?constrained; multi?kernel learning; unbalanced dataset; default risk prediction

近年來,為了提高金融違約風險預測的準確度,很多研究聚焦于提高單個模型的預測性能,其中,支持向量機(SVM)因其在非線性問題上有出色表現,常被用于違約風險預測領域。I. O. Eweoya等利用支持向量機,通過數據中的隱藏趨勢來預測貸款申請中欺詐的可能性[1]。但支持向量機對離群點和噪聲數據十分敏感,且金融數據多為多源異構數據,存在分布不平衡的特點,因此許多研究選擇多核學習(Multiple Kernel Learning, MKL)以提高模型預測的準確性和穩定性。多核學習中關鍵的問題是確定核函數的組合權重及其參數。對此,已提出很多相關的方法及模型。Zhou等選擇多項式核函數(POLY)和徑向基核函數(RBF)來構造混合核函數,并應用粒子群優化算法來確認核函數的組合權重[2]。祁祥洲等在構造組合核函數時,利用中心核對齊(Centered Kernel Alignment, CKA)來計算每個核函數的權重,再將不同類型的核函數加以線性組合,最后將組合核函數引入到傳統單類支持向量機中代替單個核函數[3]。戴小路等將基于加權馬氏距離的模糊支持向量機方法拓展到多核維度,采用啟發式方法來計算多核權重系數,以加權求和的方式構建多核組合函數[4]。Wang等為了提高高光譜圖像分類的準確性,將多核支持向量機與粒子群優化算法結合,并將最佳權重分配給不同的核函數,通過在不同數據集上實現自適應權重,解決了在學習多個特征時人為選擇權重的問題[5]。Zhao等開發了一種基于混合核對齊最大化的多核模型(HKAM?MKM)來確認多核核函數的權重分配,這樣既確保有效利用基本核函數,又避免忽略樣本與其相鄰樣本之間的差異[6]。

綜上可知,確認多核核函數權重的常用方法有的計算復雜[4],有的雖然速度快,但是容易陷入局部最優[7]。因此本文在預測違約時進行以下創新:

1) 因違約案例較少,金融數據通常不平衡。這使得模型為減少錯誤,預測時偏向多數類,但不同類別預測錯誤產生的后果不同,故采用代價敏感的SVM,通過構建成本矩陣對不同類別預測錯誤賦予不同成本。

2) 為了克服上述常用方法的缺點,選擇超參數框架Optuna[8]來確定核函數權重、參數和犯錯成本。Optuna通過自動搜索超參數空間以降低復雜性,根據目標函數的表現來優化樣本點的分布,從而更有可能找到全局最優解。

3) 為了防止核函數權重過大或過小,對核函數的權重施加Lp范數約束,提高模型的穩定性。為提高模型的性能和表現,在考慮多樣性的同時保證核函數的互補性和相對獨立性,對線性核函數、多項式核函數、sigmoid核函數和徑向基核函數進行任意組合。

1 "Lp?Optuna?SVM

1.1 "代價敏感的支持向量機

假設存在一個線性可分的二分類數據集(樣本分為正類和負類),其輸入特征為[xi],對應的目標類別變量標簽為[yi]。在處理非樣本數據時,SVM通過核函數變換[?(xi)]在高維特征空間Z中進行映射,然后在高維特征空間Z中構建最優分類超平面以實現分類,公式如下:

[minω,b,ξ12ω2+Ci=1nξi]

[s.t. "yi(ωT?(xi)+b)≥1-ξi, ξi≥0,i=1,2,…,n] (1)

在特征空間Z構建超平面的過程中,核函數[K(xi,xj)]把非線性映射和特征空間中兩個向量[?(xi)]和[?(xj)]的內積相結合,可以避免明確指定非線性映射函數[?(xi)],通過計算特征空間中向量之間的內積來隱式地表示高維空間中的線性超平面,有效地解決了維度災難。但這種方法假設所有錯誤分類的代價相同,在處理不平衡的數據集時,因忽視了錯誤分類的成本不同,導致效果并不理想。因此,K. Veropoulos等人提出一種懲罰正則化的代價敏感支持向量機模型,以減少預測不平衡數據時遇到的負面影響[9]。對于正類和負類,該模型為正、負松弛變量引入[C+]和[C-]懲罰因子,如下:

[minω,b,ξ12ω2+C+i=1nξi+C-i=1nξi]

[s.t. "yi(ωT?(xi)+b)≥1-ξi, "ξi≥0,i=1,2,…,n] (2)

1.2 "多核支持向量機

對于高維、分布不均衡、包含異構信息的樣本數據,采用單核進行映射,對樣本的處理不一定合適。因此,為了進一步提高支持向量機的數據處理能力,使用多個核函數線性融合成的混合核函數,且該混合核函數依然是核函數。設有M個核函數,每個核函數的權重是[βm],混合核函數被定義為:

[Kmix(x,x')=m=1MβmKm(x,x')] (3)

式中[m=1Mβm=1]。為確保SVM的優化問題合理且可行,設基礎核函數[K1,K2,…,Km]的格拉姆矩陣均是半正定,滿足Mercer條件,則[Kmix(x,x')]也滿足Mercer條件[10],因為:

[αTKmix(x,x')α=αTm=1MβmKm(x,x')α=αT(β1K1(x,x')+β2K2(x,x')+…+βMKM(x,x'))α=β1αTK1(x,x')α+β2αTK2(x,x')α+…+βMαTKM(x,x')α] (4)

式中:[α]為給定數據集上的任意向量。對于每個m,[αTKmα≥0],所以[αTKmixα≥0],即混合核函數的矩陣是半正定的,滿足Mercer條件,可在SVM進行計算和優化。

1.3 "Lp范數約束的多核支持向量機

構建多核混合核函數時,核函數權重過大或過小均會造成病態矩陣。為此,對核函數的權重施加范數約束,公式如下:

[minω,b,ξ12m=1Mβmω(m)2+C+i=1nξi+C-i=1nξi+λm=1Mβmp1p]

[s.t. "yim=1Mβm((ω(m))T?(m)(x(m)i)+b)≥1-ξi, " " " " " "ξi≥0,i=1,2,…,n] (5)

通過控制過擬合,從而改善數值穩定性和計算的精度。對于多核支持向量機,其優化問題為:

[minω,b,ξ12m=1Mβmω(m)2+C+i=1nξi+C-i=1nξi]

[s.t. "yim=1Mβm((ω(m))T?(m)(x(m)i)+b)≥1-ξi, " " " " "ξi≥0,i=1,2,…,n] (6)

式中:[ω(m)]是第m個核函數對應的向量;[?(m)(x(m)i)]是第m個核函數對應的高維特征映射;[βm]是第m個核函數的權重。在特定的問題和數據集上,可以通過調整權重[βm]來平衡各個核函數的貢獻,進一步提升模型的性能。通過使用合適的優化算法確認p的取值,可以求得滿足約束且穩定的多核支持向量機。

1.4 "基于Optuna框架的參數優化方法

Optuna[11]是一款新興的優化工具。本研究基于Optuna框架的超參數的確定步驟如下:

1) 輸入機器學習模型的超參數。使用基于不同混合核函數的SVM模型,每個模型都有不同的超參數集和權重。

2) 確定超參數的搜索范圍和類型。為了確保所選核函數的格拉姆矩陣是半正定的,且滿足Mercer條件,具體表達式及核函數參數取值要求如表1所示。

3) 為Optuna設置目標函數,然后確定優化方向。本研究的目標函數和方向是最大化g?mean(geometric mean和AUC(Area Under the Curve)。

[g?mean=recall·specificity] (7)

式中:recall是召回率,即在正樣本上取得的準確率;specificity是特異度,即在負樣本上所取得的準確率。

4) 設置Optuna的試驗次數。本試驗中采樣器、方向和試驗次數分別設置為TPE采樣器、最大化和100。

2 "實驗結果與分析

2.1 "實驗設計

采用Kaggle網站上與違約有關的3個公開數據集(Company Bankruptcy Prediction、Marketing Campaign和Credit Risk Customers),如表2所示,把本文所提出的模型和其他方法進行比較,驗證其有效性。其中每個數據集按比例6∶4劃分,即60%為訓練集,40%為測試集。為檢驗所提出模型的抗噪聲能力,在3個數據集的訓練集中加入0、0.05、0.1、0.15、0.2、0.25、0.3不同方差的異常數據作為噪聲。在算法的對比中,為了確保算法的多元性,不僅有4個基礎核的SVM間的比較,還選擇KNN、邏輯回歸、高斯貝葉斯進行對比。為了消除訓練集隨機選擇的影響,在每個數據集上進行20次重復試驗。

把表1中4個核函數的任意組合,即2個核函數的組合、3個核函數的組合以及4個核函數的組合進行混合核函數構造。為了避免病態矩陣的出現,只選擇不同的核函數進行組合,以確保模型的穩定性和可靠性[12]。

2.2 "實驗環境

實驗所用主機CPU型號為Intel[?] CoreTM i5?8250U CPU,主頻為1.6 GHz,內存為8 GB,編程語言為Python 3.8,主要使用的庫為scikit?learn和Optuna。

2.3 "參數設置

針對二分類問題,構建了成本矩陣。其中,預測準確時的成本為0;正類錯誤預測被賦予成本記為C1;負類錯誤預測被賦予成本記為C2;核函數的參數及權重一起通過Optuna優化框架確定。多項式核函數的d、徑向基核函數的σ、sigmoid核函數的δ和k,以及犯錯成本C1和C2,在不同模型不同數據集的取值見表3。關于約束范數p的取值,當p=1時,部分[βm]取值趨向于0,得到[βm]的最稀疏解;當[p→∞]時,部分[βm]取值趨向于1,混合核函數[Kmix(x,x')=m=1MKm(x,x')]為非加權多核學習。根據實驗可得,最優的性能通常介于兩者之間,因此試驗中p最終取值為5。這樣既能保持一定的稀疏性,又能使表現較好的核函數能夠保留較高的權重系數。

2.4 "試驗結果分析

在沒有噪聲的情況下,任意核函數組合的Lp?Optuna?SVM的g?mean和AUC均優于常用分類器——KNN、邏輯回歸、高斯貝葉斯以及不同單核SVM。隨著噪聲方差的增加,不同模型性能有不同程度的下降,如表4~表6所示。

雖然在方差為0.3的噪聲下,一些多核核函數組合的性能弱于高斯貝葉斯算法,不過從整體來看,這些多核核函數組合仍保持了相對較好的魯棒性,在多樣化的噪聲條件下仍能夠保持相對一致的表現。而在低噪聲方差情況下,這些核函數組合的性能優于高斯貝葉斯算法,進一步表明它們在處理較為干凈數據時的優越性。

在不同數據集上,性能最優的Lp?Optuna?SVM組合均不相同。Company Bankruptcy Prediction數據集中linear+POLY+sigmoid+RBF組合性能最好;在Marketing Campaign數據集中,linear+POLY+sigmoid組合呈現出較好的性能優勢;而在Credit Risk Customers數據集中,POLY+RBF組合展現出最為出色的性能水平。因為Company Bankruptcy Prediction數據集維度較高(96維),不同特征之間的關系更為復雜,需要4個核函數來捕捉復雜的關系;而Marketing Campaign數據集(58維)和Credit Risk Customers數據集(21維)分別選擇3個和2個核函數的組合在適應性和泛化能力之間取得了較好的平衡。與使用更多核函數的組合相比,這種情況下的2個或3個核函數組合可能更好地捕捉數據集的關系,避免了模型過于復雜。因此,在處理較為復雜的數據集時,根據數據集的特征數量適度地減少核函數的數量,可能有助于提高模型的性能,并降低過擬合的風險。

3 "結 "論

在支持向量機的多核學習中,傳統方法如中心核對齊在確認核函數權重時存在復雜度較高的問題,需要額外設定各個核函數的參數,耗費大量時間。為了解決這一問題并提高模型的魯棒性,本文選擇了Optuna優化框架,通過自動化調優,同時搜索最優的核函數組合和參數,有效減少了手動調參的繁瑣過程,提高了優化的效率。為進一步增強模型的魯棒性,本文引入Lp范數約束對模型的權重進行限制,防止過度擬合和過大的權重,從而增加了模型對噪聲和異常樣本的魯棒性。這種約束能夠使模型具有更高的泛化能力和抗噪聲能力。

此外,本文還對支持向量機常用基礎核函數的所有不同組合進行了探索。實驗結果表明,在處理不同數據集時,所需的核函數組合數量可能與數據的特征數量相關。然而,這些結果可能受到多個因素的影響,包括數據的維度、分布、特征之間的關系以及模型的復雜度等。因此,在核函數選擇和組合的問題上,存在著更多的復雜性和不確定性,可能需要更深入的實驗和分析來確定最優的策略。此外,本文通過窮舉法探討了基礎核函數范圍內的所有不同核函數組合,但這個過程需要耗費大量時間。因此,在未來的工作中,可以考慮探索基礎核以外的核函數組合,并嘗試改進特定數據集下的最優核函數組合的篩選方法,以提高優化的效率。此外,還可以考慮探索其他融合方法的混合核函數,如深度融合多核核函數等,以進一步提高模型性能和泛化能力。

注:本文通訊作者為王重仁。

參考文獻

[1] EWEOYA I O, ADEBIYI A A, AZETA A A, et al. Fraud prediction in loan default using support vector machine [J]. Journal of physics: conference series, 2019, 1299: 1?4.

[2] ZHOU J, WANG W X, LU J, et al. Small unmanned helicopter modeling method based on a hybrid kernel function PSO?LSSVM [J]. Journal of supercomputing, 2023, 79(12): 13889?13906.

[3] 祁祥洲,邢紅杰.基于中心核對齊的多核單類支持向量機[J].計算機應用,2022,42(2):349?356.

[4] 戴小路,汪廷華,周慧穎.基于加權馬氏距離的模糊多核支持向量機[J].計算機科學,2022,49(z2):302?306.

[5] WANG H, CHEN M Q, NIU J Q. Hyperspectral image classification method by coupling particle swarm optimization and multiple kernel support vector machine [J]. Journal of applied remote sensing, 2022, 16(3): 034534.

[6] ZHAO S L, DING Y J, LIU X B, et al. HKAM?MKM: A hybrid kernel alignment maximization?based multiple kernel model for identifying DNA?binding proteins [J]. Computers in biology and medicine, 2022, 145: 105395.

[7] 吳程昊,莫路鋒.基于改進獅群算法的支持向量機參數優化方法[J].現代電子技術,2022,45(14):79?83.

[8] LAI J P, LIN Y L, LIN H C, et al. Tree?based machine learning models with optuna in predicting impedance values for circuit analysis [J]. Micromachines, 2023, 14(2): 265.

[9] VEROPOULOS K, CAMPBELL C, CRISTIANINI N. Controlling the sensitivity of support vector machines [C]// Proceedings of the International Joint Conference on Artifcial Intelligence. Montreal: IEEE, 1999: 55?60.

[10] LI Y, ZHU Z C, HOU A L, et al. Pulmonary nodule recognition based on multiple kernel learning support vector machine?PSO [J]. Computational and mathematical methods in medicine, 2018(21): 1461470.

[11] AKIBA T, SANO S, YANASE T, et al. Optuna: a next?generation hyperparameter optimization framework [C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining, Anchorage. AK, USA: IEEE, 2019: 2623?2631.

[12] HE Q, ZHANG Q S, WANG H Y. Kernel?target alignment based multiple kernel one?class support vector machine [C]// 2019 IEEE International Conference on Systems, Man and Cybernetics. Bari, Italy: IEEE, 2019: 2083?2088.

[13] WANG Z, HONG S S, YAO L J, et al. Multiple universum empirical kernel learning [J]. Engineering applications of artificial intelligence, 2020, 89: 103461.

[14] OIKONOMOU V P, NIKOLOPOULOS S, KOMPATSIARIS I. A Bayesian multiple kernel learning algorithm for SSVEP BCI detection [J]. IEEE journal of biomedical and health informatics, 2019, 23(5): 1990?2001.

[15] WANG T H, ZHANG L, HU W Y. Bridging deep and multiple kernel learning:a review [J]. Information fusion, 2021, 67: 3?13.

[16] 蔡桂全,陶建平.基于細菌覓食優化多核支持向量機的作物生長環境控制[J].濟南大學學報(自然科學版),2023(3):303?308.

[17] 趙婉婉,任靜,劉燕南,等.基于AdaBoost多核支持向量機的跌倒檢測研究[J].輕工學報,2019(3):84?91.

主站蜘蛛池模板: 国产欧美视频在线观看| 欧美亚洲一区二区三区在线| 综合色区亚洲熟妇在线| 18禁黄无遮挡免费动漫网站| 77777亚洲午夜久久多人| 久久午夜夜伦鲁鲁片不卡| 暴力调教一区二区三区| 国产屁屁影院| 美女毛片在线| 成人国产一区二区三区| 日韩欧美中文亚洲高清在线| a在线观看免费| 97视频在线精品国自产拍| 色综合综合网| 国内精品免费| 国产精品亚洲精品爽爽 | 国内精品九九久久久精品| 国产色偷丝袜婷婷无码麻豆制服| 亚洲精品成人7777在线观看| 欧美一级99在线观看国产| 少妇精品网站| www.国产福利| 国产在线一区视频| 免费一级成人毛片| 亚洲国产91人成在线| 五月婷婷综合在线视频| 免费AV在线播放观看18禁强制| 91成人在线免费观看| 米奇精品一区二区三区| 日本一本正道综合久久dvd| 国产精品无码AV片在线观看播放| 55夜色66夜色国产精品视频| 亚洲人成成无码网WWW| 热99精品视频| 国产毛片久久国产| 九九热这里只有国产精品| 欧美曰批视频免费播放免费| 手机看片1024久久精品你懂的| 国产成人1024精品下载| 国产一区二区精品福利| 国产网站在线看| 无码丝袜人妻| 亚洲综合久久一本伊一区| 亚洲爱婷婷色69堂| 亚洲最大在线观看| 成人在线综合| 一级一级一片免费| 亚洲AV无码乱码在线观看裸奔| 日韩精品无码不卡无码| 久久男人视频| 国产毛片不卡| 欧美亚洲一二三区| 成人亚洲国产| 极品国产一区二区三区| 日韩高清中文字幕| 国产丝袜第一页| 国产成人免费手机在线观看视频| 亚洲人精品亚洲人成在线| 毛片基地美国正在播放亚洲| 亚洲最大情网站在线观看| 精品视频一区二区观看| 在线毛片免费| 黄片在线永久| 婷婷在线网站| 波多野结衣久久精品| 乱系列中文字幕在线视频| 精品人妻系列无码专区久久| 99久久无色码中文字幕| 国产视频a| 亚洲人成网站日本片| 国产精品自在在线午夜区app| 午夜无码一区二区三区在线app| 免费黄色国产视频| 国产99免费视频| 99视频免费观看| 欧美亚洲中文精品三区| 欧美劲爆第一页| 国内精品久久久久鸭| 成人福利视频网| 亚洲伦理一区二区| 一级毛片免费不卡在线| 国产日韩欧美视频|