999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost-LightGBM的保險理賠預測研究

2023-05-14 21:49:59丁海博張睿崔麗玲
計算機時代 2023年5期

丁海博 張睿 崔麗玲

摘? 要: 為提高保險公司對保險理賠的預測精度,提出一種基于多模型融合的XGBoost-LightGBM預測方法。構建XGBoost模型與LightGBM模型,使用Optuna框架對模型參數進行優化,結合MAPE-RW(Mean Absolute Error-reciprocalweight)算法確定融合權重,將兩個模型的預測結果加權結合作為最終組合模型的預測結果。以Allstate公司的數據為例,對該組合模型進行驗證,結果表明:與隨機森林、Lasso回歸、SVM及單個XGBoost模型、LightGBM模型相比較,XGBoost-LightGBM組合模型有最低的平均絕對誤差(MAE)值,預測精度最高。

關鍵詞: XGBoost; LightGBM; 多模型融合; 保險理賠預測

中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2023)05-61-04

Research on insurance claims prediction based on XGBoost-LightGBM

Ding Haibo, Zhang Rui, Cui Liling

(Hunan University of? Technology, Zhuzhou, Hunan 412007, China)

Abstract: In order to improve the prediction accuracy of insurance claims by insurance companies, an XGBoost-LightGBM prediction method based on multi-model fusion is proposed. The XGBoost model and LightGBM model are constructed, the model parameters are optimized using the Optuna framework, the fusion weights are determined by combining the mean absolute percentage error-reciprocal weight (MAPE-RW) algorithm, and the prediction results of the two models are weighted and combined as the final combined model prediction results. Taking the data of Allstate company as an example to verify the combined model, the results show that compared with the random forest, Lasso, SVM, single XGBoost model and LightGBM model, the XGBoost-LightGBM combined model has the lowest mean absolute error (MAE) value and the highest prediction accuracy.

Key words: XGBoost; LightGBM; multi-model fusion; insurance claim forecast

0 引言

保險理賠預測是指運用理賠的歷史經驗,對投保人提出的理賠要求進行分析和預測,判斷其存在保險欺詐的可能性,預測的精度至關重要[1]。

保險理賠預測問題是典型的回歸問題。目前,機器學習算法被廣泛用于解決各種回歸問題上,如支持向量機(SVM)[2]、隨機森林[3]、神經網絡[4]等。使用單一模型繼續提高預測精度已變得十分困難,因為單一模型在處理某個問題時容易遇到模型泛化瓶頸。模型融合通過科學的方法對多個模型進行融合,綜合各個模型的優點從而提高模型的泛化能力。多模型融合方法被廣泛應用于各種精度預測問題上。文獻[5]使用自適應權重的組合模型對發電量進行預測;文獻[6]提出一種基于多特征融合和XGBoost-LightGBM-ConvLSTM的組合模型對短期光伏發電量進行預測;文獻[7]構建基于Stacking的集成學習模型,融合多種機器學習算法對數據資源價格進行預測。上述研究都使用了較為復雜的模型進行融合,取得了比較簡單、單一模型更高的預測精度。目前被廣泛使用的集成學習、深度學習等模型的參數較多并且復雜性較大,使用傳統的網格搜索調整參數計算量大,而隨機搜索不能保證給出最好的參數組合,模型的參數優化十分依賴個人經驗。

為進一步提高保險理賠預測的精度,本文提出一種XGBoost-LightGBM組合模型,構建單個XGBoost模型和LightGBM模型,針對網格搜索和隨機搜索在參數尋優時遇到的問題,使用Optuna[8]框架對模型進行參數優化,結果表明參數優化后的模型在預測精度上有較大的提升。分別使用優化后的XGBoost模型和LightGBM模型對測試樣本進行預測,根據模型在驗證集上的表現,通過平均絕對百分誤差倒數權重(MAPE-RW)[9]確定模型融合權重并得到最終的XGBoost-LightGBM組合模型。本文使用美國Allstate公司的數據對組合模型的預測精度進行驗證,結果表明,相較于隨機森林、Lasso回歸、SVM以及單個XGBoost、LightGBM模型,XGBoost-LightGBM組合模型有更高的預測精度。

1 相關理論

1.1 XGBoost模型

集成學習通過組合多個學習器來完成學習任務,XGBoost(extreme Gradient Boosting)是一種基于Boosting樹模型的集成學習算法,由陳天奇等人于2016年提出[10]。XGBoost高效地實現了GBDT算法并進行了算法和工程上的許多改進,被工業界廣泛應用[11,12]。

XGBoost是由[k]個基模型組成的一個加法模型:

[yi=k=1Kfkxi]? ⑴

其中,[k]表示樹的個數。[yi]為對第[i]個樣本的預測值,[fk]為第[k]個樹對樣本[xi]的預測值。如圖1所示。

構建目標函數:

[obj=i=1nlyi,yi+k=1KΩfk]? ⑵

其中,[Ω(f)=γT+12λω2]為XGBoost中的正則項,[T]為葉節點個數,[ω]為每個葉子節點所對應的分數。傳統的GBDT為了控制樹的復雜度只會對樹的葉子個數加正則項來控制,這是XGBoost相較于GBDT在算法層面的一個改進。

假設[y(0)i=0],則

[y1i=f1xi+y0i=f1xi+0]? ⑶

[y2i=f2xi+y1i=f2xi+f1xi]? ⑷

[yki=f1xi+f2xi+…+fkxi=yk-1i+fkxi]? ⑸

即[y(k)i=y(k-1)i+fk(xi)],假設共有[k]棵樹,則對樣本[xi]的預測結果[yi=y(k)i],目標函數可改寫為:

[obj=i=1nlyi,yk-1i+fkxi+j=1K-1Ωfj+ΩfK]? ⑹

XGBoost相較于GBDT在算法層面的另一個改進就是引入二階泰勒展開,將目標函數簡化為如下的形式:

[minimize:i=1ngi?fkxi+12hi?f2kxi+ΩfK]? ⑺

其中,[gi=?y(k-1)il(yi,yk-1i)],[hi=?2yk-1il(yi,y(k-1)i)]分別為損失函數關于[yk-1i]的一階導和二階導,因此在訓練第[k]棵樹時,[hi,gi]是已知的。

將遍歷對象從樣本改為葉子結點,樣本[xi]落在葉結點[q(xi)]上,[Wq(xi)]為該葉節點的值,[Ij]為該葉節點的樣本的集合。目標函數可化為:

[i=1ngi?Wqxi+12hi?W2qxi+γT+12λt=1Twt2]

[=j=1Ti∈Ijgi?wj+12i∈Ijhi+λ?wj2+λT] ⑻

[Hj=i∈Ijhi]? ⑼

當樹的結構固定時,可求得葉節點最佳的權重[w*j]以及最佳目標函數分別為:

[w*j=-GtHt+λ]? ⑽

[obj=-12j=1TG2jHj+λ+γT]? ⑾

確定目標函數后,對于每個特征,訓練樣本按特征值進行排序并選擇分裂點,分列前的目標函數記作:

[obj1=-12GL+GR2HL+HR+λ+γ]? ⑿

分裂后的目標函數為:

[obj2=-12G2LHL+λ+G2RHR+λ+2γ]? ⒀

計算分裂的收益為:

[Gain=12G2LHL+λ+G2RHR+λ-GL+GR2HL+HR+λ-γ] ⒁

選擇收益最大的分裂特征和分裂點。

1.2 LightGBM

輕量級梯度提升機LightGBM是一個實現GBDT算法的框架,由微軟提出[13]。LightGBM被用于排序、分類、回歸等多種機器學習的任務,支持高效率的并行訓練[14]。LightGBM主要有一下改進:

⑴ 使用單邊梯度采樣算法,在計算信息增益時,只使用具有高梯度的數據,減少了時間開銷。

⑵ 使用互斥特征捆綁可以將許多互斥的特征綁定為一個特征,這樣達到了降維的目的。

⑶ LightGBM算法在尋找最佳分裂點的時候,使用直方圖算法,使得時間復雜度從O((特征值個數-1)*特征數)降到O((每個特征分箱個數-1)*特征數)。

⑷ 帶深度限制的Leaf-wise的葉子生長策略,只對信息增益最大的點進行分裂,避免過擬合。

2 XGBoost-LightGBM組合模型

基于多模型融合的XGBoost-LightGBM組合模型構建流程如圖2所示。

Optuna是一個自動超參數調整框架,可以與Pytorch、TensorFlow、Sklearn等其他框架一起使用。Optuna可使用網格搜索、隨機搜索、貝葉斯搜索等采樣器自動調整超參數。

使用Optuna框架對XGBoost和LightGBM模型進行參數優化后分別輸出在驗證集上的MAE值。為了提高組合后預測的精度,我們希望預測精度更高的模型所占權重越高,所以,結合MAE-RW算法對組合模型的權重進行計算。模型[i]在驗證集上的測試結果為[MAEi],則權重[Wi]和最終的預測值[f]為:

[Wi=MAEjMAEi+MAEj]? ⒂

[f=WXGBoost?fXGBoost+WLightGBM?fLightGBM]? ⒃

其中[fXGBoost]、[fLightGBM]分別為XGBoost和LightGBM的預測值。

3 數據預處理

3.1 數據描述

本文數據來自美國保險巨頭Allstate公司,該數據集包含188318個樣本,每個樣本包含116個類別屬性(cat1~cat116)和14個連續屬性(cont1~cont14),loss為保險賠償的真實值。

3.2 數據預處理

該數據集沒有缺失數據,因此無需填充缺失值。將離散特征cat1~cat116轉化為category特征,并重新編碼。數據轉換前后對比如圖3所示。

偏度是統計數據分布偏斜方向和程度的度量,可以反應分布的不對稱性。

[SkewX=EX-μσ3=k3σ3=k3k322]? ⒄

公式⒄中,[k2],[k3]分別表示二階和三階中心矩。計算loss的偏度值為3.794,偏度值大于1,說明數據是傾斜的。為了更有利于后續建模,對loss值進行對數化后偏度值變為0.092,轉換前后的數據如圖3所示,使用轉換后的loss值進行訓練。

3.3 數據劃分

按9:1的方式將數據集劃分為訓練集和測試集,訓練集與測試集樣本數如表1所示。

4 實驗結果及分析

4.1 實驗環境

本次實驗在Windows11系統上進行,CPU為Inteli7-10700 @ 2.90GHz,16G內存,Python版本為3.7.13,開發環境為VS Code+ Anaconda3,使用了Numpy、Pandas、XGBoost、LightGBM等第三方庫。

4.2 評價指標

本文使用平均絕對誤差MAE作為模型的評價指標。

[MAE=1Ni=1Nyi-yi]? ⒅

其中,[N]為預測樣本數,[yi]和[yi]分別為模型對第[i]個樣本的預測值和該樣本的真實值。

4.3 模型構建與結果分析

使用Optuna框架分別對XGBoost和LightGBM進行參數尋優。使用測試集分別對優化前后的XGBoost模型和LightGBM模型進行測試,結果如表2所示。

從表2可以看出,使用Optuna框架優化后XGBoost和LightGBM相較于優化前平均絕對誤差分別下降了6.297%、2.134%。優化后XGBoost和LightGBM的參數分別如表3、表4所示。

使用測試集對組合模型進行測試,將優化后的XGBoost模型和LightGBM模型并聯起來通過MAE-RW算法得出最終的預測結果。同時,為了驗證XGBoost-LightGBM組合模型相較于其他模型的泛化性能,本次實驗給出了隨機森林(RF)、Lasso回歸、支持向量機(SVM)在測試集上的MAE值,實驗結果如表5所示。

由表5可以看出,XGBoost-LightGBM組合模型相較于XGBoost模型和LightGBM模型預測誤差均有下降,說明融合策略提高了預測精度。與RF、Lasso回歸、SVM相比,XGBoost-LightGBM組合模型的MAE值分別降低了7.050%、11.426%、9.034%,實現了更高精度的預測。

5 結論

為提高保險理賠預測精度,本文提出一種基于多模型融合的XGBoost-LightGBM預測方法。使用并行的XGBoost、LightGBM模型,分別對測試樣本進行預測并對結果進行融合,通過平均MAPE-RW算法確定模型融合權重。針對XGBoost、LightGBM模型參數較多,調參復雜的問題,本文使用Optuna框架分別對XGBoost、LightGBM模型進行參數尋優,提高了單一模型的預測精度。

實驗結果表明,與RF、Lasso回歸、SVM以及單一XGBoost、LightGBM模型相比,該組合模型在測試集上表現出了更高的預測精度。

參考文獻(References):

[1] 張健,馮建華.數據預處理在保險理賠預測中的應用[J].計算機工程與設計,2005(9):2537-2539,2564

[2] 陳榮.基于支持向量回歸的旅游短期客流量預測模型研究[D].博士,合肥工業大學,2014

[3] 夏曉圣,陳菁菁,王佳佳,等.基于隨機森林模型的中國PM_(2.5)濃度影響因素分析[J].環境科學,2020,41(5):2057-2065

[4] 焦李成,楊淑媛,劉芳,等.神經網絡七十年:回顧與展望[J].計算機學報,2016,39(8):1697-1716

[5] 賈睿,楊國華,鄭豪豐,等.基于自適應權重的CNN-LSTM&GRU組合風電功率預測方法[J].中國電力,2022,55(5):47-56,110

[6] 王俊杰,畢利,張凱,等.基于多特征融合和XGBoost-LightGBM-ConvLSTM的短期光伏發電量預測[J].太陽能學報,2021:1-7

[7] 沈俊鑫,趙雪杉.基于Stacking多算法融合模型的數據資源定價方法研究[J].情報理論與實踐,2022:1-12

[8] Akiba T, Sano S, Yanase T, et al. Optuna: A next-generation hyperparameter optimization framework[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining,2019:2623-2631

[9] 莊家懿,楊國華,鄭豪豐,等.基于多模型融合的CNN-LSTM-XGBoost短期電力負荷預測方法[J].中國電力,2021,54(5):46-55

[10] Chen T, Guestrin C. Xgboost: A scalable tree boostingsystem[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining,2016:785-794

[11] Ogunleye A, Wang Q G. XGBoost model for chronickidney disease diagnosis[J]. IEEE/ACM transactions on computational biology and bioinformatics,2019,17(6):2131-2140

[12] Dhaliwal S S, Nahid A A, Abbas R. Effective intrusiondetection system using XGBoost[J]. Information,2018,9(7):149

[13] Ke G, Meng Q, Finley T, et al. Lightgbm: A highlyefficient gradient boosting decision tree[J]. Advances in neural information processing systems,2017,30

[14] 馬曉君,沙靖嵐,牛雪琪. 基于LightGBM算法的P2P項目信用評級模型的設計及應用[J]. 數量經濟技術經濟研究,2018,35(5):144-160

主站蜘蛛池模板: 天天综合天天综合| 日本精品视频| 国产精品免费久久久久影院无码| 亚洲人成网站观看在线观看| 99在线视频免费| 在线免费亚洲无码视频| 日韩在线视频网站| 99国产精品国产高清一区二区| 人妻夜夜爽天天爽| av免费在线观看美女叉开腿| 中文字幕精品一区二区三区视频| 午夜电影在线观看国产1区| 99视频在线观看免费| 在线毛片网站| 久久精品国产免费观看频道 | 9丨情侣偷在线精品国产| 欧美.成人.综合在线| 亚洲av无码成人专区| 亚洲AV一二三区无码AV蜜桃| 精品人妻无码中字系列| 一本大道视频精品人妻| 天堂成人av| 毛片视频网址| 久久精品免费国产大片| 亚洲高清在线天堂精品| 美女一区二区在线观看| 高清久久精品亚洲日韩Av| 强奷白丝美女在线观看| 麻豆精品久久久久久久99蜜桃| 农村乱人伦一区二区| 国产亚洲精品91| 国产成本人片免费a∨短片| 青青草一区二区免费精品| 国产精品网拍在线| 亚洲AV无码久久精品色欲| jizz在线免费播放| 欧美一级在线看| 伊人福利视频| 国产专区综合另类日韩一区 | 久久伊人色| 性欧美久久| 免费jjzz在在线播放国产| 亚洲第一天堂无码专区| www中文字幕在线观看| 91在线精品免费免费播放| 亚洲Av综合日韩精品久久久| 欧美成一级| 亚洲精品成人片在线观看 | 色窝窝免费一区二区三区 | 精品日韩亚洲欧美高清a| 久久婷婷五月综合97色| 中国特黄美女一级视频| 好久久免费视频高清| 色偷偷男人的天堂亚洲av| 国产二级毛片| 国产午夜福利在线小视频| 国产成人综合日韩精品无码首页| 亚洲精品动漫| 天天综合网亚洲网站| 国产亚洲现在一区二区中文| 2021精品国产自在现线看| 亚洲a免费| 欧美日韩国产精品综合| 亚洲欧美综合另类图片小说区| 99久久无色码中文字幕| 91毛片网| 亚洲成人手机在线| 久久先锋资源| 亚洲无线一二三四区男男| 国产美女在线观看| 亚洲中文精品人人永久免费| 日本一本在线视频| 国产又色又爽又黄| 91网站国产| 久久精品国产999大香线焦| 91青青草视频| 久久九九热视频| 婷婷开心中文字幕| 国产91小视频| 国产第一色| 91在线精品麻豆欧美在线| 91色在线视频|