999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進XGBoost算法的UBI車險費率等級判定模型研究

2022-11-07 10:49:30荊建業孫曉紅劉新紅
計算機應用與軟件 2022年10期
關鍵詞:駕駛員分類模型

閆 春 荊建業 孫曉紅 劉新紅

1(山東科技大學數學與系統科學學院 山東 青島 266590) 2(山東科技大學審計處 山東 青島 266590) 3(北京石油化工學院數理系 北京 102617)

0 引 言

在經濟發展的推動下,我國汽車行業發展迅猛,已經連續十年成為第一大新車市場,也是最大的汽車生產國。我國在2020年將位居全球汽車保有量首位,在這樣的背景下,人們也更加重視汽車保險。我國傳統商業車險主要依據車輛特征(如車輛價格、維修成本等)和駕駛員的人口統計學特征(如年齡、性別、職業等)對客戶收取固定費用,這種保費定價方式被認為是不公平和低效的[1]。相關研究資料顯示,在車輛發生交通事故的影響因素中,最主要的是駕駛員的駕駛行為。駕駛員作為車輛的直接操控者,其行為習慣的好壞直接決定了車輛的行駛風險水平[2]。因而將駕駛行為作為車險費率評定依據之一將有助于實現車險的個性化、差異化[3]。隨著大數據的發展和應用、車聯網技術的成熟、5G時代的來臨,我們獲得車輛數據的手段更加豐富,通過對獲取的數據分析,我們能較好地掌握駕駛員的行車習慣,因而基于駕駛行為的車輛保險(User-Based Insurance,UBI)應運而生。

現階段國內外學者對于UBI車險的車險費率厘定研究已經有一定成果。文獻[4]總結了傳統商業車險費率厘定方式,提出運用熵權層次分析法對風險因子進行分析,完成對UBI車險費率的厘定,對UBI車險費率等級判定具有重大意義。文獻[5]在預測索賠強度和索賠頻率中應用了多元線性回歸模型和負二項回歸模型,實證結果顯示,在預測索賠強度和索賠頻率方面,行駛里程數是最為顯著的因素。文獻[6]中可以看到,在厘定車險費率方面,環境、車輛、駕駛人三個因素同時發揮著影響作用,論文將駕駛行為作為厘定因子來分析車險費率,并將之與傳統車險費率厘定方式進行對比分析,結果顯示,將駕駛行為作為厘定因子來分析車險費率是更為科學、合理的方式。文獻[7]對車聯網數據進行分析建立了預測索賠頻率的泊松廣義可加模型,認為基于速度-加速度核密度估計的第二主成分對索賠頻率具有十分顯著的非線性影響,將該主成分定義為駕駛行為因子。文獻[8]在開發“商用車車聯網”UBI車險大數據分析平臺的角度,以四急、駕駛里程等為依據,通過加入商車系數,制定出了合理的商用車UBI車險費率模型。文獻[9]對駕駛員的駕駛行為進行評分并以此計算保費,并對在駕駛員駕駛行為基礎上的動態保費機制進行分析,實現車險投保人保費的差異化。

另一方面,有學者依據駕駛員的駕駛行為數據對駕駛員的駕駛行為風險進行分類判定,風險的高低其對應的車險費率相應改變,從而實現車險保費的個性化、差異化。文獻[10]提出了一種基于車內傳感器數據評估駕駛員風險水平的駕駛員風險分類模型。文獻[11]選取超速行為、疲勞時間等指標,利用熵權層次分析法計算其指標的權重,將出租車司機的駕駛行為風險分為五個等級,并依據數據進行判定。車險費率會隨著風險等級的不同而有所不同,在風險等級確定之后,車險費率也就確定了。在判定車險費率等級時,我們可通過駕駛行為數據來進行直接判定。文獻[12]針對保險定價的可解釋性要求,離散連續變量,構造了具有顯著預測效果的費率等級。

隨著研究的開展,機器學習的廣泛應用,學者們開始將機器學習運用到UBI車險費率等級判定的研究中。文獻[13]分別利用邏輯回歸、決策樹和神經網絡預測事故發生的概率,還通過組合不同的變量,對駕駛者發生事故風險進行分類,發現神經網絡模型分類效果最好。文獻[14]分別采用決策樹、樸素貝葉斯、k-NN、神經網絡、SVM分類器建立駕駛行為分類模型,對UBI車險費率等級進行判定。XGBoost算法以運算速度快、分類性能好而廣受學者喜愛。文獻[15]利用機器學習算法的三種模型(即隨機森林模型、神經網絡模型和XGBoost模型)建立了駕駛行為保險的出險概率預測模型,通過比較這三種模型得知XGBoost模型對于出險概率的預測能力更強。

綜上,XGBoost模型具有較好的分類預測能力,但其準確度與其參數相關。而遺傳算法具有較好的搜索能力,本文利用遺傳算法全局搜索能力對XGBoost算法參數進行優化,將遺傳算法同XGBoost算法結合,構建基于GA-XGBoost算法的UBI車險費率等級判定模型,依據駕駛行為數據對車險費率等級進行判定。

1 算法原理與模型構建

通過分類器對數據處理構建模型實現UBI車險費率等級的判定。常見的分類器模型有SVM分類模型、CRAT分類模型等。本文主要是探討XGBoost分類模型同SVM分類模型、CRAT分類模型在UBI車險費率等級判定的準確率比較,并利用遺傳算法對XGBoost算法進行參數優化,得到GA-XGBoost模型。下面對相關算法原理進行介紹。

1.1 支持向量機算法原理

Vapnik最先提出了支持向量機,其可應用于非線性回歸和模式分類。從基本思想來看,支持向量機是通過尋找超平面來對給定訓練樣本進行分隔,最大可能得到正反例,在超平面的選擇方面,是采取正反例離超平面盡可能遠的原則進行最優化選擇。

對于非線性支持向量機,在其分類問題方面,將核函數K(xi·xj)引入到SVM模型,使變換空間的內積(xi·xj)向原空間中的某個函數K(xi·xj)=(φ(xi)·φ(xj))進行轉變,將樣本x映射到某個高維空間H,然后對原始問題進行線性劃分。利用核函數將內積進行替換后,原二次規劃問題依然為凸問題,有全局最優解。對偶優化問題的構造如下:

(1)

式中:C為設置的拉格朗日乘子的最大值。

此時相對應的最優決策函數為:

(2)

本文所選的多分類方式為一對多分類(OVR SVMs),是通過組合多個二分類器構造出一個多分類器。在OVR SVMs模型訓練過程中,將i(i=1,2,3,4,5)個類別樣本按順序歸類,剩下的樣本劃分為另一類,得到的二分類SVM有5個。使用5個訓練集分別進行訓練,然后代入測試集進行測試,每個測試都有一個結果的集合{f1(x),f2(x),f3(x),f4(x),f5(x)},將5個值中最大值對應的類別作為分類結果。

1.2 CART算法原理

CART算法在二十世紀末由Breiman等提出,其符合人類理解思維且便于計算,深受學者們的喜愛,被廣泛應用于各個領域研究。在CART算法中,將全部決策樹設定為二叉樹,對所有特征進行二分,通過建樹來持續劃分特征空間,再對其概率進行預測。其根節點的指標被定義為Gini指標。Gini指標用于度量樣本的雜質度,對于任一樣本集合M,Gini指標的定義如式(3)所示。

(3)

式中:N為集合M中類別的數量;pi是i類別出現在集合M中的概率。樣本的不確定性可以用Gini指標進行評價,當指標的值越大時,其樣本的不確定性越大,反之,不確定性越小。在CART算法建樹選擇屬性時,Gini值小的屬性會被選擇,當屬性種類多時,會對屬性進行兩兩組合,計算每個組合的Gini指標的值,然后選擇值最小的組合。

停止建樹的條件是數據集中沒有可用于分支的屬性或者是到達了用戶所設定的決策樹高度的閾值。

1.3 遺傳算法原理

在Holland教授創立的遺傳算法(Genetic Algorithm,GA)中,首先是進行問題編碼,得到“染色體”總群,再通過選擇、變異、交叉等操作來獲取最優種群,以此來獲得最優解。該算法原理便于理解、適用性強、操作簡便、無約束條件限制,同時具有強大的全局搜索能力和方便同其他算法組合的優點,在組合優化算法方面應用廣泛。遺傳算法流程如圖1所示。

1.4 XGBoost算法原理

XGBoost算法是陳天奇在2016年在梯度提升決策樹模型基礎上進行改進提出的一種集成機器學習算法,提高了預測精度,且在目標函數中加入了正則項,防止過擬合化。XGBoost算法既可用于分類也可用于回歸。

通過決策樹的集成可以得到XGBoost算法,則K棵樹的集合的輸出為:

(4)

式中:fk(xi)是第k棵決策樹的輸出。

由決策樹的模型可知,單棵決策樹的復雜度計算公式為:

(5)

類似地,集成樹的復雜度可表示為:

(6)

式中:T是葉節點的數目;γ是學習速率,其范圍為(0,1);λ是一個正規化參數;ω是葉子的質量。

此外,XGBoost算法的目標函數在第t步的迭代可以表示為:

(7)

(8)

(9)

1.5 GA-XGBoost模型構建

XGBoost模型的預測分類能力受到其參數的影響,而且該算法的參數較多,調節其參數的步驟繁多且不易,需要對該算法進行調參優化。據此,GA-XGBoost模型以多棵決策樹集成的XGBoost為基礎,利用遺傳算法的全局搜索能力對XGBoost模型參數眾多、容易陷入局部最優的缺陷進行優化,其利用遺傳算法進行優化時的適應度函數為預測值和真實值的均方誤差。

首先,從問題的復雜度出發,對初始種群數量、每代被保留的個體數、被優化參數數量、迭代次數進行設置,然后在設定好的參數范圍內隨機生成N組參數值,然后利用訓練集對這N組參數的XGBoost模型進行訓練并使用測試集進行預測,通過比較該N個XGBoost模型預測值與真實值的均方誤差,保留M組均方誤差小的模型的參數,然后利用遺傳算法對保留的參數進行交叉、變異操作,從而得到新的參數,循環該過程,直到滿足停止條件。

GA-XGBoost模型構建步驟:

第一步:數據預處理。將樣本數據進行歸一化處理,消除量綱影響。

第二步:將測試數據代入XGBoost模型預測。

第三步:對遺傳算法參數進行設定,其適用度函數選取預測準確度的均方誤差,針對XGBoost模型參數采取遺傳算法優化,以此來得到最優化參數組合。

第四步:將測試數據代入最優參數組合的XGBoost模型進行分類預測,得到分類預測結果,與客戶實際等級進行對比,觀察分類的效果。

具體模型構建流程如圖2所示。

2 指標選取與數據處理

2.1 指標選取

朱爽利用熵權層次分析法分析得到了如月行駛里程、高于120 km/h時間比、夜間行車時間等影響UBI車險費率的指標以及指標的權重。為簡化實驗,本文進行UBI車險費率等級判定的指標是選取朱爽一文中權重較高的指標,并將指標權重進行歸一化處理。本文選取的指標及處理后的權重如表1所示。表1中數據來源于文獻[4]。

表1 本文選取的指標及歸一化的權重

2.2 數據預處理

對UBI車險費率等級判定需先對駕駛員進行駕駛行為危險等級評定,危險等級的不同,其對應的車險費率等級不同。利用機器算法對UBI車險費率等級進行判定的根本在于對不同駕駛行為危險等級的駕駛員進行分類。機器算法在分類問題處理上有著傳統算法不能比擬的優勢,其通過對訓練集的數據進行訓練得到判定模型,樣本數量越多得到的判定模型越準確。駕駛員一年內的出險次數直接反映了其駕駛行為的危險等級,駕駛行為好的駕駛員其出險次數較駕駛行為習慣差的駕駛員少。

本文采用朱爽發表的《車聯網環境下基于UBI的車險費率厘定模式與方法研究》一文中的數據進行實例分析,采集了其中的駕駛員月行駛里程、夜間行車時間比、高于120 km/h時間比、急加速次數、時速80~120 km/h行車時間占比、違章次數6個指標數據和出險次數。本文根據數據中出險次數為0次、1次、2次、3次與4次將駕駛風險等級分為A、B、C、D與E。部分駕駛員駕駛行為數據示例如表2所示。

表2 部分駕駛員駕駛行為數據示例

續表2

各指標數據存在的量綱差異會影響到實驗結果,為了消除這一影響,本次研究中采取歸一化處理原始數據,如式(10)所示。

(10)

3 實證分析

本文將處理好的100組數據隨機劃分成訓練集和測試集,其中,70條為訓練集,30條為測試集。由于訓練集與測試集的劃分具有隨機性,為了更好地評價模型判定的準確度,本文使用10折交叉檢驗法對模型的準確度進行驗證。即采取隨機方式10次劃分數據,得到不同的測試集和訓練集共計10組,在模型中分別導入,進行后續實驗,取模型的平均準確度。10折交叉檢驗法能減小隨機劃分數據集對模型判定結果的影響,能夠使我們更加準確地知道模型判定的準確度,能更好地判斷模型的優劣。

本文通過對比SVM模型、CART模型、XGBoostt模型與GA-XGBoost模型預測的準確率來評估GA-XGBoost模型的優良性。模型預測的準確率能直觀地反映出模型進行預測的準確度,進而反映出模型的好壞。整個過程采用Python語言實現。

3.1 運用GA-XGBoost模型對UBI費率等級判定

通過遺傳算法對XGBoost模型進行參數調優,利用遺傳算法的全局搜索能力來彌補XGBoost算法的參數眾多、易陷入局部最優的缺陷從而得到GA-XGBoost模型。運用一組測試集與訓練集數據進行GA-XGBoost模型調參實驗得到模型的最優參數。模型參數的默認值和最優值如表3所示。

表3 模型參數的默認值和最優值

3.2 模型評估

運用10折驗證法對SVM模型、CART模型、XGBoost模型、GA-XGBoost模型進行評估。運用上述四種模型將劃分好的10組數集進行實驗,得到預測的準確率如表4所示。其中:SVM算法選用高斯核函數,其參數由隨機搜索確定;XGBoostt模型參數運用的默認參數;GA-XGBoost模型參數運用的最優參數。

表4 用戶駕駛行為等級判定準確率(%)

通過對比四個模型預測準確度,我們可以直觀地看到XGBoost模型比SVM模型和CART模型預測準確度更高一些,利用遺傳算法進行參數尋優的GA-XGBoost模型預測準確度相比于利用默認參數的XGBoost模型預測效果更好。GA-XGBoost模型更適合應用于UBI車險費率判定工作中。

4 結 語

本文提出利用遺傳算法的全局搜索能力對XGBoost算法進行參數優化的GA-XGBoost算法,建立了UBI車險費率等級判定模型,避免由于XGBoost算法參數不易確定影響模型判定的準確度,提高了算法的求解精度同時避免了過擬合情況的出現。實驗結果表明遺傳算法提高了XGBoost模型預測準確率,GA-XGBoost模型比SVM、CART模型有著更好的判定效果。本文目前可采集到的實驗的數據集較小,若能增加進行實驗的數據集,模型的預測精度會進一步提高。

猜你喜歡
駕駛員分類模型
一半模型
基于高速公路的駕駛員換道意圖識別
駕駛員安全帶識別方法綜述
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲中文字幕23页在线| 亚洲色精品国产一区二区三区| 真实国产乱子伦视频| 呦女亚洲一区精品| 亚洲美女操| 在线免费a视频| 多人乱p欧美在线观看| 在线亚洲天堂| 992Tv视频国产精品| 67194亚洲无码| 免费jizz在线播放| 亚洲Av激情网五月天| 久久6免费视频| 无码中文字幕精品推荐| 青青青草国产| 在线亚洲小视频| 国产午夜一级淫片| 欧美一级高清视频在线播放| 精品午夜国产福利观看| 一级毛片免费的| 黄色网址免费在线| 国产99久久亚洲综合精品西瓜tv| 亚洲va在线∨a天堂va欧美va| 国产成人免费| 无码啪啪精品天堂浪潮av | 国产精品福利在线观看无码卡| 无码aⅴ精品一区二区三区| 国产特级毛片| 久久女人网| 国产成人91精品免费网址在线| 超薄丝袜足j国产在线视频| 国产精品一区在线观看你懂的| 免费va国产在线观看| 久久久亚洲国产美女国产盗摄| 亚洲国产精品一区二区第一页免 | 日本高清视频在线www色| h视频在线播放| 国产亚洲欧美日韩在线一区| a级毛片视频免费观看| 91日本在线观看亚洲精品| 免费一级无码在线网站| 岛国精品一区免费视频在线观看| 亚洲天堂免费在线视频| 欧美国产精品不卡在线观看| 精品人妻系列无码专区久久| 99热这里只有精品免费| 五月婷婷亚洲综合| 香蕉国产精品视频| 四虎成人在线视频| 99re热精品视频国产免费| 广东一级毛片| 亚洲中文字幕av无码区| 久久这里只有精品23| 国内精品自在自线视频香蕉| 国产一区二区三区在线观看免费| 日本一区中文字幕最新在线| 免费大黄网站在线观看| 欧美一区二区啪啪| 婷五月综合| 国产精品一区在线观看你懂的| 亚洲中文久久精品无玛| 亚洲国产欧美自拍| 极品国产一区二区三区| 99在线免费播放| 日本国产精品一区久久久| 亚洲欧美不卡| 久久精品人人做人人爽| 亚洲男人天堂2020| 国产a v无码专区亚洲av| 91网在线| 国产经典三级在线| 欧美天堂久久| 国产亚洲精久久久久久无码AV | 亚洲高清国产拍精品26u| 婷婷亚洲最大| 手机在线免费不卡一区二| 99热精品久久| 免费中文字幕在在线不卡| 国产99久久亚洲综合精品西瓜tv| 国内嫩模私拍精品视频| 欧美69视频在线| 国产拍揄自揄精品视频网站|