摘 要:在過去的十年中,新能源汽車的普及率呈現出顯著的增長趨勢,表現為市場份額的增加和多樣化的技術進步。新能源汽車,如電動汽車、混合動力汽車和氫燃料電池汽車,已經逐漸成為現代交通的重要組成部分。但與此同時,其獨特的技術特性、使用模式和維護需求也為保險行業帶來了新的挑戰。新能源車在動力系統、車身構造等方面與傳統燃油車存在很大區別,導致新能源汽車在出險率、案均賠款等方面遠遠高于燃油車。保險公司傳統上主要依賴歷史事故數據、車輛類型和駕駛員記錄來評估風險和確定保費,傳統車險定價模式將難以精準識別新能源車的風險。
關鍵詞:新能源汽車 車聯網 車險
0 引言
隨著車聯網技術的逐步發展和普及,我們現在可以獲取到車輛的實時數據,這為新能源汽車的風險評估提供了新的視角和工具。尤其是引入的32960國標(GB/T 32960),這一標準為電動汽車的數據遠程傳輸提供了明確的指導,使得數據的收集和分析變得更為標準化和系統化。這為保險公司在風險評估、定價策略和保險產品創新方面提供了新的機會。
本文旨在探討如何利用車聯網數據對新能源汽車的保險風險進行評估,以期為保險公司新能源汽車提供更加精確、客觀和高效的風險評估方法。
1 數據來源和處理
1.1 車聯網數據來源
新能源汽車配備了大量的傳感器,用于監測車輛的各種狀態。32960國標是關于電動汽車數據遠程傳輸的中國國家標準。此標準為電動汽車和相關的數據平臺提供了一個統一的數據交換格式[1]。該標準主要涵蓋了電動汽車在行駛和充電過程中產生的各種數據,包括但不限于電池狀態、充電信息、車輛狀態、故障信息等。主要數據字段如下表1所示。
1.2 數據預處理
1.2.1 數據清洗
基于32960國標的數據,首先需要對原始數據進行清洗,確保數據的完整性和準確性。包括檢查數據包的完整性、數據的時間戳是否連續等。
1.2.2 缺失值處理
由于多種原因,如通信中斷、傳感器故障等,數據中可能存在缺失值。對于這些缺失值,選擇刪除、填充或使用統計方法進行估計。
1.2.3 異常值檢測
基于國標的數據特點,定義某些閾值或規則來檢測異常值。使用滑動窗口的方法,如果某個時間點的電池電壓或電流與前后幾個時間點的平均值相差超過設定的閾值(如10%),則標記為異常值。
2 保險風險因子篩選
在獲得經過預處理的數據后,我們進入到模型建立和驗證階段。在這一部分,將詳細探討如何利用這些數據構建、訓練和驗證風險評估模型。
2.1 特征工程
在現代保險風險評估中,特征的選擇顯得尤為關鍵。這是因為選擇的特征將直接決定模型的預測能力和準確性[2]。對于傳統汽車,許多常規特征,如駕駛員的年齡、駕駛經驗和歷史事故記錄,已經被廣泛研究和應用。但對于新能源汽車,尤其是在車聯網技術的支持下,我們有機會獲取更為豐富和細致的數據,從而提取更多與保險風險相關的特征。基于車聯網數據,本文對原始數據進行分析研究,探討了以下關鍵特征及其與風險的關系:
2.1.1 行駛里程
行駛里程是其中的一個基本但非常有價值的特征。汽車在一定時間內的行駛距離能夠反映其使用頻率。長時間、高頻率的駕駛可能會導致駕駛員疲勞,增加事故的風險。此外,長時間的駕駛還可能加速車輛部件的磨損,從而影響車輛的性能和安全性。
2.1.2 出行次數
出行次數則為我們提供了汽車的使用模式。頻繁的短途出行可能意味著汽車主要在城市內行駛,這樣的環境中,交通狀況復雜,事故的可能性相對較高。另一方面,少量的長途出行可能意味著更多的高速公路駕駛,這種情況下,雖然事故的發生率可能較低,但一旦發生,可能會更為嚴重。
2.1.3 充電次數
充電次數與新能源汽車的特性密切相關。頻繁的充電可能意味著電池容量下降,需要更頻繁地充電。這可能與電池的健康狀況、使用年限或者駕駛習慣有關。電池狀態對于電動汽車的安全性至關重要,因為電池問題可能導致動力中斷或更為嚴重的安全隱患。
2.1.4 車輛故障記錄
車輛故障記錄是反映汽車健康狀況的另一個重要特征。頻繁的故障可能表明車輛的維護不當,或者某些關鍵部件存在問題。這不僅可能增加事故的風險,還可能影響到事故后的維修成本和復雜性。
這些特征為我們提供了一個關于新能源汽車使用和狀態的多角度、全面的視圖。有了這些數據,保險公司可以更為精確地評估每輛汽車的風險,并據此定制保險產品和定價策略。在后續的研究中,我們將結合這些特征,構建和驗證預測模型,希望能為新能源汽車的保險風險評估提供更為科學和合理的方法。
2.2 風險特征因子篩選
在新能源汽車的保險風險評估中,特征工程是決定模型性能的關鍵步驟。盡管我們從車聯網數據中提取了大量的特征,但并不是所有的特征都與風險評估直接相關。冗余或無關的特征可能會導致模型過擬合,降低模型的泛化能力。因此,對這些特征進行篩選,只保留有影響力的風險因子,對于提高模型的預測準確性至關重要。
為了進行有效的風險因子篩選,我們選用XGBoost進行特征篩選。XGBoost不僅是一個強大的分類和回歸模型,而且它內置了特征重要性評估的功能,這使得它成為特征篩選的理想工具。
第一步:保險數據與車聯網數據關聯匹配。首先,收集車輛理賠數據,這些數據為我們提供了關于車輛事故和其他相關事件的信息。其次,使用車輛的唯一標識符VIN碼,將理賠數據與車聯網數據進行匹配。這樣,我們可以為每輛汽車獲取完整的歷史記錄,包括其過去一年的運行數據與理賠結果數據。
第二步:XGBoost因子篩選。一旦完成了數據匹配,我們可以利用XGBoost進行因子篩選。首先,我們使用完整的特征集對XGBoost模型進行訓練。其次,使用XGBoost內置的工具,用于評估每個特征的重要性。最后,基于特征的重要性得分,本文選擇了得分前10的特征,主要特征示例如表2所示。
以下是每個特征的需求描述:
(1)日均行駛里程,以總里程除以實際出車天數計算得到日均行駛里程指標;(2)夜間形式里程占比,以0:00-6:00點內行駛的時間與總行駛時間的比值作為夜間行駛占比;(3)額定最高時速,車輛在額定速度下的最高速度;(4)千公里疲勞駕駛次數,以單次行駛超過10個小時的趟次數;(5)總充電次數,采集點車輛累計充電次數。
3 保險風險評估方法
隨著風險特征因子的篩選完畢,接下來的核心工作就是如何利用這些篩選出的特征對新能源汽車的保險風險進行評估。這一步需要構建適當的評估模型,對數據進行訓練、驗證并對模型的性能進行評估。本文分別選取基于廣義線性模型、機器學習模型開展保險風險評估。
3.1 風險評估模型
3.1.1 廣義線性模型 (GLM)
廣義線性模型(GLM)是一種廣泛用于保險定價和風險評估的方法,主要是用來分析解釋變量與被解釋變量相關關系的一種模型,對于最小偏差法能夠適用于響應變量的分布類型更加復雜的情況,其假設響應變量服從指數族分布(Exponential Family of Distributions),能夠應用于車險索賠中的多種費率厘定場景,因此該模型在車險費率厘定領域被廣泛應用[3]。在這一部分,我們專注于使用GLM對新能源汽車的純風險保費進行建模。
目標變量:車輛純風險保費。這是一個連續的響應變量,表示保險公司為車輛所承擔的風險所需的預期支付。
特征變量:基于車聯網數據,我們已經篩選出了與保險風險相關的特征,如日均行駛里程、夜間行駛里程占比、額定最高時速、千公里疲勞駕駛次數和總充電次數等。
模型構建:廣義線性模型由三個部分組成:隨機成分、系統成分和連接函數[4]。
1:隨機成分
則稱響應變量 y 服從指數族分布,其中, θ 為自然參數,? 為尺度參數; b(?) 與 c (?) 為不同指數族分布對應的已知函數。
2:系統成分
系統成分與自變量存在線性相關關系,這表明模型的系統成分可以表示為自變量的線性組合。其中為模型待估計的參數,為每個自變量的影響系數。
3:連接函數
連接函數是用來建立系統成分與隨機成分之間關系的函數,其中 g (.) 必須是光滑且單調的函數,即需要存在足夠階數的導數,而 μ 表示響應變量 y 的均值,即.
廣義線性模型在車險保費厘定領域應用很廣泛,例如:可以通過邏輯回歸模型分析出險的概率,通過泊松回歸預測出險的頻次,通過伽馬回歸分析每次出險的索賠強度,還可以通過 Tweedie 類分布分析用戶出險的純保費[5]。本章就使用廣義線性模型對車輛出險的概率和純保費進行了分析。
3.1.2 XGBoost
XGBoost是一種機器學習模型,適用于分類和回歸問題。它的主要優勢是可以處理非線性關系和高維數據[6]。
模型構建:與GLM類似,我們也使用篩選出的特征和響應變量來構建XGBoost模型。在車險風險預測過程中,這些決策樹之間是相互依賴而不是獨立的對篩選出的特征進行預測,后一棵決策樹是在前一輪預測結果的基礎上,對其誤差進行學習,從而提高損失預測模型的精確度。
XGBoost模型的具體建模步驟如下 :
通過決策樹的集成可以得到XGBoost算法,則K棵樹的集合的輸出為:
式中:是第K棵決策樹的輸出。類似的,集成樹的復雜度可表示為:
其中:一個正規化參數; 是葉子的質量,是學習速度。
(2)設定目標函數。XGBoost算法的目標函數在第t步的迭代可以表示為:
其中, 為誤差函數; 、分別為真實值、預測值,以此來對預測值和真實值的誤差進行計算。已知:
式中:為第t步迭代的預測值;為第t-1步的預測值;為第t輪需要學習的決策樹。因此,公式中目標函數可轉化為:
模型訓練與驗證:利用部分數據進行模型訓練,然后使用其余數據進行驗證。
3.2 模型評估
模型的預測性能是評估其有效性的關鍵。在選定重要的特征因子并構建風險評估模型后,針對新能源汽車的保險風險評估建立2種模型。
損失函數:例如均方誤差 (MSE) 或對數損失,用于衡量模型的預測誤差。均方誤差是衡量“平均誤差”的一種較方便的方法,均方誤差可以評價數據的變化程度,均方誤差的值越小,說明預測模型描述實驗數據具有更好的精確度[7]。
對數損失更好地評估模型的分類性能,并用于模型參數的優化。 對數損失函數(Log Loss)在機器學習中是一種常用的損失函數,特別適用于二分類問題。用于衡量分類問題中模型預測概率分布與實際標簽之間的差異[8]。
交叉驗證:為了防止過擬合,使用交叉驗證技術在不同的數據子集上評估模型的性能。并且可以從有限的數據中獲取盡可能多的有效信息。
模型對比:比較GLM、XGBoost和融合模型的預測性能,選擇最佳模型。
3.3 結果分析
經過詳細的模型構建、訓練、驗證和評估,我們得到了一個針對新能源汽車的保險風險評估模型。這個模型不僅考慮了車聯網數據中的關鍵風險因子,而且結合了傳統統計方法和現代機器學習技術,為保險公司提供了一個既準確又可靠的風險評估工具。
通過一維分析,車聯網因子提供新的信息視角,能夠在使用傳統風險因子的基礎上,進一步實現風險區分。通過因子重要性排序等方法,該研究重排名較前的因子有日均行駛里程、夜間行駛里程占比等。
通過對比多種模型,我們發現結合車聯網數據的XGBoost模型在風險評估中展現出最佳的性能,尤其在處理高維、非線性關系時表現出色。使用機器學習方法還揭示了一些傳統統計方法可能忽視的隱藏風險因子。
4 總結
本文對基于車聯網數據的新能源車保險風險評估進行了研究。利用廣義線性模型GLM和XGBoost機器學習方法研究了在車聯網數據的新能源車方面的應用。通過實驗和結果分析,我們得到了一個針對新能源汽車的保險風險評估模型。此外,本研究模型也為保險公司提供了指導和決策的依據,以為新能源汽車定價提供更準確性和可靠性。然而,本研究也存在一些局限性,如數據集的選擇和算法的局限性,隨著車聯網技術的進一步發展和新能源汽車市場的不斷擴大,我們預期將有更多的數據和技術可供利用。未來的研究可以進一步探索其他潛在的風險因子,以及利用更為先進的模型和算法進行風險評估。
參考文獻
[1]Chen, F., Zhang, H., Li, S., Yuan, Y., Wang, J., Wu, Z., & Feng, H. Lithium-ion Battery Risk Assessment for New Energy Vehicles Based on Bayesian Network. In 2021 6th International Conference on Transportation Information and Safety (ICTIS)IEEE,2021,10:1490-1495.
[2]Dong, G., & Liu, H. Eds. Feature engineering for machine learning and data analytics. CRC press,2018.
[3]Pekár, S., & Brabec, M. Generalized estimating equations: A pragmatic and flexible approach to the marginal GLM modelling of correlated data in the behavioural sciences. Ethology,2018,124(2), 86-93.
[4]Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models. CRC press.
[5]Duan, Z., Chang, Y., Wang, Q., Chen, T., & Zhao, Q.A logistic regression based auto insurance rate-making model designed for the insurance rate reform. International Journal of Financial Studies,2018,6(1):18.
[6]Pesantez-Narvaez, J., Guillen, M., & Alca?iz, M.Predicting motor insurance claims using telematics data—XGBoost versus logistic regression. Risks,2019,7(2):70.
[7]Willmott,C.J.On the validation of models.Physical geography,1981,2(2):184-194..
[8]Vovk, V. The fundamental nature of the log loss function.Fields of logic and computation II: Essays dedicated To Yuri Gurevich on the Occasion of His 75th Birthday,2015:307-318.