





摘要:針對傳統的人工方式判斷車主是否有意向購買車險存在效率低、缺乏預測性等問題,提出一種基于支持向量機的車險購買意向識別方法。首先,通過標準化處理與主成分分析降維,將30維的通話數據映射至10維空間,并采用欠抽樣策略解決數據樣本不平衡的問題;然后,利用SVM模型區分有、無意向車主。實驗結果表明,SNM模型的識別召回率和誤檢率分別為97.9%、4.3%。該方法可為車險公司個性化服務提供技術支持。
關鍵詞:車險購買意向識別;主成分分析;支持向量機;通話數據
中圖分類號:TP311.5 """"""""""文獻標志碼:A """""""""文章編號:1674-2605(2024)06-0013-06
DOI:10.3969/j.issn.1674-2605.2024.06.013""""""""""""""""""""開放獲取
A Method of Car Insurance Purchase Intention Recognition Based on """Support Vector Machine
SHAO Yanfu "XIE Dawei
(Guangzhou Joysim Technology Co., Ltd., Guangzhou 510000, China)
Abstract: Aiming at the problems of low efficiency and lack of predictability in traditional manual methods of judging whether car owners intend to purchase car insurance, a car insurance purchase intention recognition method based on support vector machine is proposed. Firstly, through standardization and principal component analysis dimensionality reduction, the 30 dimensional call data is mapped to a 10 dimensional space, and under sampling strategy is adopted to solve the problem of imbalanced data samples; Then, use SVM model to distinguish between interested and uninterested car owners. The experimental results show that the recognition recall rate and 1 detection rate of the SNM model are 97.9% and 4.3%. This method can provide technical support for personalized services of car insurance companies.
Keywords:"car insurance purchase intention recognition; principal component analysis; support vector machine; calling data
0 引言
據統計,2022年我國民用汽車保有量已突破3.8億輛[1]。同時,車險險種的結構、費用費率不合理等問題也日漸浮現。自2015年第二次車險費用改革以來,我國車險行業通過市場化手段降低了車險費率,但仍存在經營粗放、競爭失序和數據失真等問題[2],迫切需要深化改革,以滿足高質量發展的要求。為此,利用車險公司積累的大量數據,通過建立準確的數學模型,對車險產品進行精細化管理和定價非常重要。其中,對不同購買意向的車主提供個性化的保險方案與服務,可提高車險的吸引力,促進車險行業向更合理、高效的方向發展。
通過車主與車險公司的通話內容,分析車主的車險購買意向,有助于車險公司為車主提供更好的服務。傳統的車險購買意向主要通過人工標注和調查問卷的方式來確定,不僅效率低,而且缺乏預測性。因此,開發基于大數據和機器學習算法的車險購買意向識別技術,具有重要的理論意義和應用價值[3]。
目前,車主購買車險意向的研究主要分為4類:1) 根據車主過去的車險購買記錄,通過數據挖掘和模式識別技術,預測車主未來購買車險的可能性和偏好,其優點是直接利用已有的數據資源,具有較強的實證基礎,但過度依賴歷史數據,忽略了車主的偏好和市場環境的變化;2) 通過分析車主的駕駛行為和風格,如駕駛速度、剎車習慣等,預測其購買車險的意向,其優點是體現了車主的個性化需求,能更精準地匹配適合其特點的車險產品,但收集和分析駕駛行為數據需要較高的技術支持和成本,且可能涉及隱私問題;3) 通過分析車主的消費習慣和偏好,如車險價格敏感度、險種選擇偏好等,了解車主購買車險的行為模式,其優點是從消費者的角度為車險產品的設計和營銷策略提供指導,但消費習慣受多種因素的影響,變化較大,難以準確預測;4)"車險公司的產品質量與服務態度,其優點是直接反映車險公司在市場中的競爭力,為其提升產品質量和改進服務提供指導方向,但評價標準主觀性強,且受限于車主的個人體驗和期望,可能存在一定的偏差[4]。
本文利用車主與車險公司的通話數據,提出一種基于支持向量機(support vector machine, SVM)的車險購買意向識別模型,分析車主購買或復購車險的意向程度。該模型利用主成分分析(principal component analysis, PCA)算法降低輸入特征的維度,減少計算復雜度;通過SVM在N維空間中尋找最大化超平面,將有意向車主與無意向車主有效分離。
1 相關研究
1.1 PCA
PCA是一種經典的數據降維技術,基本思想是將原始數據線性映射到一個新的正交空間,使映射后數據的方差最大,并舍棄貢獻率較小的次要成分。具體做法是:計算數據協方差矩陣,求解其特征值和特征向量;選取前k個最大的特征值對應的特征向量作為新空間的基底,將原始數據投影到新空間中實現降維。
PCA具有算法簡單、無數據損失等特點,被廣泛應用于圖像識別、信號處理、數據壓縮等領域。但它是一種無監督學習方法,數據降維后可能會丟失有用的判別信息。
1.2 SVM
SVM是一種基于統計學習理論發展起來的有監督學習模型,主要用于模式識別、數據分析等領域。其基本工作原理是在高維特征空間中尋找一個最大邊界超平面,將不同類別的樣本點分開,使兩類樣本點到超平面的距離最大,從而達到較好的分類效果,原理如圖1所示。
SVM具有正則化的特點,能夠較好地控制模型的復雜度,避免過擬合;且泛化能力較強,在小樣本、高維、非線性等情況下仍能獲得較理想的性能。
2 識別方法
基于改進SVM的車險購買意向識別方法主要分為數據獲取、數據預處理、特征降維、SVM分類、模型預測5個環節。預先設定車主的車險購買意向為有意向車主和無意向車主2種類型。
2.1 數據獲取
在預先獲得授權的前提下,統計某車險公司半年內的通話數據,得出30個與車險購買意向相關的維度,包括是否撥打車險公司號碼、通話時長、是否為主叫方等。其中,車主的手機號碼經過加密脫敏處理。最終,收集到無意向車主數據453 869條、有意向車主數據518條。通話原始數據維度如表1所示。
無意向車主數據(453 869條)與有意向車主數據(518條)存在嚴重的數據不平衡。如果直接基于這種不平衡數據訓練模型,將導致模型泛化性能較差。為解決這一問題,本文采用欠抽樣的策略,從無意向車主數據中隨機抽取518條,與有意向車主的518條數據組成平衡的混合數據集,并將該混合數據集按照1∶1的比例劃分為訓練集和驗證集[6]。
2.2 數據預處理
由于通話數據特征維度的量綱不同,如是否主叫的取值范圍為{0,1},通話時長以秒為單位,因此需要對原始通話數據進行標準化處理,即將不同量綱的數據統一到同一數量級:
2.3 特征降維
由于標準化后的通話數據的特征維數較高(30個),且部分特征存在線性相關性,直接輸入模型可能會導致過擬合及計算效率降低。為此,采用PCA算法對標準化后的通話數據進行降維處理。
由表2可知,前10個最大的特征值之和占全部特征值總和的比例為98.1%,即主成分保留98%以上,故選取前10個特征值替代通話數據的30個特征值。
2.4 SVM分類
經初步分析發現,有意向車主數據與無意向車主數據在一些字段上較為相似,用低維的曲線擬合容易導致欠擬合,用高維的多項式擬合容易出現過擬合。為此,采用SVM算法先把低維不可分的數據投射到高維空間,再用高維超平面進行是否有車險購買意向的二分類。
2)"懲罰參數C:引入一個正的調整參數C,其決定了分類的嚴格程度。較大的懲罰參數C意味著模型會對錯誤分類的樣本給予更大的懲罰,從而可能導致模型過擬合;較小的懲罰參數C使模型對錯誤分類的樣本懲罰減小,從而可能導致模型欠擬合。
2.5 模型預測
利用驗證集的518條數據進行SVM模型預測驗證,其中288條數據為有意向車主數據,占比為55.6%;230條為無意向車主數據,占比為44.4%。
對驗證集數據進行數據預處理、特征降維(10維)后,輸入SVM模型(公式12),得出的預測結果如表3混淆矩陣所示[10]。
3 結論
本文針對車主的車險購買意向識別問題,提出了一種基于支持向量機的車險購買意向識別方法。1) 根據車主與車險公司的通話數據,統計需要分析的30個維度;2) 利用欠抽樣策略隨機抽取部分車主數據,構建平衡數據集,緩解模型訓練過程中的數據偏差;3) 對30維的原始通話數據進行標準化預處理,消除不同特征量綱的影響;4) 采用PCA算法將30維數據映射到10維空間,并保留了98%以上的方差貢獻,有效降低了數據冗余;5) 采用SVM算法建立分類模型,將是否有意向購買車險的數據進行分類。經驗證集測試,SVM模型的召回率為97.9%,誤檢率為4.3%,具有良好的分類性能。本文SVM模型還存在需要改進的地方,如模型進一步優化、模型參數的自動調優等。
?The author(s) 2024. This is an open access article under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻
[1]"楊怡.關于推動我國交通運輸高質量發展的幾點思考[J].人民公交,2024(11):69-72.
[2]"房弢,陳晨,華圓.中小財產車險公司差異化發展路徑與服務實踐研究[J].浙江工商職業技術學院學報,2024,23(1):13-17.
[3] 唐金成,肖思文.新能源車險發展困境與創新策略[J].中國保險,2024(5):29-33.
[4] 譚征.基于K-Means和SEM的消費者互聯網保險購買意愿研究——以TPB和TAM為分析框架[J].重慶理工大學學報(自然科學),2019,33(2):198-207.
[5]"鄧育輝,李鵬,邵延富,等.基于神經網絡與粒子群算法的騷擾電話識別研究[J].數據通信,2022(5):28-30.
[6] HAN Jiawei, KAMBER Micheline, Pei Jian. Data mining: Concepts and techniques[M]. Waltham: Morgan Kaufmann Publishers, 2012:265-270.
[7] 包研科.數據分析教程[M].北京:清華大學出版社,2011:68-76.
[8] 王學民.應用多元分析[M].4版.上海:上海財經大學出版社, 2014:188-214.
[9] TAN Pangning, STEINBACH Michael, Vipin Kumar. Mining W I D. Introduction to data mining[M]. New Jersey: Pearson Education, Inc, 2006:127-189.
[10] 李文楷,劉原池,劉子越,等.基于正樣本-背景數據的校正混淆矩陣[J].海南大學學報(自然科學版),2023,41(3):293-302.
[11] 高瑞.混淆矩陣在商業決策中的應用研究[J].當代經濟, 2021(4):110-113.
作者簡介:
邵延富,男,1972年生,碩士研究生,高級工程師,主要研究方向:軟件工程和大數據工程。E-mail: 13632102858@139.com
謝大為,男,1991年生,本科,高級工程師,主要研究方向:大數據工程。E-mail: 13798088446@139.com