四川大學(xué)錦城學(xué)院計(jì)算機(jī)與軟件學(xué)院 劉 鑫 楊 杉
以四川省某保險(xiǎn)公司的新投保數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),利用SPSS和EXCEL兩大工具據(jù)進(jìn)行分析。新投保數(shù)據(jù)分為4個(gè)主題,針對用戶購買數(shù)據(jù)與機(jī)構(gòu)的關(guān)系和保險(xiǎn)中年齡分布情況利用了頻率分析的方法;針對保額與保費(fèi)、繳費(fèi)期限、年齡之間的線性關(guān)系利用相關(guān)分析及線性回歸分析的方法;針對不同收入與總保費(fèi)之間的關(guān)系利用描述統(tǒng)計(jì)中的探索分析。通過所得到的分析結(jié)果和結(jié)論,為保險(xiǎn)公司定位目標(biāo)客戶,繪制用戶畫像提供了數(shù)據(jù)支撐,同時(shí)也可以分析出購保人群的特點(diǎn),有利于保險(xiǎn)公司留住老客戶,吸引新的購保人群。
雖然中國的保險(xiǎn)市場位居世界第二,但是與世界平均保險(xiǎn)密度相比還存在著一定差距。保險(xiǎn)行業(yè)規(guī)模增長過慢已經(jīng)不能適應(yīng)新時(shí)代的行業(yè)發(fā)展需求,行業(yè)及用戶長期存在難以解決的痛點(diǎn),限制了行業(yè)發(fā)展。隨著我國保險(xiǎn)市場的開放和保險(xiǎn)公司數(shù)量的增加以及保險(xiǎn)行業(yè)資本的累積,保險(xiǎn)業(yè)的競爭程度不斷升級,同時(shí),互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展,大數(shù)據(jù)在保險(xiǎn)中的作用越來越大,因?yàn)橥ㄟ^大數(shù)據(jù),可以輕而易舉地抓取、篩選和分析出精算、營銷、投保、服務(wù)、理賠等各個(gè)環(huán)節(jié)的統(tǒng)計(jì)數(shù)據(jù),為保險(xiǎn)行業(yè)帶來了增量市場。網(wǎng)民規(guī)模地不斷擴(kuò)大,用戶的行為習(xí)慣已發(fā)生轉(zhuǎn)變。隨著市場技術(shù)的不斷更新,傳統(tǒng)的企業(yè)和行業(yè)面臨著巨大的技術(shù)匱乏問題。因此,為了提高公司員工績效,提升團(tuán)隊(duì)產(chǎn)能,實(shí)現(xiàn)企業(yè)利潤的最大化,對已有數(shù)據(jù)進(jìn)行相應(yīng)的分析已成為必然趨勢。
首先對新投保數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗:對數(shù)據(jù)去除空值,刪除除重復(fù)值,剔除無效數(shù)據(jù)的行和列,再利用清洗之后的數(shù)據(jù)分四個(gè)主題進(jìn)行數(shù)據(jù)分析:(1)用頻率分析與分類匯總的方法探索用戶購買數(shù)據(jù)與機(jī)構(gòu)的關(guān)系;(2)用頻率分析方法統(tǒng)計(jì)所有保險(xiǎn)中年齡分布情況并使用直方圖表示;(3)相關(guān)分析及線性回歸分析方法探索保額與保費(fèi)、繳費(fèi)期限、年齡之間的線性關(guān)系;(4)用探索分析方法分析不同收入與總保費(fèi)之間的關(guān)系。最后利用數(shù)據(jù)分析的結(jié)果寫出相應(yīng)的結(jié)論。

表1 去除無效數(shù)據(jù)后的數(shù)據(jù)指標(biāo)
包括家庭人口、教育程度、投保時(shí)間三列以及表中的第二行為空行,剔除后的效果展示如表1所示。
刪除重復(fù)值:數(shù)據(jù)工具欄中的刪除重復(fù)值功能。
清洗后的數(shù)據(jù)為13列,844067行,如圖1所示。

圖1 去重后的數(shù)據(jù)指標(biāo)
3.1.1 利用頻率分析的方法
利用頻率分析的方法:探索各機(jī)構(gòu)購保人數(shù)的總量并進(jìn)行對比分析。
首先分析工具欄中選擇頻率分析,將機(jī)構(gòu)作為變量并勾選統(tǒng)計(jì)中的縱數(shù),然后通過統(tǒng)計(jì)每個(gè)機(jī)構(gòu)出現(xiàn)的次數(shù)來分析購買保險(xiǎn)人數(shù)最多的機(jī)構(gòu)。探索保險(xiǎn)機(jī)構(gòu)總量結(jié)果如表2所示。

表2 探索保險(xiǎn)機(jī)構(gòu)總量結(jié)果
分析結(jié)果:通過頻率分析可以得出眾數(shù)為510722,說明這一機(jī)構(gòu)購保人數(shù)最多有非常大的保險(xiǎn)市場。通過匯總后的數(shù)據(jù)集并降序排序后可以更加直觀地看出510722,510115,510119,510117,510110,510781,512002,512004,510108,510681這幾個(gè)機(jī)構(gòu)的的購買人數(shù)較多,并且在所有機(jī)構(gòu)中排名前10,說明這些機(jī)構(gòu)的保險(xiǎn)客戶量較多,對保險(xiǎn)的需求量較大,有利于保險(xiǎn)公司獲得更多的客源,擴(kuò)大自己的市場511088,510928,510505,513498,513432,510925,511383,513431,510698,510800這10個(gè)機(jī)構(gòu)的購保人數(shù)相對較少說明這些機(jī)構(gòu)的保險(xiǎn)客戶量較少,對保險(xiǎn)的需求量較小保險(xiǎn)公司可以根據(jù)公司實(shí)際情況對公司業(yè)務(wù)進(jìn)行適當(dāng)宣傳。
3.1.2 利用分類匯總
利用分類匯總:對險(xiǎn)種頻率進(jìn)行統(tǒng)計(jì),并分析機(jī)構(gòu)對險(xiǎn)種的宣傳方案。
利用分類匯總的方法可以分析出S81,S42,415,602,S93,411,412,603等險(xiǎn)種的購買人群較多,各機(jī)構(gòu)如果想要提高銷售率,就可以在各機(jī)構(gòu)大力宣傳S81,S42,415,602,S93,411,412,603等出現(xiàn)頻率大于9000的險(xiǎn)種,客戶對這些險(xiǎn)種的需求量較大,有較好的保險(xiǎn)市場,并且購保人群較少的機(jī)構(gòu)可以對非常有必要購買的險(xiǎn)種進(jìn)行宣傳,提高人群的購保意識(shí)。如果想對險(xiǎn)種宣傳得更加精準(zhǔn),還可與當(dāng)?shù)貦C(jī)構(gòu)購買數(shù)量較多的險(xiǎn)種進(jìn)行結(jié)合,在當(dāng)?shù)貦C(jī)構(gòu)進(jìn)行個(gè)性化,精確化宣傳。險(xiǎn)種頻率分析的結(jié)果如表3所示。

表3 險(xiǎn)種頻率分析的結(jié)果
使用頻率統(tǒng)計(jì)分析方法統(tǒng)計(jì)所有購買了保險(xiǎn)人中年齡的分布情況,包括平均值、中位數(shù)、眾數(shù)、標(biāo)準(zhǔn)差和四分位數(shù),并由直方圖表示。
年齡的中位數(shù)與平均數(shù)均在40歲左右,眾數(shù)為37歲,四分位點(diǎn)分為34、40和49歲,標(biāo)準(zhǔn)偏差為10.738。結(jié)合直方圖可初步得出結(jié)論購買保險(xiǎn)的人群年齡較為集中,多數(shù)集中在30-60之間,其中30-45歲左右的年齡段購買人數(shù)最多,50-60歲年齡段購買人數(shù)次多,45-50歲年齡段購買人數(shù)較其它年齡段屬于少數(shù),所以30-45年齡段的人群會(huì)更傾向于購買保險(xiǎn),30歲以下人群對于購買保險(xiǎn)的意愿不是很強(qiáng)烈。總體年齡分布情況數(shù)據(jù)展示如圖2所示。

圖2 總體年齡分布情況數(shù)據(jù)展示
首先先進(jìn)行相關(guān)分析,分析Sig值可得,保額與保費(fèi)之間具有的相關(guān)關(guān)系最強(qiáng),與繳費(fèi)期限的相關(guān)關(guān)系次之,與年齡之間的相關(guān)關(guān)系最弱,且與年齡之間存在的是較弱的負(fù)相關(guān)關(guān)系。四個(gè)變量之間都具有相關(guān)性,因此可將這四個(gè)變量用作做線性回歸分析。其次,做線性回歸:將保額作為因變量,總保費(fèi)、年齡、繳費(fèi)期限作為自變量,方法選擇步進(jìn)。

表4 保額與保費(fèi)、繳費(fèi)期限、年齡三者線性回歸方程結(jié)果
結(jié)果分析:通過步進(jìn)的方式,可以得到總保費(fèi)、繳費(fèi)期限、年齡與保額之間的關(guān)系是逐漸增強(qiáng)的;通過表ANOVA中的顯著性的值,都小于0.01,說明在0.01顯著性水平的基礎(chǔ)上,所分析的變量之間的線性關(guān)系是顯著的;通過系數(shù)表中的系數(shù),可以得到四者之間的線性相關(guān)系數(shù),公式為:“保額=1.07×總保費(fèi)+1147.39×繳費(fèi)年限-145.596×年齡+5637.879”。
首先先將過去三年平均年收入進(jìn)行分段用1表示0-99999、2表示100000-999999、3表示1000000-9999999、4表示10000000-20000000。
然后使用描述統(tǒng)計(jì)中的探索分析,分析不同收入與總保費(fèi)之間的關(guān)系,分析結(jié)果發(fā)現(xiàn),年平均收入在0-99999的投保人平均投保費(fèi)是8191.477084,95%的置信區(qū)間為8152.192593到8230.761574之間,其偏度為10.439是正數(shù),說明數(shù)據(jù)右偏,也就是所投保費(fèi)高于平均保費(fèi)的人比較少,其峰度為303.013也是正數(shù),說明數(shù)據(jù)相對集中在平均值,也就是說這個(gè)區(qū)間的投保人大部分總保費(fèi)都集中在平均值8191左右,;年收入在100000-999999之間的平均投保費(fèi)是12669.41476,95%的置信區(qū)間為12244.37814到13094.45137之間,其偏度為13.699是正數(shù)比年收入在0-99999的偏度大,說明數(shù)據(jù)右偏更多,也就是所投保費(fèi)高于平均保費(fèi)的人更少,其峰度為324.196也是正數(shù)同樣大于0-99999段的峰度,說明數(shù)據(jù)更集中在平均值,也就是說這個(gè)區(qū)間的投保人絕大部分總保費(fèi)都集中在平均值12669左右;年收入在1000000-9999999之間的平均投保費(fèi)是100843.0027,95%的置信區(qū)間為83634.75278到118051.2526之間,其偏度為4.403是正數(shù),說明數(shù)據(jù)右偏,但小于前兩個(gè)段的偏度也就是說所投保費(fèi)高于平均保費(fèi)的人雖然比較少,但相對而言要多一些,其峰度為25.714是正數(shù),說明數(shù)據(jù)相對集中在平均值,但遠(yuǎn)小于前兩段的峰度,也就是說這個(gè)區(qū)間的投保人大部分總保費(fèi)都集中在平均值12669左右,但相對而言集中度沒有前兩段高;年收入在1000000-9999999之間的平均投保費(fèi)是83495.44444,95%的置信區(qū)間為-7502.42217到174493.3111之間,其偏度為1.109是正數(shù),說明數(shù)據(jù)右偏,但相對而言右偏較少,其峰度為-0.447是負(fù)數(shù),說明數(shù)據(jù)集沒有集中在平均值,也就是說這個(gè)區(qū)間的投保人的投保費(fèi)可能相差的比較大;1、2、3段的平均總保費(fèi)是在遞增的,也就是說,年收入越多的人,總投保費(fèi)就越多,但是第4段,也就是年收入在10000000-20000000之間的人反而更多的總保費(fèi)很少,也就是說并不是越有錢,越會(huì)投入大額的保費(fèi)。

表5 分組后收入的探索分析結(jié)果
分析箱圖發(fā)現(xiàn),收入在1,2兩段的箱形圖的箱體和胡須幾乎沒有,也就是說這兩個(gè)收入?yún)^(qū)間的投保人的總保費(fèi)都非常的集中相近,并且異常值較多,也就是說有一些的人總保費(fèi)過于低或者過于高,而平均收入在3,4區(qū)間的箱形圖下邊的箱體和胡須較短,也就是說數(shù)據(jù)是在偏低的地方集中的,總保費(fèi)在中位數(shù)以下相對集中,而總保費(fèi)高的差距拉的是比較開的。

圖3 收入分組區(qū)間箱形圖展示
結(jié)論及建議:購保人群多的機(jī)構(gòu)可以根據(jù)當(dāng)?shù)仉U(xiǎn)種購買的情況對保險(xiǎn)進(jìn)行宣傳,對當(dāng)?shù)氐馁彵H巳嘿彵G闆r能有所了解,能夠精確地定位到目標(biāo)人群,準(zhǔn)確畫出目標(biāo)用戶畫像;購保人群較少的機(jī)構(gòu)可以對非常有必要購買的險(xiǎn)種進(jìn)行宣傳,提高人群的購保意識(shí)。保險(xiǎn)供給方應(yīng)時(shí)刻以市場需求為導(dǎo)向,根據(jù)自身特點(diǎn),找準(zhǔn)進(jìn)入或者拓寬互聯(lián)網(wǎng)保險(xiǎn)市場的切入點(diǎn),同時(shí)樹立自身企業(yè)品牌良好形象。如果想對險(xiǎn)種宣傳得更加精準(zhǔn),還可與當(dāng)?shù)貦C(jī)構(gòu)購買數(shù)量較多的險(xiǎn)種進(jìn)行結(jié)合,在當(dāng)?shù)貦C(jī)構(gòu)進(jìn)行個(gè)性化,精確化宣傳。同時(shí),建議該公司將主要客戶群體定在平均年收入在千萬以下的人群中,也不要過分忽略年收入在100000以下的人群,雖然收入不多,但是投保額并不一定會(huì)比年收入在100000以上的人群投保額少。