四川大學錦城學院計算機與軟件學院 肖 蝶 楊 杉
以四川省某保險公司的續保數據為研究對象,分別從年齡、婚姻狀況、性別、機構等四個方面,探究得到忠誠度較高的企業客戶的特征,從而劃分出企業重點宣傳的受眾人群;對企業的優勢險種進行分析,以此得出企業應當重點運營及改進的險種類別;探究與總保費具有相關性的因素并分析出其中的線性方程式,得出增長總保費收益的可行性方案。最終使企業可從以上三個方面,來提升其自身的業務效率。
這是一個經濟高速發展的時代,伴隨著科學技術發展的時代,大數據技術也被廣泛應用于各種領域。大數據技術的發展引發了金融時代的改革,保險業面臨巨大的競爭壓力,因此保險公司需要在大數據分析方面進行積極的探索。傳統營銷方式導致企業營銷過程中存在市場信息充裕度低、準確率差、反饋不及時等問題,結合大數據進行營銷策略的制定可以很好地解決這些問題。數據規模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大數據熱的原因。因此,對于保險公司來說,可以通過分析優勢客戶特征、優勢險種等方式,在更節約財力物力的情況下,提高公司的業務效率;同時,為了得到更高的企業收益,還可以分析與企業的總保費收益相關的因素并對其中的線性相關關系進行探索。總之,擁有大數據技術并能利用大數據的保險公司將擁有壓倒性的競爭優勢,大數據的運用能力將成為保險公司的核心競爭力。
以四川省某保險公司的客戶數據為研究對象,對該公司的續保數據進行數據分析。采用Excel、SPSS,對該公司的續保客戶進行了特征分析,使用頻率分析、分類匯總的方法從年齡、婚姻狀況、性別及機構四個方面,探究企業忠誠度較高的客戶具有的特征;使用分類匯總的方式統計各類險種的占比情況,并按照占比對險種進行降序排序,得出該保險公司中續保占比排名前十的優勢險種;最后,使用相關分析以及線性分析,探索影響總保費的因素,以及總保費與其影響較大的因素之間所具有的線性關系,得出線性方程式。
數據來源于四川省某保險公司的續保數據表,數據表中包含了續保客戶的機構、險種、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年平均年收入、職業、家庭人口等信息字段,累計共14個字段,21萬多條數據。
為提高數據分析結果的準確性,進行了相應的數據清洗。剔除無效數據:刪除續保數據中投保時間、教育程度、家庭人口等無效數據列;刪除數據表中的空行。刪除重復值:使用Excel工具中“刪除重復值”功能對數據進行去重。刪除異常值:使用Excel工具中“篩選”功能篩選出了年齡大于等于18歲的客戶數據,并刪除年齡小于18的數據。
3.1.1 續保客戶年齡分布特征分析
由圖1可知,在續保客戶當中,30歲以下及60歲以上的客戶在續保數據當中分布最少,45-60歲的客戶在續保數據當中分布相對較多,但續保數據中客戶分布最多的年齡區間是在30-45,也就是說,30歲以下及60歲以上的客戶對續購保險的意愿并不強烈,而年齡在30-45歲區間的中年人是續保客戶中所占頻率最大的群體。因此,可將年齡分布在30-45歲區間的客戶定義為該企業的優勢客戶。

圖1 年齡分布圖
3.1.2 續保客戶婚姻狀況特征分析
由圖2可知,在續保客戶群體當中,離異人士占比0.48%、已婚人士占比73.61%、再婚人士占比0.00%、單身人士占比4.02%、喪偶人士占比0.18%、婚姻狀況未知的占比21.71%,由上述可得,婚姻狀況為已婚的人在續保客戶群體中占比最多,其次是婚姻狀況未知的人士。也就是說,離異、再婚、單身、喪偶等客戶群體續購保險的意愿并不強烈,婚姻狀況未知的客戶續購保險的意愿相對較大,而婚姻狀況為已婚的客戶是續保客戶中所占頻率最大的群體,續購保險得意愿最大。因此,可將婚姻狀況為已婚的客戶定義為該企業的優勢客戶。

圖2 婚姻狀況分布圖
3.1.3 續保客戶性別特征分析
由圖3可得,在續保數據當中,客戶的性別特征分布均勻,也就是說,男女所占的比例是相當的,因此,在對續保客戶進行客戶畫像時,可以忽略數據中的性別因素。

圖3 性別分布圖
3.1.4 續保客戶機構特征分析
由表1可得,使用SPSS工具中分類匯總的方法,可以得到續保數據占比排名前十的機構由高到低依次是:510824、510128、510781、510117、513029,510722,511324,513022,510681,511321。通過互聯網查詢,可得續購保險的客戶中,占比前十的機構分別代表的是廣元市蒼溪縣、成都市崇慶縣、江油市、成都市郫都區、達州市大竹縣、綿陽市三臺縣、南充市儀隴縣、達川地區宣漢縣、廣漢市、南充市南部縣。也就是說,以上十個地區的客戶,續保意愿相對較大。

表1 機構匯總表
由此可得以下結論:年齡在30歲以下及60歲以上、婚姻狀況為離異、再婚、單身、喪偶等,此類客戶的續保意愿不太強烈;同時,年齡在30-45歲區間的中年人,婚姻狀況為已婚,機構為510824、510128、510781、510117、513029,510722,511324,513022,510681,511321等地的客戶是續保客戶中的優勢客戶群體,此類客戶的續保意愿較大。因此,保險公司可以根據以上分析所得的客戶畫像,對該公司不同的客戶群體采取不同的宣傳力度和宣傳方式,比如,企業可適當減小在續保較少的人群中的宣傳力度,并將其主要精力轉移到具有續保優勢特征的客戶群體上,從而增加客戶的續保概率,以此提高客戶的忠誠度。
由表2可知,使用SPSS工具中頻率統計的方法得出,在續保數據排名前十的險種中,S42占比44.2%,S43占比14.3%,S40占比7.8%,S49占比5.6%,S47占比5.1%,S46占比2.8%,S50占比2.6%,S86占比2.2%,B01占比2.2%,S77占比1.7%;除去其中的B01,其余的險種均是S類險種,且排名前十的險種中,S類險種累計占比達到86.3%。

表2 險種頻率占比表
由以上分析可得,S類開頭的保險種類續保人數相對較多,以數字開頭的保險種類續保的人數相對較少,也就是說,在續保數據中S類保險占有主要地位,說明客戶對S類保險有著長期的購買需求。因此,S類保險有助于企業留住客戶,有利于提高客戶的忠誠度,企業可根據以上分析,加強對優勢險種的運營及改進,以便及時提高企業中優勢險種的市場競爭力。
由表3可得,消費者所繳納的總保費相關性較強的因素分別是繳費期限、保額、年齡以及過去三年平均年收入;并且以上四個因素是在顯著性水平為0.01的基礎上,與總保費呈顯著相關。其中,繳費期限與總保費的關系是顯著負相關,相關系數為-0.185;保額、年齡及過去三年平均年收入與總保費的關系是顯著正相關,相關系數依次為0.267、0.073、0.235。

表3 相關性分析表
由表4可得,在使用SPSS工具中的線性回歸方法對總保費與繳費期限、保額、年齡、過去三年平均年收入之間的線性關系進行分析時,采用了步進的方式,對比依次增加預測變量所得的模型當中R方的值,選擇擬合效果最好的模型,即R方的值最大的模型4來進行后續分析。

表4 模型摘要表
由上述分析結果以及表5的基礎上,總保費與繳費期限、保額、年齡、過去三年平均年收入之間的線性關系式為:“總保費=0.047*保額-131.633*繳費期限+0.011*過去三年平均年收入+21.627*年齡+1483.367”。因此,保險公司如果想要獲得更高的總保費,則可面向過去三年平均年收入相對較高的受眾人群,向其推廣繳費期限較短,保額較高的險種,將有助于增長企業所收得的總保費的金額。

表5 系數詳情表
首先,年齡在30歲以下及60歲以上、婚姻狀況為離異、再婚、單身、喪偶等客戶群體屬于忠誠度較低的客戶,此類客戶的后期發掘意義不大,企業應適當減少在此類客戶當中花費的時間和精力,同時集中精力在忠誠度較高的客戶群體中進行大力度的宣傳和推廣,如年齡在30-45歲區間、婚姻狀況為已婚的中年人群體、機構為510824、510128、510781、510117、513029,510722,511324,513022,510681,511321等地的客戶。
其次,在分析客戶的同時,企業也應當增強自身的市場競爭力,自身的優勢是與行業內競爭對手競爭的有力武器之一,因此,企業應對S類險種進行長期的運營和改進,以此提高企業中客戶的續保概率。
最后,在得出了與總保費有關的影響因素及其中的線性方程式的基礎上,企業可適當選取過去三年平均年收入較高的人群,向其推薦保額大、繳費期限短的險種,從而增加企業所得總保費的收益。