摘 要:本文基于實際數據對于保險業大數據現狀進行了統計分析,給出了保險業數據量現狀以及數據使用效率的統計結果;同時以實際大數據量為基礎,對傳統的壽險產品定價進行了改進,獲得了更優的市場比較優勢;最后以大數據量為基礎,打破傳統壽險產品的思維定勢,開發出新型的保險產品并對產品風險進行了精確測定。
關鍵詞:大數據;數據挖掘;精算定價;保險創新
中圖分類號:F842 文獻標識碼:A〓 文章編號:1003-9031(2014)01-0053-05 DOI:10.3969/j.issn.1003-9031.2014.01.10
大數據又稱為巨量數據、巨量信息和海量數據,指的是所涉及的信息量非常巨大,以至于傳統的軟件和技術無法進行有效的信息獲取[1]。大數據技術就是在這種海量數據下有效的數據分析技術,即能夠在各種各樣類型的數據中,快速獲取有價值信息的能力[2-3]。
保險因自身的業務特點與大數據關系更加密切,它天然就有大數據的特征,這是因為:
第一,保險業是經營風險的行業。它的產品本質就要求對標的物風險進行精確測定。而如何測定這些風險,一方面是金融模型或數理技術,另外一方面就是數據信息,兩者結合,缺一不可。海量數據為保險公司測定風險提供了“天然”的機會;對于保險公司來說,大數據技術實際上就是如何利用公司的海量數據來厘定風險。
第二,保險公司的利潤來源于收取的保費和未來的賠付支出的差額,這其中的賠付支出即是保險公司的風險,該風險與標的物的未來風險密不可分。所以保險公司實際上是對這些風險發生的概率進行預測,這和大數據的本質不謀而合——大數據的一個關鍵核心就是預測[4]。
第三,保險經營的每個過程都和大數據密不可分。保險公司經營過程中涉及到產品定價、核保核賠、產品銷售、投資、風險管控等,每一步都在不斷利用數據,同時也在不斷產生數據。
實際上,從信息量來看保險業,大數據時代早已經提前到來。隨著信息技術的發展,保險公司每時每刻都要積累著大量的數據信息,數據量的級別呈現爆炸式的增長。同時,保險行業的大數據技術還剛剛起步,保險公司還沒有充分而主動的利用大數據提供的優勢。
一、保險業大數據現狀介紹
在大數據現狀調查中,筆者統計117家保險公司,占大陸全部保險公司的97%以上,基本上可以代表保險業的整體情況。其中,58家人身險公司和59家財產險公司。在人身險公司當中外資公司23家,中資公司35家;在財產險公司當中中資公司38家,外資公司21家。
統計的結果是數據量。保險公司里,數據量主要包括以下幾方面:
一是保單數據及保單維持數據,這部分數據基本上都在業務系統中;二是核賠理賠數據,這部分數據隨著電子化,大部分也在業務系統中,同時部門內部也有對應的數據庫;三是投資理財數據,因為壽險經營時間長,保費投資是壽險經營的重要方面,所以這部分數據在壽險公司中體現最為明顯,導致大量的金融市場數據集中在投資部門,這部分數據通常和業務系統是分離的;四是定價數據,這部分數據是精算部門用來定價和利潤測試,以及用來向保監會報送各類報表運算時候需要的,有相當一部分來自于業務系統;五是風險管理數據,這部分數據相當零散,且涉及到以上各類數據,同時還包括公司的財務乃至宏觀管理數據。我們在統計中也把行業公共數據以及監管數據放在這里面統計。
對每家公司進行全部數據的估算后加和,結果扣除公共數據(及金融市場數據以及公共行業數據和監管數據)就得到中國保險業整體的數據量情況(見圖1)。
從圖1可知,中國保險業的數據量呈井噴式增長,這也說明了大數據是目前保險業必須面對的考驗。
同時對個體公司進行了詳細分析,來考察普通一家保險公司在生產經營過程中需要面對的數據量是多大(見圖2)。
從2圖可知,對于普通保險公司來說,其面臨的數據量和整個行業的數據量沒有本質的區別,這也充分說明保險業的深化改革已經有一定成效,保險公司的充分競爭已經得到很好的體現。在這樣海量數據信息的背景下,保險公司在定價、營銷、經營以及風險管理方面都必須引入大數據技術來獲得相對于行業的比較優勢。
筆者對保險業2008—2012年的數據使用效率進行了統計和分析。這是一個很復雜的問題,這里主要給出在產品定價方面的結果。大數據的特點是容量大Volume、速度快Velocity和資料多樣性Variety[5]。我們的評價也是從這個角度來進行的,需要說明的是,在統計過程中,限于公司保密等原因,結果僅僅包含25家壽險公司和23家財產險公司。但結果總體上也反映了在定價方面,保險業大數據技術的發展程度(見圖3)。
圖3反映了目前保險公司在定價方面的數據效率,基本上近5年沒有特別大的變化,并沒有充分挖掘大數據的潛力,在大數據技術上還有很長的路要走。正是基于這種現狀,筆者嘗試從大數據背景出發,以壽險定價為例來說明大數據技術的初步應用。
二、壽險產品精算定價的“再精算”
壽險產品定價是基于壽險精算模型進行純保費(精算現值)的計算,然后使用“資產份額”和“宏觀定價法”來確定實際保費。在這個過程中,涉及到的數據量實際上僅包括傳統的生命表(保監會規定)以及部分抽樣數據,這部分數據僅占可利用數據的5%左右。
筆者考慮在保險公司持續經營下,新開發的一種保險產品,它在在傳統數據依賴上可能只需要一些精算部門的經驗數據,以及傳統的已經做好的模型,只需要修改一些基本假設和預訂費率,預訂利率以及預訂死亡率即可。
在大數據背景下,與此保險產品有關的數據范圍擴展到了整個業務部門乃至核保核賠部門,這些部門的數據經過多年的積累能夠進行有效連接,形成一個龐大的后臺數據記錄,我們以某一家普通保險公司為例,該數據連接后形成了一個900M的數據記錄池,這些客戶的記錄無疑能夠對傳統定價有很大的幫助,能夠在精算定價的結果進行“再精算”過程。
壽險產品中最重要的就是死亡率,在傳統定價方法中,使用的是2000—2003年生命表,該生命表已經使用多年,反映了當時的死亡狀況。對于一款推向市場的壽險產品,它所面臨的人群實際上是未來的客戶,他們的死亡率狀況與2000—2003生命表已經有很大差異。
利用大數據平臺,我們可以構造龐大的分年齡和分時間死亡率表,在處理之后得到如表1所示。
1983—2011年數據是一個面板數據,用他們可以很好表明公司客戶面臨的死亡率狀況。為了進行定價,我們使用Lee-Carter模型進行數據信息獲取。
Lee-Carter模型是由美國人口學家LEE和CARTER于1992年共同提出的,該模型的具體形式如下:
lnmxt=ax+bxkt+?著xt(1)
其中,mxt表示x歲的群體在t時刻的死亡率;ax表示年齡因素對發病率變化所起的解釋作用,是依賴于年齡的參數;kt表示時間因素對發病率變化所起的解釋作用,為依賴于時間的參數;bx則反映了年齡因素對于kt的敏感程度,?著xt是隨機誤差項。為了確使估計參數時所得估計值唯一,通常會對模型參數做出如下假定:∑tkt=0,∑xbx=1。
用該模型可以提取其死亡率信息,并對死亡率進行有效預測,該預測是通過的預測完成的,如表2所示。
在kt基礎上可以重組未來不同年齡的死亡率,然后利用定價模型計算凈保費:
P=Q m|qx*vm+1=Qv*qx+Qv2*pxqx+1+…+Qvn*n-1pxqx+n-1+…(2)
其中,P為保單躉交凈保費,Q為保險金額,n為保險期險且n≤20,i為市場利率。
以30歲死亡給付為例,計算結果和傳統定價方法如表3所示。
從以上對比可以清晰看到,在利用大數據優勢后,保險產品凈保費下降,這是由于實際的死亡率改善所引起的,從而使保險公司在滿足預訂收益率的情況下可以擁有更大的定價自主權,搶占市場先機,提升企業競爭力。
三、壽險產品的細化分類與創新
進入本世紀以來,金融業的創新曾出不窮,而保險業也在面臨著創新的壓力,而大數據為保險業的創新提供了數據基礎和機會。保險本質上是“大數定律”,對于任何一個群體來說,只要投保的數量足夠的多,就可以應用“大數定律”。而保險產品的定價本質上就是對“風險”的度量,只要風險能夠度量,就能夠給出一個合適的價格,以此次價格出售產品就能夠保證收支平衡。這正是保險產品運作的方式。
但對于風險的度量和精確測算并不是一件容易的事情。所以傳統的保險產品都為限定為“標準體”;其他的“非標準體”都被保險例外條款而排除開外。這個過程實際上是浪費了大量的數據和信息。
在大數據背景下,保險公司可以基于數據優勢,進行群體的細化處理,針對不同群體開發不同的保險產品,從而啟動新的贏利增長點,開發出新的業務模式。
筆者以壽險為例,以上述900M數據混合該公司健康險5年的數據以及合作醫院的跟蹤數據為基礎(總數據基礎大約在1.5G左右),開發針對“非標準體”即重疾患者的定期壽險產品。對于該產品定價來說,很重要的因素有兩個:第一是首年發病率,它實際上衡量了新產品與傳統產品的“偏差”——意味著健康體從健康狀態轉移到了疾病狀態,進入了“意向購買人群”;第二是病死率,即疾病人群的死亡率,作用與傳統壽險的死亡率相同。
具體測算步驟,如下所示:
第一步,從該公司的承保理賠庫中篩選出重大疾病保險的承保理賠記錄,篩選出所需字段,添加需要計算的字段,如年齡段、疾病種類、理賠數、暴露數、保單周年日等。
第二步,對于13年中具體某一年的測算方法,假設保單周年日與被保險人生日是重合的,以保單周年日為分界點,將該年度一分為二,分別記有保單年度1、年齡段1、理賠數1、暴露數1和保單年度2、年齡段2、理賠數2、暴露數2,對保單記錄做出些許調整(如失效日期調整、滿期日調整、多次索賠合并調整等)后,按照矩估計精算法為每條保單記錄分別計算出其在該年度內前后兩部分的理賠數1、暴露數1和理賠數2、暴露數2,按照年齡段對上述數據進行分類匯總,即可得到該年度內不同年齡段的理賠數和暴露數,二者相比即為該年齡段在該年內的重疾發病率,
第三步,1999年至2011年13年中的每一年均重復上述處理過程,共計算13次,結果可得到13年中每一年不同年齡段的理賠數、暴露數和重疾發病率,將13年的理賠數、暴露數再次按照年齡段分類匯總后即可得到不同年齡段總的理賠數和暴露數,二者相比即得到該年齡段的總重疾發病率;
第四步,上述步驟所得結果是所有重疾在一起的一個疾病總發病率情況,也可分疾病種類測算出每一種具體疾病不同年齡段的發病率情況,測算方法與上述步驟相同。
以癌癥患者糖尿病患者為例,發病率和病死率測算結果分別如表4和表5所示。
基于以上結果,利用精算定價模型就可以給出新產品的純保費定價結果。表6給出了新型糖尿病壽險產品純保費測算結果。
實際上,中國糖尿病患者有九千多萬人,其他重疾且可保群體數量在3億人左右,相當于美國人口數量。這部分群體因為本身處于風險高的狀態,所以對保險的需求比正常人更加強烈,而在傳統保險框架內,卻又因為“非標準體”的原因而被拒保。基于大數據,保險公司可以對該群體進行細分,并精確測定其風險水平,推出適合的保險產品,應該具有廣闊的市場前景。
四、結論
綜上所述,有幾點結論:
第一,保險本身是經營風險的行業,測算風險、把握風險和利用風險是保險公司競爭力的核心體現,而所有這些都需要獲得信息,獲得大數據背后的有用信息。但經過統計和分析可以看到,中國保險業利用大數據的效率很低,維持在7%左右,沒有充分利用大數據的“數量巨大,速度快捷,形式多樣”的特性。
第二,在保險的技術核心層面,大數據為壽險定價提供了“再精算”的機會,能夠讓保險產品更真實的反映風險狀況,獲得定價優勢,在市場中搶占先機,增強公司的風險管控能力。
第三,在保險公司的經營層面,大數據為“壽險產品創新”提供了很多機會,保險公司可以充分利用數據優勢來開發新產品新技術來開發和獲得市場。
總而言之,大數據為保險公司提供了“機遇”,保險公司必須重視發展大數據技術,以期在大數據背景下的金融市場中獲得競爭優勢。
(責任編輯:張恩娟)
參考文獻:
[1]Redman T.The impact of poor data quality on the
typical enterprise [J].Communications of the ACM,1998,41(2).
[2]Swartz N.Gartner warns firms of‘dirty data’[J].Information Management Journal,2007 41(3):6.
[3]Kohn LT,Corrigan J M,Donaldson M S.To Err is Human:Building a Safer Health System[M].Washington:National Academies Press,2000.
[4]Eckerson W.Data Warehousing Special Report:Data quality and the bottom line JR. Applications Development Trends,2002.
[5]English LP.Improving Data Warehouse and Business
Information Quality:Methods for Reducing Costs and Increasing Profits[M].New York:Wiley,1999.
收稿日期:2013-10-15
作者簡介:張 寧(1978-),男,遼寧朝陽人,理學博士,中央財經大學副教授、碩士生導師;
郭 楠(1993-),女,山西大同人,中央財經大學保險學院學生。