李宛虹 李墨文
【摘要】隨著保險欺詐問題的重要性越來越被人們所認知和重視,保險公司希望能獲得更準確、更靈活的欺詐率估計方法。本文簡要分析介紹了PRIDIT與PRIDIT-FRE方法的特點,希望進一步為研究保險欺詐程度探測分類提供參考。
【關鍵詞】保險欺詐;非監督分類方法;欺詐可能性評分
在保險欺詐行為愈發嚴重、保險欺詐索賠數額與日俱增的情況下,各保險行業相關企業和機構都越來越重視保險欺詐問題,對于一個準確而又經濟的欺詐程度探測分類的方法的需求也迫在眉睫。
但由于保險欺詐的特性,傳統的監督下數據分類方法不再適用:第一,它的成本太高;第二,對“欺詐”這一標簽的界定十分模糊;第三,由于保險欺詐當事人傾向于隱藏自身行為的欺詐性質,監督分類方法的有效性不容樂觀。因此,非監督分類方法成為了我們的重點考慮對象。
最初使用的RIDIT評分方法只針對離散變量。而在這基礎上發展而成的PRIDIT方法,將連續變量也納入了考量,提高了評分的準確性。對于單個預測變量的選擇,我們自然應當考慮使更低的評分能反映更高的欺詐可能性。PRIDIT方法定義了“變量分數”,其對每一不同的變量都預測了欺詐可能性大小:并定義At以反映變量t對欺詐類與非欺詐類索賠的區分程度——At取值越大,說明變量t區分能力越強,則其越適合用來作為PRIDIT方法的評分依據。單個變量雖然無法對判斷欺詐是否存在起到決定性作用,但每一變量都有良好的提示效果。PRIDIT方法就是將這些提示聯系起來,從而得以對索賠進行欺詐風險程度的排序——這就需要計算各預測變量在總體分數中的權重。變量權重是利用各變量分數與總體分數的關系,以等權重為起點,使用迭代法計算得出的。
然而在實際運用過程中,新的問題又產生了。由于保險欺詐當事人會在對保險人行為的“學習”中發現規律,從而隱藏自身的欺詐行為,使保險人對欺詐率的估計值偏離真實值;因此,為了使估計準確,保險人不得不花費大量金錢來更新樣本數據,這就導致了成本增加。一個優越的估計方法,應當能以較低成本被納入公司的保險欺詐管理體系,減輕保險欺詐問題對公司運營的不利影響。
在這種情況下,PRIDIT-FRE方法進入了我們的視野。不同于上述PRIDIT方法利用各欺詐預測變量對每一索賠的欺詐可能性進行評分,使得索賠可根據評分排序、分類:PRIDIT-FRE方法是在PRIDIT的基礎上,通過在欺詐類和非欺詐類情況下兩種情況下期望值之間的數學關系得出欺詐率的估計。
我們也可以將PRIDIT-FRE方法與最簡單明了的“標準”方法即“計數法”(直接計算欺詐索賠數在總索賠數中所占比例)進行對比,這可以讓我們輕松地體會到PRIDIT-FRE方法的優越性。不同于“計數法”,PRIDIT-FRE方法在利用PRIDIT對整體數據進行評分后,只需要獲知一個小樣本在保險欺詐可能性方面的分類情況,就能給出較為準確的估計。Jing Ai(2012)等人使用了西班牙與美國兩個經驗數據集對PRIDIT-FRE方法進行了實證分析。其中,西班牙數據集為車險財產損失索賠數據集,分為合法索賠與欺詐索賠兩類。美國數據集為車險人身傷亡索賠數據集,并按欺詐可能性進行分類、排序。兩個數據集的差別可更好地論證PRIDIT-FRE方法在不同情況下的優越性。
樣本有偏差是研究者在估計保險欺詐問題時經常需要考慮的因素,因為這往往會對方法結果產生重要影響。對此,一方面,審查樣本的工作人員需要克服自滿或大意的情緒,盡可能保證樣本的準確性:另一方面,我們也應盡可能去發掘如PRIDIT-FRE方法這樣不依賴于工作人員審查準確性的方法,從程序上直接解決這一問題。根據PRIDIT-FRE方法與計數法的對比我們也可以看出,所謂“標準”的并不一定是準確的,好的估計方法應該充分考慮到可行性(成本低、操作方便)和準確性。總而言之,PRIDIT-FRE方法是一種穩定的估計方法,它在各種復雜情況下均能準確地估計目標值。而在監督方法的對比過程中,我們也可以發現,研究者并不需要花費大量時間精力去預定義欺詐標準,反而更為重視欺詐類索賠分類。這也充分說明,在未來的數據分析方法設計上,我們應更多地關注數據的內部結構,研究其內在聯系反映出的規律。