999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

兩階段孤立點(diǎn)挖掘算法在保險(xiǎn)欺詐中的應(yīng)用

2012-10-10 03:25:32

陳 亮

(泰山職業(yè)技術(shù)學(xué)院 信息工程系,山東 泰安 271000)

0 引 言

伴隨國(guó)家經(jīng)濟(jì)的迅猛發(fā)展,保險(xiǎn)業(yè)進(jìn)入了發(fā)展的春天。2008年保費(fèi)收入2 336億元,保費(fèi)年平均增長(zhǎng)超過(guò)20%[1]。然而保險(xiǎn)欺詐也應(yīng)運(yùn)而生。北京和上海保險(xiǎn)監(jiān)管機(jī)構(gòu)估測(cè),我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐的比重大致為20%,2009年全國(guó)機(jī)動(dòng)車保險(xiǎn)賠付790億元,當(dāng)年保險(xiǎn)欺詐金額高達(dá)15億元[2]。因此,保險(xiǎn)欺詐嚴(yán)重影響了保險(xiǎn)公司的償付能力和經(jīng)營(yíng)的穩(wěn)定性,甚至?xí)?dǎo)致保險(xiǎn)市場(chǎng)失效。保險(xiǎn)欺詐的出現(xiàn)涉及多種原因,如歷史原因、投保人原因、保險(xiǎn)公司原因及社會(huì)原因。正因?yàn)楸kU(xiǎn)欺詐產(chǎn)生的背景復(fù)雜,保險(xiǎn)欺詐的方法和方式也逐年復(fù)雜化、隱蔽化和多樣化,因此,保險(xiǎn)欺詐發(fā)現(xiàn)亦更加困難。

智能化研究應(yīng)用的保險(xiǎn)業(yè)的多數(shù)是客戶研究,應(yīng)用到保險(xiǎn)欺詐較少。有關(guān)保險(xiǎn)欺詐發(fā)現(xiàn)的研究和方法多集中在規(guī)章制度制定和主觀方面的要求,涉及數(shù)據(jù)分析的主要是“內(nèi)部數(shù)據(jù)查詢法”——統(tǒng)計(jì)學(xué)的分析方法[3]。文中采用山東某保險(xiǎn)公司近6萬(wàn)筆業(yè)務(wù)信息數(shù)據(jù)為研究對(duì)象,分兩個(gè)階段對(duì)以上數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)其存在欺詐的業(yè)務(wù)。在此基礎(chǔ)上,提出一種兩階段孤立點(diǎn)發(fā)現(xiàn)方法。

1 兩階段孤立點(diǎn)發(fā)現(xiàn)方法

1.1 基于粗糙集的模糊集合相似性度量

Dubois和Prade提出并研究了粗模糊集與模糊粗糙集,并指出合理選擇模糊規(guī)則是模糊推理系統(tǒng)的關(guān)鍵因素,粗糙集理論和模糊集理論不是互相排斥的,而是可以相互補(bǔ)的[4]。文中利用粗糙集誘導(dǎo)的模糊集,定義近似空間中集合間的粗相似度。

在近似空間(U,R)中,X是一個(gè)粗糙集,映射

滿足

設(shè)U = {x1,x2,…,xn}

在粗糙集中,集合的相似度定義為

定義1 在近似空間(U,R)中,U={x1,x2,…,xn},?X?U,?Y?U,集合X與Y 的粗糙相似度為:

定理1 在近似空間(U,R)中,? X,Y∈def(U,R),則有:

證明:由定理X~R=X?X[4]可知:

對(duì)于?X?U

成立,可知:

所以

由集合的相似度r(X,Y)的定義可知,其取值范圍在0~1之間。當(dāng)r(X,Y)越接近1,兩集合越相似,當(dāng)r(X,Y)=1時(shí),兩集合相同。

1.2 基于向量相似性的最大相異系數(shù)

相似性函數(shù)是用函數(shù)的方法來(lái)表征兩向量相似的程度。一般向量的相似性函數(shù)有夾角余弦法、相關(guān)系數(shù)法、廣義Dice系數(shù)法、廣義Jaccard系數(shù)法等,這幾種方法都是在夾角余弦的基礎(chǔ)上演變而來(lái),在計(jì)算夾角余弦時(shí)或有難度或計(jì)算量較大[6]。為此,文中提出了最大相異系數(shù)方法。

設(shè)X=(x1,x2,…,xn)為未知的待比較向量,Y=(y1,y2,…,yn)為確知向量,X 與Y 的相對(duì)誤差向量γ為:

顯然,有可能存在某個(gè)γi的值過(guò)大或過(guò)小的情況,當(dāng)評(píng)價(jià)γ時(shí),過(guò)大或過(guò)小的γi可能導(dǎo)致相對(duì)誤差向量的部分?jǐn)?shù)據(jù)項(xiàng)的影響過(guò)大,使部分小值數(shù)據(jù)項(xiàng)的作用被忽略,從而嚴(yán)重影響相似度的精確度。根據(jù)保險(xiǎn)業(yè)務(wù)的二元選擇模型,保險(xiǎn)單項(xiàng)業(yè)務(wù)數(shù)據(jù)分為無(wú)效因子、弱顯著性因子和顯著因子3種[7]。因此忽略無(wú)效因子,提高計(jì)算效率,強(qiáng)調(diào)顯著因子,保證算法有效、準(zhǔn)確。

定義2 對(duì)向量γ各位置賦權(quán)α={α1,α2,…,αn},把向量γ按數(shù)值降序排列得新向量:

其中,γi>γj,當(dāng)i<j時(shí),取出向量γ′的前m個(gè)值組成新向量η,η=(ηi1,ηi2,…,ηik),則定義向量X與向量Y的相異系數(shù)為:

最相異系數(shù)δy的取值范圍為[0,∞),δy越小則兩向量越相近,當(dāng)且僅當(dāng)δy=0時(shí),兩向量完全相同。顯然δy是γ的前n個(gè)較大數(shù)據(jù)項(xiàng)的加權(quán)平均值,被忽略的數(shù)據(jù)項(xiàng)相對(duì)誤差小,對(duì)判決過(guò)程影響較小,甚至可以忽略,同時(shí),由于各項(xiàng)權(quán)值不同,越大的相對(duì)誤差給定的權(quán)值越大,有效突出了其對(duì)判決的影響,同時(shí)位置權(quán)值αi強(qiáng)調(diào)了數(shù)據(jù)項(xiàng)本身的價(jià)值,δy突出了業(yè)務(wù)上的意義。

1.3 基于相似度的兩階段聚類算法步驟

算法分兩階段進(jìn)行,第一階段以集合相似性為判定標(biāo)準(zhǔn),按聚類算法把數(shù)據(jù)分為不同的子類簇,目的是將相同或相近的業(yè)務(wù)歸到同一類簇;度量向量最大相異系數(shù)為判定標(biāo)準(zhǔn),當(dāng)系數(shù)閥值過(guò)小時(shí),可能產(chǎn)生較多的族類;第二階段以向量相異系數(shù)為判定標(biāo)準(zhǔn),將上階段產(chǎn)生的類簇進(jìn)一步分類,目的是把同一類簇中的可疑業(yè)務(wù)分離出來(lái)。算法的具體步驟如下:

1)由專家指定各項(xiàng)業(yè)務(wù)的各個(gè)特點(diǎn)的典型實(shí)例作為初始族類Y={Y1,Y2,…,Yn};

2)任取x∈U,令X={x},如果r(X,Yi)<Δ1,則Yi=Y(jié)i∪{x},否則令Y={Y1,Y2,…,Yn)∪{Yn+1},其中Yn+1={x};

3)重復(fù)2),得Y={Y1,Y2,…,Yn,Yn+1,…,Yn+k};

4)?Yj={x1,x2,…,xl}∈Y,n+k≥j≥1,令j=1;

5)?xi1,xi2∈Yj,令Yn+k+1={xi1},如果δx2<Δ2,則令Yn+k+1=Y(jié)n+k+1∪{xi2};

6)重復(fù)5),直到Y(jié)j所有的向量處理完畢,刪除Yj;

7)重復(fù)4),5),直到j(luò)=n+k;

8)輸出Y中元素個(gè)數(shù)小于指定數(shù)量的類簇。

2 實(shí)驗(yàn)分析

實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)自泰安某保險(xiǎn)公司的客戶投保信息數(shù)據(jù)庫(kù)。投保信息分為12個(gè)大類,含73個(gè)子類,所有近3年的近1萬(wàn)多條記錄。由該公司理賠部專家指定73條業(yè)務(wù)記錄作初始族類,把每個(gè)子類的數(shù)據(jù)項(xiàng)劃分出無(wú)效因子、弱顯著性因子和顯著因子3部分,為每個(gè)子類指定Δ的值。采用的對(duì)比算法為欺詐識(shí)別聚類算法[8]和3-Sigma(3tr)統(tǒng)計(jì)檢測(cè)法。

下面分別給出3種算法得到的孤立點(diǎn)搜索結(jié)果見表1。

表1 文中算法、欺詐識(shí)別聚類算法和3-Sigma搜索孤立點(diǎn)對(duì)比表

其中,文中算法設(shè)置的閥值Δ1=0.083,Δ2=0.041,欺詐識(shí)別聚類算法的閥值為0.1(原文指出為最佳參數(shù))。

從實(shí)驗(yàn)可以看出,文中算法搜索到保險(xiǎn)欺詐數(shù)量比另兩種算法多,通過(guò)與該保險(xiǎn)公司合作對(duì)算法發(fā)現(xiàn)的部分保戶進(jìn)一步核實(shí),確實(shí)發(fā)現(xiàn)了其中部分保戶存在欺詐行為而沒(méi)有被發(fā)現(xiàn),文中算法的欺詐發(fā)現(xiàn)算法效果較好。

3種算法的執(zhí)行時(shí)間比較如圖1所示。

由圖1可知,當(dāng)數(shù)據(jù)量較小時(shí),文中算法在執(zhí)行時(shí)間上消耗較大,而當(dāng)數(shù)據(jù)量增大時(shí),3種算法逐步接近,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),3-Sigma算法的時(shí)間消耗遠(yuǎn)超其它兩種,而文中算法也快速接近欺詐識(shí)別聚類算法。

3 結(jié) 語(yǔ)

針對(duì)保險(xiǎn)業(yè)近年來(lái)不斷上升的欺詐行為進(jìn)行了深入研究,在前人研究的基礎(chǔ)上,推導(dǎo)出了基于粗糙集的模糊集合相似性度量公式以提高聚類效果,改進(jìn)了向量相似性判斷方法最大相異系數(shù),提高了算法執(zhí)行效率,文中提出了基于聚類算法的兩階段孤立點(diǎn)發(fā)現(xiàn)算法,并應(yīng)用到保險(xiǎn)企業(yè)欺詐發(fā)現(xiàn)問(wèn)題中,經(jīng)一定規(guī)模數(shù)據(jù)量的試驗(yàn)驗(yàn)證了文中算法的有效性和可行性,識(shí)別效果表現(xiàn)良好。文中算法的缺點(diǎn)是參數(shù)設(shè)定和聚類初始值是由專家指定,使之通用性受到很大影響,需要進(jìn)一步改進(jìn)。

[1]葉明華.我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析[J].華東經(jīng)濟(jì)管理,2010,24(2):84-86.

[2]陳亮.基于混合蛙跳算法的背包問(wèn)題求解算法[J].河南城建學(xué)院學(xué)報(bào),2011,20(3):41-44.

[3]趙麗霞.個(gè)體風(fēng)險(xiǎn)模型中總索賠分布函數(shù)的估值問(wèn)題[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(2):191-194.

[4]吳瑞,寧玉富,郭長(zhǎng)友.基于模糊粗糙近似的web瀏覽模式的聚類[J].系統(tǒng)工程學(xué)報(bào),2010,25(1):132-137.

[5]仲兆滿.基于相似度的粗糙集近似算子快速求解[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(1):251-252.

[6]張宇.向量相似度測(cè)度方法[J].火控雷達(dá)技術(shù),2009,28(4):78-81.

[7]葉明華.我國(guó)機(jī)動(dòng)車保險(xiǎn)欺詐識(shí)別的因子分析[J].華東經(jīng)濟(jì)管理,2010,24(2):84-86.

[8]Rekha Bhowmik.Detecting auto insurance fraud by data mining techniques[J].Journal of Emerging Trends in Computing and Information Sciences,2011,2(4):371-377.

主站蜘蛛池模板: 91国内在线视频| 婷婷色在线视频| 中文字幕人妻无码系列第三区| 五月天福利视频| 亚洲无码精彩视频在线观看| 91小视频版在线观看www| 亚洲日产2021三区在线| 国产黄在线免费观看| 欧美国产菊爆免费观看| 亚洲一区免费看| 亚洲免费毛片| 国产精品蜜臀| 国产精品亚洲天堂| 亚洲成在人线av品善网好看| 99在线视频免费观看| 91娇喘视频| 国产日韩精品一区在线不卡 | 成人福利免费在线观看| 久久亚洲综合伊人| 日韩在线视频网| 亚洲伦理一区二区| 97视频免费在线观看| 精品一区二区无码av| 国产成人高清精品免费| 亚洲精品免费网站| 国模极品一区二区三区| 欧美色图第一页| 欧美色亚洲| 精品国产美女福到在线不卡f| 国产麻豆91网在线看| 99久久精品国产综合婷婷| 国产精品偷伦视频免费观看国产| 日本高清免费不卡视频| 午夜福利无码一区二区| 国产va在线观看免费| 再看日本中文字幕在线观看| 99热免费在线| 亚洲日韩久久综合中文字幕| 国产视频a| 一区二区在线视频免费观看| 中文字幕啪啪| 国产中文一区二区苍井空| 欧美中文字幕无线码视频| 中美日韩在线网免费毛片视频| 欧美国产在线精品17p| 啪啪国产视频| 色香蕉影院| 亚洲综合婷婷激情| 亚洲精品成人7777在线观看| 亚洲第一色网站| 国产aaaaa一级毛片| 无码福利视频| 91成人在线免费视频| 婷婷六月综合网| 精品视频福利| 亚洲AV无码一区二区三区牲色| 国产无人区一区二区三区| 九色免费视频| 国产成人精品日本亚洲77美色| 国产成人av一区二区三区| 国产男女免费完整版视频| 一本久道久久综合多人| 无码人中文字幕| 欧美日韩在线第一页| 日本不卡在线视频| 国产精品男人的天堂| 亚洲国产成人久久77| 国产成人亚洲综合a∨婷婷| 99热这里只有精品久久免费| 欧美综合成人| 热99精品视频| 亚洲无码电影| 国产麻豆福利av在线播放| 欧美国产综合视频| 色婷婷综合激情视频免费看| 免费观看三级毛片| 国产精品嫩草影院视频| 亚洲av色吊丝无码| 亚洲成A人V欧美综合| 国产免费网址| 亚洲欧美一区二区三区麻豆| 日本免费高清一区|