張松 趙泊 徐佳
數據挖掘在公積金異常提取中的應用研究
張松1趙泊1徐佳2
大數據時代,數據挖掘方法已經被很多人熟悉和應用,此類模型算法也越來越多地應用在系統中。本文簡述了三種異常數據挖掘方法,探索在公積金提取業務中建立異常數據挖掘模型,尋找公積金異常提取業務,進一步探索公積金提取中的騙提、套取行為,以保護廣大繳存人的利益,保衛住房資金安全,維護住房公積金正常的管理秩序。
異常數據挖掘;提??;住房公積金;大數據
在大數據時代,數據挖掘“啤酒和尿布”的故事幾乎已經家喻戶曉,但數據挖掘還有一個專門方向——異常數據挖掘,又稱離群點分析或偏差檢測。人們在數據分析中,經常碰到少量數據,它與一般行為或模式不同,我們稱之為“異常數據”,異常數據不完全意味著錯誤或欺詐,但很可能預示著問題。異常的出現可能是體系本身背后隱藏的某種較強的未知力量作用的結果。通過識別、分析,往往能發現許多意想不到的新問題,新知識,從而幫助我們更深入地了解研究對象,發現問題,進而解決問題。
此外,關注異常數據本身往往非常有意義。異常數據挖掘可以發現信用卡的欺詐交易、股市的操控行為、會計信息的造假、洗錢、保險欺詐、違規交易等。此外,審計也需要經常對異常數據進行審查。
住房公積金是國家規定的住房社會保障制度,它由單位和職工共同繳存的長期住房儲金組成,是住房分配貨幣化的主要形式。其業務主要有歸集、提取、貸款發放和回收等。其中,提取業務涉及面廣,業務量大,自由度高,違規風險大。因而,在實際中有一些公積金套取、騙提情況發生,這不僅侵害了廣大公積金繳存人的利益,而且威脅住房資金的安全,也擾亂公積金的正常管理秩序。
本文探索使用異常數據挖掘方法,分析公積金的異常提取,找出提取業務中不易被監管者發現的違規提取。如:職業代辦人惡意套取、少量職工違規提取、個別政策漏洞、程序測試漏洞、經辦人操作失誤等。而監管者有必要對此類異常數據進行進一步調查,以發現造成異常的原因,從而堵住提取漏洞,防控風險。
Benford定律又稱首位數現象。它通過分析業務金額中首位、第二位數字出現概率的分布,來判斷提取業務中有無欺詐。我們將每一個管理部,每種提取原因的提取業務數據集作為研究對象。計算出每個研究對象第一、第二位數字出現概率與所有提取業務第一、第二位數字出現概率平均值的差異度,發現離群研究對象,找出差異值最大的前幾名作為異常提取風險的指引,有針對性的指導審查異常提取。
簡單地說,關聯規則就是找出兩個事物隱藏關系的數學方法。它通過定量化的數學模型,計算出X和Y共同發生的概率,以及X的出現對Y的出現有多大的影響。
在公積金提取業務中,為了方便廣大職工,規定可由他人代理職工提取公積金??梢哉f,該政策方便了廣大群眾,降低了群眾的提取成本。但是,也出現個別“職業代辦人”,即個別中介,代理不符合條件的職工違規提取公積金,并從中賺取手續費。
針對此類問題,可以使用關聯規則繪制出關聯關系圖,它可以找出提取業務數據中隱藏的關聯和關系網,挖掘出隱藏在數據間的異常關系。按照數據的關聯關系找到違規提取。具體的,我們可以通過繪制關聯關系圖找出哪些經辦人嫌疑最大,哪類提取業務異常提取的風險最大。
一般的,在法規政策、管理制度,大病患病率等條件穩定的前提下,每個季度,各類提取業務的提取數量和金額應該保持相對穩定,不應大起大落。如果某類“提取業務數量”、“提取業務總金額”某季度出現突然大幅度增加,那么,我們認為出現了異常。通過找出業務突增(業務數量、金額劇烈變化)的情況,預判提取業務的異常?;谶@個思路,一個時間段內各類提取、每季度提取總金額環比突增的前幾名可作為我們審計、風險和合規檢查的工作切入點。
應當注意,異常數據的深層原因是體系背后隱藏的某種較強的未知力量的作用,異常數據并不能百分之百的證明該筆提取業務或經辦人有違規或舞弊。只能說異常數據預示著該筆業務有較大異常的風險,因而可以作為監管、審計、風險工作的切入點和線索,輔助異常審查工作,進而提供一種有科學依據、可模型化、量化的方法輔助糾正工作偏差。
[1]安利平,張松,仝凌云.基于決策樹的OLAM及其應用研究[J].計算機工程與設計,2008(05).
[2]何京玉.新一輪競爭贏在模型[J].金融電子化,2010(09).
[3]王林,蘭紅等.招行的對手和未來[J].第一財經周刊,2011(43).
〔作者單位:1.天津市住房公積金管理中心,2.諾和諾德(天津)科技有限公司〕