999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于距離擴散的審計信息系統異常數據挖掘算法研究

2012-12-29 03:52:00符定紅
關鍵詞:數據挖掘方法

吳 亮,符定紅

(1.貴州師范大學經濟與管理學院,貴州貴陽,550001;2.貴州電網公司安順供電局,貴州安順,561000)

基于距離擴散的審計信息系統異常數據挖掘算法研究

吳 亮1,符定紅2

(1.貴州師范大學經濟與管理學院,貴州貴陽,550001;2.貴州電網公司安順供電局,貴州安順,561000)

信息系統已經成為企業經營管理活動的基本手段,從浩瀚的海量數據中搜索審計證據和審計線索,發現經營活動異常是審計工作的重要內容。在此通過對各類異常數據挖掘算法的分析和總結,對基于距離的方法進行擴展和改進,解決了審計數據挖掘中多維多類問題,并在電網企業審計實踐中進行了推廣應用。

數據挖掘;異常數據;審計信息;距離擴散

伴隨著經濟發展的信息化、網絡化和全球化進程,社會經濟活動中傳統的以手工操作處理信息方式已經被計算機信息技術取代。企業的核算模式基本依賴于計算機信息系統,審計作為經濟監督活動必須適應這種嶄新的變化。目前,信息系統審計面臨的問題是如何處理日益海量的數據信息,這些數據中包括財務數據、業務數據,以及信息系統相關的日志數據等[1]。要從海量的數據集合中發現規律和特點,挖掘審計線索,尋找經營異常,擴大審計成果,降低審計風險,是現代審計追求的目標,而數據挖掘技術是實現這一目標的金鑰匙。

現實中的人類社會活動,通常都按一般規律進行定義和評價,但是,我們更應該關注那些不平常現象或對象存在的依據和原因。比如,在企業經營活動中,大額資金流動的快速變化、企業盈利水平的驟然下降等都需要我們予以特別關注[2]。審計活動被稱為企業經營決策者的眼睛,就在于企業經營異常是決策者關注的焦點,因此,對經營管理活動中的異常進行深入的挖掘和研究就非常有必要。

一、異常數據及其常用數據挖掘方法

(一)異常數據及其來源

數據挖掘是利用計算機技術及軟件方法,從所獲得的大量不完全的、模糊的、有噪聲的、冗余隨機的數據中提取和發現隱含在其中的規律,尋找潛在的有用信息和知識的過程[3]。Hawkin認為異常就是不一般的數據,使人感到這些數據不是原系統的隨機偏差,而是由完全不同的機制產生[4]。Jiawei Han從技術角度將異常定義為:給定n個數據點或對象集,在預期的離群點數目k中,發現與其他數據顯著不同或異常的前n-k個對象。因此,異常的本質就是與正常數據存在顯著不同,并且個數相對于正常數據來說少很多的個體對象[5]。

通常,異常數據有三個主要來源:相異的類,自然變異和數據收集誤差。

1.相異的類。一個數據對象的異常可能來源于不同的類或對象。在審計中,經常要對一些異常變動數據進行分析,如供電成本的異常變動,平均售電單價的異常變動,資金、收入的異常變動,線損指標的異常變動,資金流量的異常變動,異常的交易情況(典型的如新加坡中國航油集團陳久霖案例)等。這類異常通常具有一定的代表性,是關注的重點對象。

2.自然變異。許多數據都是按正態規律分布,大部分靠近中心,而靠近兩邊的數據很少,比如在收入中,正常情況下主要是主營業務收入,而大額偶然一次性營業外收入就是來自于一個對象類中的異常,僅在某種對象下才出現的異常。

3.數據測量收集誤差。此類異常可能是設備測量問題而導致的不正確記錄。此類數據不提供被審計對象有價值的信息,我們一般刪除這類異常來提高數據和數據分析的質量。

(二)常用的異常數據挖掘算法

隨著海量數據不斷生成,發現其中所存在的異常數據日益困難。因此,異常數據挖掘算法研究成為了學者們討論的熱點,下面簡要介紹幾種常用的數據挖掘算法。

1.基于統計方法的數據挖掘算法。數據挖掘算法出現之前,一般都是通過剔除法尋找這些異常數據。近年來,一般是基于不同分布的異常檢驗方法,首先假設一個概率分布模型,然后在某個顯著性水平上確定拒絕域和接受域,如果數據落在拒絕域,則判斷為異常數據。基于統計的算法在20世紀80年代受到廣泛的關注,提出了許多有效的算法。目前,實際操作中主要有兩種簡單快速的異常檢測方法:3σ異常檢測方法和Z統計量法。統計方法具有堅實的數學基礎,且如果給定模型,其指導意義就比較大。但該方法通常針對單個屬性的,無法處理多維空間的異常點;而且實際情況中數據分布通常是未知的。

2.基于距離的方法的數據挖掘算法。這種方法主要是基于數據點距離的計算,有著明顯的幾何解釋,并且可以避免統計方法的某些局限性。它還可以用于多維數據樣本,而統計方法卻不行。基于距離的算法中使用最多的是DB(p,d)方法和k-近鄰方法。DB(p,d)的基于距離的異常是指那些沒有足夠多的鄰居的對象,是Knorr與Ng提出的一種基于距離的挖掘算法[6]。k-近鄰方法的基本思想是給每個對象找出其k個最近的鄰居,并計算該對象到這k個鄰居的最大距離,然后對所有對象進行距離排序,選取排序靠前的對象為異常點。

3.基于密度的數據挖掘算法。基于統計學和基于距離的異常數據方法都依賴于給定數據集的全局分布,然而,數據分布通常是未知的。所謂的基于密度的方法是指如果相對它的局部鄰域范圍,特別是關于鄰域密度,它是遠離的,那么稱為局部離群點。與前面的方法不同,它不將離群點看作是一個二元性質對象,而是評估一個對象作為離群點的程度。

4.其他算法。基于偏差的方法、基于深度的算法、決策樹方法都可被等各種方法應用于發現異常數據。

二、基于距離擴散的審計數據異常挖掘算法

基于距離的異常數據挖掘算法最由有Knorr和Ng提出的,其基本思想是將異常數據視為數據集中與大多數點之間的距離都大于某個閾值的點[6]。該算法的好處在于分析時不用知道數據總體分布情況,并且能處理任何維度的任意類型的數據。

在審計數據時,要求盡早發現異常(比如存在一些偏差很大或不一致的數據,例如異常資金轉移之類的違規操作),達到預警和減少損失的效果。被審計的信息,如交易、余額等審計信息存儲于ERP等信息系統中,審計人員需要首先導出數據到計算機分析數據表中,然后進行異常數據挖掘。但是,隨著企業信息化的全面推廣,獨立、分布、異構的數據庫在企業中并行使用,單一的基于距離異常數據挖掘算法難以發現被審計對象的數據異常,需要對算法進行改進。在此采用數據多維擴散方法改進了該算法,較好地解決了這一問題。

(一)基本算法描述

1.距離的量度

測量距離最常用的是絕對距離和歐式距離。絕對距離定義如下:

其中m代表數據對象的屬性數,xik代表第i個對象的k個屬性,下同。

而歐式距離的定義為:兩個個體k個變量值之差的平方和的平方根,數學表達式為:

其他還有切比雪夫距離、Block距離、明考斯基距離、夾角余弦距離等多種距離定義。

2.數據標準化

原始數據一般都會有自己的單位,如果不將數據標準化,將會對距離的計算結果產生影響。所以在計算之前,需要對數據進行標準化。

3.算法描述

如果數據集合S中獨享至少有P部分與對象O的距離大于d,則對象O是一個帶參數的P和d的基于給定距離的異常點,R[k]表示某個記錄的第一屬性值,假定O(1,2,…,n)按序排列,算法描述如下:

(二)基于單元的異常數據算法

基于單元的孤立點是將數據劃分為相同的單元格,按照單元格的坐標與數據對象之間的關系將數據對象映射到單元格中,以此來檢查異常點;對于難以用單元格的算法則可采用距離算法來解決。這里我們首先假設數據是二維的,然后往多維數據推導。

1.二維數據結構的性質

所謂的第一層鄰居就是與單元格Dxy相鄰的單元格,其數學定義為:

所謂的第二層鄰居就是包含兩個單元格的厚度,即:

綜上所述,我們推出以下定理:

(1)如果Dxy中的數目大于閾值,則該單元格不存在異常點。

(2)如果Dxy和Y1(Dxy)中的對象數目和大于閾值,那么該單元格不存在異常點。

(3)如果Dxy,Y1(Dxy)和Y2(Dxy)中的對象數目小于閾值,那么該單元格所有對象均為異常點。

2.數據劃分方法

我們將以下公式把對象(x )l,yl對應到Dxy中,

我們把滿足以下條件的Dxy算作邊界單元格:

3.經典的基于單元的異常點算法

最早提出基于單元的異常數據的算法的是Edwin M. Knorr and Raymond T.Ng提出的,該算法能夠檢測儲存在內部的存儲數據,能檢測所有的DB(p,D)異常點。具體算法在此不做介紹。

但該算法有一定的缺陷,即閾值和距離值是常量,而不是動態調整的,主要體現在以下兩方面:

首先,閾值不隨著單元格的位置不同而不同。我們可以從上面的分析看到,例如邊界單元格的第一層鄰居為3個或5個,而其他單元格為8個。如果我們采用單一的閾值,勢必會造成邊界處異常點的誤判。

其次,距離值也是一個固定值,一旦程序給定這個固定值后,只能一直用這個距離值來計算。但不同的用戶需要了解的尺度是不一樣的,需要有不同的距離值。而且如果比較不同距離值后產生的結果時,會對問題掌握得更透徹。

4.算法的調整

通過上面分析我們可以知道固定的閾值對判斷會產生影響,而導致影響的主要原因就是邊界單元格與非邊界單元格的鄰居差別。故對閾值的調整有效的方法就是判斷單元格是否是邊界單元格,這里提出了兩個函數來解決此問題:

其中Q代表閾值,函數 f1(x)是表示統計邊界第一層鄰居的個數。這個函數只能處理第一層鄰居。同樣的道理,我們對第二層閾值進行修訂:

(三)對經典單元異常挖掘算法的改進

從上面的分析中,我們發現經典單元異常挖掘算法存在不足,為適應審計信息系統的客觀要求,必須進行改進,并對閾值和距離進行數據處理,得到算法如下:

第一步:對距離值確定一個取值范圍;

第二步,對于數據空間進行劃分,并使每個單元格計數為0,即count=0;

第三步,將數據集的對象分配到相應的單元格Dxy中,并使每個Dxy中的計數+1,即:count+=1;

第四步:對于單元格Dxy,判斷其計數是否大于閾值Q,如果大于成立,那么將這個單元格標記為RED;

第五步,對于被標記為RED的單元格Dxy,如果其第一層鄰居Y1(Dxy)沒有被標記,那么將其設置為PINK;

第六步;對于既沒有被標記為RED,也沒有標記為PINK的Dxy,判斷是否是邊界單元格,如果是,利用函數f1(x)和 f2(x)來統計第一層鄰居和第二層鄰居的單元格個數;

第七步:對于既沒有被標記為RED,也沒有標記為PINK的Dxy,我們稱其為DN,并做以下步驟:

算法中從第二步到第七步(c)②都是以單元格來判斷異常點的,從而減少操作的復雜度;第七步(c)③是以對象為單位進行判斷,計算其與第二層鄰居對象的距離。

(四)從二維擴展到多維

第一層鄰居的定義為

我們假設τ為k維空間的第二層鄰居厚度,則第一層和第二層之間的厚度為τ+1,為了滿足二維空間的性質,必須使(τ+1)l>E,可以知道,第二層的鄰居定義

這樣我們就使得多維空間的性質與上面討論的二維空間的性質是一樣的。而閾值Q調整函數為和,其中 f(x)和 f(x)類似于二維的情況,12分別統計單元格Dx1...xk第一層和第二層鄰居的個數。這樣我們就將二維空間的算法擴展到了k-維,其算法的流程不需要任何改動,應用于審計數據挖掘這樣的多維數據是沒有問題的。

三、實驗及效果

(一)實驗環境及過程

為檢驗改進算法的實際效果,我們通過實驗進行了驗證,實驗數據來源于某電網企業2007-2010的財務信息、業務信息、系統日志等相關數據,數據屬性52項,實驗目標為檢測異常數據。硬件環境Pentium雙核2.1GHz,3.2G內存,硬盤160G,操作系統Windows xp,數據庫使用DB2,程序用 . net架構編寫。實驗過程先對數據進行清理(DTL),將中文、字母等轉換為統一編碼數值數據,在DB2環境下建立目標數據庫,然后利用文中所屬的算法進行挖掘,獲得實驗結果。

(二)實驗結論

第一,與原算法相比,新算法對不同數據量操作時間明顯減少,平均節省約3%。

第二,新算法獲取更多的異常數據點,在實踐中具有很強的指導意義,通過在某電網公司的實際應用中,為企業提供了多項舞弊行為的審計線索和審計證據。

第三,新算法對數據要求比較高,前期的數據收集、清理非常關鍵。

上文通過對基于距離的經典算法進行擴展,解決了審計對象的多類數據的應用需求,提出了適合于審計系統的異常數據挖掘算法。該算法能盡早發現異常,起到預警和減少損失的效果。同時,該算法也有較強的通用性,能夠廣泛應用在商務實踐活動的異常數據挖掘過程中。

[1] 張珍花,路正南.經濟異常數據的挖掘方法與處理研究[J].商業研究,2007(5):46-48.

[2] 文巨峰,姜玉泉,孫玉星.基于移動Agent的計算機審計系統模型研究[J].審計與經濟研究,2004,19(5):20-23.

[3] 陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006:24-38.

[4] Hawkins D.Identification of Outliers[M].London:Chapman and Hall,1980:21-30.

[5] Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2007:295-308.

[6] Edwin M.Knorr and Raymond T.Ng.Algorithms for mining dis?tance-based outliers in large database[C].Proceeding of the 24th VLDB conference,New York,USA,1998.

F239

A

[作者介紹]吳亮(1969-),男,博士,副教授,研究方向為商務智能、數據挖掘與財務信息管理。

猜你喜歡
數據挖掘方法
探討人工智能與數據挖掘發展趨勢
學習方法
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 一本色道久久88亚洲综合| 日本成人一区| 一本色道久久88| 77777亚洲午夜久久多人| 日日拍夜夜嗷嗷叫国产| 亚洲国产中文欧美在线人成大黄瓜| 国产视频一区二区在线观看| 国产精品刺激对白在线| 国产精品福利在线观看无码卡| 亚洲国产欧美目韩成人综合| 国产H片无码不卡在线视频| 日韩A级毛片一区二区三区| 日韩毛片基地| 日本AⅤ精品一区二区三区日| 亚洲精品免费网站| 青草免费在线观看| 亚洲人成网站18禁动漫无码| 精品三级网站| 91在线国内在线播放老师| 日韩大乳视频中文字幕 | 欧美人人干| 在线毛片免费| 国产97区一区二区三区无码| 日韩高清一区 | 国产电话自拍伊人| 日韩无码精品人妻| 在线国产三级| 亚洲国产精品无码AV| 超碰91免费人妻| 亚洲欧美不卡视频| 国产精品无码制服丝袜| 国产日本欧美亚洲精品视| 国产精品美女网站| 国产精品va免费视频| 男女性午夜福利网站| 91免费国产高清观看| 国产高清自拍视频| 国产综合网站| 久久情精品国产品免费| 成人免费一区二区三区| 国产精品无码作爱| 国产黄在线观看| 在线人成精品免费视频| 欧美激情一区二区三区成人| 久无码久无码av无码| 毛片免费高清免费| 国产精品久久久久久影院| 99色亚洲国产精品11p| 国产成人一区在线播放| 无码中字出轨中文人妻中文中| 欧美人人干| 玖玖精品视频在线观看| 国产女同自拍视频| 亚洲国产欧洲精品路线久久| 亚洲人成网站日本片| 午夜福利网址| 日韩在线第三页| 欧美精品成人一区二区视频一| 91小视频版在线观看www| 国产在线视频福利资源站| AV不卡国产在线观看| 国产女人爽到高潮的免费视频| 人妻无码一区二区视频| 免费国产高清精品一区在线| 国产欧美日韩另类| 久久精品人人做人人爽97| 亚洲国产日韩在线观看| 日韩精品一区二区三区免费| 亚洲成aⅴ人片在线影院八| 91久久偷偷做嫩草影院电| 婷婷五月在线| 亚洲性色永久网址| 伊人成人在线视频| 免费在线视频a| 国产成人免费观看在线视频| 国产性生大片免费观看性欧美| 嫩草国产在线| 成年网址网站在线观看| 国产一区三区二区中文在线| 午夜不卡视频| 欧美综合成人| 亚洲αv毛片|