999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用K—means聚類算法提高審計分析質量

2015-01-08 12:25:46郭紅建陳一飛
中國管理信息化 2015年1期
關鍵詞:數據挖掘

郭紅建+++陳一飛

[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。

[關鍵詞] 審計質量;數據挖掘;K-means 聚類

[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02

1 引 言

審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。

聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。

本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。

2 數據挖掘技術在審計數據分析中應用的步驟

數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。

審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。

審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。

模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。

3 K-means聚類算法提高審計分析質量

在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。

4 實驗分析

對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint

[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。

[關鍵詞] 審計質量;數據挖掘;K-means 聚類

[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02

1 引 言

審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。

聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。

本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。

2 數據挖掘技術在審計數據分析中應用的步驟

數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。

審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。

審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。

模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。

3 K-means聚類算法提高審計分析質量

在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。

4 實驗分析

對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint

[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。

[關鍵詞] 審計質量;數據挖掘;K-means 聚類

[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02

1 引 言

審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。

聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。

本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。

2 數據挖掘技術在審計數據分析中應用的步驟

數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。

審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。

審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。

模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。

3 K-means聚類算法提高審計分析質量

在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。

4 實驗分析

對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 久久久久久尹人网香蕉 | 国产微拍精品| 99久久精品国产精品亚洲| 福利片91| 午夜一级做a爰片久久毛片| 99精品在线看| 一区二区自拍| 国产亚洲欧美日韩在线一区| 亚洲码在线中文在线观看| 青青极品在线| 最新国产高清在线| 91精品专区国产盗摄| 高清无码不卡视频| 亚洲色图欧美在线| 九九热精品视频在线| 黄网站欧美内射| 亚洲激情99| 99精品视频九九精品| 亚洲第一中文字幕| 久久综合丝袜长腿丝袜| 国产乱人伦AV在线A| 免费日韩在线视频| 免费无遮挡AV| 成人综合在线观看| 91精品国产91欠久久久久| 色九九视频| a级毛片一区二区免费视频| 日本在线视频免费| 亚洲第一极品精品无码| av天堂最新版在线| 在线国产毛片| 亚洲精品男人天堂| 午夜高清国产拍精品| 国产精品粉嫩| 成人免费午夜视频| 精品久久久久久中文字幕女 | 国产精品亚洲日韩AⅤ在线观看| www.亚洲一区二区三区| 国产丝袜91| 亚洲天堂首页| 欧美视频免费一区二区三区| 91青青视频| 久久精品视频一| 手机精品视频在线观看免费| 日韩福利在线视频| 免费在线国产一区二区三区精品| 国产青青草视频| 色婷婷综合在线| 久久国产拍爱| 亚洲欧美激情小说另类| 午夜福利网址| 国产精品亚洲综合久久小说| 国产玖玖视频| 成人亚洲天堂| 中文字幕在线观看日本| 爱做久久久久久| a级毛片一区二区免费视频| 欧美日韩第二页| 久久精品无码中文字幕| 456亚洲人成高清在线| 亚洲区一区| 国产成+人+综合+亚洲欧美| av天堂最新版在线| 91精选国产大片| 欧美日韩一区二区三| 亚洲 日韩 激情 无码 中出| 国产福利免费视频| 国产成人a毛片在线| 免费99精品国产自在现线| 小13箩利洗澡无码视频免费网站| 国产毛片基地| 这里只有精品在线播放| 国产精品永久不卡免费视频| 欧美专区日韩专区| 一区二区三区精品视频在线观看| 亚洲成年人片| 日本色综合网| 国产精品极品美女自在线| 2021最新国产精品网站| 国产欧美视频综合二区| 日韩大乳视频中文字幕 | 无码一区18禁|