郭紅建+++陳一飛
[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。
[關鍵詞] 審計質量;數據挖掘;K-means 聚類
[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02
1 引 言
審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。
聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。
本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。
2 數據挖掘技術在審計數據分析中應用的步驟
數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。
審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。
審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。
模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。
3 K-means聚類算法提高審計分析質量
在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。
4 實驗分析
對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint
[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。
[關鍵詞] 審計質量;數據挖掘;K-means 聚類
[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02
1 引 言
審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。
聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。
本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。
2 數據挖掘技術在審計數據分析中應用的步驟
數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。
審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。
審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。
模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。
3 K-means聚類算法提高審計分析質量
在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。
4 實驗分析
對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint
[摘 要] 本文分析了數據挖掘技術在審計數據分析中應用的步驟:數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善。提出采用K-means聚類算法提高審計分析質量,并以筆者曾經參與的商業銀行審計項目為案例進行分析,驗證了本文算法的有效性。
[關鍵詞] 審計質量;數據挖掘;K-means 聚類
[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2015)01- 0009- 02
1 引 言
審計數據分析有3種方法:結合審計專家經驗并采用常規審計分析技術進行審計,利用審計數據分析模型進行審計,采用數據挖掘技術進行審計數據分析。采用審計數據分析模型和數據挖掘技術進行審計數據分析的應用越來越多。數據挖掘技術是一種新型數據分析和處理技術,它通過數據分析和關聯技術來發現數據集合中隱藏的或不可預見的規則模式或數據關聯。聚類算法是數據挖掘的一個重要方法,它的應用非常廣泛。例如在審計數據分析時,審計人員運用查詢、驗證、挖掘等方式進行數據的觀察和分析,從而達到把握總體、突出重點、精確延伸的審計目標。以海量數據為基礎的深層次數據分析方式支持審計人員從不同的角度,靈活快捷地對被審計單位的電子數據進行挖掘,并以直觀易懂的形式展示分析結果。
聚類算法有很多種,常用的有基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于劃分的聚類算法和基于模型的聚類算法,如DBSCAN[1]聚類算法、OPTICS[2]聚類算法、STING[3]聚類算法和WaveCluster[4]聚類算法。趙慧[5]等人針對基于網格方法的聚類算法進行專門研究,比較分析了傳統的和改進的基于網格方法的聚類算法。吳文麗[6]等人通過分析螞蟻聚類算法和K-平均算法兩種不同聚類算法的基本思想,將兩種算法結合得到混合聚類算法,混合聚類算法的算法性能優于螞蟻算法和K-平均算法。王曉飛[7]等人提出了一種改進的K-均值聚類算法并將其應用于腦實質分割,由SOM神經網絡對圖像進行初始聚類,得到k個聚類中心值,然后以SOM神經網絡獲得的k個聚類中心值作為K-均值聚類算法的初始聚類中心對圖像進行k-均值聚類,最終獲得圖像的聚類分割結果。
本文第二部分是數據挖掘技術在審計數據分析中應用的步驟,第三部分是改進K-means聚類算法提高審計分析質量, 第四部分是實驗分析。
2 數據挖掘技術在審計數據分析中應用的步驟
數據挖掘技術在審計數據分析中應用的步驟可以分為數據的采集,數據的預處理,模型建立與調整,發現異常數據,處理并完善[8]。
審計數據采集是指根據審計目標,利用一定的技術和工具軟件對被審計單位中的被審計數據進行采集的過程,該步驟是數據挖掘技術在審計方面應用的基礎。審計數據的采集需要滿足兩個條件:其一是采集的原始數據要符合審計模型的要求;其二是通過查看數據日志充分了解被審計單位的信息系統及其工作流程。在數據采集前,審計人員應結合本次審計工作方案中的審計目的、范圍、內容及重點,以及審計開始前調查了解到的被審計單位數據的組織形式,確定本次數據采集的范圍、內容及重點。
審計數據的預處理步驟是數據挖掘的準備階段,該步驟包括數據清理、數據選擇和數據轉換。數據采集成功后,審計人員需要對采集到的數據進行初步清理,刪除冗余和明顯錯誤的數據,可以采用的方法有兩類:一是通過技術性驗證,比如核對總記錄數是否正確;二是進行業務性驗證,比如檢查借貸是否平衡,查看順序碼是否有斷號或重號,以及分析各明細科目年末總余額和相應總賬科目余額是否一致等,便于對噪聲數據進行平滑處理,為進一步的審計數據分析作準備。在數據選擇和數據轉換階段,審計人員需要根據數據挖掘的任務從數據庫中選擇性地提取即將進行數據挖掘的數據,并根據數據挖掘算法的要求進行數據格式轉換或預處理,同時要剔除數據結構中的干擾項目,使該數據集合能更直接地反映業務情況,這也是為了提高數據挖掘的準確性。
模型建立與調整階段是數據挖掘過程的核心步驟。針對已經準備好的被審數據,審計人員需要按照審計任務的所屬類別,結合被審計單位的不同行業背景和業務類型,以及數據模式,運用關聯規則發現、序列模式挖掘等不同數據挖掘技術,挖掘被審計數據中隱含的規律,確定即將應用的數據挖掘方法或模型并加以實現。在數據挖掘模型建立的過程中,還可以利用圖表、分類矩陣和利潤圖等輔助分析工具。數據分類模型可以生成一個提升圖,數據估計模型可以生成一個散點圖。建立數據挖掘分析模型的目的是將該模型應用于對審計數據的分析,審計人員要根據這些特征對被審計單位數據進行總體評價,判斷和比較審計數據在真實性、準確性、一致性等方面的質量情況。對于挖掘算法得到的數據質量不合格問題,審計人員需要根據具體情況逐一進行分析,判斷該問題是否屬于數據質量問題,而且還要確定這個問題是否可以糾正,對于可糾正的數據質量問題,需要及時采取相關糾正措施進行糾正,例如提請被審計單位管理人員改正數據等。對于重新獲取的審計分析數據,審計人員還要采用關系模型和業務規則再次核對,如果數據已經完善則可以停止了。
3 K-means聚類算法提高審計分析質量
在審計數據分析的實踐中,通常采用聚類算法對被審計單位的財務數據以及業務數據進行分組。通常說來,被審計單位的財務數據及重要業務數據的分布具有一定規律。如果某些數據經過聚類算法處理后處于稀疏區域,則可以說明該數據表現異常,相關人員需要關注。通過分析該區域其他記錄的特征,能夠發現審計人員需要查證的問題所具有的特征。例如對于銀行的信貸業務進行審計時,可以對各種信貸業務進行聚類,劃分為低風險、中風險、高風險三類,并且可以細分為不同的風險等級。采用聚類算法,我們把分好的類別與被審計單位往年數據進行比較, 從而分析出被審計單位數據的真實性與準確性。
4 實驗分析
對聚類算法進行效果評測并不容易,通常用來評測聚類算法效果的指標包括召回率、準確率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]這5個指標。本文以筆者曾經參與的商業銀行審計項目為案例進行分析,表1是商業銀行信用風險監管指標體系。在審計過程中,筆者充分利用K-means聚類算法進行審計分析,將商業銀行的大量數據進行去噪、聚類、分析、驗證,得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,如表2所示。endprint