[摘要] 舞弊性財務報告的識別一直是會計學界的一大困擾,而當今信息環境下激增的數據使之更加困難。基于此本文試圖將能夠處理海量信息的數據挖掘技術應用于舞弊性財務報告的識別,對應用的必要性、可行性、技術優勢等加以分析,以期提高識別的效率和效果。
[關鍵詞] 數據挖掘 舞弊性財務報告 識別
一、問題的提出
自從財務報告作為傳遞經濟信息的媒介以來,舞弊就與之形影相隨,盡管各國監管機構等相關部門多次出臺各種政策、不斷完善會計及審計準則,財務報告舞弊仍屢禁不止。因此,最有效的治理財務報告舞弊的方法就是提高各方的識別能力。但是,識別虛假財務報告是一個很專業、很復雜的問題,不僅要從大量的公司年報、中報等財務數據中提取信息,還要從企業本身的組織結構特征、行業特征、經營決策特征等相關非財務信息中尋找線索,僅僅根據審計人員的知識和經驗,其識別效果和效率都不夠理想。數據挖掘技術作為一種決策支持技術,能夠從大量的、不完全的、模糊的、隨機的實際數據中,挖掘出隱含在其中的、有用的信息和知識,幫助財務報告的關注各方提高識別舞弊的質量和效率。在當今信息時代背景下,隨著數據挖掘算法的不斷改進、應用領域的不斷拓展,將其應用到舞弊財務報告的識別中既有可能也有必要。
二、運用數據挖掘技術的必要性
隨著數據庫技術的迅速發展及數據管理系統的廣泛應用,大部分企業已經引入人工智能對企業的交易活動、經營狀況及整個市場的相關行業狀況等進行記錄,因此企業積累的數據越來越多,形成了包含大量財務數據乃至各方面經營管理信息的數據庫。激增的數據背后隱藏的許多重要信息為人們識別財務報告舞弊提供了更大范圍的數據支持,但同時也帶來了一些問題:一是數據過量,難以及時發現有用信息;二是數據形式不一致,難以統一處理;三是數據是不斷發展的,識別舞弊的經驗相對于數據往往是滯后的,這種不同步性給舞弊識別帶來了巨大的潛在風險,KPMG(1998)調查發現超過三分之一的舞弊事件是在偶然的情況下被發現的,只有4%的舞弊事件是由獨立審計人員發現的;四是傳統的數據分析方法無法處理龐大的數據庫系統,技術工具的落后性勢必影響舞弊識別的廣度和深度;五是新的數據處理技術為舞弊提供了越發隱蔽的新手段,電子化和網絡化的數據環境也使得舞弊隱藏的更深,使識別難以下手。
數據挖掘技術就是針對日益龐大的電子數據應運而生的一種新型信息處理技術。它一般采取排出人為因素而通過自動的方式來發現數據中新的、隱藏的或不可預見的模式的活動。這些模式指隱藏在大型數據庫、數據倉庫或其他大量信息存儲中的知識。它是在對數據集全面而深刻認識的基礎上,對數據內在和本質的高度抽象與概括,也是對數據從理性認識到感性認識的升華。所以把數據挖掘技術應用于舞弊財務報告的識別很有必要也非常緊迫。
三、運用數據挖掘技術的可行性
數據挖掘是一些功能強大的數據分析技術的集合,這些技術用于幫助我們分析極其巨大的數據集。經過正確地應用,數據挖掘可以揭示出埋藏在企業數據庫中的隱藏關系和信息。盡管數據挖掘看上去像是出現不久,但其實對這種方法的研究和實踐已有很長時間了,早在20世紀60年代早期,數據挖掘被稱為統計分析,在這段時間內產生了一些飽受贊譽的古典統計例程,如相關和回歸。20世紀80年代后期,一些更強大的技術(如模糊邏輯、啟發式推理和神經網絡)加入到古典統計分析中來,這段時期是人工智能的全盛時期,數據挖掘的研究取得了長足的進展并被應用于各個領域,包括經濟管理、金融、保險等。
在會計領域利用數據挖掘技術識別虛假財務報告的研究目的是確定數據挖掘的方法論,建立相應的規則和算法。具體而言,需要運用數據挖掘技術整合上市公司財務數據、經營管理、證券市場交易及宏觀經濟環境等多方面的非財務信息,然后在大量數據模擬和試驗的基礎上,給出識別各種類型的財務造假模式的數據挖掘解決方案、規則、算法等。在確定規則時,我們可以利用專家系統,將經驗豐富的專家智囊輸入計算機,構建知識數據庫,從而產生一定的規則名。數據挖掘技術可以處理大量的復雜關聯數據,可以將在會計人員眼中不顯著的虛假財務報告與自然形成財務報告之間的內在差異放大到存在某種數據結構和統計顯著性差異,在一定程度上提高了舞弊性財務報告的識別效率和效果。
四、運用數據挖掘技術的優勢
與正常的財務報告相比,舞弊性的財務報告具有某種結構上的特征,這些特征可以通過數據形式表現出來,也可以通過文本信息等非財務數據形式表現出來,但是傳統的技術分析方法在量化非財務數據時有很大困難,導致一些重要的信息被忽略,而數據挖掘的對象不僅是數據庫,也可以是文件系統,或其他任何數據集合,提高了信息的利用率。
傳統的技術分析方法往往是單一的技術,而數據挖掘是一種集成的技術,融合了三個學科的技術,即數理統計、人工智能和計算機,使它具有單一技術所無法比擬的優勢。傳統的技術方法多是先從經濟含義上去構造指標或者是構造模型,然后再代入數據得出結果,這是從一般到特殊的演繹過程,需要許多前提假設并且受諸多主觀因素的影響。數據挖掘是用數據來產生模型,再用數據去檢驗模型,模型的構造是從特殊到一般的歸納過程,這就擺脫了前提假設的束縛和主觀因素的干擾,其結果更加真實、客觀。對于質量上存在缺陷的數據,傳統的技術分析方法往往一籌莫展,而數據挖掘技術由于包含數據的預處理過程,而能夠將有缺陷的數據補全、清洗、消聲和歸納,從而提高了數據的可用性和可靠性。數據挖掘技術能夠將數據從執行系統中篩選出來,減少冗余,完成一系列的轉換、結構改變以及聚集處理,從龐大的信息流中分辨、析取、整理、挖掘出對識別舞弊財務報告有用的信息,減少信息噪音的影響,為識別舞弊性財務報告提供科學的依據。
五、數據挖掘技術在識別舞弊中的應用過程模型
如何把數據挖掘技術有效的應用到舞弊的識別過程中是首先要解決的問題。美國SAS研究所總結了數據挖掘的一套行之有效的方法(SEMMA),斯坦福大學的約翰1997年在其博士論文中也給出了一種數據挖掘處理模型,該模型強調由領域專家和數據挖掘人員共同參與數據挖掘的全過程、及時溝通。本文根據上述思路,給出了數據挖掘在舞弊識別中應用的處理過程模型。
數據挖掘在舞弊識別中的應用模型
①數據取樣(Sample)。會計領域專家根據積累的經驗從數據庫中提煉出與舞弊識別相關的樣本數據子集,而不是動用全部企業數據,這樣可以減少數據處理量,節省系統資源;②數據探索(Explore)、③數據調整(Modify)。數據挖掘人員通過與專家的溝通,對所提煉數據進一步理解,在此基礎上對其進行逐步分類、篩選,按照對整個數據挖掘過程的認識組合或生成新的變量,以體現對狀態的有效描述;④模型的選擇和建立(Model)。數據挖掘人員建立挖掘模型,會計專家通過與數據挖掘人員的溝通來了解模型并加以確認;⑤模型的綜合分析與評價(Assess)。會計領域專家在理解挖掘模型的基礎上,對模型的識別效果進行分析評價。在整個應用過程模型中專家與數據挖掘人員之間的溝通是很重要的,會計領域專家向數據挖掘人員提出和解釋需求,數據挖掘人員據此構建識別模型并與專家分析評價模型的識別效果,以此循環反復,直至制定出有效的挖掘方案。
六、結束語
識別舞弊性財務報告需要從大量相關信息中尋找線索,建立一個基于數據挖掘技術的舞弊財務報告識別流程,充分利用經驗豐富的專家智囊及數據挖掘的技術優勢,提高舞弊財務報告的識別效率和效果,盡量降低其給利益相關者造成的損失。
參考文獻:
[1]曲吉林:數據挖掘在財務領域中的應用[J].山東財政學院學報,2006,(1):14~17
[2]徐錫意盛國輝:數據挖掘在審計中的應用[J].審計理論與實踐,2003,(8):20~21
[3]朱建平張潤楚:數據挖掘的發展及其特點[J].統計與決策,2002,(7):71~72
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。