常遠 康娜娜
現行的風險導向審計模式下,審計人員以合理的職業懷疑為基礎,充分考慮被審計單位的經濟環境、治理結構、管理層誠信狀況等因素,對審計風險進行系統而充分的識別與評估,制定并執行與風險相適應的審計計劃,實施審計程序,搜集審計證據。然而,隨著信息化的普及與深入,審計人員常常需要面對大量的數據,按照傳統審計抽樣的要求,需要從總體中選取大量樣本,相當耗費精力,也未必一定獲得有價值的審計疑點。有鑒于此,本文試圖為尋找提高審計疑點發現效率的方法進行一些嘗試。
數據挖掘是從大量的、模糊的、有噪聲的、隨機的數據集中發現人們事先未知的、隱含的、規律性的、但又有潛在價值的、能為人們所知悉理解的知識和信息的過程(Michelline K,2004)。本文將在對分類與聚類方法進行對比的基礎上,著重關注與審計工作契合程度更高、不需訓練集構建模型的聚類方法,嘗試使用K-means聚類的方法測試A企業實際案例數據,探究該方法能否起到輔助發現審計疑點、提高效率的作用。
直觀上看,審計工作中查找審計疑點的過程類似數據挖掘中的離群點檢測范疇。數據挖掘概念上的“離群點”指顯著不同于其他對象,可能由不同的機制所產生的數據對象(Michelline K,2012)。離群點檢測方法可以基于分類,也可以基于聚類。目前,就財務范圍而言,關于幾種主要分類方法的應用均有一些成果。如貝葉斯網絡方法,王翠霞(2006)、朱慧明(2011)、熊濤(2013)、趙文平(2015)等使用A股市場的歷史公開數據進行試驗,分別確定了該方法可以在不苛求樣本分布形式的條件下,較為科學地得出財務、信用等風險預警結果,且結果具有較高的準確性。周達培(2014)構建了應收賬款風險預測的貝葉斯網絡模型,選取案例公司實際應收賬款樣本數據進行訓練與驗證,說明了該模型的確可以為決策提供參考依據。張強(2014)在明確我國商業銀行聲譽風險分布特征和風險損失情況的基礎上,構建了我國商業銀行聲譽風險評價指標體系,并據此利用貝葉斯網絡模型分析了我國四大國有銀行的聲譽風險權重情況,給出了對其聲譽風險影響顯著的因素。又如支持向量機方法,Jae 和yang(2006)應用支持向量機的方法研究銀行破產預警問題,經與其他模型的預測結果比較,證實了該方法的有效性。賀穎(2010)構建了偏最小二乘法-支持向量機舞弊識別模型,以A股市場公開信息為基礎進行試驗,確認該模型效果較好。隋學深(2014)構建了基于支持向量機的銀行貸款風險等級分類真實性審計二分類預測模型,經商業銀行實際生產數據驗證后確認模型正確率令人滿意。
關于將聚類方法用于審計工作中,學者們同樣進行了一些探索和嘗試。孫薇(2007)選取八個維度衡量審計人員面臨的審計風險,在虛擬案例中模擬專家打分為這些維度賦值,用模糊聚類的方法將被審計單位劃為幾類,據此評估承接審計業務面臨的風險。袁冬明(2013)使用多家信托企業的多項財務指標,驗證了聚類方法劃分出的三類與業內對各信托企業的認識基本一致。郭紅建(2015)將商業銀行的大量數據去噪后,用K-means聚類方法得到10家商業銀行信用風險狀態及對應的監管指標等級劃分,并經專家驗證劃分合理,提出K-means聚類算法可以提高審計分析質量。楊蘊毅(2015)基于“單次聚類結果中,可疑程度較低的疑點通常會被可疑程度更高的疑點所掩蓋,”提出采用迭代聚類的方法,將明顯的小簇(即疑點)篩除后,重復聚類,獲取更多信息,并使用上市公司的財務報告數據進行測試,將發現的可疑值與證監會等機構的查處信息比對,驗證了方法的可行性。劉?。?010)以某救災資金審計項目為載體,設計并編寫了基于密度聚類(DBSCAN)的孤立點發現程序,發現了一些孤立點,為審計人員提供了審計疑點。譚艷娜(2011)提出將基于密度聚類(DBSCAN)的核心對象判定融合到局部異常因子(LOF)算法中,重新定義了核心對象,將聚類算法和離群點算法有機結合起來,可以在快速聚類的同時檢測離群點,再以社保審計數據為基礎進行測試,的確在事先沒有具備審計政策法規知識以先驗知識的情況下,發現了若干社保數據中異于普通數據對象的數據疑點,驗證了算法的有效性。
綜合以上文獻,在廣義財務范圍內,分類方法的應用已取得了許多成果,但其特點決定了難以在審計工作中應用。一方面建立模型的過程首先就需要相當數量的已經完成分類的數據作為訓練集,而作為外部審計,對被審計單位數據了解有限,難以取得適當的訓練集,即使能夠取得,能否采信其分類結果亦存疑問。另一方面,即便取得了適當的訓練集,且經審計人員確認訓練集本身不存在重大錯報,建立模型的過程也對審計人員要求甚高,推廣方面有不少困難。
關于聚類算法的研究同樣取得了不少有意義的成果,該方法是一種無指導的學習,不需要事先建立訓練集訓練模型,可以為審計實踐提供指導。但是,上述成果中,所采用技術手段相當復雜,設計了全新的算法,對使用者的計算機水平和統計基礎有較高要求,且多是研究企業特點,超限超載、貸款風險等問題,與一般社會審計實務中查找單一企業內審計疑點的要求存在一定的差距。因此,本文嘗試從財務數據的角度,基于A公司實際數據,驗證聚類方法在審計工作中的效果。同時選擇開源、免費的工具,盡可能簡單靈活的方法,方便真正應用、推廣到實際審計工作中去。圖1給出了在審計工作中使用聚類算法的大致步驟。
1.案例背景
對A制造業企業進行年度審計的過程中,審計人員對該企業資產負債表日前后的銷售業務進行截止測試,檢查過程中發現12月29日的一些銷售業務沒有相應的購貨合同,且提貨單顯示有4000余箱產品在當天全部由購貨方提貨運走。根據貨物的尺寸估計,一天內提走如此大量貨物需要大量貨車,與審計期間觀察到的被審計單位內貨車出入頻率及數量不符,經追查確認,被審計單位為完成銷售指標,將該批產品另租倉庫保管,虛構銷售。

圖3 將預處理后的數據聚為5類作散點圖
傳統方法下,審計人員根據工作經驗,先驗地了解資產負債表日前后,被審計單位將銷售收入計入不正確的會計期間以調整各年收入與利潤,甚至直接虛構收入的風險較高,需要進行針對性測試,因此得以發現該審計疑點。而對很多其他業務,由于對被審計單位的了解程度相對較低,又缺乏一般的規律性經驗,按照傳統審計抽樣的要求,需要從總體中選取大量樣本,相當耗費精力,也未必能夠獲得有價值的審計疑點。本文試圖使用K-means聚類的方法,驗證該方法是否也能找到審計人員根據經驗找出的審計疑點,并探索是否還能發現其他審計疑點。
2.數據預處理
考察從被審計單位會計信息系統中獲取的銷售業務的賬務記錄,其中較有價值的字段包括入賬日期、憑證號、發票號、銷售網點代碼、商品代碼、數量、金額等??紤]到K-means聚類算法僅能處理數值型變量,無法將銷售網點代碼、商品代碼、入賬日期等信息作為分類變量進行處理,首先嘗試對所有數據進行聚類,結果如圖2。
從圖2中可以看出,該結果僅是對交易的規模作了劃分(有負數是因為存在銷售退回),未發現有意義的結果。且當數據量大到一定程度時,直接對該結果進行作圖操作對運行程序的計算機硬件也有更高的要求,一般個人電腦中無法進行可視化表達,且運行較慢,影響效率,有必要對數據進行進一步處理。
考慮到該被審計單位有多個銷售網點,銷售多種商品,使用R語言的dplyr包下的summarise函數,將入賬日期、銷售網點代碼、商品代碼作為分類變量,對數量和金額兩個字段進行分類匯總。如此,將記錄數大幅縮減至5200余條,以便進行下一步處理。
3.k-means聚類驗證
由于該數據挖掘方法幾乎不基于任何先驗知識,該過程中筆者嘗試將預處理后的數據聚為3、4、5、6、7類,分別觀察其結果。借助plot函數可以將聚類結果以散點圖的形式展示出來,方便審計人員更為直觀地把握所得各類的分布情況與整體數據規律。筆者發現,聚為5類時的結果較為合理,故取此結果進行進一步分析。
圖3顯示了將經過預處理的數據聚為5類,再作出散點圖的結果。圖中散點的位置表現了同一日期自同一銷售網點售出的同一種類商品的數量與金額合計。散點的形狀圓形、十字、三角形、菱形、叉號代表聚類計算的結果,每種形狀代表一類。從該圖中可以看出,絕大多數散點屬于其中兩類,標記為了十字與三角形,散點最密集的區域集中在數量0-1000附近,該區域散點較明顯地連成幾條主要的、有固定斜率的線,說明該企業銷售數種商品,且同種商品單價穩定,與實際情況相吻合。注意到該圖右上角,叉號表示的散點自成一類,經進一步查看,該點對應的入賬日期為12月29日,銷售網點代碼為11220,商品代碼為03,確認該單獨成類的點反映的即是案例中審計人員發現的虛假銷售記錄。

此外,圖中左下角還有一圓形的點,也是單獨被歸為一類,顯示某一天某一銷售網點發生了同一商品銷售退回1000余箱,與其他銷售退回業務有顯著差異。查看相應信息,發現該業務記錄于2月28日,所退回商品代碼也是03。該異常點是否說明該被審計單位在上一年度也曾采取虛構銷售,期后又做銷售退回處理,沖銷相應應收賬款與營業收入,若能在審計過程中發現,也應當作為審計疑點予以關注。
另外,圖中標記為菱形的一類,表現為金額顯著較大,數量也相對較大,經查詢這一類元素的對應信息,發現這五條記錄中,兩條產生于12月25日,一條產生于12月29日,也都是年底的大額銷售,同樣應當予以一定關注。
本文在總結現有文獻的基礎上,基于A公司的實際數據,選擇較為簡單的K-means聚類方法,驗證了聚類方法在審計工作中輔助查找審計疑點的效果。本文發現,K-means聚類方法的確可以發現傳統審計方法查找出的審計疑點。在本案例中,甚至發現了傳統方式下未曾關注到的疑點,表明該方法能夠幫助審計人員迅速發現審計疑點,從而有針對性地實施審計程序,提高審計效率。
值得注意的是,本文為考慮推廣的可行性和對審計人員的計算機水平要求,選擇了盡可能簡單的算法,使用了開源、免費、相對靈活的工具軟件,但K-means聚類算法本身效率存在一定優化空間,如何在算法效率與對操作人員的要求中取得平衡,是個值得深入研究的問題。
作者單位:上海國家會計學院
主要參考文獻
1.劉巍.基于聚類的孤立點發現技術研究及其在審計中的應用.中國海洋大學.2010
2.郭紅建,陳一飛.采用K-means聚類算法提高審計分析質量.中國管理信息化,2015(1)
3.楊蘊毅,孫中和,盧靖.基于迭代式聚類的審計疑點發現——以上市公司財報數據為例.審計研究.2015(4)
4.袁冬明.聚類分析和主因素分析法在審計中的應用.中國內部審計.2013(4)
5.譚艷娜.2011.面向審計領域的聚類離群點檢測研究.哈爾濱工程大學.2011
6.韓家煒, 范明,Michelline K,裴健.數據挖掘概念與技術(第3版).孟小峰.譯..機械工業出版社.2012
7.周達培.基于貝葉斯網絡的應收賬款風險預測研究.電子科技大學.2014
8.張強,胡敏.基于貝葉斯網絡的我國商業銀行聲譽風險度量研究.財經理論與實踐.2014(2)
9.Jae H.M.,Yang-Chan. Bankruptcy prediction using support vector machine with optimal choice of kernel function Parameters .Expert Systems with Applications,2006,28:603-614
10.隋學深,喬鵬,丁保利.基于支持向量機的貸款風險等級分類真實性審計研究.審計研究.2014(3)