周明杰+繆慧玲
[摘 要]在計算機技術發展過程中,海量的存儲及高效的計算機運算為實際工作提供了較強的技術支持。審計工作需要處理和分析海量的財務數據,利用計算機數據挖掘技術開展審計工作,能突破傳統方法的限制,并且提升工作效率。通過應用計算機數據挖掘技術的孤立點分析,構建相應的模型,能有效發現審計中的問題,對審計工作的順利開展具有重要意義。
[關鍵詞]孤立點分析;審計抽樣;大數據
doi:10.3969/j.issn.1673 - 0194.2017.12.022
[中圖分類號]F239.2;TP311.13 [文獻標識碼]A [文章編號]1673-0194(2017)12-00-02
在當前時代背景下,有效開展審計工作成為各行業發展的關鍵。通過實踐,相關技術研究人員發現應用數據挖掘技術的孤立點分析,可以極大提升數據分析能力,輔助審計工作中的專業判斷,并發現隱含問題,為審計工作提供必要的支持。
1 孤立點概述
所謂孤立點,指的是在運用計算機處理數據的過程中,出現的處于離散狀態的小規模數據對象,這一小部分數據對象與數據中的一般規律和趨勢具有顯著差異。在海量數據中,往往會出現一些與眾不同的數據,這些數據并不是由隨機偏差產生的,可能產生于完全不同的機制,所以在聚類分析中表現為不屬于任何的簇或者類,這些數據對象一般被叫做噪聲,在相應的孤立點分析中叫做孤立點。在審計領域,因為具體的模型和審查背景存在一定差異,所以對于孤立點的分析也會得出不同的結論。此外,蓄意操作、操作錯誤、整體數據偏差、系統和測量錯誤等都會導致孤立點的出現。因此,相關審計人員需要關注這些因素,并對深入分析相關情況產生的原因,從中篩選出價值較高的信息內容。
2 孤立點分析
孤立點分析,指的是利用數據分析方法和挖掘理論模型,發現數據在集中態勢下出現的異常值。在審計分析過程中,異常的頻率、事件和數據往往具有特殊的含義,且包含著重要信息,可以從中發現違規、違法行為的線索。
2.1 孤立點分析的步驟
孤立點分析方法大致包括兩個步驟。第一步:確定數據集合中變量的屬性,而后根據非財務數據和財務數據進行分類。接下來進行因子分析,從多個變量指標中選出具有一定代表性的綜合變量指標,而后達到數據降維的目的,是重要的多元統計方法。在分析過程中,使用解釋總方差可得到累計方差貢獻率,該指標的高低直接影響原始數據代表程度的高低,若影響程度較高,則相應的公共因子可信度就較高。計算輸出因子的荷載矩陣,能獲得原始數據的系數矩陣,相應的元素數據如果較高,那實際原始數據的解釋程度就比較理想,有利于對相應公共因子命名,并能獲得預期的數據指標。第二步:挖掘和檢測數據,如果數據中呈現出離散狀態的小規模數據,那么能發現孤立點。傳統方法主要應用密度、偏差、距離的特定方法來尋找相應的孤立點。此外,使用云計算技術,能應用比較復雜的運算方式來計算相應的計算資源。
2.2 孤立點分析的方法
第一,基于人工神經網絡模型的方法。在這種方法中,可以使用比較小的統計數據集,同時也可以采用比較大的專業數據集,所以檢測大小數據孤立點都能獲得良好的效果。但是,這種方式在檢測具有放射狀孤立點數據集時,實際效果不佳。
第二,基于偏離的分析方法。這種方式是根據數據對象的突出特征來進行分析和檢查,并找出其中的孤立點。在這種分析模式下,一般采用OLAP數據立方體技術及序列異常技術。前者需要把審計中的異常單元進行正確標注并且下鉆,這樣可以發現更深層次的問題。后者需要預先定義樣本集中的一般特征,并且把相應的偏離和具備這些特征的樣本區別開來,可以通過相關審計數據集的總方差來發現相異度函數。
第三,基于距離的分析方法。這種方法主要對相關數據域的數據內容進行相異度分析,并且清洗相應的審計數據,檢驗數據的有效性后,再根據相關審計內容特征,通過公式計算出符合大部分對象之間距離的相應閾值,同時把相應數據定義為孤立點。通過這種方法,可以解決基于統計方法的數據分布特征相關問題。
第四,基于密度的方式。這種方法主要使用數據對象的局部密度來檢測相應孤立點。如果相關數據對象的區域密度和臨近相關數據的密度的實際局部孤立點因子值較大,那么就可能屬于孤立點。這種方法在發現局部孤立點時具有良好的效果。
在實際審計中,在異常檢測及處理審計數據的過程中,需要進行孤立點分析。審計人員需要有效處理原始數據,并完成相應驗證、清洗及采集,確保數據滿足相應的建模要求,并且根據相關數據的特點來選擇合適的孤立點分析方法。
3 在大數據環境下應用孤立點分析的審計抽象方法
3.1 提出需求
在審計過程中,審計人員需要根據自己的洞察能力來分析相應的異常情況,并發現海量數據中的孤立點,而后和相關人員進行深度溝通,以全面了解審計需求。在明確審計需求時,涉及數據理解及業務理解的內容。所謂數據理解包括對業務流程及審計部門的理解,對原始數據的分析和收集,對數據的初步探索和檢測。業務理解包括數據挖掘目標、項目計劃,評估審計目標資料等,根據相關需求來進行假設。
3.2 演示相應的審計抽樣模型建構原理
第一步,明確需要審計數據的集合的變量屬性,實施因子分析。相應的背景是學校基建工程結算審計,需要全面調查學校在公寓建設方面的資金進出是否有效且合理,是否存在貪污公款、違規挪用的嚴重問題。第二步,發現相應的孤立點。筆者需要應用基于距離的孤立點分成方法,并應用K-means算法來尋找孤立點,這樣做的目的是發現與相應宿舍樓建設綜合情況差別較大的項目和影響因素,使用因子散點圖來探討實際原因。
3.3 實際案例分析
隨著高等院校招生規模不斷擴大,為確保學生的正常生活和學習,各高校都加強了自身的基礎設施建設。為了能夠有效、安全地使用相應資金,各高校需要聯合監察、紀委等部門進行結算審計,審計相應的學生公寓樓工程。因為時間安排及人員方面的限制,不能全面審計全部公寓樓工程,需要通過孤立點分析的方式來選取相應審計樣本。
第一步,需要掌握全部公寓樓的相關數據,包括電線電纜、排水管道、采暖管道、門窗工程、保溫隔熱屋面、屋面卷材防水、鋼筋工程量、整體混凝土體積、輔助面積、使用面積、相應的工程結算總價款及工程合同總價款,需要整合這些數據信息。由于篇幅的限制,本研究只分析工期時間、輔助面積、使用面積及建筑面積這四個變量,并根據相應數據分析相關因素對工程結算總價款及工程合同總價款的影響。在明確相應變量的屬性后,全面分析六個指標,并且得出解釋總方差,這樣可以得出累計方差貢獻率為90.975%。工程合同總價、工程結算總價款和建筑面積三個因子具有較強的可信度,所以需要使用這三個因子作為特定的公共因子。
第二步,使用K-means算法來進行聚類分析,這是為了尋找孤立點。在實際聚類分析中,全部的觀測數據可以分成四個種類,這四個種類中沒有缺失值,而且具有一定的有效性。分析結果表明,大部分數據間是互相有關聯的,主要分布區間在1、2、4簇中,只能看到第三簇的數據與其他數據嚴重偏離。第三簇中的三個觀測點占觀測點數量的4.5%,低于10%,所以這三個觀測點屬于孤立點。通過聚類分析的方式,能夠找到3個孤立點,但以3個孤立點作為審計范圍的標準并不科學,應經過多次數的迭代過程,這樣能確保數據集中相應的孤立點。與此同時,還需要聚類分析1、2、4簇中的觀測點。相應的步驟和文中相同,所以不再具體的描述。最后的步驟,需要總結分析四次的聚類分析,并且發現其中的全部19個孤立點,并且進行審計抽樣,而后根據散點圖進行全方位的審計。
3.4 判斷
檢測依據相關模型得出的最終數據挖掘結果,若檢測結果的異常情況在合理范圍內,那么審計人員可以根據自己的經驗判斷該結果是否達到標準;如果沒有到達相應水平,則可以不予處理。在建立基于孤立點分析的審計數據模型時,需要深入了解相關數據內容,并且合理把握孤立點算法和審計需求的融合程度,而后構建統一標準。在這個過程中,只有持續地進行反饋和論證,才能確保方案和挖掘模型的實用性及針對性。通過建立準確的模型,發掘數據,假設相應的孤立點,而后發現反常及特殊的孤立點,通過查閱資料或者進一步追蹤,就能發現問題所在,并且發現不規范和舞弊行為,提升審計的實效性。
4 結 語
大數據為審計帶來了新的機遇和挑戰,利用相應的非財務數據能快速得出需要的信息,并且有利于提升審計的有效性。本文利用孤立點分析對策構建了相應的模型,并且通過針對性分析,達到降低審計成本、提升審計效率、降低審計風險的目的,具有較強的應用價值。
主要參考文獻
[1]朱政,劉侃.孤立點分析在稅務審計上的發展運用[J].硅谷,2012(19).
[2]陳麗娜.孤立點挖掘研究[J].內江科技,2009(3).
[3]王越,劉亞輝,徐傳運.孤立點用戶意義分析在質量管理中的應用[J].計算機應用,2009(11).
[4]賈晨科,邱保志.基于局部孤立系數的孤立點挖掘[J].微計算機信息,2005(26).
[5]高恩陽,劉偉軍,王天然.一種基于線性規劃的孤立點檢測方法[J].控制工程,2013(6).