周正聰
(太原學院財經系 山西 太原 030032)
現階段,人類已經進入了互聯網信息時代,大數據技術在各個領域被廣泛應用,改變了傳統的數據處理模式,提高了數據信息處理效率。大數據技術在云計算基礎上,借助信息存儲與數據共享以及數據挖掘,將海量多變的數據存儲在云計算中,通過分析和計算,可找到有效的問題解決方法。特別是對審計行業而言,由于新技術、新產業不斷涌現,信息系統也變得越來越復雜,審計數據統計工作數據量巨大且分析難度高,借助大數據技術開展審計數據統計工作勢在必行,大數據處理方法的應用從根本上提高了審計數據統計分析工作的整體效率。
大數據概念誕生于2009年,最初被用于經濟領域,隨后在其他領域逐漸普及。大數據技術主要是利用計算機技術對大量數據進行挖掘分析,去除無用數據,保留并使用有價值的數據。大數據技術在各行各業中的應用可以更快、更有效地歸納與整理海量數據,可以提煉數據的價值。與傳統數據相比,大數據具有3個方面的特點:(1)規模大:通常以TB來度量;(2)多樣性:涉及多種數據類型;(3)速度快:大數據處理數據的速度遠超過人類處理的上限,有著高速數據加工、分析、處理、存儲、深度數據挖掘以及可視化表示能力,創新了審計工作模式,保證了審計工作的準確性,基于大數據技術的內部審計新模型如圖1所示[1]。
大數據技術將對審計數據統計工作產生新影響,并對相關工作提出新要求,具體包括以下3方面:(1)在大數據環境中,數據之間的關系是復雜的,以往很難發現事物之間的因果關系,只有深入對數據值進行挖掘,不斷對數據進行梳理,才能弄清數據之間的關系,發現問題的真相。隨著互聯網時代的到來,數據量不斷增加,可以利用大數據技術分析數據價值,發現相關關系,保證數據統計分析的質量;(2)以往在處理較大樣本時,人們習慣于以抽樣的方式來分析,但抽樣技術是受到條件約束的結果,是一種在數據稀缺與可用性受到限制時不得不使用的方法。在大數據環境下,即使不通過抽樣分析,也可以獲取與處理整個事務的所有數據,借助于大數據分析技術,可以更深入地把握事物的未來趨勢,提高數據的及時性和使用性能,使統計人員能夠更全面地了解事物的真相;(3)大數據技術的應用使數據的統計分析效率顯著提高,部分數據的統計和分析強調效率而非強調其準確性,統計人員可以有效地利用大數據技術進行相關的數據統計,以確保有效完成統計工作[2-3]。
分布式數據處理系統(DDSMS)是一種能夠對數據進行分布式處理的系統,其結構圖見圖2,其有著較強的數據流處理能力,可大大縮短數據處理時間,提高響應速度。互聯網信息技術不斷發展,DDSMS也被廣泛應用于各大網絡平臺,如S4數據處理以及Puma數據處理等[4]。根據不同的環境和數據組合形式,DDSMS可以自動選擇合適的數據處理模式進行數據分析,具有實時性的特點。此外,該系統也具有很強的延展性,以往的審計數據統計分析工作中,若有一個點計算失誤,則會影響整個系統的準確性,影響了審計工作的進度,但DDSMS的應用可以有效解決這一問題,整個系統的容錯性得到加強,即使發生單個或多個節點的錯誤,系統仍能進行有效的審計數據統計分析,保障了審計工作的實效性[5]。
數據挖掘技術即使用數據生成模型,再使用數據檢驗模型。在信息化環境下,面對被審計單位海量數據,通過數據挖掘技術的應用,可以對數據進行綜合分析與處理,從而提高審計數據分析質量,在審計工作中不同的數據結構所使用的數據挖掘方法也不同,具體見圖3[6]。
數據挖掘技術在審計工作中的應用主要包括以下幾點。
(1)數據概化技術:數據概化技術壓縮了數據庫中的詳細數據,滿足了用戶對不同級別信息的需求,可用于審計數據統計分析中的描述式挖掘,審計人員可在不同角度與粒度級別描述數據集,以此來得到某種類型數據的大致情況。此外,還可采用數據概化技術挖掘審計數據庫中的數據,利用屬性相關性分析等方法對詳細財務數據進行較高層次的表列,從而得到財務報告的一般屬性描述,為審計人員判斷虛假財務報告提供依據[7]。
(2)聚類分析技術:該技術在審計數據統計分析中也非常有用,可以用來識別數據密集以及數據稀疏區域,找到審計數據分布規律以及數據之間的關系,進一步識別關鍵審計領域。聚類分析技術還可用于挖掘分析一些“孤立點”,在審計數據統計分析工作中,通常會對一些偏差嚴重、異常的數據進行重點檢查,采用聚類分析技術中的孤立點檢測算法能快速發現異常審計數據,從而檢查出有可能違反規章制度的行為[8-9]。
(3)利用大數據挖掘技術構建審計數據分析框架:利用大數據挖掘技術構建審計數據分析框架主要包括6個流程(見圖4),互聯網背景下,審計工作量劇增,在數據信息中挖掘有價值的數據,借助大數據挖掘技術分析數據間的內在規律,以此來預測企業潛在風險以及發展機遇,在一定程度上優化了審計管理模式[10]。
如圖4所示,利用大數據挖掘技術構建的審計數據分析框架的主要思路如下:①從確定數據源開始,需要注意的是數據源包括被審計單位的財務會計數據與非財務會計數據兩部分;②通過對數據分析與清理得到目標數據,即從數據源中提取對企業有價值的數據信息;③數據挖掘(包括數據加工與數據分析):結合大數據平臺的算法與模型分析處理篩選出來的審計數據,發現數據潛在的聯系,為企業防范風險奠定基礎;④數據可視化:可視化圖形可直觀顯示審計分析結果,直接觀察到審計數據與各種指標,便于審計人員理解[11]。
網絡爬蟲技術即通過具體的指令在登錄權限內自動跟蹤網頁,并查找相關信息的數據程序,其數據抓取的基本流程見圖5。
網絡爬蟲技術在數據統計分析工作中的應用思路如下:(1)鎖定目標網頁:首先,要利用網絡爬蟲技術設置程序指令,根據審計工作的需要確定其數據所在的網頁,利用聚焦網絡爬蟲技術對所需采集的數據進行初步篩選,并提交與信息篩選條件不相符的信息;(2)分析目標網頁:鎖定目標網頁后,審計師應劃分網頁結構,對網頁訪問的邏輯重點分析,以提高相關數據的獲取效率,可使用正則表達式與XPath路徑語言兩種模式對網頁結構信息進行過濾篩選;(3)抓取數據:可使用 python編程,搜索關鍵詞,然后通過顯示屏顯示結果,對獲得的地址中的網絡信息進行過濾,選擇軟件執行命令,最終保存結果;(4)數據存儲:一方面可利用csv、txt、json與其他形式收集的數據保存為文本文件,供后續審計工作使用,另一方面可通過前面的收集,利用數據庫存儲方法將數據捕獲到數據庫中;(5)分析數據:在通過上述程序獲得數據后,可使用SQL查詢與數據可視化等技術進一步分析、擴展與驗證數據[12-13]。
3S技術即RS(遙感技術)、GPS(定位技術)、GIS(地理信息系統),主要應用于工程建設與自然資源等特殊領域的審計數據統計分析。RS技術用于幫助審計人員以空間連續的方式存儲與更新來自廣泛對象的信息,可獲得詳細準確的參數數據;GPS技術可對目標物體的具體坐標進行定位;GIS技術可及時采集信息,處理相關技術,分析其深度,為審計工作提供數據基礎。
在審計數據統計分析工作中,GIS技術可用于對研究所需對比的數字化地圖進行疊加等空間分析操作,以此來得到不同時期或不同地區的不同地圖,并進行數據聚類分析,以獲得更多的審計線索,其在審計工作中的應用框架見圖6;遙感技術用于獲取審計項目建設情況的遙感圖像,通過與被審計單位提供的規劃圖進行對比分析,發現審計工作中存在的不合規建設等疑點;利用GIS技術可以保證審計跟蹤的及時性和準確性,審計人員可通過GIS技術的面積統計功能,獲取包括特定面積在內的非法用地的詳細信息,收集直接的審計證據[14]。
3S技術在審計數據統計分析工作中既可以單獨使用,也可以結合起來應用到同一審計工作中。首先可以使用RS技術獲取審查地區不同時期的遙感影像,并進行對比分析,從而找到變化位置與變化量,為審計工作提供線索;其次,便可使用GPS技術收集確定其位置信息,隨即審計人員根據位置信息前往被審計區域,以確認初步審計線索并形式審計證據;最后,在審計人員獲取審計證據后,利用GIS技術對審查地區進行面積數據統計與精確識別,生成異常情況的詳細信息,提供充分的審計證據[15]。
綜上所述,大數據技術的應用已成為審計數據統計分析工作創新發展的重要趨勢,明顯提高了審計數據統計分析工作質量與效率。本文簡要分析了大數據環境下分布式數據處理系統、數據挖掘技術、網絡爬蟲技術以及3S技術在審計數據統計分析工作中的具體應用,推動審計工作朝信息化、現代化方向發展。