□文/張春鈺 楊穎紅
(沈陽化工大學經濟與管理學院 遼寧·沈陽)
[提要]當前大數(shù)據技術不斷滲透到審計領域中,使得傳統(tǒng)審計手段面臨轉變。為了更好的了解大數(shù)據審計研究現(xiàn)狀以及發(fā)現(xiàn)存在的不足之處,本文通過對近年來關于大數(shù)據審計的文獻進行梳理,指出大數(shù)據審計對傳統(tǒng)審計產生的多方面影響;總結學者們提出較多的大數(shù)據審計流程框架,同時對數(shù)據采集、存儲、分析三方面的技術方法進行概括;并針對現(xiàn)有研究文獻做出總結。
隨著我國社會與經濟的不斷發(fā)展,各行各業(yè)的信息量呈井噴式的增長,這給傳統(tǒng)審計工作帶來了極大的挑戰(zhàn),采用更強大的技術手段來提高審計工作效率十分必要,2016年劉家義明確地提出了“要運用大數(shù)據,創(chuàng)新審計技術方法。”關于大數(shù)據審計的含義,陳偉、居江寧(2017)認為大數(shù)據審計可分為大數(shù)據背景下的電子數(shù)據審計和信息系統(tǒng)審計兩方面內容,而對于注冊會計師行業(yè)來說,其工作重心更多在于對數(shù)據進行審計,Deniz Appelbaum等(2017)提出在大數(shù)據技術不斷滲透到各領域的今天,會計師事務所想要保持競爭力同時滿足客戶的需求,注冊會計師行業(yè)需要走向大數(shù)據。本文通過對近年來關于大數(shù)據審計的文獻進行總結,概括了現(xiàn)階段大數(shù)據技術對審計產生的影響、審計數(shù)據的采集方法、數(shù)據存儲方法、數(shù)據分析挖掘方法,以及大數(shù)據審計面臨的風險,并總結出面對不同的審計業(yè)務,大數(shù)據審計的工作流程需要進行有針對性的優(yōu)化的結論。
(一)大數(shù)據對審計抽樣的影響。目前,注冊會計師在審計工作中頻繁運用到審計抽樣,但這種方法存在不可避免的抽樣風險,無論是在控制測試工作還是在細節(jié)測試工作中這種風險會導致注冊會計師發(fā)表不恰當?shù)膶徲嬕庖娨嗷蚴墙档蛯徲嬓省G貥s生(2014)認為利用大數(shù)據相關技術可以對審計所需的數(shù)據進行跨行業(yè)、跨企業(yè)式的收集與分析,不再采用傳統(tǒng)隨機抽樣模式,轉而使用收集和分析被審計單位全部數(shù)據的總體審計模式;顧洪菲(2015)認為在總體審計模式下運用數(shù)據分析,能夠消除抽樣風險使審計結果更加準確,同時數(shù)據無需預處理進一步保持數(shù)據原本特征,從而讓數(shù)據分析更全面、更真實;張敏(2020)提出隨著大數(shù)據、人工智能等技術的不斷發(fā)展,抽樣審計重新回歸詳細審計的可能性大大提高,并且風險評估、內控測試通過機器學習更易實現(xiàn)智能化。
從相關文獻中可以了解到,利用大數(shù)據技術對審計對象的總體進行審計能夠消除抽樣風險,同時利用大數(shù)據分析能更加全面的找出審計疑點,這顯著地提升了審計工作的質量。
(二)大數(shù)據技術對審計取證的影響。審計人員在取證過程中受制于審計證據來源的廣泛性、多樣性,審計證據的充分性與適當性的要求,使得審計取證面臨效率低、周期長的問題,同時,成本效益原則又要求審計工作在人員與時間的配置上進行良好的控制,這些問題通常使得審計人員極大地依賴自身的職業(yè)判斷,從而導致審計證據的質量良莠不齊。魯清仿、梁子慧(2015)認為大數(shù)據技術運用到審計工作中顛覆了傳統(tǒng)審計取證的思維,使得審計人員能夠采集更多的信息,進一步使審計證據更充分、更適當,減少依賴注冊會計師職業(yè)判斷,降低了審計風險。Helen Brown-Liburd、Miklos A.Vasarhelyi(2015)提出在大數(shù)據技術下審計證據的充分性不再是主要問題,而如何及時獲取審計證據并利用數(shù)據分析工具有效地分析和解釋數(shù)據將是工作重點。陽杰、應里孟(2017)提出在審計中使用大數(shù)據手段深度搜查審計數(shù)據,對以往的審計證據作出補充,其在充分性、可靠性兩點上更加優(yōu)于傳統(tǒng)審計證據。鄭石橋(2020)認為大數(shù)據時代下審計載體發(fā)生了改變,審計證據載體更加電子化,這影響了審計取證,傳統(tǒng)取證思路是風險評估和風險應對,而大數(shù)據審計則變?yōu)椤皵?shù)據采集”、“數(shù)據分析”和“疑點核實”。
學者大多認為依靠大數(shù)據技術獲取的信息與以往相比無論從數(shù)量還是維度都更加豐富,從邏輯上看,在與被審計單位的內部信息結合后,審計證據的相關性、充分性都有所增強。
(三)大數(shù)據技術對事后審計的影響。以往的審計模式可以稱之為事后審計,而這種審計模式的弊端在于其時效性較差,即問題的發(fā)生與發(fā)現(xiàn)時間間隔較長也會給被審計單位造成較大的損失。Paul Byrnes等(2014)認為從企業(yè)的角度出發(fā),如果其依靠XBRL技術便可以頻繁、連續(xù)的在線編制財務報告,而不像以往那樣每年發(fā)布一次,那么在大數(shù)據背景下審計人員很可能接近實時審計或者至少在一定期間內頻繁的監(jiān)視和審計一個實體。黃舒(2017)認為隨著大數(shù)據技術的發(fā)展和使用,審計的實時處理和快速決斷將變得可能。審計人員運用數(shù)據分析平臺能夠實時監(jiān)控并更可能發(fā)現(xiàn)企業(yè)的錯誤和舞弊行為,從而及時糾正問題,提高審計工作的質量。秦榮生(2019)認為非現(xiàn)場實時審計是一種新的方法,該方法通過互聯(lián)網與被審計單位的內部系統(tǒng)實施連接,實現(xiàn)非現(xiàn)場實時監(jiān)控,提高審計工作的及時性與效率,是現(xiàn)代審計發(fā)展的新方向。
非現(xiàn)場實時審計將會是今后審計方式演變的重要方向,現(xiàn)階段,關于實時審計的文獻已經為實踐提供了可參考的路徑和可行的技術方法,同時涉及到具體業(yè)務時也還需進一步探索和靈活轉變。
傳統(tǒng)審計工作流程總體為接受業(yè)務、計劃審計工作、識別評估重大錯報風險、應對風險、出具審計報告,但在大數(shù)據審計下這一流程將發(fā)生改變。
陳偉、Smieliauskas Wally(2016)將大數(shù)據電子數(shù)據審計原理分成四大步驟:數(shù)據集成、數(shù)據存儲與管理、數(shù)據分析、可視化展示。(圖1)

圖1 大數(shù)據電子數(shù)據審計流程圖
劉國城、陳正升(2019)認為大數(shù)據審計的總體流程包括了數(shù)據的采集、處理、取證、可視化呈現(xiàn)四項基本流程。(圖2)

圖2 大數(shù)據審計流程總體框架圖
目前,在大數(shù)據審計流程設計的文獻中均包括了數(shù)據采集、數(shù)據存儲和數(shù)據分析三個模塊,這對應用大數(shù)據技術進行審計提供了一定的指引。此外,對不同審計目標,若能根據現(xiàn)有框架進行相對應的匹配或許能實現(xiàn)更高的效率。
大數(shù)據審計在取證時需要從被審計單位內外部獲取各種各樣的數(shù)據,這些不同來源的數(shù)據在格式上存在較大區(qū)別,需要使用多種采集方法。陳琦、陳偉(2015)基于C#語言實現(xiàn)了將文本數(shù)據、Excel數(shù)據和Access數(shù)據庫中所需數(shù)據采集到Visual Studio 2008的相關組件中,對審計數(shù)據的采集具有指導作用。陳偉、孫夢蝶(2018)將數(shù)據來源概括為三個方面:上級審計部門數(shù)據、審計部門所領導的各機關單位數(shù)據、被審計單位數(shù)據,同時提出了直接復制、通過中間文件、通過ODBC接口、通過備份與恢復、網絡爬蟲五種數(shù)據采集方法。魏祥健(2019)將審計數(shù)據概括為結構化、半結構化、非結構化三類,同時給出了軟件接口、數(shù)據庫接口和底層數(shù)據直接交換三種采集方式。徐超(2020)基于網絡爬蟲技術設計了數(shù)據采集框架,流程包括數(shù)據預定義、網絡爬蟲模塊、實時監(jiān)控,并在具體案例中對企業(yè)的征信、工商、訴訟等數(shù)據實現(xiàn)了爬取。
審計數(shù)據采集是一項重要工作,現(xiàn)有文獻對審計數(shù)據的分類較為完善,方法多樣,不過非結構化數(shù)據的獲取相對困難,因此,預期需要將更多的研究集中于非結構化數(shù)據的采集上。
數(shù)據存儲是大數(shù)據審計工作流程中的重要一環(huán),面對不斷累計增多的大量數(shù)據如何科學合理的存儲以實現(xiàn)數(shù)據的高效利用是推動大數(shù)據審計的關鍵。Kumar Setty、Rohit Bakhshi(2013)提出交互式技術與Apache Hadoop平臺的結合能夠存儲多種結構的原始數(shù)據并通過聚合與轉換將數(shù)據結構變?yōu)榭墒褂玫母袷健`崅サ龋?016)認為提高審計大數(shù)據處理和存儲的效率,獲取的數(shù)據需經過預先處理(集成、清洗、冗余消除)后才能儲存到相應數(shù)據庫中,可以利用Hadoop平臺,圍繞HDFS系統(tǒng)、Hbase數(shù)據庫、Map Reduce程序設計模型三項核心實現(xiàn)存儲管理。劉國城、王會金(2017)在大數(shù)據審計預處理平臺搭建中提出利用分布式數(shù)據庫儲存結構化數(shù)據,而簡單半結構化的利用數(shù)據分布式鍵值儲存,分布式表格儲存復雜半結構化數(shù)據,非結構化數(shù)據則利用分布式文件儲存。郭紅建、梅軼群(2017)提出數(shù)據存儲可以通過云平臺,云平臺再聯(lián)合網格、分布式系統(tǒng)來共同工作,并對外提供審計數(shù)據的存儲和訪問功能。
關于存儲方法的研究,學者們熱衷于搭建功能強大、處理效率高的數(shù)據分類平臺,這種平臺構想的優(yōu)點在于功能集成度高。當然,這也要求操作人員需具備多種技術才能使用。
面對龐大的數(shù)據,審計人員在進行總體分析時必須使用分析能力較強的技術方法,這樣才能夠符合大數(shù)據審計的要求。Christine E.Earley(2015)在文獻中闡述了在審計中使用高強度數(shù)據分析給審計人員帶來的機遇和挑戰(zhàn)并認為,數(shù)據分析能夠提高審計質量,更好的發(fā)現(xiàn)舞弊行為,比傳統(tǒng)CAATs技術效果更佳。Adrian Gepp等(2018)通過總結大數(shù)據技術在金融欺詐、股票市場預測等領域的運用,提出審計人員也可利用數(shù)據分析預測企業(yè)財務困境,并結合專業(yè)判斷,更好地對企業(yè)持續(xù)經營方面作出評價。胡榮、陳月昆(2004)、呂新民、王學榮(2007)在相關文獻中都提到了在審計工作中對被審計單位的大量數(shù)據采用統(tǒng)計分析、關聯(lián)分析、聚類分析等技術進行建模并完成數(shù)據的分析和挖掘。羌雨(2016)提出利用R語言作為分析工具來實現(xiàn)可視化分析。張志恒、成雪嬌(2017)提出運用HDFS文件系統(tǒng)、Hbase數(shù)據庫、Map Reduce計算模型搭建平臺,利用文本挖掘技術進一步實現(xiàn)對非結構化數(shù)據的分析與挖掘。陳偉(2019)根據大數(shù)據審計案例,利用Python語言進行數(shù)據分析展現(xiàn)了多種可視化分析圖。
可以說,數(shù)據分析是大數(shù)據審計最重要的一環(huán)。目前,相關文獻已提出了多種工具和方法,將其綜合利用能夠使數(shù)據分析和挖掘效果更好,不過還需要對程序的針對性做出優(yōu)化。
未來隨著大數(shù)據技術在審計中的不斷應用,其風險也將逐漸暴露出來,使得大數(shù)據審計的發(fā)展面臨較大挑戰(zhàn)。Helen Brown-Liburd等(2015)通過研究大數(shù)據如何影響審計人員的判斷,提出了審計人員在信息量過多、信息相關性、識別模式等方面,面臨分析結果的信息量較大,識別無關信息難度高等風險。劉星等(2016)認為大數(shù)據審計在數(shù)據采集環(huán)節(jié)、存儲與調用環(huán)節(jié)、處理環(huán)節(jié)、分析環(huán)節(jié)均存在風險。付達院和楊靜怡(2019)認為互聯(lián)網時代審計人員存在三個方面的風險,即系統(tǒng)風險、控制風險、測試風險。裴春燕(2020)將大數(shù)據審計的風險概括為五點:一是審計人才短缺,分析能力弱;二是審計程序的針對性差;三是傳統(tǒng)思維有待轉變;四是方法技術落后;五是軟件開發(fā)費用高。
現(xiàn)階段關于大數(shù)據審計風險的研究多數(shù)是客觀的、充分的,文獻中反映出大數(shù)據審計在多個環(huán)節(jié)存在風險,也能夠了解到對風險的解決方案,今后可以進行更深入的探索與研究。
在關于大數(shù)據審計的現(xiàn)有文獻中,早期學者從大數(shù)據對審計抽樣、審計取證、事后審計的影響等方面進行研究,逐步設計出大數(shù)據審計流程框架,進而走向對數(shù)據采集、存儲、分析挖掘等技術的研究,研究方面逐漸完備。而當下的研究更多的涉及到了具體審計業(yè)務,研究方向更加細化。但是,現(xiàn)階段關于大數(shù)據審計的研究還存在不足之處,大數(shù)據審計中非結構化數(shù)據的采集難度大,價值密度不高,還需要更好的數(shù)據采集手段。審計業(yè)務范圍大、內容復雜,今后對大數(shù)據審計的研究可以圍繞具體審計業(yè)務對大數(shù)據審計流程進行有針對性的優(yōu)化,以推動大數(shù)據審計的快速發(fā)展。