□
(南京審計大學政府審計學院 江蘇南京211815)
目前,國家大力推動大數據技術產業創新發展,推動數字經濟新業態新模式發展,構建自主可控的大數據產業鏈、價值鏈和生態系統。隨著被審計單位大數據庫的搭建和云計算技術的應用,審計人員在審計中需要面對規模龐大、信息繁雜、價值密度低的數據,并從這些海量數據中挖掘出審計所需的被審計單位內部控制、財務信息的真實性、風險和運營管理情況等相關信息,運用傳統人工審計方法或計算機輔助審計方法會出現效率低下、效果不佳的問題。
傳統審計專注于從結構化數據(如財務數據)中尋找因果的方法和思維,這在注重非結構化數據處理的大數據時代顯現出其數據處理能力的局限。在大數據時代,審計人員所面對的非結構化數據規模龐大、種類繁多且實時增倍,如圖1所示,全球大數據儲備量規模在2015年便已達到8.61ZB,且年增長率非常快。據IDC的統計分析,非結構化數據規模占80%,且每年按指數增長60%。傳統審計由于其滯后性難以對這些隨時增長的數據進行實時快速處理。如何用大數據分析技術方法來處理非結構化數據,提高審計效率,是審計特別是計算機審計發展的重要課題。新出臺的《領導干部自然資源資產離任審計規定(試行)》更加強調從非財務相關數據如自然資源資產數據、生態環境領域地理信息數據中挖掘信息的重要性,非結構化數據在審計工作中的應用需求愈發凸顯。
審計是審計機構和人員按一定標準對被審計單位的財政財務收支、經營管理活動及其相關資料的真實性、合法性、效益性進行監督、評價和鑒證的經濟監督活動,其處理分析的是企業的信息,而大數據時代,這些信息從規模、結構和處理方式上都發生了改變。這些改變給審計帶來了新技術、新方法、新思路和新的挑戰。

圖1 2011-2015全球大數據儲備量規模走勢
秦榮生(2014)認為,大數據技術改變了傳統抽樣審計方式、追求分析數據精確度和尋找因果的審計工作思維模式。陳偉(2016)認為,大數據應用于審計能使審計取證更充分,審計結論更科學,能提供更多數據分析和數據可視化技術,而大數據平臺為聯網審計和持續審計提供了基礎。呂勁松(2014)提出了基于大數據時代的新型審計組織模式,即“總體分析、發現疑點、分散核查、系統研究”,并認為未來審計會由“數據孤島型、業務封閉型、模式單一型”向“數據一體化、業務一體化、模式一體化”發展。楊凱茜(2015)認為,大數據審計能充分利用企業外部數據,充分挖掘與企業業務關聯的非財務信息,與此同時傳統的函證作用變小甚至在審計中可以不需要函證。
結構化數據(Structured Data)存儲在數據庫里,可以用二維表結構來邏輯表達實現,相對于結構化數據來說,非結構化數據(Unstructured Data)的數據結構不固定,不方便使用數據庫二維邏輯表來存儲,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。
非結構化數據在審計中的應用非常廣泛,是審計人員尋找審計證據和做出職業判斷的相關依據,只是在大數據技術還未興起之時,它們都是由人工或者是計算機輔助人工完成的,分析處理方法較為簡單。比如對原始憑證上的交易真實性進行審計時,主要是看原始憑證所記載的經濟業務是否正常,涉及業務發生的日期、經辦負責人員、業務的程序和手續是否真實、客觀地反映了已經發生的經濟業務,有無偽造、涂改原始憑證的行為。
非結構化數據在審計業務中顯然不止憑證這一種,它可以包括企業合同文檔、商業活動現場照片和視頻、會議記錄、員工差旅信息、外部HTML、GPS等數據結構不規則或不完整、沒有預定義數據模型的數據。這些數據可以來自任何地方,可以以任何一種方式進行分類歸總進而分析處理。同結構化數據相比,非結構化數據獲取途徑更加廣泛,數據類型也更加多樣。就審計而言,被審計單位的經濟活動產生的財務數據僅占其經濟活動產生信息的一部分。例如圖片視頻這些非結構數據,同一項經濟活動中產生的量都是以MB為基礎單位累計的,而一些財務數據則是以KB為基礎單位累計的。但這并不意味著圖片和視頻等非結構化數據所蘊含的信息價值比財務結構化數據所蘊含的信息價值多。相反,財務數據所反映的信息更加直接,而非結構化數據包含的信息豐富多樣,需要運用一定數據處理方法從低價值密度挖掘出所需的信息。
非結構化數據并不僅僅包含企業數據庫中所存儲的與業務活動相關的數據,也包括企業外部與企業相關甚至不相關的數據。這就導致非結構化數據所占比例比以往大得多,且規模上不是結構化數據所能比擬的。隨著時代的發展,企業數據結構發生變化,規模激增,傳統人工審計或者計算機輔助審計處理數據的能力不足以承擔處理如此規模的數據。原先的審計技術或者方法能通過抽樣的方式處理結構化數據和部分與之相關的非結構化數據,而這些相關的非結構化數據是從業務相關的其他企業或者銀行獲得的,其他大量的非結構化數據則被忽略。且不談這些非結構化數據中所蘊含的審計價值,以傳統抽樣審計的思維,傳統人工審計和計算機輔助審計最多能提取TB規模數據,其能否代表PB、ZB規模的數據值得研究。大數據給審計提供了“總體審計”的思維和技術方法,這從數據處理規模上突破了傳統審計思維。
大數據處理的基本思路是化大為小、化繁為簡、從蕪雜中找相關。非結構化數據處理的基本思路是聚類分析、化非結構化為結構化,其大概流程如圖2所示。

圖2 審計非結構化數據處理
在處理非結構化數據時,審計人員首先希望得到真偽的判斷,大數據分析技術能提供多方面信息驗證以提高判斷的準確性。如判斷企業是否存在一項經濟業務活動,審計人員首先根據業務相關文書如約定書,從網絡、企業數據庫等搜集與文書上相關的企業、人員信息和業務相關數據,根據搜集的數據對業務相關文書進行驗證。通過視頻和圖像文件的特征識別驗證業務約定書的簽訂是否真實存在、約定時間是否相符、人員是否為約定書上的本人,通過對約定書上字跡的識別進一步確認是否為本人,綜合其他方面驗證組成審計所需的證據,以驗證業務是否真實。對于業務活動實際開展的真偽驗證則需要驗證更多信息,如采購是否依據業務要求、倉儲中是否存儲過相關產品、會計憑證的真實合理、產品是否在登出日發出、對方是否驗收產品、退貨記錄、稅務機關是否有相關記錄等。將這些驗證結構形成證據鏈進而驗證業務是否確實發生,再結合相關財務數據可以驗證其是否記錄、是否真實可靠。這樣對一項經濟業務的業務約定書、會計憑證和相關財務資料等的真實相符情況進行一一驗證,形成一條完整的相關的審計證據鏈,進而對經濟業務的真實可靠性做出科學判斷。
從數據的處理輸出結果中,審計人員希望得到審計重點。現階段大數據審計離人工智能應用還有一段距離,我們仍然需要人工審計,但可以從數據分析結果中尋找審計重點。審計人員可以通過數據可視化分析方式,尋找異常值、眾數以及其他特征值所在,這些異常值在大數據環境下可以是地理位置孤立點、不匹配的疑點、出現頻次高的人員或來往企業、缺失數據等。對這些數據和信息進行審查核實,確定相關事項是否真實合理,減少大數據分析結果的誤差。進一步對數據進行趨勢分析,可以獲知被審計單位的運營情況,是否存在異常變化、應收賬款風險、會計政策變更等情況。通過行業的橫向對比和企業往年數據的縱向對比判斷其運營狀況是否合理,企業所做決策對經營產生多大影響,進而評估企業管理層操縱盈余管理的可能性。
非結構化數據處理分析同樣為審計人員評估企業內部控制提供新的思路和方法。被審計單位內部控制風險與審計風險密切相關,以往使用的調查問卷法、穿行測試法、重新執行法等方法依然是管中窺豹,我們實際并不知道企業真實的內部控制日常運作。而從一些非結構化數據,如監控視頻,可以獲知企業內部控制方面的真實信息以及企業日常是否按照建立的內部控制制度運行等,甚至通過建立內部控制評價規則庫,可以量化內部控制評價,進而能對被審計單位內部控制風險實現科學評估。
隨著大數據審計的不斷發展,以及被審計單位非關系數據庫的搭建和云計算平臺的應用,大規模、快增長的非結構化數據推動了審計應用大數據分析技術,進而從這些非結構化數據中挖掘出審計證據鏈,了解被審計單位的內部控制和日常經營實際情況。非結構化數據分析也能幫助審計人員科學評估審計風險,減輕審計人員的工作負擔,給審計結論提供合理依據。在審計過程中,需要根據審計實際需求和經驗,不斷完善大數據審計技術和審計方法規則庫,推動審計向人工智能發展。