劉國城 陳正升

【摘 要】 大數據審計是智能信息處理時代的必然產物,是實現審計全覆蓋的基本要求。通過國內外比較發現,我國大數據審計理論成果相對豐碩,但實務發展相對遲緩,且相關文獻缺乏與其他學科的深度融合。文章以“數據科學”與“信息科學”等學科理論的滲透與交融為研究視角,以大數據分析為研究重心,首先分析大數據審計的學術積累與實踐發展,其次基于全局視角對大數據審計實施全局策劃,最后分析大數據審計的流程設計方案,嘗試促進審計理論由單一學科闡釋轉向交叉領域研究的有機演化,力求豐富交叉學科一體化整合分析的大數據審計研究思想。
【關鍵詞】 大數據技術; 大數據審計; 數據建模; 數據挖掘
【中圖分類號】 F239.44? 【文獻標識碼】 A? 【文章編號】 1004-5937(2019)08-0030-06
2015年12月,時任審計長劉家義在全國審計工作會議上提出“推進以大數據為核心的審計信息化建設是應對未來挑戰的重要法寶”;2016年6月,審計署印發《“十三五”國家審計工作發展規劃》提出“拓展大數據技術運用,探索多維度、智能化大數據審計分析方法”;2017年10月,習近平總書記在中國共產黨第十九次全國代表大會報告中提出“改革審計管理體制”“推動互聯網、大數據、人工智能和實體經濟深度融合”等論斷與要求。大數據審計是智能信息處理時代的必然產物,是實現審計全覆蓋的基本要求。目前,我國有關大數據審計的實務進展相對緩慢,文獻成果缺乏厚度與深度,而且還極為缺乏相對成熟的大數據審計規范與標準以對審計實踐進行全方位指導。本文在分析大數據審計國內外發展態勢的基礎上,探索大數據技術與現代審計之間的協同機理,旨在研究大數據審計策略實施的動力支持。
一、大數據審計的發展態勢
(一)國內外理論研究梳理
2011年5月,McKinsey Global Institute指出,大數據是可被捕獲、傳遞、集聚、儲存和分析的數據的大型聚集,它現在已經成為全球經濟各個部門和功能的一部分。國外有關于大數據審計的學術研究較為零散,尚未形成體系。Lohr[1]認為,利用大數據技術將提高審計決策的質量,且審計判斷將更多依靠數據驅動而非經驗驅動。Costonis[2]指出,大數據審計面對的難題主要為非結構化數據的性質及其數據選擇。Moffitt et al.[3]認為,大數據將顛覆性地改變審計人員的判斷和收集審計證據的方式。Schouten et al.[4]認為,運用預測模型具有檢測模式異常的功能,運用機器學習可以成功解決以傳統規則為基礎的審計系統缺陷。Setty et al.[5]認為,大數據的引入,導致數據分析的重心向模式識別轉變。Yoon et al.[6]指出,大數據將用來降低審計師對客戶端數據的依賴,并提供獨立的基準評估審計證據。Hussein Issa et al.[7]指出,審計人員可以在客戶風險、欺詐風險、內部控制、持續審計等業務評估中運用數據挖掘技術分析外部數據。Danielle Lombardi et al.[8]認為,大數據時代,模式識別、數據挖掘、自然語言處理等技術將提高數據分析的預測能力。Michael Alles et al.[9]基于理論證據研究大數據技術納入財務報表審計的優勢與障礙,并確定可能使審計師受益的大數據的具體方面。國外相關理論并未深入探索大數據技術在審計領域中的應用策略,而是更加注重于大數據對當今審計理念的沖擊,即大數據思想將引發審計判斷與決策、審計技術與方法以及審計功能與效率等方面的宏觀層面變革。
當前,國內“大數據審計”理論積累相對豐富。截至2018年1月,中國知網收錄的“大數據+審計”學術論文累計231篇,其中核心期刊論文51篇(CSSCI期刊論文11篇)。國內相關文獻主要集中于:(1)基于大數據的現代審計理念變革。例如,具體分析大數據對CPA審計的影響[10-11],剖析大數據對政府審計理念的沖擊[12],基于技術特征與應用特征闡述新時代下大數據審計的內涵[13],立足大數據時代背景分析大數據技術對環境責任審計的影響[14]。(2)基于大數據的現代審計方式轉變。例如,基于數據共享、數據標準化、數據多樣性與審計人員能力研討財政審計數據的分析模式[15];基于大數據價值鏈視角探討審計工作的創新模式[16];分析大數據環境下商業銀行審計非結構化數據的采集存儲與處理[17];闡述基于DBSCAN聚類的大數據審計抽樣,并基于大數據下財務共享服務模式建立IT審計的實施路徑[18],提出大數據審計環境下政府審計采購的技術方式與組織模式[19]。(3)基于大數據的現代審計平臺構建。例如,將大數據審計平臺分拆為采集、預處理、分析與可視化四個子平臺,融合數據挖掘、機器學習以及數據可視化等理論,基于方法支撐、過程建模以及運行機理等方面對各個子平臺進行專項分析[20];闡述大數據環境下河南省審計廳基于信息資源共享與工作高度協同的審計大數據分析平臺建設[21]。
(二)國內外實務進展梳理
國外非常關注大數據及其審計的發展與應用。2012年3月,奧巴馬政府發布《大數據研究與發展倡議》,意在提升運用海量復雜數據集合謀取知識和洞見的能力,并將大數據發展拓展至國家戰略高度。2017年4月18日,世界審計組織大數據工作組第一次會議在南京審計大學召開,來自18個成員國的40余位代表分別就本國大數據審計實務的發展情形進行主題交流。通過會議分享發現,與會各國均擁有豐富的大數據審計實戰經歷。美國聯邦審計署審計長基恩·多達羅指出,美國聯邦審計署將并行計算、數據挖掘等分析技術廣泛運用于大數據審計實務,并長期致力于調查政府“欺詐與不正當支付”問題,正是得益于大數據審計技術的高效推進,進而發現2016年美國政府部門涉及不正當支付的金額高達約1 440億美元;泰國審計委員會主席猜西·達初坦指出,泰國大數據審計已經廣泛應用于信息系統、醫學研究、公共交通以及災害治理等領域,泰國審計署借助PPAPT應用軟件包與ACL指令列表等手段積極推進大數據審計;印度通過建立實施標準模型,廣泛應用數據倉庫、可視化等技術,大幅提升大數據持續審計能力建設。印度尼西亞的中央財報數據在2015年為6.4億條,在2016年為7.1億條,預測性分析技術緩解了該國近4 000名審計人員的壓力。奧地利借助R語言實施大數據審計分析并建立R語言導師機制。
近年來,我國政府審計機關已經逐步重視大數據審計實務建設。山東省審計廳成立財政、稅務、金融、企業與社保等五個行業的審計大數據采集中心,并采用虛擬化桌面云技術建立數字化審計實驗室,安裝部署AS、AO、RTX以及網絡教室等應用軟件。四川省審計廳在稅收征管審計中,構建125個數據分析模型,查詢約700G的信息數據,歸納21項審計方法,充分揭示稅收征管漏洞與缺陷。湖北省審計廳建立以“一大網絡、三大中心、六大系統”為中心的大數據審計平臺,“一大網絡”即電子政務外網,“三大中心”即交換中心、數據中心與數據備份中心,“六大系統”即OA管理系統、AO實施系統、聯網分析系統、結果分析系統、網上審理軟件以及風險監控系統。四川省成都市審計局采集10余個重點行業的3 000余家被審主體的20余類電子數據,自主研發“大數據綜合管理平臺”。山東省青島市審計局建立基于大數據關聯分析的“審計大數據綜合作業平臺”。內蒙古包頭市審計局建立以大數據為中心的“審計資源共享平臺”。江蘇省無錫市審計局在自然資源資產責任審計中,采用稅務、社保、工商與環評等數據審核污染企業治污效果與環保審批問題,運用GIS數據審查違建拆除問題。
(三)國內外發展態勢歸納
大數據審計橫跨審計學、數據科學、信息科學、計算機科學、網絡科學、數學和心理學等若干學科。審計學屬于社會科學,但大數據審計更應該側重于自然科學,因為其每一環節都與大數據處理涉及的自然學科范域相交融。大數據審計策略完善將完全依托于大數據審計既有的理論基礎與實務經驗。梳理發現,我國大數據審計文獻積累缺乏深度,相關文獻僅是站于社會科學視角從宏觀層面定性分析大數據帶給現代審計的理念沖擊與模式變革,并未真正基于自然科學下的數據建模視角從微觀層面定量研究大數據關鍵技術與現代審計方法的多學科交融機制。對于大數據審計理論的未來研究,學術界需要深度融合相關學科領域,以大數據科學為軸心,有效實現社會科學向自然科學的領域延展延擴,深入強化大數據關鍵技術在審計領域的全方位應用。梳理發現,我國大數據審計實踐存有諸多不足,大數據技術處理的數據容量需要達到PB級,數據容量愈大,數據間的關聯價值越高,但目前我國特定審計主體的數據容量大多處于PB級別以下,并未實現真正意義上的大數據,這還需要審計主體按照“五個關聯”審計思路的要求(即從中央財政到省市縣乃至每個鄉鎮的資金使用、從部門到項目具體執行單位的資金使用的縱向關聯,從市財政、市發改委到一級、二級預算單位的各種專項資金的橫向關聯,財政、金融和企業三方面的數據關聯,財政與其他多部門、多行業的數據關聯,以及財政數據與業務數據、宏觀經濟數據的關聯),實現審計數據的全覆蓋精準采集,再如我國對大數據技術的實踐應用不夠廣泛與系統,盡管湖北省恩施州在醫保審計中嘗試運用可視化技術,武漢市審計局在數據處理中應用Oracle與SQL技術,但不夠深入,還無法適應PB級別以上審計大數據處理的需求。如今,國外在大數據審計中已廣泛運用數據挖掘、機器學習、語義引擎、預測分析以及可視化等技術,而我國在此方面進展遲緩。此外,我國大數據審計實務建設其他問題還有:(1)多數審計主體缺乏系統性布局與長遠性規劃,僅從局部視角關注某一流程下模式優化;(2)審計具體流程的數據建模技術過于單一,缺乏同一決策下多種建模工具的比較研究;(3)部分省域內各市級審計主體存在審計流程模式重復建設,觀念標準不一,缺乏共謀與協作。
二、大數據審計的總體策劃
大數據審計從屬于多學科交叉界域,邏輯結構煩瑣,運行機制復雜。依托于多元共融的內外部環境,審計主體需要高度重視大數據審計工作的頂層設計與全局籌劃,變革傳統審計理念,力求將大數據審計工作做到常態化、流程化、立體化與長效化。本文提出一種大數據審計的總體策劃方式供以借鑒,見圖1,具體闡述如下:
(一)大數據審計需求及大數據關鍵技術的分析
需求分析是大數據審計有效開展的首要條件,其可使審計主體事先明晰任務需要與目標要求。大數據審計有橫向需求與縱向需求之分。如圖1所示,大數據審計橫向需求涵蓋理念變革需求、組織管理需求、安全運行要求、規范與標準需求、過程優化需求、內外在環境需求、技術動力需求、理論與經驗需求以及事件決策需求等諸多方面。大數據審計縱向需求是基于特定業務的總體任務需求、具體任務需求、流程需求、功能需求、組件需求、建模需求、取證需求、核驗需求和決策需求。審計主體有必要以審計對象及類型為基準,基于戰略全局視角發現“需求”的本質,秉承層次性、相關性、可靠性以及重要性等需求分析原則,確保大數據審計的可控性、效益性和可驗證性。
大數據關鍵技術是大數據審計順利實施的技術前提,拋開大數據科學下的技術架構與數據智能,任何大數據審計理論與實踐都將無從談起。大數據有五項關鍵技術[22],具體為:(1)采集技術,其承載即時數據采集、既有數據采集、文字數據采集、日志數據采集、文件數據采集、圖片數據采集以及視頻數據采集等功能,相應技術有ZeroMQ、ActiveMQ、Flume、Sqoop及Kafka等;(2)預處理技術,其承載大數據的加載、清洗、轉換、脫敏、脫密以及抽取等功能,相應技術有RestFul、Socket、Dubbo及Web Service等;(3)存儲與管理技術,其承載結構化數據與異構化數據的存儲及管理功能,相應技術有S3云存儲、Neo4J、Solr、Hdfs、Lucene及Kudu等;(4)分析與挖掘技術,其承載大數據的實時分析、準實時分析、離線分析、機器學習、語音識別以及圖片識別等功能,相應技術有MapReduce、Spark、Akka、Mahout及Flink等;(5)展現與應用技術,其承載文字展示、圖畫展示以及動畫展示功能,相應技術有iCharts、Echarts、Springy及Tableau等。針對審計全局策劃,審計主體需要規劃關鍵技術與審計業務的融合策略,合理籌劃特定功能需求下適用技術有關于5W1H的實際應用問題,突出技術優勢,強化技術協作,力求為大數據審計方法的創新應用提供源源動力。
(二)大數據審計作用因素及其運行保障的分析
大數據審計的過程開展、平臺建設與流程再造有其特定的作用條件與依托效應。影響大數據審計開展的主要因素有:(1)挑戰、風險、困境與變革。大數據時代,審計數據的真實性與全面性遇到挑戰,大數據的控制、保護、分析、存儲及其平臺選擇面臨諸多風險[23],且大數據財務流程將更為注重異構數據的核算、歸納、處理與監控,以滿足組織內部動態、實時、全面的戰略管理需求,以及財務信息外部需求者多樣化與個性化的決策需求[24],這些都為大數據審計帶來現實困境。借此,審計主體應予在依據證據、技術方法、組織管理以及策略架構等方面實現理念變革與模式創新,與時俱進,做好大數據審計的理念設計。(2)人員勝任能力。大數據審計是審計人員的主觀見之于審計客觀大數據的物化活動,其成功的關鍵在于審計人員的勝任力與團隊行為的科學化。面對大數據審計跨學科等特征,審計機構在策劃審計業務團隊時,務必集合不同學科專業人才,聘請相關背景專家定期研討,塑造和諧共榮的團隊文化,實現知識互補、技術協同與經驗共享,基于跨學科異質性知識的耦合致力于人員素質與團隊力量的全方位提升。(3)審計運作方式。大數據時代,審計運作方式發生“質”變,未來的審計將會實現從運用隨機樣本抽樣轉向運用全數據建模,從探索精確數據取證轉向融合混雜數據建模,從追求因果關系決策轉向追尋關聯邏輯建模,從依托審計經驗預測轉向借助技術工具建模。(4)審計智能服務。大數據時代,人工智能將會逐步成為審計實踐的主流。當前,安永會計師事務所已嘗試運用計算機技術輔助審核收入合同,運用機器學習分析大批量貸款合同,并估值測試。對于大數據審計智能服務的事前規劃,審計主體應考慮兩方面問題,其一是智能平臺架構,該平臺可設置審計用戶登錄、審計大數據導入、服務匹配、數據管理、智能取證、可視化報告以及歷史查詢等模塊;其二是平臺要素協同,該服務平臺由系列大數據關鍵技術模型及其諸多相應組件組合而成,它們不是簡單的疊加與凌亂的堆砌,而是目標的統一、功能的融合、任務的協調以及行為的協作。此外,大數據審計需要相應質量控制體系以保障常態化運行,其質量標準設計應事先融入全局籌劃之中,重點考評計劃的科學性、準備的充分性、實施的完善性、定性的準確性、分析的透徹性、判斷的正確性以及成果的應用性。
(三)大數據審計策略體系構建的模塊分解規劃
大數據審計策略構建是抽象的知識凝練過程,其是針對每一審計業務,在多類“經驗選擇”的最優解下,對審計流程執行行為的記錄、分類與歸納,并發現普遍性規律。圖1設計的大數據審計策略體系可進行如下分解:(1)大數據審計規范與指南。該模塊建設需要遵循實用性、科學性、全面性與持續性原則,涵蓋基本要求、執業指南、技術標準、審計條例與質量目標等諸多方面,它們是審計主體執行業務程序的可操作性建議,是出具大數據審計報告的客觀尺度。(2)大數據審計風險估計與管理。大數據審計風險包含固有風險、控制風險與檢查風險三個層面,且它們與環境風險、組織風險、人員風險、操作風險、數據可信風險、機密性風險、完整性風險以及技術黏合風險等相融合[25],該模塊旨在全面梳理審計風險類別,確定風險評估機制,建立風險管理策略。(3)大數據審計跟蹤與挖掘。該模塊要求審計主體事前策劃與事后提煉大數據審計的持續跟蹤機制,評判各類大數據挖掘技術、算法與工具的優劣之處與適行條件,組建“算法庫”“工具庫”“協議庫”“規則庫”,明確具體業務下不同挖掘技術的競爭與共生機制。(4)大數據審計模式構建與過程取證。該模塊要求審計主體將特定業務劃分為若干過程,建立每一過程下的實施步驟,如采集過程下數據源如何獲取,異構數據如何傳輸與接入,再如抽取過程下如何實施數據的增量抽取與全量抽取,以及在取證環節中如何實現模型構建、實質性測試、模式發現以及模型評估。(5)大數據審計威脅診斷與預警。該模塊要求審計主體如何設計威脅數據的采集、診斷與管理,如何監控“威脅源”并與“預警源”相銜接,如何促進審計預警信息的集合、修正與發布,對多源多模態信息集成、數據時效性檢驗以及元數據管理等預警技術如何正確應用,如何界定威脅等級并確定預警策略響應。(6)大數據審計免疫自穩與免疫防御。該模塊要求審計主體基于既有經驗推進大數據審計策略決策功能的參數化與標準化,運用自有“記憶”提升新業務決策供需的一致性、耦合性與自穩性,基于非特異性免疫防御利用現有制度、經歷與文化甄選多樣化風險控制方案,基于特異性免疫防御研判大數據審計中遇到的新問題,拓展與深化大數據審計技術方法、模式流程與策略建議,通過持續同“威脅源”發生作用進而促進審計執行力,培育特定知識實現對審計新威脅的即時應答。
三、大數據審計的流程分析
大數據時代下,數據建模是審計流程構建的核心,這是因為,隱藏于大數據之下的深層次問題必須依托諸多模型相互融合的模型庫,才能找出其本質與規律,加之在未來,人工智能將逐步滲透至審計實務,系統性數據建模將是未來審計智能化發展的變革之路。大數據審計下,數據建模問題主要表現在如下維度:(1)宏觀維度,即如何對審計大數據系統性建模做好全局規劃與統籌安排,究竟哪些環節需要審計大數據建模,若干模型之間如何有效協同與有機整合。(2)中觀維度,不同于以往審計,大數據審計職能廣泛拓展,其不僅注重于事后揭露,還更加注重于事前預警與事中監控,為此,風險評估、疑點挖掘、數據取證、監測預警、審計可視化等方面都將廣泛采用系統模型。大數據審計應關注上述各個方面下建模任務與建模要求分別是什么,哪些數據模型相對成熟,各類模型應用條件有哪些,適用模型的建模組件如何配置等一系列中觀問題。(3)微觀維度,即如何在審計建模中全方位實現審計大數據的應用價值與技術可行性,如何準確把握具體建模方法下的決策需求。具體而言,大數據審計建模所應該解決的微觀問題主要包括多源異構大數據如何整合分析,如何實現審計大數據高效的壓縮、感知、存儲與管理,多域多層大數據如何實現高效傳輸與高效計算,完整的大數據如何實現可用,如何實現審計大數據的多粒度智能處理,如何對數據錯誤進行自動檢測和修復,如何發現大數據的結構和關系并進行簡約計算,如何對弱可用數據實施近似計算并知識發現,如何在審計大數據分析中優化數據挖掘算法的過程應用,如何有效處理審計大數據下的機器學習算法,如何基于審計大數據進行系統決策、風險控制與故障診斷等。系列問題由點及面,共同決定著具體審計任務下特定流程設計,同時也決定著建模技術和工具的選擇與應用。
基于全生命周期的大數據審計涵蓋數據采集、數據預處理、數據取證、數據可視化四項基本流程(圖1),系統性數據建模融合于各具體流程之中,并促進流程內各項功能決策的有效實施。對于大數據審計采集,也應秉承“五個關聯”理念,力求實現各類數據的全歸集。未來,審計數據采集量會在PB級基礎上向EB級或ZB級延伸,非結構化數據將占較大比重,具體有文本文檔、日志、圖像、音頻、視頻、報表、HTML以及XML等形式,潛藏巨大應用價值。多數異構數據并不產生審計效用,只有從PB級數據群中,將相關數據采集于一體,按特定邏輯建立主題數據庫,審計大數據才彰顯協同價值。審計異構數據類型繁多,無標準格式,對其采集需要專業技術與工具,如AO采集、網絡爬蟲、傳感器采集、數據庫摘取、ODBC技術、遙感技術、網絡流量、元搜索、射頻識別以及基于屬性、關系與信息的多層過濾機制等。針對特定審計大數據采集需求,審計主體需要甄選適用的采集方法,確立科學的數據采集建模機制,有效做好對源數據的傳輸與接入。例如,反腐敗審計中,微信數據采集方式為經過OAuth 2.0網頁授權認證后,運用相應API數據接口建模截取數據;再如,對于富文本文檔(RFT),Microsoft等公司開發RichTextBox等控件,審計主體可以借助相關控件模型,直接獲取RTF數據。
大數據審計的預處理流程包括數據存儲、數據清洗與數據轉換三項過程,它們的實現需要依托適行的技術工具及應用模型。對于審計數據存儲,傳統技術有RAID、DAS、NAS、SAN、自動精簡、分層存儲、Cache、快照技術、克隆技術、遠程復制以及LUN拷貝等,大數據技術有分布式文件存儲、NoSQL數據庫以及NewSQL數據庫。分布式文件存儲系統通過計算機網絡與若干節點相聯結,適用于審計大數據在不同空間下節點間的通信與存儲;不保證遵循ACID原則的、分布式的、非關系型的審計大數據采用NoSQL存儲系統;保持ACID與SQL等特性、可擴展與高性能的海量審計大數據采用NewSQL存儲系統。對于審計大數據清洗,審計主體主要解決審計數據的合法性、完整性、一致性與唯一性等問題。通過字段類型合法、設定強制合法或字段內容合法等規則,確保數據合法性;通過前后數據或其他信息的補全,提升數據完整性;基于指標、口徑、單位、頻度、數據等維度保障數據一致性;依托主鍵去重或規則去重促進數據的唯一性。多類清洗方法有機結合,將會適應未來審計大數據屬性多樣及其更新頻繁的清洗需求。對于審計大數據轉換,審計主體必須明晰基本轉換任務、主要轉換類型、數據整合與合并、維度屬性的轉換以及如何實施轉換。審計大數據轉換是將不同格式與語義的源數據轉化為被審計用戶所理解且與目標數據相一致的數據整合過程。數據可轉換類型有很多,如格式修正、字段解碼、計算值和導出值、單個字段分離、信息合并、特征集合轉化、度量單位轉化、時間格式轉化、匯總及鍵重構等,審計主體必須依托轉換需求,合理定位轉換類型,科學設定轉換方式,且有效借助轉換建模支撐,如山西省審計廳與九鼎軟件公司聯合開發數據轉換平臺,積極探索審計大數據轉化建模新方法。
IT時代轉向DT時代,傳統分析技術已無法適應以非結構化為主的審計大數據取證,數據挖掘與機器學習將成為數據分析建模以及審計證據獲取的核心手段。大數據審計取證將依托于Hadoop系統,其是一種基于Java的分布式系統基礎架構,也是基于超大型數據集處理的高擴展的分布式計算平臺,它擁有Hadoop Manager、MapReduce、Zookeeper、Hive、Avro、HBase和HDFS等完備組件,運用集群威力能為審計大數據提供海量計算的能力。Hadoop平臺環境為大數據審計取證建模提供絕佳的土壤,有力推進審計取證的維度分析、模型策劃、任務執行、算法調度與驗證。數據挖掘分為結構化數據挖掘與文本挖掘,前者是基于關系型數據庫的審計數據挖掘,后者是基于自由開放文本的半結構化或非結構化的審計文本挖掘。數據挖掘審計建模包含有監督建模與無監督建模兩類,有監督模型涵蓋以決策樹、貝葉斯、K-鄰近與邏輯斯蒂為主導的分類方法,以及以一元回歸、多元回歸、逐步回歸與Logistic回歸為主導的回歸分析;無監督模型涵蓋以層次、密度、網格、K-means、模糊C-均值、K-中心點、K-原型、量子、粒度與高斯混合為主導的聚類方法,以Apriori、FP-Growth、串行、頻繁項集與頻繁子圖為主導的關聯規則,以及基于分布、深度、距離、密度、偏離與頻繁模式的離群點診斷。機器學習從屬于大數據挖掘算法應用,其以信息論、控制論、計算復雜性理論、人工智能、神經生物學以及生理學等學科為理論基礎,運用計算機模擬審計師的學習行為,進而獲取審計取證知識與取證技能。大數據審計取證建模可適用的機器學習算法包括樸素貝葉斯、決策樹、人工神經網絡、隱馬爾可夫、遷徙學習、半監督學習、無監督學習等集成學習。面對復雜取證需求,審計主體應熟悉各類挖掘技術的特點與適用條件,明確挖掘目標,做好相應算法的調整、移植與改進,并做好訓練參數的查詢管理,基于全學習周期完善分布式訓練計算流程,全面優化并行學習等不同機器學習算法的遴選與設計。
大數據審計可視化是將審計領域的結構化數據、半結構化數據與非結構化數據抽象為可視化圖表,將隱性審計證據信息以數據視覺形式直觀顯示。大數據審計可采用文本可視化、網絡可視化、時空數據可視化以及多維數據可視化等手段,不同類型的可視化都有其特定應用條件,審計主體有必要將可視化的具體任務與相應類型有機結合,構建科學的可視化數據模型,力求做好可視化平臺運營的正向驅動。例如,對于多維數據可視化,審計主體需要遵循如下步驟:(1)空間劃分,將擬可視化數據集分類為m維屬性與n位元素組合的多維空間;(2)可視數據開發,運用合適的工具與算法對擬可視化數據展開定量演算;(3)可視數據分析,對不同空間數據進行旋轉、分塊或切片,多截面與全視角對目標數據進行觀察與剖析;(4)可視化呈現,以圖形圖表、計算機視覺、圖像處理以及審計用戶界面等方式,對隱性數據集的表面、屬性、立體或動畫進行顯性化展示。當前,已有諸多可視化工具以供審計主體選擇與應用,如無需編程語言的Tableau、Raw、Infogram、ChartBlocks等,基于JavaScript實現的Chart.js、D3.js、ZingChart、FusionCharts等,基于地圖可視化的CartoDB、InstantAtlas、Polymaps、Kartograph等,基于函數公式可視化的R、WolframAlpha、Tangle等。例如,對于資源環境審計,可以通過衛星遙感影像借助CartoDB工具繪制目標地域環境資源的歷年變化,再如山東省青島市市南區審計局通過三維動態圖示呈現不同時點預算資金“大盤子”的流動變化情況,動態掌握全年預算執行變化趨勢,有效提升了審計的科學化管理。
四、結語
審計署“十三五”規劃指出,我國將推進大數據為核心的審計信息化建設,到2020年實現對經濟社會各類主要信息數據的全歸集。大數據給新時代審計帶來前所未有的挑戰,審計人員如何將結構化數據與非結構化數據相融合,如何在PB量級數據中快速而精準提取有價值的信息,如何習慣并熟練獲取及處理非結構化數據,這些都是“大數據驅動的審計”中亟待解決的難題。本文基于多學科融合視角,梳理與歸納大數據審計的發展態勢,分析大數據審計的頂層設計與全局規劃,將大數據關鍵技術全面融合于大數據的全生命周期流程,且形成“風險→取證→預警→防御”的前后邏輯關聯,進而由單一目標決策轉換為高度融合的全系列目標決策,豐富了以往審計研究的單一范域,為審計實務組織開展大數據審計提供“一站式”服務與“全覆蓋”支持,深化問題解決方案,促進多輪驅動,為審計機制創新集聚合力。
【參考文獻】
[1] LOHR S.The age of Big Data[N].New York Times,February,2012-02-11.
[2] COSTONIS M.Tackling Big Data[J].Bests Review,2013,33(7):2-40.
[3] MOFFITT K C,VASARHELYI M A.AIS in an age of Big Data[J].Journal of Information,2013,27(2):1-19.
[4] SCHOUTEN B.ETC.Time will show:real time predictions during interpersonal action perception[J].Plos One,2013,8(1):1-6.
[5] SETTY K,BAKHSHI R.What is Big Data and what does it have to do with it audit?[J].Molecular Biology of the Cell,2013,18(9):3645-3655.
[6] YOON K,HOOGDUIN L.Big Data as complementary audit evidence[J].Accounting Horizons,2015,29(2):431-438.
[7] HUSSEIN ISSA,H BROWN-LIBURD.ETC.Behavioral implications of Big Datas impact on audit judgment and decision making and future research directions[J].Accounting Horizons,2015,29(2):451-468.
[8] DANIELLE LOMBARDI,R BLOCH.ETC.The current state and future of the audit profession[J].Current Issues in Auditing,2015,9(1):10-16.
[9] ALLE M S,GRA Y GL.Incorporating Big Data in audits:identifying inhibitors and a research agenda to address those inhibitors[J].International Journal of Accounting Information Systems,2016,22(7):44-59.
[10] 王雯婷,張小竹,等.大數據對CPA審計的影響[J].中國注冊會計師,2016(7):100-105.
[11] 龍子午,王云鵬.大數據時代對CPA審計風險與審計質量的影響探究[J].會計之友,2016(8):112-114.
[12] 魏建祥.大數據環境下政府審計模式轉變[J].財會月刊,2016(22):64-67.
[13] 劉星,牛艷芳,唐志豪.關于推進大數據審計工作的幾點思考[J].審計研究,2016(5):3-7.
[14] 馬志娟,梁思源.大數據背景下政府責任審計監督全覆蓋的路徑研究[J].審計研究,2015(5):28-34.
[15] 裴文華,成維一.大數據環境下財政數據分析研究[J].審計研究,2017(3):53-58.
[16] 牛艷芳,馮占國,孟祥宇.大數據價值鏈視角下的審計工作創新與實踐[J].審計研究,2017(5):17-22.
[17] 呂勁松,王志成,王秦輝,等.大數據環境下商業銀行審計非結構化數據研究[J].軟科學,2017(1):141-144.
[18] 程平,陳珊.大數據時代基于DBSCAN聚類方法的審計抽樣[J].中國注冊會計師,2016(4):76-79.
[19] 鮑朔望.大數據環境下政府采購審計思路和技術方法探討[J].審計研究,2016(6):13-18.
[20] 劉國城,王會金.大數據審計平臺構建研究[J].審計研究,2017(6):36-41.
[21] 翟群麗,魏志浩,崔瑞瑞,等.河南省審計廳大數據環境下”五個關聯”審計思路與方法[J].審計研究,2016(5):14-19.
[22] 林子雨.大數據技術原理與應用[M].北京:人民郵電出版社,2017.
[23] 陳偉,Smieliauskas Wally.大數據環境下的電子數據審計:機遇、挑戰與方法[J].計算機科學,2016(1):8-13.
[24] 劉國城,董必榮.“互聯網+”時代我國本科會計教育的困境與變革[J].南京審計大學學報,2017(1):102-109.
[25] 黃國彬,鄭琳.大數據信息安全風險框架及應對策略研究[J].圖書館學研究,2015(7):24-29.