□文/ 申 曦 姚利青 郭麗琴 黃 旺 周芹芳
(1.云南省地圖院;2.怒江州自然資源和規劃局 云南·昆明)
[提要] 在現階段審計研究領域,大數據審計已是重要的研究發展方向,可視化分析技術作為大數據分析的信息化技術手段,是現代審計大數據處理過程中不可或缺的技術方法,在大數據審計中具有明顯優勢。 本文介紹數據查詢方法、智能分析技術、多數據源綜合分析技術、可視化分析技術等大數據審計分析技術;從可視化技術的概念出發,總結可視化技術的特點以及基于大數據可視化技術審計方法的優缺點;在此基礎上,總結大數據審計中可視化技術有關應用研究。
近年來,國內外興起了大數據的研究應用熱潮,對于大數據的定義也存在一些差異。麥肯錫公司對大數據的定義為:超過傳統數據庫工具的獲取、存儲、管理和分析能力的數據集。Gartner 認為大數據指具有大量、高速、數據多樣性等特點的信息集合,通過采取新形式的處理方法,來優化數據的分析、應用、決策效率。2015 年,《促進大數據發展行動綱要》(國務院印發)明確提出:大數據是以存儲量大、數據類型多樣、存儲讀取速度快、應用價值高為主要特點的數據集合,它可以快速對數量龐大、來源多樣分散的數據進行采集、存儲、關聯分析,作為新一代的信息技術和服務業態,發現新的知識、創造新的價值。總之,大數據具有大量、多樣性、快速、價值等四個主要特點。隨著大數據的催生,原始的數據處理手段已不能滿足大數據時代處理的需求。而實現大數據處理需要一些耗時短且能高效分析大量數據的技術,研究出不同類別的大數據技術,運用到計算機科學、統計學、經濟學等學科,以便更充分地抓取有效信息。伴隨著信息技術與經濟社會的關聯日益緊密,以數據分析為代表的計算機審計已逐漸成為審計領域的主流。互聯網、物聯網以及智能化移動終端的迅猛發展,激增了巨大的數據量和信息量,大數據正成為國家審計可持續發展的重要戰略性資源。
數據可視化起源很早,最早可追溯于計算機的誕生,早期雛形可推演為計算機圖形學。數據可視化技術的基本思維框架是用圖元元素表示數據庫中的數據項,大量的數據集可構成數據圖像,同時用多維數據的形式表示數據的屬性值,可以從不同的維度更深入地觀察和分析數據。通俗地說,數據可視化就是將復雜的數據模型以圖形的形式表達出來,將數據中的信息清晰有效地展示出來,方便人們了解和掌握數據規律。在大數據的驅動下,數據可視化的內涵和外延發生了重大變化,從簡單的呈現逐漸演變為圖表、分析和交互的綜合融合。大數據可視化分析的研究領域主要包含信息認知理論分析過程、數據可視化理論、人機交互理論及用戶界面。大數據審計研究文獻比較少,個別文獻在特定的審計項目中進行了可視化技術的應用,但都沒有對大數據審計的可視化分析方法進行系統、全面的研究。本文首先介紹數據查詢方法、大數據智能分析技術、大數據多數據源綜合分析技術、大數據可視化分析技術等審計數據分析方法,然后從可視化技術的概念出發,總結可視化技術的特點以及基于大數據可視化技術審計方法的優缺點,最后總結大數據審計中的可視化技術應用研究,便于審計人員能夠更深入地理解和認知大數據審計中的可視化分析技術相關研究。
審計人員采用數據分析技術方法,來實現大數據環境下的電子數據審計。主要分析方法如下:
(一)數據查詢方法。 目前,審計人員最普遍使用的數據分析方法是數據查詢,是指審計人員結合自身實際工作經驗,掌握一定的審計分析原理和分析模型,在Microsoft Access 等常見的軟件和審計軟件中采用SQL 語句來分析收集到的電子格式數據,或運用一些審計軟件通過執行不同的查詢命令以某些預定義的格式來檢測查詢被審計對象的電子格式數據。此外,SQL 語句具有非常強大的查詢功能,為了完成復雜的審計數據分析,利用SQL 語句構造和執行一些復雜的查詢語句,實現模糊查詢、多表交叉查詢等功能。
(二)大數據智能分析技術。 高性能處理算法、智能搜索以及挖掘算法作為大數據分析領域的主流研究內容,從計算機角度來看,強調的是其計算能力和人工智能。大數據智能分析技術不受數據格式差異的影響,既有對傳統結構化數據的挖掘,也有對文本數據等半結構化數據的挖掘,通過分析、提取分詞或關鍵詞,提取關鍵字,生成標簽云圖,其中詞頻決定關鍵詞的顯示大小,從而實現“整體分析、發現疑點”的目的。目前,大數據智能分析技術研究大部分停留在理論層面,在審計領域的實踐應用研究還不夠成熟。
(三)大數據多數據源綜合分析技術。通過采用數據查詢等大數據技術方法手段,與相關數據進行復雜的綜合比對分析和關聯分析,從綜合比對和關聯分析結果中獲取更多掩藏的審計疑點和線索。必要的時候,審計人員可利用大數據分析工具,獲取被審計單位的相關項目信息,分析是否存在違反相關政策的問題。目前,此分析技術在審計領域應用較為成熟,且已成為了主流技術。
(四)大數據可視化分析技術。 目前,在大數據審計應用領域比較成熟,也是主流的分析技術,可以更簡潔、清晰地呈現被審計單位大數據信息,常見的表現形式有:時間序列示意圖、柱狀示意圖、折線示意圖、散點示意圖、氣泡示意圖、雷達示意圖、熱力示意圖,以及標簽云示意圖等等。在大數據環境下,審計人員可以借助大數據可視化分析工具,“洞悉”被審計數據信息中存在的內在因素模式和關聯情況,能較迅速地從海量數據中提取相關審計疑點和線索。
(一)可視化技術基本概念。 1986 年10 月,全球范圍內首次正式提出“科學計算可視化”這一專業概念。經過近30 年的發展,可視化技術應用領域較廣泛,如科學計算機、數據、信息和知識等方面。伴隨著可視化技術與人機交互、認知科學、數據挖掘、決策理論等研究領域的交叉融合,出現了新的討論對象——可視化分析。2005 年,Thomas、Cook 提出可視化分析的概念:在用戶分析推理過程中,運用交互式可視化的視覺界面,輔助用戶分析推理大規模、復雜數據集的一種科學技術手段。
(二)可視化技術的特點。現階段的數據統計分析方法或數據挖掘方法往往會簡化或抽象被審計對象的數據,對數據集的真實結構或形式有一定程度的隱藏,而可視分析技術更注重對復雜的、大尺度的和海量數據的發掘型分析,特點主要表現在:一是具有和睦的人機交互能力,通過鼠標人機交互可完成分析全部環節,操作簡單、不復雜,即使沒有任何計算機專業基礎的審計人員也能輕松運用。二是具有多樣的圖形化展示性能,通過數據立體展示、數據分層(分類)匯總等形式呈現出來,便于審計人員掌握全局情況,確定審計重點,梳理審計思路,提高審計效率和質量。三是具有強大的圖形化分析性能,通過交互構建和調整曲線、曲面、點云等數學方法模型,形成不同呈現形式的分析結果,從分析結果中把握海量數據的總體趨勢,以便輔助審計人員查找異常疑點數據。四是具有豐富的圖形化運算性能,可取代局部的數據庫編程,快速抓取異常數據。五是部分軟件具備多樣的工程核算性能,可高效計算出不規則形體的面積、體積、密度等。
(三) 基于大數據可視化技術審計方法的優缺點。 基于SQL、電子表格軟件的數據查詢方法以及基于大數據可視化技術的審計方法,三種審計方法各有優缺點。基于SQL 的數據查詢方法:可運用專業的審計軟件(或數據庫工具),易獲得;要求審計人員有一般的專業技術水平;分析結果的易理解性差;方法靈活程度高;所使用的審計軟件(或數據庫工具)的差異性會影響處理的數據量;審計功能發揮程度一般。基于電子表格軟件的數據查詢方法:分析工具容易獲取;不需要審計人員有專業技術的要求;分析結果的易理解性差;方法靈活程度一般;處理數據量小;審計功能發揮程度差。基于大數據可視化技術的審計方法:需專業的可視化分析軟件,易獲得;要求審計人員有一般的專業技術水平;分析結果的易理解性很好;方法靈活程度高;處理數據量大;審計功能發揮程度好。
在數百年的發展期間,可視化理論與技術運用在地圖、科學與工程制圖、統計圖表行業。現階段,可視化技術已服務更多的領域,如在醫學醫藥、交通運輸、城市規劃、水利水電設施建設等各行各業都發揮了巨大的作用,方便了人們的生活方式和業務工作,科學輔助指揮決策。近些年,可視化分析系統軟件也成為了國內外研究的熱點。2013 年,美國國防預研計劃局對可視化分析系統軟件高度重視,以高額的研究經費來尋求海量數據分析處理軟件和動態可視化系統。同年,中國氣象局國家衛星氣象中心攜手浙江大學等單位,經過多家單位的不懈努力和辛苦付出,攻克數項核心技術難題,成功研發出我國第一款關于全球三維數值大氣體可視化的分析軟件,實現了國際首次全球多模態三維大氣體的可視化。
此外,為了從大數據中得到有效的信息,大數據可視化方面的研究,如審計管理、大氣污染防治、扶貧審計等領域,成為近幾年國內外各大公司、科研院校的研究熱點。李培培在已有審計數據和資源的基礎上,利用可視化分析技術構建審計管控平臺,同時采用三維可視化技術,對各種各樣的分散、零星信息和數據進行深度整合,清晰準確全面地反映審計管理的各個子系統、各個層面的信息數據。此外,在審計指揮中心的構建中應用可視化技術,也可以為項目的安排部署和進度跟蹤、領導的決策分析提供便利。陳偉結合現階段大數據審計的研究現狀以及應用情況,探索了基于大數據技術的業務連續性管理的審計方法,通過使用自己研發的審計軟件和大數據可視化等分析工具,對怎樣執行業務連續性管理審計進行了分析,很大程度上填補了日常使用業務連續性管理審計方法的缺陷,進而證明了本研究的可行性和有效性。研究結果能提高相關審計項目的管理審計效率,也為今后防范并化解金融科技等風險提供了理論支撐和經驗數據。陳偉等分析了大氣污染防治審計方法研究的重要意義,總結了目前常用的大數據審計技術方法,深入剖析其存在的缺點與不足。在此基礎上,提出了基于大數據可視化技術的大氣污染防治審計方法,同時也闡述了該方法的內在原理。最后以某審計項目為例,開展了基于地區分布圖分析的相關空氣質量數據總體分析、空氣質量變化情況分析、空氣質量監測數據異常情況分析等方面,對此方法進行了驗證。陳偉分析了大數據扶貧審計方法原理,從大數據可視化技術分析視角出發,圍繞扶貧可疑數據和資金使用違規兩個方面的內容,對怎樣利用大數據技術開展扶貧審計工作進行了深入研究,并進行了部分應用實踐探索,如扶貧項目內容大數據可視化分析、扶貧資金使用情況大數據可視化分析,為今后大數據技術在扶貧審計項目中的應用提供了實踐經驗數據。
在大數據時代的審計研究領域,大數據審計已是重要的研究發展方向,數據查詢、大數據智能分析、多數據源綜合分析、可視化分析技術方法等大數據環境下的電子數據審計運用而生,應用市場也很廣闊。同時,作為大數據分析必要手段的可視化分析技術,是審計大數據中必不可少的技術方法,它既結合了計算機強大的計算分析能力,又結合了人類豐富的感知交互能力,在大數據審計中具有明顯優勢。正因為大數據可視化分析技術的強大優勢,大數據環境下的可視化分析技術理論研究和應用實踐相對較為廣泛,為審計人員高效提取可疑數據和其他相關審計工作提供了很大的技術支持。