基于網絡爬蟲技術的大數據審計方法研究

2018-07-19 03:16:52陳偉孫夢蝶

中國注冊會計師 2018年7期

陳偉孫夢蝶

一、引言

隨著信息技術的發(fā)展，大數據時代的到來為審計工作帶來了機遇和挑戰(zhàn)。目前國內高度關注大數據技術及其在審計中的應用2015年8月國務院印發(fā)《促進大數據發(fā)展行動綱要》。2015年12月中共中央辦公廳、國務院辦公廳印發(fā)的《關于實行審計全覆蓋的實施意見》指出：創(chuàng)新審計技術方法是實現審計全覆蓋的一個重要手段，要求構建大數據審計工作模式，提高審計能力、質量和效率，擴大審計監(jiān)督的廣度和深度。2017年3月中共中央辦公廳、國務院辦公廳印發(fā)的《關于深化國有企業(yè)和國有資本審計監(jiān)督的若干意見》提出“創(chuàng)新審計理念，完善審計監(jiān)督體制機制，改進審計方式方法”。社會審計也高度重視大數據技術，中國注冊會計師協(xié)會（2017）提出了研究大數據、人工智能等先進信息技術在注冊會計師行業(yè)的落地應用，促進會計師事務所信息化。大數據審計也得到國際實務界的廣泛關注，國際內部審計師協(xié)會2017年發(fā)布了《理解與審計大數據》指南（GTAG，2017）；美國注冊會計師協(xié)會AICPA（2014）分析了大數據環(huán)境對審計工作的影響。國內外學術界也高度關注大數據技術在審計中的應用。Earley（2015）分析了大數據技術給審計工作帶來的機遇和挑戰(zhàn)，研究了大數據技術在CPA審計中的應用；Gepp（2018）研究了目前大數據在審計研究與實踐中的現狀與未來機遇；陳偉（2017）分析了大數據審計的現狀與發(fā)展，以及大數據環(huán)境下電子數據審計的機遇、挑戰(zhàn)與方法（陳偉，2016），研究了大數據環(huán)境下基于模糊匹配的審計方法（陳偉，2016），基于Benford定律的大數據審計方法（陳偉，2017），大數據環(huán)境下基于數據可視化技術的電子數據審計方法（陳偉，2017），以及基于大數據可視化技術的審計線索特征挖掘方法（陳偉，2018）。

綜上所述，研究大數據環(huán)境下的審計理論與方法具有重要的理論意義和應用價值。大數據環(huán)境下，審計單位需要獲得第三方數據來源，并將被審計單位數據與外部其他數據進行集成分析以充分發(fā)揮大數據的潛力。然而，目前尚未建立起數據訪問與數據共享機制，這限制了大數據審計的效果，影響了審計取證的查全率，造成了一定的審計風險。因此，大數據環(huán)境下如何獲得外部相關數據成為大數據審計的一個重要問題。本文中，筆者結合目前大數據審計的研究與應用現狀，研究基于網絡爬蟲技術的大數據審計方法。

二、基于網絡爬蟲技術的大數據審計方法研究背景分析

（一）大數據審計的原理

1.大數據的內涵及特點

2008年9月《Nature》（自然）雜志的“Big data special”大數據專題首次提出大數據（Big data）的概念。2011年6月，世界著名咨詢機構麥肯錫公司發(fā)布了報告《Big data:The next frontier for innovation,competition, and productivity》（大數據：下一個創(chuàng)新、競爭和生產力的前沿），給出了大數據定義：大數據指的是大小超出常規(guī)數據庫工具獲取、存儲、管理和分析能力的數據集（Manyika，2011）。Gartner（高德納咨詢公司）把大數據定義為：大數據是具有大容量、快速、和（或）多樣性等特點的信息資產，為了能提高決策、洞察發(fā)現和流程優(yōu)化，這種信息資產需要新形式的處理方法。大數據時代的到來為各行業(yè)提供了機遇和挑戰(zhàn)?！禨cience》（科學）雜志2011年?？懻撊绾喂芾泶髷祿⊿cience，2011）。目前，大數據的研究和應用已經成為國內外的熱點。世界各國均高度重視大數據相關問題的研究與探索，并從國家戰(zhàn)略層面推出研究規(guī)劃以應對大數據帶來的機遇和挑戰(zhàn)。一般來說，大數據主要具有4個特點：大量（Volume）、多樣性（Variety）、快速（Velocity）、真實性（Veracity），有的文獻認為大數據還有具有可視化（Visualization）、價值（Value）、變化性（Variability）等特點（GTAG，2017）。

2.大數據審計的內涵

大數據審計（Big Data Auditing）目前尚無統(tǒng)一定義。根據目前大數據審計的研究與應用情況，大數據審計可以看成是隨著大數據技術的發(fā)展而產生的一種新的審計方式，其內容包括大數據環(huán)境下的電子數據審計（如何利用大數據技術審計電子數據、如何審計大數據環(huán)境下的電子數據）和對大數據環(huán)境下的信息系統(tǒng)進行審計兩方面的內容（陳偉，2017）。其中，大數據環(huán)境下的電子數據審計問題是目前研究與應用的熱點。由此可見，大數據審計是伴隨著大數據時代的到來，審計信息化的進一步發(fā)展。

（二）目前大數據審計數據采集過程中存在的問題分析

1.大數據審計中的數據來源分析

目前開展審計時，一般圍繞審計工作方案，突出重點，采集審計數據所需的財務和業(yè)務電子數據，為積極運用大數據技術查核問題、評價判斷和宏觀分析，提高審計監(jiān)督效率和水平奠定基礎。由于目前一方面一些審計項目規(guī)模大、審計范圍廣，另一方面被審計單位信息化程度高、信息系統(tǒng)復雜，需要采集的各類數據較多，不僅僅包括數據庫中的結構化電子數據，還包括一些會議記錄、會議決議、辦公會通知、辦公文件等非結構化數據，以及一些政策、內部控制手冊、各個系統(tǒng)的使用手冊等非電子化材料。一般來說，目前在開展大數據審計時，數據來源主要包括三個方面：

表1 常用5種網絡爬蟲軟件的主要優(yōu)缺點分析

圖1 基于網絡爬蟲技術的大數據審計方法原理

圖2 基于Python的網絡爬蟲程序實現代碼示例

一是上級審計機關數據中心推送的數據，如財政數據、稅務數據、工商數據、電力數據、增值稅開票數據等；

二是審計機關管轄范圍內相關部門的數據，如財政、稅務、工商等部門的數據；

三是在審計項目實施過程中根據需要從被審計單位采集的各類數據，采集內容可分為非結構化數據和結構化數據，非結構化數據比如，被審計單位基本情況、歷史沿革、經營范圍、組織結構、部門職責、生產經營和改革發(fā)展狀況、內部審計報告、社會審計報告等；結構化數據比如報表、財務、生產經營的核心數據等。

2.目前常用的數據采集方法

目前，一般采用的數據采集方法為：被審計單位根據審計機關的要求定期報送數據；審計機關根據審計大數據建設的需要，定期到被審計單位采集數據；在審計項目實施過程中根據需要采集數據。常用的審計數據采集方法主要有以下4種：

（1）直接復制。當被審計單位的數據庫系統(tǒng)與審計人員使用的數據庫系統(tǒng)相同時，只需直接將被審計對象的數據復制到審計人員的計算機中即可。

（2）通過中間文件采集。指被審計單位按照審計要求，將原本不符合審計軟件要求的數據轉換成審計軟件能讀取的格式（如文本文件Txt格式、XML格式等）提供給審計人員。在數據采集的實際應用中，很多情況下采用文本文件作為約定的格式。這主要是因為大多數數據庫管理系統(tǒng)都能導出、導入文本文件，應用范圍廣泛。

圖3 基于Python的網絡爬蟲程序代碼運行示例

圖4 基于網絡爬蟲采集到的工商數據示例

（3）通過ODBC接口采集。指審計人員通過ODBC數據訪問接口直接訪問被審計單位信息系統(tǒng)中的數據，并把數據轉換成審計所需的格式。

（4）通過備份/恢復的方式采集。指審計人員首先把被審計單位數據庫系統(tǒng)中的數據備份出來（或者讓被審計單位把該單位數據庫系統(tǒng)中的數據備份出來），然后把該備份數據在審計人員或審計機關的數據庫系統(tǒng)中恢復成數據庫格式的數據，然后就可以在審計人員或審計機關的數據庫系統(tǒng)中對采集來的被審計單位的數據進行審計數據分析。

3.目前常用數據采集方法的不足

目前審計大數據的全面性尚不夠，比如，大數據環(huán)境下，審計單位需要獲得第三方數據來源，并將被審計單位數據與外部其他數據進行集成分析以充分發(fā)揮大數據的潛力。然而，目前尚未建立起數據訪問與數據共享機制，這限制了大數據審計的效果，影響了審計取證的查全率，造成了一定的審計風險。另外，對于地方審計機關或內部審計或社會審計來說，目前很難獲得所需要的全部的財政、稅務、工商等數據。

因此，目前除了通過以上方法獲得被審計單位的內部和外部數據之外，審計人員還可以通過一些軟件工具抓取網上的數據，或者可以實現自動搜索網上關于被審計單位一些公開報道的風險信息。

三、基于網絡爬蟲的大數據審計方法原理

網絡爬蟲（web crawler）是一種按照一定的規(guī)則，自動地抓取萬維網信息的程序或者腳本。開展大數據審計需要各類相關數據，因此，網絡爬蟲技術對獲得開展大數據審計的相關數據非常有幫助。

基于網絡爬蟲技術的大數據審計方法主要是充分利用被審計單位外部的公共數據，通過對這些數據和從被審計單位獲得以及從其他單位獲得的相關數據進行對比分析，從而更充分地發(fā)現相關審計線索，相對目前常用的方法，這種方法的優(yōu)點是能擴展數據分析范圍，更充分地發(fā)現相關審計線索。采用網絡爬蟲技術獲取相關數據的過程如下：

（1）確定目的。用于確定抓取目標網站哪些網頁上的哪些數據。

（2）分析頁面結構。為了抓取上述的數據，需要對相應的網頁頁面進行分析。

（3）實現爬蟲，獲得所需數據。根據以上分析，采用相關網絡爬蟲軟件，如Python等，實現以上數據的抓取功能。

（4）對獲得的數據進行分析。針對獲得的數據，在審計大數據集成和預處理的基礎上，基于“集中分析，分散核查”的審計思路，采用大數據可視化工具對相關數據進行分析，審計人員通過對可視化的分析結果進行觀察，快速從被審計大數據信息中發(fā)現異常數據，獲得審計線索。另外，審計人員可以根據需要，對異常數據做細化分析，從不同的方面獲得對被審計數據的理解，從而全面地分析被審計數據。在可視化分析結果的基礎上，審計人員可以借助SQL查詢方法和審計軟件對被審計數據進行建模和分析，進一步獲得相關證據。在此基礎上，通過對這些結果數據做進一步的延伸審計和審計事實確認，最終獲得審計證據。

綜上分析，基于網絡爬蟲技術的大數據審計方法原理如圖1所示。

四、基于網絡爬蟲技術的大數據審計方法應用案例

（一）案例背景

某制造集團有限公司是某省重點國有企業(yè)，公司成立于1980年，具有30多年從事火車發(fā)動機研發(fā)與生產的歷史，是該省火車零部件發(fā)動機行業(yè)龍頭企業(yè)。除了該省外，該制造集團有限公司在美國、英國、南非、日本等國設有200多家子公司。根據某市審計局2017年的審計計劃安排，現對該制造集團有限公司開展企業(yè)領導人經濟責任審計。本案例以經濟責任審計項目為背景，探究該單位在招投標過程中是否存在違規(guī)、違法現象。

針對以上審計需要，審計人員首先根據采集來的被審計單位的招投標數據，根據中標次數和中標金額兩個指標，采用SQL分析或EXCEL工具等，分析該單位所有招投標項目中中標次數和金額較多的單位。通過分析發(fā)現可疑的中標單位共50多家。

為了進一步分析以上中標單位的工商信息，特別是分析這些單位的法人和股東中是否與被審計單位的管理人員之間有關聯等審計線索，需要獲得以上中標單位的工商信息，但目前一般審計人員無法查詢全國的工商數據，在實際的審計工作中，一般只能通過一些數據查詢網站（如天眼、企查查等）查詢獲得這些工商數據，但當需要查詢的數據量較大時，需要花費審計人員很多的時間和精力，如何批量查詢相關數據成為困擾審計人員的問題。網絡爬蟲的出現為解決審計人員的這一問題提供了一種可行的方法，當然，通過這種方法只是初步分析疑點，最終確認審計證據時還需要到相關權威部門去查詢確認這些工商數據。

（二）網絡爬蟲軟件選擇

目前已經比較成熟的網絡爬蟲軟件多達上百種，常見的開源網絡爬蟲軟件主要有：

（1）Python爬蟲，如Scrapy、PyRailgun、QuickRecon等。

（2）Java爬蟲，如Ex-Crawler、Arachnid、crawlzilla、Heritrix、ItSucks、heyDr、JSpider、jcrawl、webmagic等。

（3）C++爬蟲，如Methabot 、larbin等。

（4）C#爬蟲，如Sinawler 、NWebCrawler、Web Crawler等。

（5）PHP爬蟲，如ThinkUp、OpenWebSpider、PhpDig等。

常用5種網絡爬蟲軟件的優(yōu)缺點分析如表1所示。由于Python語法簡捷、清晰，功能強大、簡單易學，并且具有豐富和強大的類庫，是一種不受局限、跨平臺的開源編程語言，因此，自Python語言誕生至今，得到了廣泛應用和支持。眾多開源的科學計算軟件包都提供了Python的調用接口。因此，Python語言及其眾多的擴展庫所構成的開發(fā)環(huán)境十分適合工程技術、科研人員處理實驗數據、制作圖表，甚至開發(fā)科學計算應用程序。因此，本文以Python語言為例，分析如何實現網絡爬蟲。

（三）網絡爬蟲的實現

基于以上分析，為了獲得審計所需要的工商數據，可以采用網絡爬蟲軟件開發(fā)數據采集程序，實現對所需要數據的采集。基于Python的網絡爬蟲程序部分實現代碼示例如圖2所示。

五、總結

大數據時代的到來使得審計工作不得不面臨被審計單位的大數據環(huán)境，大數據環(huán)境下如何獲得所需要的審計數據成為開展審計工作的一個重要問題。本文針對目前常用數據采集方法的不足，研究了如何通過網絡爬蟲技術獲得外部數據，從而為開展大數據審計打下了基礎。通過網絡爬蟲獲得的數據為后續(xù)分析打下了基礎，比如可以對這些數據做社會關系網絡分析等。