陳倩倩 彭甜典 張琦
摘要:大數據時代下,云審計、區塊鏈審計、聯網審計等各種新型審計方式充斥著我們審計的工作,傳統審計方式受到挑戰。在審計工作中,快速獲得充分、適當的數據信息是提高審計效率和效果的重要保證。文章基于近年來興起的Python技術,研究其在審計數據搜集與分析中的應用,為大數據審計技術的發展提供支持。
關鍵詞:Python;大數據;分析數據
一、引言
目前,無論是在外部審計還是內部審計中,傳統的審計工作方法是我們稱之為“七大武器”的觀察、檢查、詢問、分析程序、重新執行、重新計算、函證。審計人員結合自身經驗對這七種武器進行巧妙組合,可以很大程度上實現“提供合理保證”這一目標,然而,道高一尺,魔高一丈,隨著大數據的發展,審計的對象漸趨復雜,目前,傳統審計在數據采集與分析過程中主要存在以下缺陷:傳統審計標準難以適用于大數據審計方法的開展;傳統審計方法效率和效果難以保證;傳統審計方法難以發現系統中存在的漏洞,大數據時代,很多財務舞弊、內控失效都是由于信息系統的缺陷而引發的;大數據背景下,人們不在追求數據的精確度,而是追求數據獲取與利用的效率。
二、Python技術的工作原理
(一)Python技術介紹
人們經常把Python和網絡爬蟲聯系在一起,那么什么是網絡爬蟲?他們之間的關系是什么?如果把互聯網比作是由一個個站點和網絡設備組成的龐大網絡,如果把這張網比作是蜘蛛網,那么在這張網絡上,數據便是存放在各個網絡上的節點,而爬蟲就是一只只小蜘蛛,它們沿著網絡路線來獲取“數據”獵物。爬蟲一般是指網絡資源的抓取,因為python的腳本特性,python易于配置,對字符的處理也非常靈活,加上python有豐富的網絡抓取模塊,所以兩者經常聯系在一起。
(二)Python技術運行原理
Python技術又稱網絡機器人、網路蜘蛛,是一種按照規則自動抓取信息的程序或者腳本,當腳本啟動后, 爬蟲可自動從互聯網上標準資源的地址中下載網頁內容,隨后以匹配的方法從網頁中對感興趣的信息進行抓取,與此同時,爬蟲會持續不斷地獲取新的資源。最終讓用戶能夠獲取自己想要的信息。我們以Python爬蟲在網頁挖掘信息的過程為例。
一個完整的爬蟲流程包含三個模塊:爬取-解析-存儲。
爬取流程控制模塊,內容分析提取模塊以及網絡請求模塊。首先在待抓取隊列當中放入經過篩選的種子URL,抓取URL后爬取對應的網頁,通過 http 向目標站點發出相關的請求,發出的請求未被服務器及時響應,則會獲得圖片、視頻、音頻 html 等形式的答復。之后通過數據解析模塊對 html 數據進行解析,對網頁數據進行分析,提取需要的數據,再將數據傳給清洗模塊,隨后將URL傳給調度模塊,相關數據會被存儲到數據庫當中。按照需求,從數據庫中對爬蟲結果進行讀取,通過文字或是圖形進行展示。
以上步驟我們可以發現爬蟲在獲取網頁信息數據上功能的強大,若將此利用于被審計單位的數據庫,通過爬蟲提取發票、原始憑證、合同等信息,可以保證公司各項財務會計數據的真實性。也能夠對公司自身數據以及行業相關企業數據進行相應審計對比,對數據真實性 判斷提出合理性建議。
(三)Python技術的優點
相對于其它網絡爬蟲技術,Python的網絡爬蟲技術具有以下優點。
除了Python和R,還有各種各樣非常強大的商業數據分析軟件。但是,與這些商業產品相比,Python具有以下優勢。
1. Python的開源許可證(與GPL兼容,但是您可以發布修改后的版本而無需將更改設為開源)意味著可以免費使用它。Python語法簡單清晰,容易學習掌握。另一方面,商業軟件包帶有許可限制,并且相關的成本因素通常會限制組織中少數員工的可用性。
2. 與許多商業數據分析軟件不同,Python甚至可以在低規格的臺式計算機上使用,使其適用于大規模部署,而無需在硬件上進行額外投資。用本機Python編寫的數據分析代碼也可以用于支持Python的多個計算平臺和操作系統(例如Windows,Linux和MacOS)。
3. 大多數(如果不是全部的話)商業數據分析軟件都是為交互使用而設計的,通常使它們不適合實施完全自動化和可重用的數據分析解決方案。另一方面,Python代碼可用于完全自動化整個數據分析過程,并且還可以不受限制地進行分發和重用。
4. 世界范圍內的Python社區正在不斷為其豐富的功能集添加新的軟件包和功能。由于社區支持的規模,來自學術界和研究機構的新數據分析技術也比免費提供的Python版本更快地免費提供。
5. 有許多專門討論Python知識共享的在線討論論壇。 PyData會議還提供了寶貴的渠道,用于交換有關數據管理,處理,分析和可視化的新方法和新興開源技術的信息。 PyData會議記錄的錄像在YouTube上免費提供。
三、Python技術應用案例
案例一:以德勤會計師事務所為例:2018年,作為四大會計師事務所之一的德勤會計師事務所在審計一家銀行時,利用網絡爬蟲Python技術對該銀行近2萬個對公貸款客戶進行數據搜集,獲取了包括工商、司法、輿情、征信、稅務在內的17類專項數據。傳統審計方法一般只能通過一些數據查詢網站(比如:天眼查、企業查查等)進行數據查詢與搜集。但在該案例中,需要對近20萬個客戶展開調查,需要花費審計人員大量的時間和精力,如何批量查詢相關數據成為困擾審計人員的問題。網絡爬蟲可以在短時間內通過鋪設路徑和邏輯,快速進行網絡抓取。
在分析數據時,德勤事務所將搜集到的數據與行內客戶歷史交易、業務辦理信息等內部數據系統打通整合,最終形成了客戶關聯關系、資金往來關系、業務辦理信息、外部風險信息4大維度的客戶全景畫像。德勤風險咨詢將這2萬個對公客戶的信貸申請資料與其全景畫像執行關聯分析、交叉檢驗等驗證,最終發現了36個客戶涉及虛報財務信息、刻意隱瞞負面信息等虛假行為。借助網絡爬蟲技術,不僅在數據獲取上提高了審計的效率,更在審計上提高了完整性。
案例二:A市X會計師事務所在審計一家主營話費充值業務的企業時。其收入來源為每一筆手機充值業務提取的服務費。其客戶就是每一個手機號碼的個體,面對海量的客戶,甚至傳統意義上客商的概念都沒有了。其中審計工作的一部分就是核查手機用戶的真實性。需要在聯通、電信、移動的官網上進行號碼查詢、驗證其真實性。在這種情況下,審計師無法利用傳統的詢證法發函證,也無法取得客戶真實性的信息。于是X會計師事務所借助網絡爬蟲技術,快速獲取到了客戶的全部信息。
案例三:2018年B市審計局派出審計小組對某預算執行審計項目進行審計。為充分了解某片區住房的空置率問題,審計人員從自來水公司采集了相關片區房屋的年度用水情況數據。針對審計數據中存在的水費數據零散、傳統方法不便匯總的問題,審計組積極探索新技術、新手段,特邀請計算機審計科的技術人員協助解決。相關技術人員在認真分析數據特征和審計業務要求后,利用Python開發語言開發了“水費數據分析小程序”,實現快速進行數據匯總,并生成審計疑點數據,由審計組有針對性地進行現場核實,大大提高了審計的工作效率。
四、結語
大數據的運用是未來趨勢。與以往的審計模式不同,Python技術大大提高了數據搜集的效率和完整性。將驗證性分析變為了挖掘性分析,彌補了審計抽樣無法搜集全部數據的缺陷。并將審計方式從事后補救轉向全過程防御,尤其關注事前防御,有助于在風險發生之前就做好預測與判斷。但Python在運行過程中也存在編寫復雜、代碼不能加密、執行速度不夠快等缺點。
參考文獻:
[1]李玉香,王孟玉,涂宇晰.基于python的網絡爬蟲技術研究[J].信息技術與信息化,2019(12):143-145.
[2]謝克武.大數據環境下基于python的網絡爬蟲技術[J].電子制作,2017(09):44-45.
[3]陳偉.大數據環境下基于模糊匹配的審計方法[J].中國注冊會計師,2016(11):84-88+3.
(作者單位:南京理工大學泰州科技學院)