孫夢蝶
[摘 要] 本文以某市商務促進專項資金審計為例,使用可視化技術確定審計重點,通過關聯(lián)分析多部門數據查找疑點,對大數據環(huán)境下電子數據審計的應用的難點和可行性進行了研究。
[關鍵詞] 大數據;電子數據審計;關聯(lián)分析
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 05. 011
[中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2018)05- 0026- 02
1 前 言
隨著我國財政專項資金規(guī)模持續(xù)擴大,考慮到財政專項資金具有補助金額大、補助項目分散等特征, 審計人員如果使用傳統(tǒng)的審計方法,將無法實現對專項資金的監(jiān)管職能,因此使用電子數據審計方法對財政專項資金進行審計非常必要。伴隨著審計信息化的不斷發(fā)展,亟需開展以大數據為基礎的審計探索,從而更好地發(fā)揮審計的監(jiān)督職能。
由于部分審計人員對審計信息化、大數據的認識還停留在傳統(tǒng)的審計思維觀念中,無法對海量業(yè)務數據實現分析處理,導致大量的數據未有效使用;特別是財政等數據種類多、數據量大,使用手工審計方法將無法對項目多、涉及部門廣的專項資金實現全面審計,因此研究并實現專項資金的大數據審計是很有必要的。
本文以某市商務促進專項資金審計為例,確定審計重點,總結被審計數據的特點,進一步選擇合適的數據處理方法。將內部數據和外部數據關聯(lián)分析,查找疑點線索。使用傳統(tǒng)的數據分析技術和大數據可視化技術等技術分析數據,展示大數據技術在專項資金審計中的可行性。然后總結研究內容和結果,分析大數據環(huán)境下對專項資金實行審計的有效性,提出有待解決的難點和需要完善的問題。
2 商務促進專項資金數據來源
某市201×年度撥付中央和市級商務促進專項資金共計7.6億元。中央外經貿促進專項資金用于扶持市服務外包項目、進出口貼息和中小企業(yè)發(fā)展。市級商務促進專項資金用于補貼企業(yè)涉外參展、中東歐經貿合作以及出口品牌等項目。
本審計案例的數據來源廣,涉及某市商務委、工商、地稅、海關等部門,包括:各項撥付情況表、補貼報告、補助明細表、工商數據、地稅數據、海關進出口數據,其中包含了大量的非結構化數據,如政策性文件、圖片等。商務促進專項資金審計調查工作涉及面廣,數據多而雜,僅依靠手工審計難以完成審查任務,需要借助計算機技術,對多個部門的數據進行關聯(lián)分析、橫向對比,通過可行的大數據技術對文檔進行分析,篩選出重點內容,提高審計實施效率。
3 審計工具介紹
3.1 Excel
Excel以其簡單性和易操作性在計算機審計領域得到了廣泛的應用,已經成為審計人員必備的重要工具之一。隨著信息化后被審計單位的數據更加龐大和復雜,審計人員必須在海量數據中提取有價值的信息,Excel2007以后版本提供了數據挖掘外接程序DMAddin.msi,涵蓋了決策樹、貝葉斯、聚類等主要的數據挖掘算法,這為審計人員開展審計數據挖掘提供了新的方法。
3.2 SQL Server
Microsoft SQL Server是一個分布式的關系型數據庫管理系統(tǒng),它具有獨立開發(fā)的SQL語言,并支持對稱多處理器結構、存儲過程、ODBC開放數據庫連接。SQL語句執(zhí)行各種各樣的操作,如對數據庫中的數據進行修改,篩選數據等。SQL Server分析服務是與數據庫服務并列的服務,整合了后臺的數據庫服務和前臺的商業(yè)應用程序,主要功能有多個數據源視圖共享一個數據源、通過鉆取從數據庫服務器提取完整的事例信息、交叉檢驗。
3.3 NLPIR大數據處理工具
大數據環(huán)境下非格式化數據比例非常大,如何審計非格式化數據,發(fā)現審計線索,是值得研究的。大數據搜索與挖掘共享平臺(以下簡稱NLPIR)具有完整的大數據技術處理流程,能夠滿足審計人員對大數據文本的處理需求。并且它能夠提供豐富的開放接口,審計人員可使用各類主流開發(fā)語言調用所有功能。
4 電子數據審計工具的應用及分析結果
4.1 NLPIR可視化
本部分首先使用NLPIR平臺對文件進行分析,以確定審計重點。非結構化數據的信息量和信息的重要程度很難被界定,分析成為了難點,但由于數據來源的多樣性、數據的高價值等特點,使得審計中分析非結構化數據成為必然。對非結構化數據進行可視化分析,是大數據審計的研究重點,標簽云是可視化的方式之一。實現中文標簽云步驟主要包括分詞,統(tǒng)計詞頻,根據詞頻設置字體大小。NLPIR平臺通過文章提取、中英文分詞、詞頻統(tǒng)計、關鍵詞提取等步驟實現大數據可視化。
將《關于撥付某市商務促進專項資金的函》導入NLPIR中,對文檔進行分析,通過分詞處理和詞頻統(tǒng)計后,發(fā)現“海關”“進口”“比例”等詞語頻率較高,可以大致了解該政策針對進出口進行補貼,可以根據海關數據核實申請材料,以及可能按比例補貼等情況。
4.2 Excel處理
使用Excel簡單復制粘貼功能,將各專項資金由獨立的表格匯總成中央外經貿發(fā)展專項資金匯總表和市級商務促進資金匯總表。接下來根據專項資金的補貼項目、公司所在縣市區(qū)分類篩選,并且可以通過金額排序篩選獲得補貼金額較大的公司。
4.3 SQL處理分析
4.3.1 SQL Server導入處理
將Excel整理出的中央外經貿發(fā)展專項資金和某市本級商務促進資金兩張匯總表格導入SQL Server數據庫,使數據能更加直觀地展現出來,同時便于后續(xù)的分析、篩選工作。導入數據庫之后,市級補貼明細匯總表中共有3 312條記錄,中央的補貼明細匯總表的記錄共有9 118條,其中大部分數據為中小資金補助項目的相關數據。
4.3.2 SQL Server篩選分析
導入SQL Server數據庫后,對市級和中央兩張補貼明細匯總表中的同一家企業(yè)獲得的所有補貼金額進行匯總,最后篩選出補貼總額大于10萬元的企業(yè)名單。同理,可篩選出補貼次數較多的企業(yè)名單。
使用SQL語句對補貼金額的篩選結果發(fā)現,市本級專項促進資金補貼總額大于10萬元的有178家企業(yè),其中補貼總額超過100萬元的有18家,以某進出口控股有限公司477萬元補貼總額為最多;中央外經貿發(fā)展專項資金中,補貼總額大于10萬元的企業(yè)有122家,其中補貼總額超過100萬元的有21家企業(yè),某漁業(yè)有限公司為513萬元。
通過SQL語句對補貼次數的篩選,中央外經貿發(fā)展專項資金的補貼次數最多的企業(yè)達到了32次。審計組后來著重分別調取了幾家企業(yè)的紙質申報材料,發(fā)現獲得補貼次數較多的企業(yè)多為境外參展和產品認證補貼,都符合補貼文件規(guī)定的要求,且未發(fā)現騙補等情況的存在。
4.3.3 SQL Server關聯(lián)分析
通過SQL語句關聯(lián)工商地稅信息,篩選出有規(guī)模不大或地稅金額小,但獲得的補貼卻很多的企業(yè),可以對其進一步核查。與進出口業(yè)務相關的某個資金補貼項目,可以將補貼資金關聯(lián)海關數據進行審查。如關聯(lián)海關數據,查看獲得中東歐經貿合作補助資金企業(yè)其進口額是否達到了補貼標準。通過SQL語句篩選發(fā)現,企業(yè)最后申報的進口額均低于其當年的海關進口總量,調閱該項目補貼企業(yè)的紙質申報書,均符合文件規(guī)定的要求,與電子數據沒有出入。
審核中央201×年度進口貼息項目,該項補貼文件規(guī)定:“獲得補貼的企業(yè)必須在當年有進口重要機器或者技術進口。”嘗試通過關聯(lián)企業(yè)當年的海關進口數據進行對比,從關聯(lián)結果中發(fā)現,有些企業(yè)進口額很少卻獲得大額補貼。針對該審計疑點,審計人員進一步調閱相應的企業(yè)紙質申報材料,確認了這幾家企業(yè)是通過第三方進出口公司代理進口設備。由于被審計單位提供的數據不全易導致審計失誤,因此必要時可利用大數據審計技術獲取外部數據,通過不同來源的數據進行比對,以保證數據的完整性、真實性。
5 結 語
本文通過簡單的NLPIR平臺可視化分析功能確定審計重點,并根據審計重點進一步數據分析,對大數據在審計領域的應用做出了探索。雖然傳統(tǒng)的關系型數據庫可能無法適應大數據的發(fā)展,但對于有時僅需要處理少量數據的審計人員來說, SQL語言仍是必須要掌握的電子數據處理技能。專項資金審計項目多且數據較分散,審計人員需使用相應的電子數據審計技術匯總數據、關聯(lián)數據和分析數據,因此SQL語句仍有可用性。
大數據環(huán)境下,通過充分利用電子數據審計技術對財政專項資金實行審計,研究解決專項資金項目分散、涉及部門廣的審計難點,從而更好地發(fā)揮審計的監(jiān)督作用。
主要參考文獻
[1]趙長寶.大數據對財政信息化的影響及對策[J].中國招標,2017(9):23-25.
[2]姚東香.大數據時代地方財政審計信息化建設面臨的困難及建議[C]//江蘇省國家審計信息化專題研討會,2013.