羌雨
【摘要】當前,審計人員進行數據分析時以Excel統計計算、SQL語句查詢分析為主,而在大數據時代來臨之際,這兩種工具是否仍能繼續作為大數據審計工具協助開展審計工作,本文將結合R語言,分別對其展開比較研究,為將來審計人員開展大數據審計提供基礎的理論參考。
【關鍵詞】大數據審計 Excel SQL R
一、引言
隨著科學的進步以及不斷發展,導致現代社會信息化水平日益提高,大數據時代應運而生。在信息化水平不斷提高的背景下,審計人員如何利用一些必要的計算機技術來分析被審計數據,從中發現審計線索以確定審計重點、范圍,這將成為開展審計工作的前提條件。而當前,審計人員采取的數據工具以Excel與SQL Server為主,本文就將針對這兩種工具與R語言之間進行比較研究,并以此探究R在實際審計工作開展的可行性。
二、R語言簡介
R語言是S語言的一種實現。S語言同C語言一樣,只是一個標準,而圍繞它有很多實現。S語言的最初實現版是S-PLUS,但S-PLUS作為一款商業軟件,價格十分昂貴,其受眾面較窄。后新西蘭奧克蘭大學的Ross Ihaka與Robert Gentleman共同開發出S語言的另一種實現-R語言。R是一個免費開源、能夠自由有效地用于統計計算和繪圖的語言和環境,在UNIX、Windows以及Mac OS系統中均可以運行,它提供了廣泛的統計分析和繪圖技術,包括回歸分析、時間序列、分類和聚類等建模方法。
R是一套完整的數據處理、計算和制圖軟件系統,擁有一套開源的數據分析解決方案,由一個龐大而活躍的全球性社區維護。與其說R是一種統計軟件,還不如說R是一統計分析與計算的環境,因為R不僅提供若干統計程序,而且還可進行統計分析,只需使用者指定數據庫和若干參數即可。R的思想是:它可以提供一些集成的統計工具,更重要的是,它還可以提供各種數學計算、統計計算的函數,從而令使用者能夠靈活地進行數據分析,甚至創造出符合需要的新的統計計算方法。
三、R與當前審計方法比較分析
(一)利用Excel分析
Excel作為我們生活中常用的數據統計、分析工具,早在中學時期便為我們所接觸、熟知,Excel能被審計人員廣泛接受,一方面與其高被使用頻率以及在使用者心中根深蒂固的地位相關,另一方面與其易操作的特點、能夠滿足大部分數據分析要求的功能密不可分。Excel在審計人員進行非大數據分析工作時,不失為首選工具,能夠幫助審計人員高效快速地分析數據并以此發現審計線索,但日前,伴隨著大數據時代的進入,數據量大且結構復雜,Excel可能并不能很好地協助進行審計工作,將其與R進行比較,可發現存在以下兩方面的不同,同時,這也直接反映了R的優勢。
1.Excel所能處理的數據數量受限。Excel滿足于非大量數據分析要求,對于海量數據的處理、計算、統計等分析過程可能并不能應用自如。本部分僅針對該公立醫院2015年的部分數據進行分析,尚可滿足數據分析需求,在針對該公立醫院多年的藥品數據進行分析時,運算速度較慢,同時會出現軟件閃退及程序停滯無法運轉的情況,而現今已進入大數據時代,數據數量不斷增加及其繁復程度不斷提高,這必將為分析數據的工具提出更高要求。而R作為大數據統計軟件,能夠實現大量數據分析,同時,只要下載安裝合適的程序包(關于R中的包將在本文第3部分詳細介紹),便能讀取包括Excel、SPSS、SAS、Stata等甚至從網頁中抓取的數據,基本沒有R不能讀取的數據形式,完全滿足國家審計人員實際大數據審計工作開展的需要。
2.Excel可視化功能有限。Excel中對分析結果進行圖表展示的能力有限,以常規的折線圖、柱狀圖、餅圖等圖形形式居多;此外,難以將大量分析結果在一張圖形中進行展示,同時對于大量數據展現的觀賞性不強,難以為審計人員分析決策提供幫助。而R是現今最受歡迎的數據分析和可視化平臺之一,基于R語言可制作多種精美的圖形,允許眾多分析結果以代表各自的圖形形態在一張圖中進行展示,可方便審計人員對分析結果進行宏觀觀察、分析。
(二)通過SQL語句查詢分析
SQL查詢是SQL最常用的功能,被廣泛應用于目前審計機關針對特定條件、事項進行的查詢分析,通過編寫簡單的SQL查詢語句來詢問特定的問題,之后數據庫通過執行這個查詢便可提供回答這個問題的數據信息。SQL的易理解、易操作、易上手等特點成為目前國家審計機關人員重點培訓的使用工具之一。但將應用SQL語句進行查詢分析與基于R語言進行統計分析過程進行比較,R語言仍具備兩點優勢:
1.R語言分析數據的功能更為強大。眾所周知,SQL語句作為結構化查詢語言,在數據查詢方面具備強大的功能,優勢明顯,但在數據挖掘層面,比如進行聚類、回歸建模分析等應用時,SQL可能并不如R語言使用得心應手;同時,面對一些高級查詢,可能需要通過編寫連串的、大量的SQL語句,而R自帶多種函數及功能強大的程序包,涵蓋統計學、生物學、數學等多個領域,而R又作為免費開源軟件,使用者還在不斷創建新的包來更新豐富R的使用功能,通過簡單的幾步函數運行便可實現多種統計需求;除此之外,R語言是用來進行統計分析和繪圖的一種語言,除了自身包括強大功能的函數及多種程序包能夠滿足審計人員進行多種統計分析的要求之外,還可以作為一種可視化語言,能夠將分析結果以各種精美的圖形展現以幫助分析決策。而進入大數據時代,軟件的數據可視化能力至關重要。
2.R語言的應用范圍更廣。SQL側重應用于數據庫軟件,能夠方便使用者作相關查詢分析,而R作為大數據統計工具,廣泛應用于數據分析、數據挖掘等諸多方面,是目前最受歡迎的數據分析和可視化平臺之一,其包含的眾多具備不同功能的函數、程序包,可滿足數據分析人員眾多需求。
四、小結
通過應用以上目前審計人員使用最為普遍的兩種數據分析工具,以當前審計人員處理、分析數據的方法,與R進行比較,分別分析其與R之間的不同并總結基于R語言開展實際審計工作的優勢。目前,審計署機關領導已開始逐漸廣泛推行R在大數據審計中的應用,但在各審計廳局出現身影較少,較多審計人員對R并無所知。因此,對于R能否作為大數據審計特有數據分析軟件,發揮其重要作用,還需要審計署各機關對R在審計實踐中的應用總結,將經驗廣范圍的宣傳及推廣,使R能在大數據審計中扮演起越來越重要的角色,為適應“大數據”時代開展審計工作的需要,提升審計效率效果作出貢獻。
參考文獻
[1]陳偉.SMIELIAUSKAS Wally.大數據環境下的電子數據審計:機遇、挑戰與方法[J].計算機科學,2016,(1):8-13.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,(9):105-108.
[3]李艦,肖凱.數據科學中的R語言[M].西安:西安交通大學出版社,2015.3.