羌雨
【摘要】當前,審計人員進行數(shù)據(jù)分析時以Excel統(tǒng)計計算、SQL語句查詢分析為主,而在大數(shù)據(jù)時代來臨之際,這兩種工具是否仍能繼續(xù)作為大數(shù)據(jù)審計工具協(xié)助開展審計工作,本文將結(jié)合R語言,分別對其展開比較研究,為將來審計人員開展大數(shù)據(jù)審計提供基礎(chǔ)的理論參考。
【關(guān)鍵詞】大數(shù)據(jù)審計 Excel SQL R
一、引言
隨著科學的進步以及不斷發(fā)展,導(dǎo)致現(xiàn)代社會信息化水平日益提高,大數(shù)據(jù)時代應(yīng)運而生。在信息化水平不斷提高的背景下,審計人員如何利用一些必要的計算機技術(shù)來分析被審計數(shù)據(jù),從中發(fā)現(xiàn)審計線索以確定審計重點、范圍,這將成為開展審計工作的前提條件。而當前,審計人員采取的數(shù)據(jù)工具以Excel與SQL Server為主,本文就將針對這兩種工具與R語言之間進行比較研究,并以此探究R在實際審計工作開展的可行性。
二、R語言簡介
R語言是S語言的一種實現(xiàn)。S語言同C語言一樣,只是一個標準,而圍繞它有很多實現(xiàn)。S語言的最初實現(xiàn)版是S-PLUS,但S-PLUS作為一款商業(yè)軟件,價格十分昂貴,其受眾面較窄。后新西蘭奧克蘭大學的Ross Ihaka與Robert Gentleman共同開發(fā)出S語言的另一種實現(xiàn)-R語言。R是一個免費開源、能夠自由有效地用于統(tǒng)計計算和繪圖的語言和環(huán)境,在UNIX、Windows以及Mac OS系統(tǒng)中均可以運行,它提供了廣泛的統(tǒng)計分析和繪圖技術(shù),包括回歸分析、時間序列、分類和聚類等建模方法。
R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),擁有一套開源的數(shù)據(jù)分析解決方案,由一個龐大而活躍的全球性社區(qū)維護。與其說R是一種統(tǒng)計軟件,還不如說R是一統(tǒng)計分析與計算的環(huán)境,因為R不僅提供若干統(tǒng)計程序,而且還可進行統(tǒng)計分析,只需使用者指定數(shù)據(jù)庫和若干參數(shù)即可。R的思想是:它可以提供一些集成的統(tǒng)計工具,更重要的是,它還可以提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而令使用者能夠靈活地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。
三、R與當前審計方法比較分析
(一)利用Excel分析
Excel作為我們生活中常用的數(shù)據(jù)統(tǒng)計、分析工具,早在中學時期便為我們所接觸、熟知,Excel能被審計人員廣泛接受,一方面與其高被使用頻率以及在使用者心中根深蒂固的地位相關(guān),另一方面與其易操作的特點、能夠滿足大部分數(shù)據(jù)分析要求的功能密不可分。Excel在審計人員進行非大數(shù)據(jù)分析工作時,不失為首選工具,能夠幫助審計人員高效快速地分析數(shù)據(jù)并以此發(fā)現(xiàn)審計線索,但日前,伴隨著大數(shù)據(jù)時代的進入,數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜,Excel可能并不能很好地協(xié)助進行審計工作,將其與R進行比較,可發(fā)現(xiàn)存在以下兩方面的不同,同時,這也直接反映了R的優(yōu)勢。
1.Excel所能處理的數(shù)據(jù)數(shù)量受限。Excel滿足于非大量數(shù)據(jù)分析要求,對于海量數(shù)據(jù)的處理、計算、統(tǒng)計等分析過程可能并不能應(yīng)用自如。本部分僅針對該公立醫(yī)院2015年的部分數(shù)據(jù)進行分析,尚可滿足數(shù)據(jù)分析需求,在針對該公立醫(yī)院多年的藥品數(shù)據(jù)進行分析時,運算速度較慢,同時會出現(xiàn)軟件閃退及程序停滯無法運轉(zhuǎn)的情況,而現(xiàn)今已進入大數(shù)據(jù)時代,數(shù)據(jù)數(shù)量不斷增加及其繁復(fù)程度不斷提高,這必將為分析數(shù)據(jù)的工具提出更高要求。而R作為大數(shù)據(jù)統(tǒng)計軟件,能夠?qū)崿F(xiàn)大量數(shù)據(jù)分析,同時,只要下載安裝合適的程序包(關(guān)于R中的包將在本文第3部分詳細介紹),便能讀取包括Excel、SPSS、SAS、Stata等甚至從網(wǎng)頁中抓取的數(shù)據(jù),基本沒有R不能讀取的數(shù)據(jù)形式,完全滿足國家審計人員實際大數(shù)據(jù)審計工作開展的需要。
2.Excel可視化功能有限。Excel中對分析結(jié)果進行圖表展示的能力有限,以常規(guī)的折線圖、柱狀圖、餅圖等圖形形式居多;此外,難以將大量分析結(jié)果在一張圖形中進行展示,同時對于大量數(shù)據(jù)展現(xiàn)的觀賞性不強,難以為審計人員分析決策提供幫助。而R是現(xiàn)今最受歡迎的數(shù)據(jù)分析和可視化平臺之一,基于R語言可制作多種精美的圖形,允許眾多分析結(jié)果以代表各自的圖形形態(tài)在一張圖中進行展示,可方便審計人員對分析結(jié)果進行宏觀觀察、分析。
(二)通過SQL語句查詢分析
SQL查詢是SQL最常用的功能,被廣泛應(yīng)用于目前審計機關(guān)針對特定條件、事項進行的查詢分析,通過編寫簡單的SQL查詢語句來詢問特定的問題,之后數(shù)據(jù)庫通過執(zhí)行這個查詢便可提供回答這個問題的數(shù)據(jù)信息。SQL的易理解、易操作、易上手等特點成為目前國家審計機關(guān)人員重點培訓的使用工具之一。但將應(yīng)用SQL語句進行查詢分析與基于R語言進行統(tǒng)計分析過程進行比較,R語言仍具備兩點優(yōu)勢:
1.R語言分析數(shù)據(jù)的功能更為強大。眾所周知,SQL語句作為結(jié)構(gòu)化查詢語言,在數(shù)據(jù)查詢方面具備強大的功能,優(yōu)勢明顯,但在數(shù)據(jù)挖掘?qū)用妫热邕M行聚類、回歸建模分析等應(yīng)用時,SQL可能并不如R語言使用得心應(yīng)手;同時,面對一些高級查詢,可能需要通過編寫連串的、大量的SQL語句,而R自帶多種函數(shù)及功能強大的程序包,涵蓋統(tǒng)計學、生物學、數(shù)學等多個領(lǐng)域,而R又作為免費開源軟件,使用者還在不斷創(chuàng)建新的包來更新豐富R的使用功能,通過簡單的幾步函數(shù)運行便可實現(xiàn)多種統(tǒng)計需求;除此之外,R語言是用來進行統(tǒng)計分析和繪圖的一種語言,除了自身包括強大功能的函數(shù)及多種程序包能夠滿足審計人員進行多種統(tǒng)計分析的要求之外,還可以作為一種可視化語言,能夠?qū)⒎治鼋Y(jié)果以各種精美的圖形展現(xiàn)以幫助分析決策。而進入大數(shù)據(jù)時代,軟件的數(shù)據(jù)可視化能力至關(guān)重要。
2.R語言的應(yīng)用范圍更廣。SQL側(cè)重應(yīng)用于數(shù)據(jù)庫軟件,能夠方便使用者作相關(guān)查詢分析,而R作為大數(shù)據(jù)統(tǒng)計工具,廣泛應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘等諸多方面,是目前最受歡迎的數(shù)據(jù)分析和可視化平臺之一,其包含的眾多具備不同功能的函數(shù)、程序包,可滿足數(shù)據(jù)分析人員眾多需求。
四、小結(jié)
通過應(yīng)用以上目前審計人員使用最為普遍的兩種數(shù)據(jù)分析工具,以當前審計人員處理、分析數(shù)據(jù)的方法,與R進行比較,分別分析其與R之間的不同并總結(jié)基于R語言開展實際審計工作的優(yōu)勢。目前,審計署機關(guān)領(lǐng)導(dǎo)已開始逐漸廣泛推行R在大數(shù)據(jù)審計中的應(yīng)用,但在各審計廳局出現(xiàn)身影較少,較多審計人員對R并無所知。因此,對于R能否作為大數(shù)據(jù)審計特有數(shù)據(jù)分析軟件,發(fā)揮其重要作用,還需要審計署各機關(guān)對R在審計實踐中的應(yīng)用總結(jié),將經(jīng)驗廣范圍的宣傳及推廣,使R能在大數(shù)據(jù)審計中扮演起越來越重要的角色,為適應(yīng)“大數(shù)據(jù)”時代開展審計工作的需要,提升審計效率效果作出貢獻。
參考文獻
[1]陳偉.SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法[J].計算機科學,2016,(1):8-13.
[2]程學旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學報,2014,(9):105-108.
[3]李艦,肖凱.數(shù)據(jù)科學中的R語言[M].西安:西安交通大學出版社,2015.3.