郭芊菡 云南省澄江縣審計局
近年來,大數據在全球持續火熱地發展,成為了當前全球重要的戰略性資源,大數據技術已成為各個行業未來發展的方向。隨著這一趨勢的演進,近年來,我國對大數據的發展、管理、利用和監督工作越來越重視。2018年3月19日,胡澤君審計長在部長通道回答問題時指出,要“積極推進大數據審計,堅持科技強審”,并在全國審計機關會議上再次要求各地審計工作者要“不斷強化大數據思維”。大數據審計將是數字化審計發展的必然趨勢,也是審計人員應對海量多元數據審計挑戰的“良方”。
雖然大數據技術為審計工作的開展提供了不少便利,但有時用數據材料計算出來的正確答案,不一定就是事實真相,近年來全球就出現了數個大數據分析預測失敗的案例。也就是說,有時數據也是會“騙人”的。2017年資深數據科學家Karolis Urbonas就曾以“用數據說謊”為題發表了相關文章,指出了三種用數據誤導人的方法,希望數據分析從業者引以為戒。因此,審計人員在大數據時代下應用新技術提高審計效率的同時,也要謹防數據分析中的陷阱,確保審計的真實性和有效性。
數據選擇性偏差是指在數據分析研究的過程中,因樣本數據選擇的偏向性或非隨機性導致分析結果存在的偏差,其本質上是一種認知傾向。數據分析人員在數據的選擇和收集時,由于個人傾向或數據來源的因素,導致過分強調某一方面的數據,而不顧其它潛在可能性的數據,以至出現了所選擇的樣本不能代表全體的情況,這樣會使數據分析人員陷入樣本偏離的“陷阱”中,分析結果必然受數據樣本的片面性的影響而存在一定偏差,最終造成了數據分析資源的浪費。
因此,審計部門的審計人員在面對異常龐大的數據資源時,需要盡可能的去獲取完整的數據。但現實世界中的數據異常雜亂,數據缺失的情況經常出現甚至不可避免。面對審計數據缺失不全的情況,審計人員要具體問題具體分析,可以通過最高頻數、屬性相關關系等手段來合理地填充缺失值,避免盲目刪除缺省值造成數據愈發不全。而當基層審計部門的數據分析能力不足時,數據可以進行一定的抽樣選擇,審計者必須建立合理的樣本選擇模型,確保抽樣數據的隨機性不受個人傾向影響。
數據證實性偏見是一種經典的心理誤導問題。數據分析人員本應處于絕對客觀的角度進行分析,但是當數據分析人員事先存在某種假設或觀點時,數據分析人員便會快速地從數據中尋找可證實該假設的證據,用數據來配合假設,在這種情況下,尋找到的第一個相關記錄就很有可能被當做證據,而忽視掉那些可能推翻我們原本觀點的信息。當數據分析人員依照該思路進行分析時,如果事先的假設是存在欠缺的,那么這種偏見會將數據分析引入歧路,導致數據分析陷入證實性偏見之中。
在大數據審計時代,審計人員在審計工作中應培養證偽意識和換位思考的能力,在審計準備階段要制定好嚴格且客觀的審計要求。在驗證疑點和假設時,應該全面地收集支持正反兩面結論的數據和證據,有意識地從多角度看待問題,從反面去思考,去質疑。這樣的話,結論會更加可靠,也會更接近真實,從而避免證實性偏見的影響,確保審計證據和審計結果的準確性。同時,借助人工智能技術,用“電腦”代替“人腦”進行數據分析,也可有效地避免審計工作中“人腦”的主觀性,使審計結果更加貼近事實真相。
幸存者偏差,也叫“沉默的數據”,是數據分析過程中常見的邏輯錯誤,指的是數據分析者只注意到經過某種篩選而產生的結果,而沒有意識到篩選的過程所存在的問題,因此忽略了被篩選掉的關鍵信息。在大數據時代下開展審計分析工作,更要警惕幸存者偏差現象。隨著數據種類的豐富和數據量的激增,很容易讓人產生一種把握全局的錯覺,從而迷失在大數據的海洋中。殊不知,我們面對的大數據也許僅能代表我們所關心的極小部分,以此為基礎分析得到的結論,無論技術方法有多么新穎,如果角度存在偏差,得到的結論就會“謬以千里”。
為避免在審計分析中出現幸存者偏差,審計人員要注重審前的調查研究,在審計準備階段,對被審單位的業務工作和流程進行深刻的認識和理解,充分了解數據中重要的影響因素,如此,審計人員才能做出正確的判斷和預估。在審計數據分析過程中,審計人員要判斷樣本數據和剩余數據之間是否存在顯著差異,在取得了一定審計結論后,要通過分析剩余樣本數據,驗證審計結論。
在大數據時代,相關性數據分析的方法為大數據審計延展出了一系列新的視野,使人們看到了很多以前不曾注意到的聯系,數據間的相關性幫助我們更多、更深入地了解研究對象,甚至有不少人提出了“要相關,不要因果”的口號。大數據挖掘背景下,相關性與因果性的討論仍在繼續。舍恩伯格在《大數據時代》中表示“要全體不要抽樣,要效率不要絕對精確,要相關不要因果”。而我國李國杰院士認為:在大數據中,看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,相關性本身并沒有多大價值,關鍵是找對了“相關性”背后的理由,才是新知識或新發現。
作為審計數據分析工作者,我們要明確用大數據得出的只是相關關系,而非因果關系。大數據的相關關系并沒有替代因果關系,相關性并不意味著因果性。大數據環境下,相關關系能告訴我們“是什么”,而因果關系可以告訴我們“為什么”。在大數據審計分析的過程中,我們不能僅僅停留在發現相關性上,更要繼續向更深層次研究因果關系,找出背后的為什么,這樣才能真正弄清問題背后的原因,才能通過大數據審計發現審計對象背后存在的真正問題。
在新的時代背景下,審計的環境也發生了翻天覆地的變化,大數據技術的運用將對審計工作產生難以估量的推動作用,大數據審計成為了審計工作的未來發展方向。作為基層審計工作者,我們要不斷加強大數據思維,提升大數據審計能力。同時,在對數據量巨大、類型多樣的審計數據進行分析時,我們也要警惕這些常見的數據分析陷阱,不能因新科技所帶來的便利而產生思維惰性,要不斷強化大數據思維,保障審計方向的正確性,確保審計證據和審計結果的真實性和準確性,更加有效地實現大數據技術運用與審計工作的有機結合。