大數據環境下基于文本挖掘的審計數據分析框架

2017-08-16 09:32:50張志恒成雪嬌

會計之友 2017年16期

張志恒++成雪嬌

【摘要】大數據的浪潮推動著審計技術的變革，給審計模式和審計方法都帶來了巨大的改變。傳統的審計數據分析方法不能對半結構化以及非結構化數據進行分析，也無法滿足大數據環境下審計信息化發展的要求，亟須提出新的審計數據分析思路和方法。在此背景下，文章提出了基于文本挖掘的審計數據分析框架，并闡述了采集與存儲、挖掘與分析、總結與發布詳細的審計數據分析流程。通過利用文本挖掘技術對采集的非結構化原始審計數據進行挖掘，根據明確的審計需求建立不同的文本挖掘模型，對審計數據進行分析，進而發現審計疑點，最終形成可理解的審計證據和審計線索。該框架的構建旨在為大數據審計提供新的思路，以降低大數據審計風險，提高審計質量。

【關鍵詞】大數據；文本挖掘；審計數據分析

【中圖分類號】 F239.1 【文獻標識碼】 A 【文章編號】 1004-5937（2017）16-0117-04

引言

大數據引發了審計領域的創新和變革，海量的數據中結構化數據難以代表整體，非結構化數據已經成為大數據的關鍵組成部分。如何對這些非結構化數據進行分析是推動大數據審計開展的重要內容。我國當前在審計領域對非結構化數據還未形成全面系統研究。以文本挖掘為代表的數據挖掘技術在大數據審計中占有舉足輕重的地位，它不再僅僅以結構化的審計數據為分析對象，可以深入地對大量非結構化數據進行挖掘分析和利用。所以本文提出了基于文本挖掘的審計數據分析框架，這將為大數據審計研究提供全新的分析思路。

一、文獻綜述

國外學者在研究大數據給審計帶來的影響中討論到，大數據能夠改變和影響審計師所做出的決定和收集審計證據的方式[1]。Gray et al.[2]認為采用數據挖掘方法能提高審計程序的效率和有效性。國內學者對大數據審計的研究始于2013年。阮哈建等[3]分析了大數據對財政審計、金融審計帶來的挑戰與機遇。呂勁松等[4]提出并構建了金融審計數據分析平臺，為金融審計提供了新的思路。秦榮生[5]指出大數據環境下審計模式、審計觀念、事物之間的關系將發生轉變。之后，學者開始對大數據環境下審計技術方法進行研究，顧洪菲[6]對大數據環境下的審計數據分析方法進行初步探索，提出了對NoSQL、機器學習的需求。鮑朔望[7]探討了聚類分析、異常分析及演化分析等數據挖掘方法在政府采購中的運用。羌雨[8]探索了R語言在大數據審計分析中的優勢及可行性。國外學者提出的審計數據分析方法有聚類[9]、隨機森林[10]、語言分析[11]和粗糙集。

縱觀國內外學者的研究，大部分研究主要還是局限于對結構化審計數據進行分析，在這種相對封閉的環境下研究了大數據對審計的影響以及具體的審計方法，并且大多研究著重于從大數據對審計的影響和審計技術方法這兩個方面進行探討，鮮有學者針對非結構化審計數據進行深入研究，而且也很少研究提出關于如何構建大數據環境下的審計數據分析框架，對于大數據審計還未形成完整的研究成果。所以，本文提出并構建大數據環境下基于文本挖掘的審計數據分析框架，研究該框架下文本挖掘的詳細流程。

二、傳統的審計數據分析

審計人員如何將采集的原始數據轉化為審計證據，這將直接影響到審計目標的實現。從采集到獲取證據的過程中，審計人員最應該關注的問題是能否挖掘出有價值的數據進行審計數據分析，這對審計項目的質量和審計成果的體現都起著重要的作用。所以，在審計工作中最關鍵的步驟是進行審計數據分析。

目前，審計人員在審計工作中經常采用的審計數據分析方法以及計算機輔助審計工具（CAATS）有賬戶分析、經濟指標比率分析、趨勢分析、統計分析、Excel數據分析、Access、SQL、AO審計軟件等。Excel數據分析和針對會計賬表的審計軟件被事務所熟用；SQL語句查詢、AO審計以及審計數據采集與分析等審計軟件常常被用于政府部門和事業單位的內部審計工作中；對于企業的內部審計，大型企業采用專門的審計平臺或在ERP中嵌入內部審計模塊，中小企業比較依賴Excel和Access進行審計數據分析。但大數據時代的來臨，使得海量和多元異構的數據極大地拓展了大數據審計的范圍，傳統的審計方法和輔助審計工具已顯得力不從心，無法對非結構化數據進行采集和分析。

三、大數據環境下的審計數據分析

在國際數據公司（IDC）發布的一項報告中顯示，企業中最多只有5%的數據為結構化數據，其余大都是非結構化數據，并且88%的企業管理者認為這些存儲在數據庫以外的非結構化數據，才是他們接觸和了解企業的最佳選擇目標。數據是審計分析的核心，采用文本挖掘技術對非結構化審計數據進行挖掘分析，將會給審計領域帶來一個新的技術應用潮流。這將有助于審計人員在大數據模式下對被審計單位進行內部控制、舞弊識別、違法違規等方面的評估。

（一）非結構化數據

顧名思義，非結構化數據沒有固定的結構，不能通過一般的數據庫二維邏輯表結構來表達，也不能將其標準化和完全數字化。按照格式可以分為文本文檔、圖片、音視頻等。

（二）審計數據分析范圍

隨著“云計算—物聯網—大數據—智慧城市”的快速發展，數據信息將實現共享，數據量將以難以想象的速度爆發式增長。一方面，審計數據分析的對象將發生變化，審計對象不再局限于和被審計單位財務相關的信息，而被審計單位內部的規章制度、會議記錄、合同、通知等非財務信息也將是審計的重點對象。與被審計單位相關的外部數據也顯得尤為重要，比如新聞文章、股吧評論、論壇發布等。另一方面，海量的數據必然會產生多樣的數據格式，審計數據類型從傳統的結構化數據轉向多元異構的大數據。審計范圍的重點轉為對非結構化的數據進行分析，可以全面有效地對被審計單位的內部控制、違法違規行為、重大經濟決策等內容進行評估。

（三）審計數據分析思維

審計數據分析思維由單一的“因果分析”模式向“因果分析與關聯分析”共存的思維模式發生轉變。因果分析是分析事件因和果這兩者之間存在的必然關系，據因找果或者溯果擷因。然而，在海量的數據中，數據之間可能存在一因多果，或是一果多因的復雜關系，如果深入分析因果關系“為什么”和“是什么”需要耗費審計人員大量的時間和精力。所以，為了高效地開展審計工作，審計人員應該更加注重數據間的相關關系。若一種現象的發生通常伴隨另一現象的出現，那么可以推斷A和B經常是一起發生的，進一步對兩者之間的相關關系進行仔細的研究，從而確定關聯規則。經濟學中最成功的營銷案例——啤酒與尿布，就是把關聯分析思想運用到大數據分析中的典型例子。同樣在審計數據分析中運用相關關系分析的思維，挖掘審計數據之間的潛在關系，建立明確的關聯規則，可以增加審計證據的效力。

（四）審計數據分析技術方法

審計人員在審計工作中仍然運用抽樣審計的方法顯得較為保守。在大數據模式下開展審計數據分析工作，采用總體代替樣本的方法更能反映數據的本質，使得審計數據分析的內容更加全面、質量更加可靠?！翱傮w即樣本”的方法可以規避由局部推算整體進行審計數據分析的局限性，避免抽樣審計風險。隨著舞弊手段日益復雜，各種虛假信息隱藏在海量的數據中，通過一般的審計方法和工具難以對其進行察覺，因此，審計人員需要運用新的審計技術和方法對隱蔽的信息進行挖掘。以文本挖掘為代表的數據挖掘技術可以幫助審計人員分析審計數據內部潛在的規律和本質，挖掘數據之間隱含的關系，分析異常數據。例如，與被審計單位相關的信息，可以從論壇、股吧等社交媒體網站中去挖掘網民和媒體發布的評論和報道，采用文本挖掘技術能有效地對這些信息進行挖掘整合，從而獲得全面、實時的審計數據。

四、基于文本挖掘的審計數據分析框架

文本挖掘技術主要是針對非結構化知識進行挖掘，是大數據審計技術中不可或缺的部分。特別是隨著大數據在審計領域的廣泛推廣和運用，文本挖掘技術對審計數據分析的重要性已逐步凸顯。目前文本挖掘技術主要是應用于對文檔、網頁中蘊含的文字說明進行分析，對于如視頻、圖片、語音等數據進行挖掘時，也是從中提煉出主要內容并換為易于理解的文字描述。所以本文將以文本挖掘技術為重點對審計數據進行分析，構建基于文本挖掘的審計數據分析框架，如圖1所示。

（一）審計數據的采集及存儲

審計人員首先應對被審計單位的基本情況進行深入了解，通過分析審計目標、審計范圍、審計內容，確定具體的審計需求。根據明確的審計需求，采集與被審計單位相關的大量非結構化數據是進行審計數據分析的關鍵步驟。一方面，針對來自企業外部的數據能夠通過采用網絡爬蟲技術和API等方式進行獲??；另一方面，可以通過各種有效的數據訪問接口對非結構化數據進行采集。

為了保證審計數據的完整性和真實性，需要建立嚴格和規范的制度，對采集到的非結構化數據進行科學安全的管理。通過構建Hadoop分布式框架的HDFS文件存儲系統，集中存儲業務系統的非結構化審計數據。在此基礎上，還需要搭建適合用于存儲非結構化數據的數據庫——HBase。HBase可以彌補HDFS沒有隨即讀寫操作功能的缺陷，其內部管理的文件全部存儲在HDFS中。

構建基于Hadoop的分布式文件系統HDFS、分布式數據庫HBase以及分布式計算框架MapReduce組成的Hadoop生態系統，如圖2所示，對非結構化數據進行統一管理。這種管理模式降低了審計數據管理風險，使各個平臺的數據實現共享，打破了信息孤立的尷尬局面。

（二）審計數據文本挖掘分析

1.文本預處理

審計文本預處理的過程，需要對審計文本進行分詞、刪減停用詞、特征抽取與選擇等步驟，如圖3所示。

（1）特征抽取。對審計文本進行預處理的第一步是根據審計需求，抽取出能夠代表審計文本特征信息的詞或者短語，要求獲取的這些特征對審計文本的類別能起到區分和識別的作用。通過向量模型對審計文本的內容進行抽取，建立文本表示模型，將非結構審計文本轉化為計算機能處理的表達形式。

（2）特征選擇。根據明確的審計需求，優先采用對審計文本內容具有較強表達能力的特征。審計人員還需根據審計目的需要，對經過特征抽取的文本特征集采用卡方檢驗、TF-IDF等特征選擇方法進行進一步選取，在進行審計文本挖掘前避免垃圾數據，保證獲取的數據能很好地表達審計文本信息的特征項。

2.文本挖掘

文本挖掘是審計數據分析的核心內容，本階段需要對經過清理和篩選出的文本數據根據不同的審計目標選擇不同的文本挖掘方法（文本摘要、關聯規則分析、文本分類、文本聚類、等技術）進行挖掘分析，發現數據之間的異常關系，為審計疑點和線索提供有效的審計證據。

文本摘要，是指用極其簡短的語言對文檔的內容進行高度概括，達到完整清晰地傳遞文本主題思想的目的。將文本摘要技術運用在審計數據分析中，可以通過求取中心文檔的方式對審計文本的摘要進行獲取。文本摘要可以幫助審計人員通過方便的瀏覽方式和快速的審計線索查詢方法來提高審計數據分析效率，不需要對審計文檔的全部內容進行分析，只需獲取審計文本摘要即可。

關聯分析，關聯分析技術在文本挖掘中主要針對知識進行關聯。大量的審計文本信息之間本質上存在著潛在的知識關聯，可以通過推理規則、知識檢索、語義分析等技術來表示審計文本信息之間存在的這種關系，針對審計非結構化文本進行關聯分析，研究審計文檔之間可能存在的某種隱含的關系，從中獲取審計事項和審計目標的本質聯系。這是借助一般的審計數據分析方法和工具不能完成的任務。

文本分類，屬于有監督的學習。首先，對文檔的類別設定主題，根據主題對文本進行分類，將符合同一主題的文本作為相同的類別。通過對預先設定的文本類別進行描述，建立分類模型對訓練文本進行分類訓練和準確率評估，最后利用確定好的模型對測試樣本進行分類。將文本分類技術運用到審計數據分析中，可以幫助審計師針對不同的審計需求和審計目的，對審計文本快速有效地進行分類，并結合相應的審計方法有針對性地開展審計數據分析工作。

文本聚類，聚類分析是基于同類文本之間文本差異最小化的思想，反之亦然。文本聚類的優勢是無須進行監督學習，不需要通過訓練進行模擬，屬于無導師學習。由于一些難以發覺的信息以特殊的形式隱藏在大數據中，一般的審計數據分析方法很難挖掘出這些異常信息，而采用文本聚類的算法能夠彌補這個缺陷。這些異常信息往往是審計人員重點審查的對象，可以對舞弊和違規行為的評估提供審計證據。對審計文本進行聚類后，可以按類別對每類文本進行具體的分析、比較和總結，分析異常數據存在的原因，大大減輕了審計人員進行審計數據分析的工作量。

3.結果可視化

結果可視化的主要思想是將復雜的審計數據通過可供使用者所理解的方式表達出來。結果可視化可以把文本挖掘所獲取的知識通過可視化的視覺符號（網絡圖、樹狀圖、維恩圖、坐標等）清晰地進行展示，審計人員可以根據審計目標和評估指標，對可視化的結果進行分析、解釋和評價，從不同的角度對審計數據進行更加深入的觀察和更加全面的多維分析。

（三）總結和發布

總結和發布是審計數據分析流程的最終階段。審計人員和技術人員共同將上一階段可視化分析所展現的結果進行篩選、歸類、整理和深入分析，總結出有價值和有效的審計知識進行標準化，形成審計經驗和審計線索，供審計人員分析取證。最后對被審計單位做出相關的評價，得出審計結論。

大數據環境下的文本挖掘審計數據分析主要是借助文本挖掘技術進行審計數據分析。根據明確的審計需求，采集與被審計單位相關的原始審計數據進行預處理，建立不同的文本挖掘模型對審計數據進行分析，最后對可視化的結果進行分析和評價，為審計報告提供參考意見。如果文本挖掘的結果無法滿足審計目的和審計需求，則需要分析審計過程中存在的問題，不能達到審計目的的原因以及該過程中存在的薄弱環節，比如是否需要考慮重新選擇文本挖掘模型和參數。所以從開始采集原始數據到獲取審計證據的審計數據分析過程不是一次性能夠順利完成的，需要通過不斷總結和完善某些環節，達到預先設定的審計目標。

五、結論與展望

大數據環境下，為了給審計研究提供新的思路和審計運用提供新的方法，本文從審計數據分析工作實際需要的角度出發，提出了基于文本挖掘的審計數據分析框架。該框架是基于Hadoop生態系統，結合文本挖掘技術，建立融審計數據的采集、存儲、分析處理、結果可視化為一體的審計數據分析框架。本文的研究旨在為大數據環境下審計數據分析提供參考，但還未對此進行實證分析?？梢钥隙ǖ氖?，利用文本挖掘技術可以彌補傳統審計技術方法的不足，如何實現和驗證文本挖掘技術在審計工作中的運用，將是后續研究的重點內容?！?/p>

【參考文獻】

[1] MOFFITT K C， VASARHELYI M A. AIS in an age of Big Data[J]. Journal of Information Systems，2013，27（2）：68-92.

[2] GRAY G L， DEBRECENY R S. A taxonomy to guide research on the application of data mining to fraud detection in financial statement audits[D]. Working paper，California State University，Northridge，2013.

[3] 阮哈建，劉西友.大數據與審計機關的應對策略[J].中國內部審計，2013（6）：84-85.

[4] 呂勁松，王忠.金融審計中的數據分析[J]. 審計研究，2014（5）：26-31.

[5] 秦榮生.大數據時代的會計、審計發展趨勢[J].會計之友，2014（32）：81-84.

[6] 顧洪菲.大數據環境下審計數據分析技術方法初探[J].中國管理信息化，2015（3）：45-47.

[7] 鮑朔望.大數據環境下政府采購審計思路和技術方法探討[J].審計研究，2016（6）：13-18.

[8] 羌雨.基于R語言的大數據審計方法研究[J].中國管理信息化，2016（21）：46-49.

[9] LENARD M J，ALAM P ，BOOTH D. An analysis of fuzzy clustering and a hybrid model for the auditors going concern assessment[J]. Decision Sciences，2000，31（4）：861-884.

[10] YEH C， CHI D，LIN Y. Going-concern prediction using hybrid random forests and rough set approach[J]. Information Sciences，2014，254（1）：98-110.

[11] LOUGHRAN T，B MCDONALD. When is a liability not a liability？ Textual analysis，dictionaries， and 10-Ks[J]. The Journal of Finance，2011，66（1）：35-65.