大數據時代文本挖掘在審計領域中的應用研究

2020-06-10 07:43:14戚麗娜

江蘇商論 2020年6期

戚麗娜

（南京審計大學會計學院，江蘇南京211815）

一、引言

隨著計算機技術的不斷發展，現代社會各行各業都面臨著“大數據”的挑戰。大數據時代下，信息量呈爆炸式增長，那就使得如何從海量數據中獲得有價值的信息成為研究熱點。在審計領域，作為與信息密切相關的領域之一，不可避免地要跟進科技的發展，運用大數據技術，創新審計技術，提高審計效率。審計面對的客戶涉及多種行業，而企業在發展過程中，必然產生大量的文本數據。文本數據，作為非結構化數據，很難被人或機器直接解讀和利用，卻隱藏著具有巨大價值的信息，例如企業內部控制的運行軌跡，未來的項目重點，未來的發展方向和趨勢等，此類信息對于審計工作的開展具有指導意義。因此，研究如何挖掘文本數據中隱藏的信息對現代審計理論和實務具有重要意義。本文在前人研究的基礎上，基于豐富文本數據相關的研究，總結各類文本挖掘的分析方法，理清文本挖掘步驟，結合審計領域的不同目的，構建審計文本數據的框架和匹配挖掘技術。

二、文獻綜述

如何從海量數據中挖掘出有價值的信息一直是學術界的研究熱點，數據挖掘是從大量隨機并且有噪聲的數據中挖掘出其中隱含的有用信息和知識的過程，將無法人工處理的數據轉化為有規則、有價值的信息。毛文偉肯定數據挖掘在大數據時代分析數據的重要地位，認為從海量的數據中獲取可信度高、具有潛在利用價值的信息和規律必須依靠數據挖掘這一技術①。大數據時代下，數據挖掘成為實現獲取信息及規律的重要利器。張倩指出，審計精準性的提高依賴數據挖掘技術來挖掘數據內涵②。

根據數據結構性，數據挖掘可以劃分為兩部分——結構化數據和非結構化數據。而文本數據作為非結構化數據中不可忽視的重要組成部分，學術界一直在持續關注和研究。其中，一部分學者研究文本數據挖掘全過程，并設計文本數據挖掘過程的總體框架。俞冶在廣告界首次建立包含五大模塊的廣電大數據分析平臺，根據工作流程，定義數據檢測與收集、數據篩選與預處理、數據分析與特征提取、數據統計與分析以及數據可視化五步處理步驟③。大部分學者研究關于文本數據的具體挖掘方法及算法。針對文本分類技術，盧葦和彭雅站在中文和英文兩種不同的角度，比較幾種文本分類技術。他們研究發現，對于英文文本，支持向量機最適用；而對于同等數據量的中文文本，支持向量機的算法適用性要差于英文文本數據④。針對文本聚類技術，劉金嶺研究發現在處理文本稀疏點上，傳統的基于密度的文本聚類方法存在局限，要在基于密度的文本聚類方法上進行改進，提高聚類的質量⑤。針對文本相似度分析技術，屈子夢認為文本相似度分析可以分析文本數據中存在的變化，是挖掘文本的重要技術方法⑥。

還有一部分學者研究文本挖掘在具體領域中應用。譚章祿、彭勝男和王兆剛利用SPSS 軟件對CNKI 數據庫中的有關文本挖掘的研究文獻進行聚類分析，分析結果顯示國內對于文本數據預處理、文本挖掘具體應用是研究熱點⑦。

文本挖掘在審計領域中的應用和研究也屬于具體研究領域的一部分，目前，國內學者主要集中文本挖掘方法在審計領域的具體應用與文本挖掘框架的研究。張志恒和成雪嬌通過分析傳統審計方法和現代審計行業對于文本挖掘技術的強烈需求，構建文本挖掘框架，為文本數據審計提供新方向⑧。陳偉、勾東升和徐發亮研究文本挖掘方法——相似度分析和標簽云技術，解釋兩種技術的原理以及使用方法，最后通過扶貧工作的具體案例向我們展示相似度分析和標簽云技術的強大應用⑨。而武凱文運用文本挖掘技術中的關聯分析分析上市公司的交易網絡和審計費用、盈余質量的關系，拓寬審計領域文本挖掘的應用渠道⑩。

綜上所述，數據挖掘是大數據時代挖掘數據，獲取有價值信息的關鍵步驟，文本數據作為非結構數據中濃墨重彩的一筆，不可避免地得到了各界學者的關注。大部分學者集中關注文本挖掘技術的優化和具體應用，也有學者注重文本挖掘的總體框架。審計領域也不例外。但是文本挖掘技術的應用需要據需求而用，而在此主題上的研究較少。因此，本文在前人研究的基礎上，總結審計領域對文本數據的挖掘目的，結合其他領域的文本挖掘技術方法，構建文本挖掘框架，將審計目的和文本挖掘方法進行匹配，豐富文本挖掘研究。

三、文本挖掘在審計領域中的應用價值

文本數據具有海量、無規則、有噪聲等特點，但是除文本本身能夠帶給使用者直觀的信息外，文本數據還可以提供隱含其中且更有價值的信息，包括趨勢、規律、變化以及內在聯系。利用大數據分析技術，提取文本數據中隱含的、有價值的、可理解的信息的過程，即為文本挖掘。大數據環境下，審計行業的傳統審計方法受到沖擊，受到人力、時間等因素的制約，傳統的審計方法很難實現對于海量且無規則文本數據的挖掘，現代技術的發展則使得挖掘大規模的文本數據成為現實。而文本數據中可能隱含的內部控制情況、未來發展趨勢、企業戰略重大變動等信息也給審計人員提供審計方向以及依據。因此審計領域對于文本挖掘技術的需求強烈。在審計領域，被審計單位的文本數據可以是項目報告、合同、會議記錄、工作總結、年度報告，也可以是持續審計報告、政府文件、預算報告以及加工過的數據。例如合同付款情況匯總表，持續審計報告中的審計問題匯總等，對于文本信息的挖掘根據文本數據的類型不同需要使用不同的技術手段。文本數據千差萬別，但審計人員需要獲取的信息需求卻可以進行總結以及分類。

文本挖掘的有效實現需要明確地知道文本挖掘的需求，即為什么要對某些文本數據進行挖掘。在審計領域中，文本挖掘的需求可以分成以下三種：一是文本簡化需求。文本簡化需求是文本挖掘的第一層面需求。面對海量的文本數據，審計人員想要快速獲取信息的難度較大，文本數據的無規則性和噪聲使得審計人員無法快速地觀察出問題所在，因此對大量的文本數據進行簡化處理能夠幫助審計人員快速獲取信息，經簡化處理后的數據按照審計人員需求提取關鍵特征，方便下一步的分析。二是異常性需求。異常需求是文本挖掘的第二層面需求，審計人員利用大數據技術對相關文本進行挖掘，觀察挖掘結果可以快速發現文本信息發生重大變化的情況，從而獲取審計線索。針對異常情況設計審計程序、分析異常情況，最終獲得審計證據，為審計意見的提出提供支持。對于文本數據的異常性分析能夠有效提高審計效率。三是趨勢性需求。趨勢性需求是文本挖掘的第三層面的需求。文本數據中隱含的趨勢性信息，可能是企業未來的發展、管理層的期望、企業的風險趨向、合同金額波動等，往往使得審計工作者了解被審計單位的整體態勢，把握被審計單位的整體風險水平，有利于審計重要性水平的確定，從而更有效率地開展審計工作。

審計領域中文本挖掘的三類需求并非相互獨立，審計人員對于同一類文本數據的挖掘需求可以是單單的一種，也可以是其中的兩種或者全部。例如公司年度報告中的管理層分析與討論蘊含與風險相關的信息，審計人員需要獲取的信息包含管理層分析中的問題是否存在變化、管理層對企業的發展情感傾向等，這體現文本挖掘的異常性需求和趨勢性需求。通過確定分析文本數據的需求來相應地選擇文本挖掘技術，可以高效率地實現信息挖掘，節省人力、物力，還可以有效避免因人工因素導致的數據遺漏等情況。因此，在進行文本挖掘之前，相關審計工作人員應該明確審計需求，進而選擇適宜的技術手段。

四、審計領域與文本挖掘技術的融合

大數據時代下，審計人員獲得的文本數據是海量的，面對巨大的工作量，審計人員使用傳統的審計方法，例如現場勘查、問詢、詢函等無法獲得全面的審計信息。但隨著科技與互聯網技術的發展，利用大數據技術則可高效率地獲取信息。文本挖掘技術也在不斷發展。現階段，文本挖掘技術主要包括文本分類、文本聚類、文本相似度分析、時態文本分析、文本完整性檢測、情感傾向、趨勢分析等具體技術手段。在前人研究的基礎上，將審計需求與文本挖掘技術進行融合，連接需求和技術，列舉現有技術手段，是滿足審計需求的必然要求。

（一）文本簡化需求

文本簡化需求，即審計人員想要獲取無噪聲、可理解、可觀察的文本數據。針對文本簡化需求，文本挖掘技術主要涉及三種技術手段——去躁、分詞、特征抽取。這三種技術操作是預處理三部分。第一去躁，將文本數據中的語氣詞、助詞等一些沒有重要含義的噪聲詞語進行去除。現有技術手段包括POS 詞性分析、Stemming 處理（詞干化處理）等。第二分詞，文本分詞是文本簡化處理中的關鍵步驟。中文不同英文，英文單詞之間具有空格，容易進行分詞處理，而中文中詞與詞之間不具有明顯的分割，因此中文的分詞具有一定的難度，此外，文本分詞的有效度決定簡化后的文本數據特征信息的提取質量。現有技術方法包括中國科學院計算技術研究院研發的漢語詞法分析系統ICTCLAS 處理中文自然語言、ROST content mining 軟件、jiebaR 程序、基于字符串匹配的分詞算法、基于統計的分詞方法等。第三特征抽取。經歷去躁和分詞處理之后，文本數據可從無序、多噪聲的文本轉變為實驗文本數據。特征抽取質量決定后續深度挖掘質量，基于特定的審計工作確定需要的文本特征。抽取的特征應該易于后續挖掘，所以應該是計算機可以識別的結構化或半結構化類型數據。現有技術手段有基于規則的抽取、基于隱馬爾可夫模型（HMM）的抽取，基于詞典的抽取、LDA 文檔主題生成模型、基于高頻詞的信息抽取、開源工具Word2ve、向量空間模型、2-Gram 頻率統計等。文本簡化操作確保審計工作者獲取初級結構化或半結構化數據，便于后續分析。

（二）異常性和趨勢性需求

滿足審計的異常性和趨勢性需求，需要通過文本簡化處理的中間文本數據進行深入挖掘操作，包括詞頻統計、文本分類、文本聚類、文本相似度分析、時態文本分析以及關聯分析等技術。這些技術的實現往往依靠算法來支持。現有的技術方法包括：一是詞頻統計，現階段的主要技術手段為TFIDF 技術。二是文本分類，傳統的分類算法包括貝葉斯算法、TF-IDF 算法、支持向量機、KNN 等，改良的文本分類方法有基于詞向量的語義分析法和學習分類算法、NaiveBayes 算法文本分類系統、基于多隱層極限學習機的文本分類方法等。三是文本聚類，現有技術手段包括OPTICS_TS 算法、K-means 算法、OPTICS_TS_NEW 算法、基于語義密度文本數據聚類的方法、采用密度峰值聚類算法實現文本聚類等。四是文本相似度分析，現有技術手段包括杰卡德（Jaccard）相似系數、余弦相似性余弦相似度等技術。五是關聯分析，最具有借鑒意義的是Apriori 算法。還有些軟件平臺包含各類文本挖掘技術，例如IBM 的 Intelligent Miner for Text、軟件 ROST content mining、SPSS 軟件、DEC 的 Alta Vista Discovery 等。

現有文本挖掘技術的不斷發展和改良，有效地減少審計人員的工作量，提高了審計效率。將審計需求與現有文本挖掘技術結合將給審計人員提供文本挖掘技術庫，根據審計需求，匹配相應的技術手段，更快更有效地開展審計工作。現有的技術手段以及算法的實現往往具有通用價值，完全適用審計行業的需求還需要進行反復試驗和改進。

圖1 文本挖掘流程

五、基于審計領域下文本挖掘框架分析

（一）特征抽取、詞頻統計與主題發現

特征提取、詞頻統計以及主題發現是在審計人員進行需求選擇之后的第一步文本挖掘操作。經過去躁、分詞等文本簡化處理的初級實驗文本數據，如果審計人員是簡化需求，則應該進行特征抽取操作。如果是異常性需求或者趨勢性需求，下一步的操作應該為詞頻統計、主題發現。特征抽取是抽取出文本數據中最能代表整體部分的信息，將非結構化的文本數據轉化為結構化或半結構化的數據，方便計算機或人員識別。特征抽取、詞頻統計以及主題發現是文本后續深入挖掘的基礎，文本分類、聚類均依靠主題特征、高詞頻等特征進行操作。因此，文本特征的選擇不應該僅僅考慮高頻詞，還應該考慮詞與詞之間的語義等。文本特征應最具有區分度，考慮不同的審計需求，審計人員在選擇文本挖掘技術上應慎重考慮。

（二）文本分類與文本聚類

文本分類是運用設定好的審計主題，先對分類進行訓練，目的是獲取一定的審計領域中的文本數據規則，利用已知的規則，實現對未知的審計文本數據的分類。然后將實驗文本數據導入，利用訓練完的文本分類算法模型進行文本分類，將一篇或多篇文本進行類別歸屬。文本分類是重要的文本挖掘技術，使用文本分類技術可以幫助審計人員對大量文本數據進行快速且有效地歸類，為進一步的文本挖掘打下基礎。

與文本分類不同的是，文本聚類不需要事先設定好主題類別。文本聚類是將文本相似的文本數據聚集成一組，簡單地說，文本聚類即將描述相同的文檔聚集在一起。因此文本聚類需要保證在一組中的文本數據的文本相似度較高。文本數據因為無序性的特點，使得審計工作者很難從中發現隱藏的信息，但通過利用文本聚類技術，則可以對同一組內的文本數據深入進行文本挖掘分析，得到隱藏其中的異常性、趨勢性信息，為審計工作的開展奠定基石。同時，文本聚類減輕審計人員的閱讀負擔，幫助審計工作者快速瀏覽，發現信息。文本聚類對于大規模的文本數據適用性較強。

（三）文本相似度分析、關聯分析與趨勢分析

文本相似度分析、關聯分析以及趨勢分析是對經過文本分類、文本聚類操作后的結果數據進行具體分析。通過這三類具體分析后得到的結果成為審計人員作出判斷的依據。

文本相似度分析，是分析兩份文字相似的程度。通過分析文字之間的相似度可以得到文本數據中是否存在重大變化，一定程度上滿足審計工作者的異常性需求和趨勢性需求。文本相似度分析是一種高效的文本挖掘技術。例如文本數據描述的是企業戰略，分析得到的結果是前后兩年的戰略方向發生變化，這就給審計人員指出審計方向，即針對戰略發生變化涉及的項目設計新的審計程序，進行重點審計，給審計意見的提出提供審計依據。

關聯分析，關聯分析是分析文本與文本之間、特征與特征之間、信息與信息之間的關聯關系。例如研究集團的關聯方關系、研究母子公司之間的交易等。關聯分析的結果給予審計人員清晰地關系網絡圖，實現文本數據轉化成可理解性數據。大量的文本數據之間存在一些潛在的信息關聯，審計人員運用關聯分析，了解被審計單位的關系脈絡，整合審計資源，有計劃地分配審計任務，有序、有效率地開展審計工作。

趨勢分析，趨勢分析是分析文本數據中隱含得隨著時間、部門等變化的規律和趨勢。通過對文本進行挖掘，得到特定數據的趨勢區間。例如研究合同金額的趨勢，可以獲得被審計單位合同金額的趨勢區間，從而對未在這一區間的合同進行進一步研究，分析原因。通過趨勢分析，審計人員可以把握被審計單位整體情況，了解審計風險，從而保證審計工作的有效實現。

大數據時代，文本數據的爆炸式增長以及挖掘技術的不斷發展給審計領域帶來了機遇和挑戰。作為與信息關聯密切的審計行業，不可避免地要緊跟時代發展，注重審計與其他學科的融合，不斷創新審計方法，開發專用于審計行業的文本挖掘軟件，為高效率地實現審計工作而努力。本文在前人研究的基礎上，從審計需求出發，將審計需求與文本挖掘技術方法相匹配，為審計人員提供文本挖掘技術方法庫，同時在文本挖掘框架中加入需求選擇，結合具體的文本挖掘技術，理清審計行業對于文本的挖掘步驟，滿足審計人員對于文本挖掘的需求，豐富審計領域的文本挖掘研究。本文的技術方法具有通用性，但尚未進行審計領域的實證分析。不可否認的是，將文本挖掘技術應用于審計行業有利于減輕審計人員的工作量，滿足審計需求，提高審計效率。因此針對審計領域的文本挖掘技術方法的具體應用及創新將是后續的研究重點。

注釋：

①毛文偉.論數據挖掘技術在文本分析中的應用[J].日語學習與研究,2019,(01):1-9.

②張倩.我國審計大數據精準性研究[J].人民論壇,2019,(22):88-89.

③俞冶.大數據文本挖掘在廣播電視中的應用與探索[J].廣播與電視技術,2017,(04):38-43.

④盧葦,彭雅.幾種常用文本分類算法性能比較與分析[J].湖南大學學報(自然科學版),2007(06):67-69.

⑤劉金嶺.基于語義密度的文本聚類研究[J].計算機工程,,2010,(05):81-83.

⑥屈子夢.淺談基于大數據處理及文本相似度判斷的信息服務工單分析工具[J].機電信息,2018,(33):54-55.

⑦譚章祿,彭勝男,王兆剛.基于聚類分析的國內文本挖掘熱點與趨勢研究[J].情報學報,2019,(06):578-585.

⑧張志恒,成雪嬌.大數據環境下基于文本挖掘的審計數據分析框架[J].會計之友,2017,(16):117-120.

⑨陳偉,勾東升,徐發亮.基于文本數據分析的大數據審計方法研究[J].中國注冊會計師,2018,(11):5+82-86.

⑩武凱文.上市公司的關系網絡和事務所審計行為——基于公司年報文本分析的經驗證據[J].上海財經大學學報,2019,(3):74-90.