基于機器學習的非現場審計模型研究

2018-11-02 09:18:40王向陽胡璟懿

財政監督 2018年20期

●王向陽席斌胡璟懿匡堯李巍

一、機器學習是非現場審計發展的必然趨勢

非現場審計，又稱數據式審計，是指審計人員以系統和網絡為基礎，以非現場的方式持續收集與整理被審計對象業務經營管理的數據和資料，建立面向數據的審計模型，挖掘審計線索，實現遠程審計程序。與現場審計不同，非現場審計是在非固定的工作地點，依托信息技術手段對底層數據進行歸集，建立數學模型進行分析，以發現趨勢，分析審計線索，實現審計目標。

由于非現場審計的所有數據都來源于審計對象的業務數據，且審計監管對象并非具體的某一個企業或法人機構，而往往是對發生在不同主體的多個相同類型的業務數據進行分析，所涉及的數據量龐大，具有大數據的特點。因此，非現場審計的工作方式往往無法簡單通過審計人員的肉眼加以辨別和分析，而是由審計人員依據審計客觀規律和實際經驗，科學合理地設定判斷條件，建立數學模型，對海量的底層數據進行統計分析。因此，傳統的審計方法顯然無法勝任非現場審計的要求，有必要尋求新的工具手段。

機器學習主要是基于數據分析獲得規律，并利用規律設計一套讓計算機自動“學習”的算法，對未知的數據進行預測。與傳統分析工具不同，機器學習是基于客觀經濟現象和實際規律，利用統計學習理論，從海量的數據中尋找數據之間的聯系，并據此實現事先確定的工作目標。傳統的審計模型是通過業務專家的經驗梳理出業務檢查點（依賴于業務專家的經驗），然后通過對每一個檢查點編寫對應的檢查規則（計算機程序）來進行檢查，固化的檢查規則存在無法動態擴展、業務場景的覆蓋度低、依賴于業務專家的經驗等問題，需要通過構建一種新型的智能審計模型，具備對審計疑點的識別能力，對業務變化的自適應能力，能夠動態被檢查數據中存在疑似問題，而基于機器學習技術的審計模型能夠很好地解決這類問題。

二、非現場審計機器學習方法體系

非現場審計范圍主要涉及企業會計信息、經營業務、公司管理以及公司內部控制四個方面，即對會計信息的真實性與完整性、對經營業務的合規性、對公司經營管理的有效性、對被審計對象內部控制的健全性進行評價。在非現場審計中，主要采用歷史經驗形成審計系統規則并分析審計線索，鎖定審計異常點，對審計異常預警，實現審計目標。而審計線索主要是對審計資料或信息的異常查找，也就是說非現場審計中主要針對 “審計數據異常與否”、“審計流程合規與否”進行分類分析。基于此，在機器學習中，用于分類的模型主要有決策樹、樸素貝葉斯算法、神經網絡、SVM以及Logistic回歸模型等。本文結合業務分析案例，選取兩種主要分類分析方法樸素貝葉斯算法和Logistic回歸模型進行討論。

（一）樸素貝葉斯算法

樸素貝葉斯算法是貝葉斯分類中最簡單，也是最為常見的一種分類方法，其基本表達式如下：

一般而言，樸素貝葉斯算法的判斷標準：根據條件概率p(y|x)的大小來判斷待分類項歸屬于哪個類別。在條件概率的比較過程中，樸素貝葉算法表達式的分母在同一業務形態的比較中都是一樣的，因此，選取樸素貝葉斯算法表達式為：

其算法步驟如下：

①設x={a1,a2,…,am}為一個待分類項，而每個a為x的一個特征屬性;

②有類別集合 C={y1,y2,…,yn}，計算 P(y1│x),P(y2│x),…,P(yn│x);

③如果 P(yk│x)=max{P(y1│x),P(y2│x),…,P(yn│x)}，則x∈yk。

根據上述算法步驟，我們可以將具體某類審計過程總結為如下三部分：

第一部分是準備階段，該階段需要確定具體的某項審計業務的特征屬性，并對不同的屬性進行劃分，形成一個樣本集；第二部分是分類器訓練階段，這一階段主要是計算上述分類中的每一個類別在樣本中出現的頻率，以及每個類別下每個特征屬性的條件概率；第三部分是分類判斷預測階段。這一階段主要是使用分類器，對待分類項進行分類統計分析。

（二）Logistic 回歸模型

1、定義及算法模型。Logistic回歸是研究二分類變量y與一些影響因素(x1,x2,…,xm)之間關系的一種概率型回歸方法。假設有向量x=(x1,x2,…,xm)，由m個獨立變量組成，則條件概率P(y=1│x)=p則是這個二分類變量相對于時間x發生的概率。用Logistic回歸模型表示如下：

其中 g（x）=w0+w1x1+…+wmxm

對該模型進行變形，可以得到最終的Logistic回歸模型，其表達式如下：

2、算法步驟

①設x={a1,a2,…,am)為一個待分類項，而每個a為x的一個特征屬性；

②對二分類事件中頻數進行統計，然后計算出概率P的值；

③利用極大似然估計方法對模型的參數w0、w1、…wm進行估計；

④利用估計的模型進行分類預測。

在上述算法步驟中，最重要的是步驟三，即利用極大似然估計方法進行估計，其基本思想是對上述待分類項挑選參數θ使其滿足下面的方程：

L（x1,x2,…,xm；θ^）=maxL(x1,x2,…,xm；θ)

三、基于機器學習的固定資產卡片實證研究

數據是企業的關鍵主數據，在非現場審計中資產數據的異常，不僅反映數據質量問題，同時也反映了資產管理問題，另外資產數據應用面廣，數據異常將影響設備大修技改維護、財務處理、資產決策分析等，因此數字化審計從資產卡片異常識別入手，對保證數字化審計基礎扎實意義重大。本文針以固定資產卡片為例，結合機器學習算法構建智能審計模型進行分析。

（一）固定資產卡片機器學習的建模流程

在建模之前，構建機器學習的建模流程，建模流程主要包括數據收集及特征屬性提取、數據清洗、分類器選取與模型建立、分類結果評估等四個方面。具體表現如下：

數據收集及特征屬性提取:從業務系統中獲取固定資產卡片數據，并進行特征屬性數據的提取，在數據收集時盡可能地從數據樣本盡可能多的覆蓋各種業務場景、數據量盡可能大等方面進行數據收集工作；

數據清洗:對獲得的固定資產卡片進行篩選，將包含了不合理數據的固定資產卡片剔除；將剔除后的數據分為離散型數據和連續型數據，并對不同的數據類型采用不同的方法進行數據預處理：對于連續型數據進行歸一化處理，對于離散型數據進行變量數據化處理；

分類器選取與模型建立:將預處理后的數據按照比例分為訓練集和測試集，利用訓練集的數據來訓練模型，利用測試集來評價模型，最終獲得評估模型，并不斷對評價模型進行優化和訓練以獲得更高準確率；

分類結果評估：將訓練模型進行對比分析，比較它們之間的預測精度從而來選取可靠的模型，然后對待分類樣本進行分類預測。

圖1 固定資產卡片機器學習的建模流程

（二）審計數據采集、預處理以及訓練集構成

1、數據收集及特征值屬性選取。樣本數據來源于A公司轄屬的6個區域資產卡片數據，數據樣本量共計76萬多條，涵蓋了A公司電力主業的全部資產。結合規則查詢的關鍵屬性與資產卡片自身的業務特點，對固定資產業務從資產異常進行分析可以分為資產歸類異常、數據完整異常、資產管理異常、資產數據異常，經過分析選取的特征值如下表：

表1

經過綜合分析確定12個特征值：資產編碼、資產類別、資產變動方式、資產狀態、計量單位、數量、電壓等級、預計使用年限、使用保管人、資產原值（初始購置價值）、賬面凈值、累計折舊額。將特征數據劃分為兩類：離散型數據和連續型數據，劃分如下：（1）離散型變量，亦稱作文本型變量、分類型變量或枚舉型變量，呈現離散狀態。包括資產類別、資產描述、資產變動方式、資產狀態、計量單位、電壓等級、使用保管人；（2）連續型變量：在一定區間內可以任意取值，而且數值是連續不斷的，包括數量、預計使用年限、資產原值、賬面凈值、累計折舊額。

2、數據清洗。首先，依據現實情況及業務自身特點，由于單一錯誤數據直接反映了資產數據異常，可將清洗數據直接作為資產數據異常結果處理。故對不合理的樣本數據進行合理篩選與剔除：剔除資產原值≤0；剔除累計折舊＜0；剔除賬面凈值＜0；剔除資產原值 — 累計折舊額 — 賬面凈值＜0。數據清洗后有效樣本數據量為497348個。

其次，在離散型變量中，針對資產類別、資產變動方式、資產狀態、計量單位、電壓等級這些分類型變量，采用數據型代替轉換，以便計算機便于識別。例如：資產狀態分類為待報廢、報廢、在運、退運、未投運、庫存備用、現場留用這7個狀態，可以利用數字1—7來進行代換。針對文本型數據，例如資產描述，首先需要進行關鍵詞分析，結合異常特征定義特征值的關鍵詞后，進行數據型代替轉換。

3、訓練集構成。按照機器學習中樣本數據的一般規則，將清洗后的樣本數據分為80%訓練集（訓練集計397878條數據）和20%測試集（測試集計99470條數據），利用訓練集來訓練模型，利用測試集來評價模型的分類效果的優劣性。

（三）基于機器學習方法分析

1、基于樸素貝葉斯算法的固定資產卡片異常識別

（1）實驗數據說明。針對于連續型變量進行區間化處理，保證變量之間的獨立型，然后利用貝葉斯分類器進行訓練，根據貝葉斯原理和思想：根據條件概率p(yi|x)的大小來判斷待分類項歸屬于哪個類別。

（2）算法分析過程及分析。利用樸素貝葉斯算法進行建模與預測分析，預測結果如下：

表2 預測結果

通過該算法，可以計算出該模型的識別率

2、基于邏輯斯蒂回歸模型的固定資產卡片異常識別

（1）實驗數據說明。在連續型變量中，針對于預計使用年限、資產原值、賬面凈值、累計折舊額可采用極差標準化處理①將樣本數據映射到（0，1）區間里，便于二分類處理。

（2）算法分析過程及分析

表2

3、算法對比分析。樸素貝葉斯算法和邏輯斯蒂回歸模型的識別率如下圖所示：

通過該算法，可以計算出該模型的識別率：

識別率=

圖2 兩種算法的識別率對比圖

在訓練樣本量從5W增加至50W過程中，對比兩個機器學習模型可以發現：

（1）隨著樣本量不斷疊加訓練的情況下，兩個模型的準確率不斷提升。樸素貝葉斯準確率從75.55%提升到83.18%，邏輯斯蒂準確率從81.26%提升到93.14%.

（2）樣本從40W逐漸增加到50W的過程中，我們發現這兩個模型的準確率處于平穩狀態，沒有顯著變化，也就是說訓練樣本量達到一定數量時，模型準確率不再顯著提升。

（3）樣本量能夠提升模型準確性，但不是唯一因素，還應該考慮模型算法、特征值等因素。

通過對比，我們發現在準確率方面多元邏輯斯蒂回歸優于貝葉斯分類模型，造成這一現象的原因可能是在選取特征方面可能存在一定關聯關系，另外連續變量區間化可能比較模糊，不一定能滿足業務要求，這些原因都可能使得貝葉斯模型略遜于邏輯斯蒂模型。因此，可以利用多元邏輯斯蒂回歸模型自動對固定資產卡片的異常與否進行分類預測。

4、模型結果與優化分析

（1）影響模型準確率的關鍵是模型算法、特征值、樣本數量和質量。從研究成果看出，模型的算法選取對結果準確率有較大影響，對連續型特征變量，邏輯斯蒂模型更優，對離散型特征變量，樸素貝葉斯模型更具優勢；特征值的選取對結果準確率影響較大，過度選取不但計算量增加，對結果準確率也有不良影響；機器學習模型的優化，機器學習模型在樣本量不斷增加的情況下，能夠提升模型的準確性，但是當樣本量達到一定比例后這種趨勢會不明顯，需要從模型的算法、特征值等多種角度去繼續優化。

（2）機器學習方法可用于替代人工查證或規則查證。從研究成果看出，采用機器學習算法替代人工查證或規則查證解決審計智能疑點識別是可行的；機器學習方法基于歷史數據的學習，聚集了歷史經驗，隨著樣本數據的成長，比規則判斷有更大的成長空間。

四、機器學習在非現場審計中的前景展望

（一）將分類預測機器學習算法用于審計疑點智能識別是可行的

從研究成果看出，利用機器深度學習技術，探索自動識別問題憑證的智能審計方法，通過歷史數據的采集、樣本建立、機器人訓練、訓練結果測試及優化調整等，培養憑證錯誤審計機器人，這種采用分類機器學習算法替代人工查證或規則查證解決審計智能疑點識別是可行的。而且機器學習方法基于歷史數據的學習，聚集了歷史經驗，隨著樣本數據的成長，比規則判斷有更大的成長空間。

（二）機器學習方法用于提升數字化審計能力前景遠大

項目的實施，借助信息化等智能先進技術，將有效規范審前調查過程管理，促進審前調查管理機制的落實和執行，提升數字化審計能力，提高非現場審計的工作效率和效果。另外，研究具有通用性，對于后續用于解決項目類別劃分、項目投資金額異常等有借鑒意義。■

注釋：

①極差標準化處理公式：X’=(X-min(X)/(max(X)-min(X))