楊葉坤,劉東華,陳仕鴻
(1.廣東金融學院,廣東 廣州 510521;2.廣東外語外貿大學,廣東 廣州 510006)
稅務稽查是稅務機關對納稅人進行檢查監督的合法行為,是打擊偷稅漏稅行為、保障國家稅收秩序的根本[1]。但是,當前稽查案件的確定主要通過人工篩選、群眾舉報或上級交辦,稽查對象的選擇一直依靠稽查人員的主觀經驗來判斷,缺乏科學有效的方法來替代人工選案,明顯暴露了選案職能的不規范性,根本無法有效應對層出不窮的偷逃稅手法,較高的稽查成本往往換來較低的稽查效果。隨著信息科學的快速發展,稅務稽查數據被不斷挖掘、整理和完善,機器學習和算法應用在稅務稽查領域不斷推廣,使基于機器學習的稅務稽查選案系統在稽查工作中發揮著越來越明顯的作用。為了不斷提高稅務稽查工作的效率,眾多學者紛紛對稽查選案的模型方法進行了很多有益的研究:文獻[2]采用二分類Logistic 回歸分析方法;文獻[3]采用決策樹的方法進行分類;文獻[4]采用自組織特征映射(SOM)神經網絡的方法,進行無指導分類;文獻[5]認為采用基于支持向量機(SVM)與自組織特征映射(SOM)神經網絡相結合的方法可以優化稽查選案環節;文獻[6]主張通過改進型K-均值聚類算法對稽查選案進行科學的分類。
本研究基于BP 神經網絡的基本原理,將BP神經網絡算法用于稽查選案環節,并與二分類Logistic 回歸分析方法的結果進行了策略的比較,以期提高選案工作的準確度,為稅務稽查工作的科學選案提供些許參考。
從很多研究成果得知,人工神經網絡(ANN)是研究人員模擬人類神經突觸聯接的結構所提出的信息處理模型。它是一種具有自適應、自組織、非線性和具有學習能力等特點的研究模型[7]。BP(Back Propagation)神經網絡則是一種按誤差逆傳播算法訓練的多層前饋網絡[8],是目前應用較為廣泛的神經網絡之一,通過簡單的“輸入/輸出”模型來反映其間的函數關系,而并不需要掌握實際情況中復雜的函數映射關系。如圖1 所示,BP 神經網絡的拓撲結構包括了輸入層、輸出層、隱含層。

圖1 BP 神經網絡拓撲結構圖
在圖1 中,設定X1,X2,…,Xn 分別是BP 神經網絡的輸入值,Y1,Y2,…,Ym 分別是BP 神經網絡的預測值,ωij和ωjk為BP 神經網絡的權值。由此可見,BP 神經網絡實際上可以看成是一個非線性函數。

圖2 BP 算法的基本流程
BP 基本算法的一個主要特點是有向后傳播的步驟,簡單的理解就是為了使網絡誤差的降低符合條件,其會通過反向傳播來不斷調整網絡中的權值和閾值(見圖2)。
本研究根據相關成果,以我國稅收體系中主體稅種之一——增值稅,作為稽查選案模型研究對象。如參考文獻[4,6]的降維計算結果不僅用了稅收負擔率、銷售財務費用率、速動比率等3 個指標,而且把實際稅率、存貨率、資產凈利率、銷售成本率也作為主要指標來對選案模型進行分析,對本方向的研究有積極的借鑒和參考作用。因為,基于BP 神經網絡的稅務稽查研究需要采用來源于稅務系統的真實數據。所以,研究結果中某地市稅務局共有80 個企業中的31 個企業被劃歸到有不誠實納稅行為的納稅人行列,其余的49 個企業屬于正常納稅的納稅人。案例中隨機選擇的50條記錄是訓練樣本,30 條記錄為檢驗樣本。
從圖3 可以認識BP 神經網絡的整個構建過程。在本案例研究中,所涉BP 神經網絡模型以上述的7 個選案指標作為輸入層的7 個節點。一般來說,在BP 神經網絡中,隱含層通??梢允且粚?,也可以是多層。本案例的BP 神經網絡模型包含一層隱含層。隱含層包含3 個節點,輸入層為1個節點。研究中,隱含層的傳遞函數設為tansig,而輸出層的傳遞函數設為purelin 函數。由此一來,其學習速率為0.05,最大訓練迭代次數為100,誤差指標顯示為0.0001。

圖3 BP 神經網絡構建流程
在本案例方向的研究中,BP 神經網絡模型設定在matlab 中實現,其最終的運算結果可以根據下圖得知。如圖4 所示,排在前面的20 個企業是誠實納稅類,期望值為1。判別值大于0.8 的,很明顯,我們視為類別1。從而得知,只有企業序號為15、17、18、19 和20 的5 家企業判別錯誤,其分析結果與實際情況差距不大(見表1)。

圖4 BP 神經網絡運算結果圖(* 為期望值,o 為BP 判別值)

表1 BP 神經網絡分析表
基于BP 神經網絡模型的判別結果比二分類Logistic 回歸分析法的結果[2]在一定程度上更具優勢,如表2 所示。其中,BP 神經網絡模型將誠實納稅的企業判定為非誠實納稅的企業這種誤判數僅有25%。而且,更值得關注的是,非誠實納稅企業可以通過BP 神經網絡模型全部識別,即查全率為100%。而二分類Logistic 回歸分析法中非誠實納稅企業的查全率僅為60%。顯而易見,對于稅務稽查選案而言,采用BP 神經網絡判別,結果更優。

表2 兩種方法結果分析比較
BP 神經網絡分析結果比二分類Logistic 回歸分析法結果要精確很多,其原因主要是二分類Logistic 回歸分析法無法克服其線性結構判別函數的缺點,而BP 神經網絡是一種非線性的模型,可以適應財務數據與逃稅行為之間很強的非線性函數關系,因而,在分類的效果方面具有明顯優勢。
根據稅務稽查部門的統計,傳統的稅務稽查選案(人工篩選)的準確率不高于40%。對于人工選案的種種弊端,稅務稽查人員深有體會。很多人認為,要做好稅務稽查工作,光靠提高稽查人員的素質是不夠的,還需要開發有效的稽查系統,強化科學稽查。缺乏科學有效的稽查系統,不能促進稽查工作的規范化,更談不上提高稽查力度。毋庸置疑,在稅務稽查選案環節中,采用科學的統計方法或者數據挖掘算法以后,選案的準確性得到了明顯的提高,大大提高了稽查選案的效率。在本研究中,基于BP 神經網絡模型的稅務稽查選案模型,驗證結果查準率為75%,查全率為100%,驗證取得滿意的效果,表明該方法能夠在稽查選案中發揮顯著的輔助作用,促進稽查工作的效率和效果提高。由于條件所限,本研究的數據樣本比較少,對于稽查選案的分析只涉及增殖稅,其它未作涉及。隨著偷稅漏稅的手段層出不窮,在增加稅種的研究及其模型算法的改進方面應當不斷改進,可以擴大研究范圍,今后的研究或將面臨更多的挑戰。
[1]呂建鎖,姚曉民.論目前我國稅務稽查的現狀及完善建議[J].財金貿易,1996(8):43-44.
[2]陳仕鴻,張英明.二分類Logistic 回歸分析在稅務稽查中的應用[J].華南金融電腦,2009(6):48-49.
[3]陳仕鴻,劉曉慶.基于C5.0 決策樹的稅務稽查研究[J].連云港職業技術學院學報,2011(3):21-23.
[4]陳穎.稅務稽查選案技術方法研究[D].天津:天津大學,2004.
[5]夏輝,李仁發.基于SVM 與SOM 的稅務稽查選案模型研究[J].科學技術與工程,2009(14):4027-4031.
[6]關心,李義杰.面向稅務系統的數據挖掘[J].遼寧工程技術大學學報,2005(2):169-170.
[7]百度百科.人工神經網絡[EB/OL].http://baike.bai du.com/view/19743.htm.
[8]朱凱,王正林.精通MATLAB 神經網絡[M].北京:電子工業出版社,2010:100-123.