[摘 要]針對當前納稅評估中存在的問題,構建了納稅評估指標體系,提出了基于支持向量機(SVM)和領域知識的納稅評估預警模型,該模型可以很好地對企業的納稅情況進行分析和判別,有利于稅務部門開展稅收調查工作。
[關鍵詞]稅收 支持向量機 預警 增值稅
一、序言
稅收是國家的經濟命脈和財力基礎。稅收是政府財政取得收入的最主要來源,是政府為滿足公共需要而向社會提供公共產品的成本和費用,也為政府實施宏觀經濟調控聚斂了必要的財力。
納稅評估工作是現代征管模式下的一種新的稅收征管方式,它是利用信息化平臺,對基礎稅收信息進行加工處理,從而對納稅人納稅情況進行評價的一種新的管理模式。具體來說就是要根據稅收征管中獲得的納稅人的生產經營、財務核算情況等主要指標信息,對納稅情況的真實性、準確性、合法性進行審核、分析和綜合評定,通過檢查或稽查,及時發現、糾正和處理納稅行為中的錯誤,并對異常申報等專項問題進行調查研究和分析評價,為征收、管理、稽查提供工作重點和措施建議,從而對征納情況進行全面、實時監控。納稅評估的核心工作就是根據相關的涉稅信息,運用一定技術手段來識別、評判納稅人的誠信水平。
因而納稅評估工作是既能經濟可行地達到稅收管理目標,又能竭誠服務于納稅人和社會的一項舉措,有利于轉變政府工作方式,服務于社會經濟的和諧進步。
二、納稅評估的現狀
1998年開始實行的《外商投資企業、外國企業和外籍個人納稅申報審核評稅辦法》,標志著我國納稅評估實踐的正式開始。2001年底,國家稅務總局根據我國商貿企業增值稅征管中存在的問題和對商貿企業增值稅征管制度改革的需要,制定印發了《商貿企業增值稅納稅評估辦法》,要求對商貿企業的增值稅開展納稅評估,通過銷售變動率和稅負差異這兩個核心指標對商貿企業進行納稅評估,以進一步堵塞商貿企業增值稅的稅收漏洞。
2007年,江門市國稅局結合全市重點行業的特點,組織轄下各市(區)局對摩托車及零配件生產經營行業、五金衛浴產業、造紙業、不銹鋼五金制品業、化工行業、麥克風及配件、制鞋業和制傘業制造業等8個行業開展了增值稅重點行業的納稅評估。
納稅評估中最為關鍵的環節就是建立科學合理的納稅評估指標和預警值測算體系。雖然國家稅務總局已經于2005年頒布了《納稅評估管理辦法(試行)》,提出了《納稅評估通用分析指標及其使用方法》和《納稅評估分稅種特定分析指標及其使用方法》,但是當前納稅評估還存在以下不足:(1)納稅評估主體指標設計不科學,難以評價納稅人行為;(2)納稅評估信息過分依賴于納稅人會計報表,不能有效評估納稅經營;(3)沒有形成科學的納稅評估體系;(4)納稅評估系統建設滯后,納稅評估效率較低;(5)納稅評估指標預警值測算體系不夠完善。
綜合以上分析,可知目前還沒有一套完善的納稅評估指標預警值測算體系,這對納稅評估的后續工作影響加大。因此,對納稅評估體系和預警模型的研究具有十分重要的意義,它可以為當前的稅務評估工作提供有效的參考依據。
三、基于SVM的納稅評估模型
支持向量機(Support Vector Machine,SVM)是Vapnik等人在1963年提出的用于解決模式識別問題的支持向量方法。該方法最初來自對于二值分類問題的處理,其起機理可以簡單的描述為:在樣本空間中尋找一個將訓練集中的正例和反例樣本分割開來的超平面,并使其兩側的空白域最大,如圖1所示:
實心點和空心點分別表示兩類的訓練樣本,H為分類面,H1、H2分別為過各類樣本中離分類線最近的點且平行于分類的直線,H1和H2之間的距離叫做兩類的分類空隙或分類間(Margin)。所謂最優分類面就是要求分類線不但能將兩類無誤地分開,而且要使兩類的分類間隔最大。前者是保證經驗風最小,使分類間隔最大實際上就是使推廣性的界中的置信范最小,從而使真實風險最小。推廣到高維空間,最優分類線就為最優分類面。
設線性可分樣本集為:。所有在這個超平面上的點滿足,是超平面的法向量。那么尋找最優平面的問題為最小化:使其滿足
這里是w的凸函數,于是上面的問題轉化為約束條件下最優化求解問題。可以用拉格朗日方法求解。則有拉格朗日方程:
對于線性不可分問題,則將其映射到一個高維空間中,在該間中線性可分,并且線性判決只需要在高維空間中進行內積算,甚至不需要知道采用的非線性變換的形式,所以避開了高變化計算的問題,使問題大大簡化。
納稅評估從實際操作中來看,也是屬于2類分類的問題,一類是納稅情況正常的,一類是有問題的(偷稅漏稅)。因此,可以考慮使用支持向量機來對納稅企業進行分類,并且由于納稅企業數量較大,指標數量較多,也適用于提高支持向量機分類模型的訓練和測試效果。
四、模型的應用
1. SVM分類
本文根據江門市產業結構的特點,選取金屬制品行業的納稅評估的對象,結合本人實際的工作經驗,參考已有的評估指標體系,并經過數據的相關性分析,最終選擇以下指標作為評估的對象,各指標的數據編碼如表1所示。
表1 指標數據編碼
增值稅稅負率(累計)ZB005增值稅稅負差異率(累計)ZB007
增值稅稅負變動率(累計同比)ZB010主營業務成本變動率(累計同比)ZB036
銷售毛利率(累計)ZB015增值稅稅收貢獻增長率(累計同比)ZB082
主營業務收入變動率(累計同比)ZB039存貨月周轉率(累計平均)ZB083
由于實際的樣本數據不全,且在數據的錄入過程中可能存在誤差,因此,在用模型對數據進行計算之前,首先要對數據進行預處理:
(1)對于各樣本的某個指標,如果對應的數據均不存在,則舍去該指標。
(2)對于少數樣本的某個指標,如果對應的數據不存在,則結合實際情況,對比類似的樣本數據,按照數據平滑處理的方法,給該樣本的指標賦值。
(3)由于各指標數據的單位不統一,導致模型求解的結果會偏離實際情況,因此要求先把樣本數據做歸一化處理。經預處理完的樣本數據(部分)如表2所示。
由于支持向量機分類模型在訓練前需要確定樣本的類別,在本文所使用的樣本指標體系中,根據實際操作經驗總結可知,稅負率是反映一個企業納稅正常與否最重要的衡量指標,因此本文以金屬制品行業的平均稅負率作為衡量的標準,如果某個樣本的稅負率低于該行業平均稅負率的20%,則認為該企業的納稅情況有問題,該樣本屬于不正常的樣本,其他情況下的樣本則屬于正常樣本。以此為標準把樣本數據分為2類,一類是正常樣本,類別號為1,另一類屬于不正常的樣本,類別號為-1。
本模型使用的樣本數一共是47個,為了實現本文所構建模型的分類效果,首先把樣本數據分為2部分,前40個樣本作為訓練樣本,目的確定模型的最優參數值,最后7個樣本作為測試樣本,以檢驗模型的分類效果。
SVM分類模型為:[alpha,b]=trainlssvm({X,Y,type,gam,sig2,'RBF_kernel'});(4)
其中type的值是“classification”,表示使用分類的方法。X為訓練樣本,Y是各樣本對應的分類號組成的數組。經過訓練樣后確定的參數值分別是:
Gam=60;sig2=1.5;ker=RBF_kernel;b= -0.041146; (5)
根據上述確定的模型,將測試樣本代入模型進行計算, 可以把樣本劃分為2種類型,以下分別是測試分類結果和實際的分類結果,如表3所示。
根據上述表格的數據對比可知,除了測試樣本42類別判別有誤,其余6個樣本的類別分類正確,準確度為85.7%,測試樣本的分類結果比較好,是可以接受的。對于新的樣本數據,經標準化處理后,使用該模型可以計算出其類別號,如果是-1,則說明該樣本有問題,如果是+1,則屬于正常樣本。
2. 結合領域知識分析
由支持向量機分類篩選出來樣本號為-1的樣本數據,可能存在一定的問題,為了確認其問題所在,依據該行業各指標的平均值,做進一步的分析。首先使用相關性分析,求出指標體系中8個輸入指標和樣本類別的相關系數,如表4所示。
從以上的計算結果可知,與納稅結果關系最大的影響因子,分別是X1、X2、X4,也就是說這3個指標的變化將會在很大程度上決定納稅的結果好壞,因此我們通過分析這3個指標的實際值與該行業的平均值的差異性,就可以基本確定該樣本是否存在問題。
根據SVC分類模型的測試,發現42號樣本的分類結果與實際的情況不相符,因此以該樣本為例,分析它各指標數據的情況,該樣本的數據以及行業平均數據對比如表5所示。
為了便于判斷該樣本是否有問題,結合統計分析方法和實際的操作經驗設置一個判別的原則:如果3個指標與行業指標的平均值的差的平方和大于0.1,則認為該樣本是有問題的,應該要對該企業的納稅情況做深入的調查,否則不予調查。根據該樣本和平均值的數據,計算所得的值是0.123,大于0.1。因此可以認為該企業的納稅情況是不正常的,需要對企業的稅收情況進行實際的調查,以確定問題所在。
五、結論
本文結合江門中小企業企業納稅的實際情況,構建了稅務評估的指標體系,并提出了基于SVC和領域知識的預警模型,為稅務評估工作提供了一個新的、有效的途徑。
參考文獻:
[1]呂新利:對納稅評估理實踐的思考[EB/OL]. 中國稅網,2009,2
[2]崔源潮:納稅評估若干問題思考[J]. 稅務研究. 2009,5
[3]史文軍:納稅評估理論與實踐[J].稅務研究.2000,7
[4]譚光榮:選擇納稅評估指標的局限性及應對措施[J]. 稅務研究. 2007,02
[5]陳繼陽:建立科學納稅評估指標體系 提高納稅評估水平[J]. 黑龍江對外經貿.2007,05
[6]徐 戎 王文杰 周四新:神經網絡與領域知識結合的納稅評估預警模型[J]. 電子科技大學學報, 2009,01
[7]李 晶 姚明海:基于支持向量機的語義圖像分類研究[J]. 計算機技術與發展,2010,2