賈曉光
摘要:稅收預(yù)測對財務(wù)預(yù)算和稅收計劃制定具有重要的意義。隨著經(jīng)濟的快速發(fā)展,稅務(wù)管理人員對稅收預(yù)測精度和模型有效性提出了更高的要求。現(xiàn)有的稅收預(yù)測模型主要用來驗證模型的可行性,即主要目標(biāo)是提高預(yù)測精度,沒有充分考慮模型的實用性問題。該文從模型的預(yù)測精度和實用性角度研究稅收預(yù)測問題,建立了基于網(wǎng)格搜索法優(yōu)化的支持向量機稅收預(yù)測模型。文中應(yīng)用GM(1,1)算法建立稅收指標(biāo)因子序列的預(yù)測模型,為稅收預(yù)測模型提供更為全面的數(shù)據(jù)基礎(chǔ)。對稅收數(shù)據(jù)進行驗證性實驗結(jié)果表明,該方法預(yù)測精度提高了,絕對誤差從6.9%降低到1.8%,并且實現(xiàn)了稅收預(yù)測功能,證明了模型的可行性和實用性。
關(guān)鍵詞:支持向量機;網(wǎng)格搜索法;GM(1,1);指標(biāo)因子;稅收預(yù)測模型;驗證性實驗
中圖分類號:TP312 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)02-0242-04
Tax Forecasting Algorithm Based on Support Vector Machine
JIA Xiao-guang
(Yanshan University, Qinhuangdao 066004, China)
Abstract: Tax forecasting has important significance to the financial budget and tax planning. With the rapid development of economy, the tax management personnel put forward higher requirements on the accuracy of tax forecasting and the validity of the model. The existing tax forecasting model is mainly used to verify the feasibility of the model, that is, the main goal is to improve the prediction accuracy, and not to fully consider the practicality of the model. In this paper, we studied the problems of tax forecasting Based on the forecast accuracy and practicability of the model and established the model of support vector machine Based on the optimization of the grid search method. The GM (1,1) algorithm is used to establish the forecast model of the tax index factor, which provides a more comprehensive data base for the tax revenue forecasting model. The validation experiment results show that the prediction accuracy of this method is improved, and the absolute error is reduced from 6.9% to 1.8%, and the function of tax forecast is realized.
Key words: support vector machine; grid search method; GM; index factor; tax forecast model; verification experiment
1 背景
稅收預(yù)測是稅收收入的出發(fā)點和稅收宏觀分析的基礎(chǔ),是在對稅收歷史數(shù)據(jù)收集、影響因素分析以及國家宏觀經(jīng)濟調(diào)控的共同作用下工作的。預(yù)測結(jié)果能夠幫助稅務(wù)管理人員更有效、更好的安排稅收計劃和預(yù)見未來的稅收情況,也是領(lǐng)導(dǎo)進行科學(xué)決策的重要依據(jù)。因此,稅收預(yù)測具有很重要的研究價值。
自從學(xué)術(shù)界提出稅收預(yù)測這一概念以來,學(xué)者們提出了很多稅收預(yù)測模型,包括:回歸分析模型、時間序列預(yù)測模型、神經(jīng)網(wǎng)絡(luò)預(yù)測模型、GM(1,1)預(yù)測模型和支持向量機預(yù)測模型等。2006年,李繼嵬等人基于稅收影響因素和數(shù)據(jù)特征將稅收預(yù)測方法分為解釋性的預(yù)測方法和時間序列分析方法[1],文中應(yīng)用一次指數(shù)平滑法和二次指數(shù)平滑法預(yù)測稅收,實驗結(jié)果驗證,二次指數(shù)平滑法的預(yù)測精度更高,但是沒有指出選擇這個算法的依據(jù)和優(yōu)勢。與傳統(tǒng)的統(tǒng)計模型相比,C Shen等人將BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用于稅收應(yīng)用領(lǐng)域[2],實驗數(shù)據(jù)包括1994-2006共13組,實驗指標(biāo)包括8項,實驗?zāi)P偷尿炞C結(jié)果體現(xiàn)模型具有較高的精度和實用性,但是沒有克服傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)存在的缺陷,算法收斂速度慢。李守麗應(yīng)用時間序列模型預(yù)測鄭州市GDP [3],是稅收應(yīng)用領(lǐng)域的又一個預(yù)測方法擴展,但是模型具有應(yīng)用領(lǐng)域的局限性。基于數(shù)據(jù)樣本小、信息量少等特點,俞群等人結(jié)合定性分析與定量預(yù)測,應(yīng)用GM(1,1)模型對稅收數(shù)據(jù)進行預(yù)測[4],實驗數(shù)據(jù)包括1992-2001共10組,實驗指標(biāo)是稅收收入,驗證實驗結(jié)果表明GM(1,1)比BP 網(wǎng)絡(luò)預(yù)測更有優(yōu)勢,但是對稅收數(shù)據(jù)的要求比較高。針對傳統(tǒng)BP人工神經(jīng)網(wǎng)絡(luò)所存在的缺陷,林國璽等人在遞歸預(yù)測方法的基礎(chǔ)上,將遺傳算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了基于實數(shù)編碼的 GA-BP神經(jīng)網(wǎng)絡(luò)稅收預(yù)測模型,預(yù)測效果優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型[5],但是預(yù)測精度還有待提高。基于結(jié)構(gòu)風(fēng)險最小的支持向量機能夠提高泛化能力,常青等人利用基于RBF徑向基核函數(shù)的支持向量機建立稅收預(yù)測模型[6],改善了人工神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)的局部最優(yōu)問題,其中實驗數(shù)據(jù)包括1994-2004共11組,實驗指標(biāo)共8項,。2011年,基于稅收數(shù)據(jù)的動態(tài)和高度非線性等特點,張玉等人提出了基于主成分分析的支持向量機稅收預(yù)測模型[7],實驗數(shù)據(jù)包括1988-2004共17組,實驗指標(biāo)包括9項,驗證結(jié)果表明模型具有較高的泛化能力和預(yù)測精度。endprint
由上述文獻分析可知,支持向量機算法適用于小數(shù)據(jù)集的稅收預(yù)測,能有效改善模型泛化能力。但是傳統(tǒng)的稅收預(yù)測模型都是進行驗證性試驗,沒有實現(xiàn)預(yù)測未來稅收收入的功能,模型的實用性有待提高。本文基于模型的實用性問題,建立了將GM(1,1)與支持向量機相結(jié)合的稅收預(yù)測模型,應(yīng)用1994年-2009年的稅收數(shù)據(jù)作為訓(xùn)練集,2010-2014年的數(shù)據(jù)作為測試集,預(yù)測了2015-2020年的稅收收入,結(jié)果證明了該方法在稅收預(yù)測領(lǐng)域的實用性。
2 預(yù)測算法及實現(xiàn)過程
本文通過應(yīng)用GM(1,1)算法[8]輸出稅收指標(biāo)因子的預(yù)測值,然后應(yīng)用網(wǎng)格搜索法[9]求解優(yōu)化的平衡參數(shù)和核函數(shù)參數(shù),最后建立基于支持向量機算法[10]的預(yù)測模型。算法流程如圖1所示。
算法詳細步驟如下:
1) 根據(jù)相關(guān)參考文獻選擇稅收收入的影響因子,依據(jù)指標(biāo)在《中國統(tǒng)計年鑒》中收集稅收相關(guān)數(shù)據(jù)。
2) 對稅收數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,消除各指標(biāo)因子之間的量綱差異對稅收預(yù)測結(jié)果的影響。
3) 采用GM(1,1)對各個稅收指標(biāo)因子分別建立預(yù)測模型,求解各個指標(biāo)2015-2020年的數(shù)據(jù)預(yù)測值。
4) 建立基于支持向量機的預(yù)測模型,初始化模型參數(shù),基于默認值求解稅收預(yù)測值。
5) 應(yīng)用網(wǎng)格搜索法求解最優(yōu)的模型參數(shù):平衡參數(shù)c和核函數(shù)參數(shù)g。
6) 將最優(yōu)參數(shù)對應(yīng)用于支持向量機模型,建立最優(yōu)預(yù)測模型。
7) 對訓(xùn)練集進行學(xué)習(xí),對測試集進行測試,輸出稅收預(yù)測結(jié)果,分析預(yù)測模型的預(yù)測誤差和實用性。
后續(xù)部分將對具體步驟進行詳細介紹。
2.1 樣本數(shù)據(jù)收集
稅收收入的影響因素比較多,至今也沒有統(tǒng)一的判斷標(biāo)準(zhǔn),文中參考多個文獻資料,基于影響稅收收入水平的產(chǎn)業(yè)發(fā)展?fàn)顩r、反映稅收規(guī)模大小、人民生活水平、影響稅收收入增長狀況和反映稅收增長與經(jīng)濟發(fā)展相互關(guān)系等因素,最終選擇國內(nèi)生產(chǎn)總值([x1])、國內(nèi)增值稅([x2])、營業(yè)稅([x3])、國內(nèi)消費稅([x4])、個人所得稅([x5])、企業(yè)所得稅([x6])、第一產(chǎn)業(yè)([x7])、第二產(chǎn)業(yè)([x8])、第三產(chǎn)業(yè)([x9])、批發(fā)和零售業(yè)([x10])、關(guān)稅([x11])等11項指標(biāo)作為實驗分析指標(biāo),根據(jù)《中國統(tǒng)計年鑒》和《中國稅務(wù)年鑒》得到11項指標(biāo)的原始數(shù)據(jù),選取1994年-2009年的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2010-2014年的數(shù)據(jù)作為測試數(shù)據(jù),如表1所示。
2.2 歸一化過程
很多學(xué)者已經(jīng)驗證了不同量綱的實驗數(shù)據(jù)會影響預(yù)測模型的預(yù)測結(jié)果和模型精度。本文中用于實驗的稅收數(shù)據(jù)單位不同,相關(guān)指標(biāo)數(shù)據(jù)值的差異也比較大。為了消除預(yù)測指標(biāo)數(shù)據(jù)之間的差異對稅收預(yù)測模型性能的影響,需要在模型訓(xùn)練之前對稅收數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,即把所有數(shù)據(jù)歸一化到 [0,1] 區(qū)間,具體處理過程如式(1)所示:
[x'i=xi-xminxmax-xmin] [x'i=(xi-xmin)/(xmax-xmin)] (1)
其中,[x'i]表示歸一化后的稅收值,[xi]表示稅收數(shù)據(jù)實際值,[xmin]表示實際稅收序列中的最小值,[xmax] 表示實際稅收序列中的最大值。
2.3 GM(1,1)預(yù)測模型
對每一個稅收指標(biāo)因子的原始數(shù)據(jù)序列進行預(yù)處理,求解灰色參數(shù),建立GM(1,1)預(yù)測模型。
首先對共17組稅收樣本數(shù)據(jù)進行學(xué)習(xí),然后應(yīng)用5組測試數(shù)據(jù)集進行預(yù)測驗證,預(yù)測誤差結(jié)果如表2所示。最后,預(yù)測2015至2020年的稅收收入預(yù)測值,預(yù)測結(jié)果如表3所示。
通過對比分析預(yù)測結(jié)果可以看到:指標(biāo)[x5]的相對誤差和絕對誤差比較小,而指標(biāo)[x6]的相對誤差和絕對誤差值較大,預(yù)測結(jié)果表現(xiàn)出強烈的不穩(wěn)定性。所以本文選用穩(wěn)定性能較強的支持向量機算法來改善稅收預(yù)測模型。
2.4 網(wǎng)格搜索優(yōu)化參數(shù)
網(wǎng)格搜索法雖然預(yù)測速度相對較慢,但可以保證搜索到最優(yōu)參數(shù),進而達到理想的預(yù)測精度。稅收數(shù)據(jù)集屬于小樣本數(shù)據(jù),考慮到模型的實用性和預(yù)測性能,本文應(yīng)用網(wǎng)格搜索法求解得到平衡參數(shù)c = 1.7411,g = 0.020617。遍歷過程如圖2所示。
圖2 最優(yōu)參數(shù)結(jié)果
3 實驗與結(jié)果分析
3.1 實驗設(shè)計
為了提高稅收模型預(yù)測精度,進而得到更準(zhǔn)確的稅收值,通過歷史數(shù)據(jù)對稅收預(yù)測模型進行驗證。
1) 基于原始數(shù)據(jù)序列依次生成累加生成數(shù)據(jù)序列、緊鄰均值生成序列、常數(shù)項量矩陣和累加矩陣,構(gòu)造灰色微分方程,建立GM(1,1)預(yù)測模型,求解稅收預(yù)測值系列[{xi, yi}] [xi,yi]。
2) 利用默認參數(shù)建立基于支持向量機的稅收預(yù)測函數(shù)
[f(x)=i=1t(α*i-αi)K(xi,x)+b] (2)
3) 應(yīng)用網(wǎng)格搜索法求最優(yōu)參數(shù)平衡參數(shù)和核函數(shù)參數(shù),先定義大范圍的數(shù)據(jù)區(qū)域求解,然后在求解的結(jié)果基礎(chǔ)上再定更小范圍數(shù)值。最終確定最優(yōu)參數(shù)c和g。
4) 利用最優(yōu)參數(shù)建立最優(yōu)稅收預(yù)測模型
[f(x)=i=1l(α*i-αi)K*(xi?x)+b] (3)
5) 求解稅收預(yù)測值,并分析模型精度,檢驗?zāi)P皖A(yù)測性能。
3.2 稅收預(yù)測結(jié)果及分析
應(yīng)用網(wǎng)格搜索法得到最佳懲罰因子c和核函數(shù)參數(shù)g,然后基于最優(yōu)參數(shù)建立最優(yōu)預(yù)測模型,經(jīng)過對訓(xùn)練樣本學(xué)習(xí)和對測試樣本測試,最后求得優(yōu)化的稅收預(yù)測結(jié)果。稅收預(yù)測結(jié)果如表4所示。預(yù)測誤差結(jié)果如表5所示。
由表5可以看出三種稅收預(yù)測模型分別實現(xiàn)了對2010-2014年共5年的稅收樣本數(shù)據(jù)進行測試。其中,GM(1,1)的預(yù)測結(jié)果穩(wěn)定性較差,基于支持向量機的預(yù)測模型的結(jié)果穩(wěn)定,但是預(yù)測精度不高,最優(yōu)預(yù)測模型彌補了GM(1,1)模型的不穩(wěn)定性,同時應(yīng)用網(wǎng)格搜索法優(yōu)化了支持向量機預(yù)測模型參數(shù),優(yōu)化的預(yù)測結(jié)果表明,最優(yōu)模型預(yù)測結(jié)果穩(wěn)定,而且預(yù)測精度提高了,所以本文選取GM(1,1)與網(wǎng)格搜索法優(yōu)化的支持向量機預(yù)測模型結(jié)合作為最終的預(yù)測模型。
基于最優(yōu)預(yù)測模型求解得到2015-2020年的稅收預(yù)測值,其中2015年148121.8億元,2016年171217.3億元,2017年197544.7億元,2018年226603億元,2019年256106.3億元,2020年280001.5億元。同1994-2014年的稅收數(shù)據(jù)對比的結(jié)果如圖3所示,稅收預(yù)測數(shù)據(jù)的增長趨勢基本趨于指數(shù)增長模式,符合實際數(shù)據(jù)序列的增長趨勢,實驗驗證了模型的可行性和實用性。
4 結(jié)束語
針對數(shù)據(jù)量較少的稅收數(shù)據(jù)序列,為保證稅收預(yù)測精度,采用網(wǎng)格搜索法尋求最優(yōu)參數(shù),應(yīng)用原始數(shù)據(jù)集以及由GM(1,1)生成的稅收指標(biāo)因子預(yù)測序列數(shù)據(jù)作為支持向量機預(yù)測模型的數(shù)據(jù)集,建立最優(yōu)預(yù)測模型對稅收進行預(yù)測。通過實驗驗證及預(yù)測,可以證明,基于網(wǎng)格搜索優(yōu)化的支持向量機預(yù)測模型預(yù)測精度高,而且在稅收預(yù)測中表現(xiàn)出良好的可用性。
參考文獻:
[1] 李繼嵬, 劉書明, 李春平, 等. 數(shù)據(jù)挖掘技術(shù)在稅收預(yù)測分析中的應(yīng)用[J]. 計算機系統(tǒng)應(yīng)用, 2006, 15(9):61-64.
[2] Shen C, Zhang W. Economic Analysis on Tax Model Based on BP Neural Network[C]// Communications, Circuits and Systems, 2009. ICCCAS 2009. International Conference on. IEEE, 2009: 569-572.
[3] 李守麗. 時間序列模型在地級市GDP預(yù)測中的應(yīng)用[D]. 鄭州: 鄭州大學(xué), 2013.
[4] 俞群, 李為民, 申卯興, 等. 灰色數(shù)列預(yù)測在我國稅收預(yù)測中的應(yīng)用[J]. 系統(tǒng)仿真學(xué)報, 2006, 18(s2):971-972.
[5] 林國璽, 宣慧玉. 遺傳算法和BP人工神經(jīng)網(wǎng)絡(luò)在稅收預(yù)測中的應(yīng)用[J]. 系統(tǒng)管理學(xué)報, 2005, 14(2):145-148.
[6] 常青, 劉強. 基于支持向量機的稅收預(yù)測模型的研究[J]. 計算機工程與設(shè)計, 2007, 28(7):1653-1654.
[7] 張玉, 尹騰飛. 支持向量機在稅收預(yù)測中的應(yīng)用研究[J]. 計算機仿真, 2011, 28(9):357-360.
[8] 張徐, 高承實, 戴青, 等. 網(wǎng)格環(huán)境下基于灰預(yù)測的信任評估模型[J]. 計算機工程與應(yīng)用, 2006, 46: 81-83.
[9] 何俊, 張玉靈. 灰色預(yù)測模型的優(yōu)化及應(yīng)用[J]. 數(shù)學(xué)的實踐與認識, 2013, 43(6):86-91.
[10] 王穎. 降維和SVM相結(jié)合的方法在基因數(shù)據(jù)中的研究[D]. 長春: 吉林大學(xué), 2014.endprint