基于時間序列Prophet模型的乘用車消費稅預測

2020-04-09 06:52:06賴慧慧

稅收經濟研究 2020年1期

關鍵詞：模型

◆賴慧慧

內容提要：運用時間序列模型預測未來的稅收變化，對稅收收入的組織、規劃和決策具有重要的意義。為探索一種更為有效的方法來提高季節性行業的消費稅預測準確率，文章采用基于可分解（趨勢+季節+節假日）的Prophet模型，對2014—2019年不同排量乘用車消費稅數據進行訓練和測試，并運用2019年7—12月的乘用車消費稅數據進行推算預測和實證分析，三類不同排量乘用車預測的平均誤差分別為24.97%、5.70%、39.85%；若剔除12月，則平均誤差分別為2.86%、4.90%、8.48%。這就給分行業分品目的稅收預測提供了一種新思路。

一、引言

稅收預測是指運用統計學、經濟學等原理和方法，通過分析一定階段的稅收歷史數據，對未來稅收收入的發展趨勢及規律的預見和推斷。從微觀上看，稅收預測有利于提高組織收入的科學性，堵塞征管漏洞，降低稅收流失率；從宏觀上看，精準的稅收預測有利于完善財稅體制，合理安排財政預算，有效發揮稅收在國家治理中的基礎性、支柱性和保障性作用。近年來，隨著大數據技術的運用，大量數據模型被應用到稅收預測中，但大多集中在宏觀層面，即總體的稅收收入、分稅種收入等；在中觀層面，即通過研究行業的運行規律來預測分行業、分品目稅收收入的文獻較少。隨著稅收信息化建設的不斷推進，稅務部門掌握了大量的稅收歷史數據，使得分行業分品目的稅收預測成為可能。相比其他稅種，消費稅收入較為穩定，尤其是在汽車制造業，由于技術和投資壁壘高，企業進入和退出成本高昂，一旦建成投產，產能穩定，往往能成為當地重點稅源企業，提供穩定而充足的稅源。同時，乘用車消費稅收入屬于時間序列數據，是同一屬性在不同時間上的相繼觀察值排列而成的數列，但乘用車消費的變化趨勢中季節性和節假日的影響也比較明顯。如果能找到適合季節性和節假日的模型預測該行業的消費稅，就能給分行業分品目的稅收預測提供一種新思路。

二、文獻回顧

通過研究時間序列，我們能夠描述事物過去的狀態，分析事物發展變化的規律，并對未來進行預測。時間序列預測一直是預測當中的難點，人們很難找到一個適用場景豐富的通用模型。這是因為現實中每個預測問題的背景知識往往是不同的，即使是同一類問題，影響這些預測值的因素也往往不同，使得時間序列預測問題變得尤其復雜。1968年Box和Jenkins提出了一套比較完善的時間序列建模理論和分析方法。這些經典的數學方法通過建立隨機模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節調整模型等，進行時間序列的預測。這些模型只適用于平穩時間序列，本質上只能捕捉線性關系，而不能捕捉非線性關系。

當前，時間序列預測主要采用的方法有支持向量機、神經網絡、ARMA模型等。支持向量機通過核函數實現樣本空間到高維特征空間的非線性映射，主要處理小樣本的數據。王革麗（2008）基于支持向量機的“升維”思想對時變控制參數條件下Lorenz系統產生的非平穩時間序列進行研究。針對稅收收入預測不穩定、非線性、動態開放性的特點,常青（2007）和張玉尹（2011）提出了支持向量機的稅收收入預測方法，并應用于實際稅收收入情況的預測。

神經網絡的方法包括模糊神經網絡、徑向基函數（RBF）網絡、小波神經網絡以及積單元神經網絡等，主要通過學習進行非線性逼近，也往往用于時間序列數據的預測。沈存根（2011）運用BP神經網絡建立稅收預測模型，分析了產業增加值、固定資產投資總額、進出口總額、財政支出總量、居民消費水平等若干經濟指標的變化對稅收收入的影響。劉巖（2014）采用神經網絡模型研究吉林省國稅收入與地區生產總值、工業增加值、固定資產投資、社會消費品零售總額影響因子之間的關系，挖掘出影響吉林省國稅收入的主要因素，并預測吉林省國稅收入。

自回歸移動平均模型ARMA是擬合平穩序列的模型，可分為AR模型、MA模型和ARMA模型三大類。賴慧慧（2019）運用ARMA模型對增值稅銷項稅額進行預測，首先是對原始數據取對數、差分和分解的平穩性檢測,發現分解能使序列達到平穩性要求，再將數據分解為殘差、趨勢和季節，通過白噪聲檢驗，最后用加法模型得到原序列的預測序列。王靜靜等（2019）提出基于小波ARMA模型的預測方法，首先采用小波變換方法對非平穩離散的增值稅銷項稅額時間序列進行消噪處理,并對去噪信號序列差分處理和平穩性校驗，最后根據預測序列的自相關序列、偏自相關序列對小波ARMA模型進行初步定階，對模型的適應性進行檢驗，得到增值稅銷項稅額的最優小波ARMA模型。

然而，這三類方法對于具有季節性和節假日的數據預測效果不是很理想。因此，本文采用Facebook公司近年開發的基于STL分解思想的時間序列預測模型Prophet模型，對2014—2019年的乘用車三個品目消費稅應征數進行分析，若剔除12月，預測的平均誤差均小于10%，證明該模型在稅收收入數據的預測中有著良好的效果。

三、基于STL分解思想的Prophet預測模型

本文采用了一種基于STL分解思想的Prophet預測模型，該模型是Facebook公司近年開發的時間序列預測模型，采用廣義加法模型擬合平滑和預測函數，運行速度快，適用于具有明顯內在規律的商業行為數據。Prophet預測模型還擅長處理具有異常值和趨勢變化的周期數據，而乘用車銷售數量具有很強的季節性。因此，本文采用Prophet預測模型對從2014年1月到2019年6月乘用車消費稅進行訓練，并對2019年7—12月數據進行預測。

STL分解是分解時間序列的預測模型，將時間序列分解為周期項（Season）、趨勢項（Trend）、節假日項（Holiday）等。模型寫成三部分之和（根據數據的內在機理），再擬合實際數據求解模型參數。本文使用的Prophet模型就是基于STL分解思路，模型可分解為三個主要組成部分：趨勢、季節性和節假日。它們按如下公式組合：

其中：g(t)為趨勢項，使用了兩種趨勢模型：飽和增長模型和分段線性模型，通過選擇變化點來預測趨勢變化，用于擬合時間序列中的分段線性增長或邏輯增長等非周期變化；s(t)是周期項，描述各種周期變化趨勢，如每周或每年的季節性；h(t)有效納入非規律性節假日效應，將特殊影響時間作為先驗知識進行融合；∈t是服從正態分布的噪聲因子，作為誤差項反映未在模型中體現的異常變動。

圖1是Prophet的整體框架，整個過程分為四部分：Modeling、Forecast Evaluation、Surface Problems以及Visually Inspect Forecasts。從整體上看，這是一個循環結構，而這個結構又可以根據虛線分為分析師操縱部分與自動化部分。因此，整個過程就是分析師與自動化過程相結合的循環體系，也是一種將問題背景知識與統計分析融合起來的過程，這種結合大大增加了模型的適用范圍，提高了模型的準確性。按照上述的四個部分，Prophet的預測過程為：

（1）Modeling：建立時間序列模型。分析師根據預測問題的背景選擇一個合適的模型。

（2）Forecast Evaluation：模型評估。根據模型對歷史數據進行仿真，在模型的參數不確定的情況下，我們可以進行多種嘗試，并根據對應的仿真效果評估哪種模型更適合。

（3）Surface Problems：呈現問題。如果嘗試了多種參數后，模型的整體表現依然不理想，這個時候可以將誤差較大的潛在原因呈現給分析師。

（4）Visually Inspect Forecasts：以可視化的方式反饋整個預測結果。當問題反饋給分析師后，分析師考慮是否進一步調整和構建模型。

圖1 Prophet的整體框架

實驗流程如圖2，將原始數據集進行預處理，分為訓練數據和測試數據，對Prophet預測模型進行訓練和測試，完成訓練后可用于乘用車消費稅的預測。

圖2 實驗流程

四、實證結果分析

在獲取某地區2014年1月至2019年6月乘用車3個品目的消費稅應征數后，首先進行數據預處理：對原始數據取自然對數，以縮小數據的絕對數值，使數據更加平穩，消弱數據的波動性。使用集訓練、測試、優化為一體的Prophet模型，并用樣本集測試訓練得到模型效果。

品目1：2014年1月至2019年6月，1.0升＜氣缸容量≤1.5升的乘用車消費稅

品目2：2014年1月至2019年6月，1.5升＜氣缸容量≤2.0升的乘用車消費稅

品目3：2015年3月至2019年6月，2.0升＜氣缸容量≤2.5升的乘用車消費稅

（一）時間序列數據分析

使用Prophet模型對品目1進行分解，圖3顯示了品目1的分解序列。圖3中上圖是使用分段線性函數擬合得到的時間序列非周期變化曲線，表示增長趨勢，顯示稅收穩步增長；下圖是時間序列周期變化曲線，即每年的季節性變化周期。圖4是品目1的時間序列擬合和預測圖。

圖3 品目1序列分解

圖4 品目1序列擬合和預測

同樣，圖5、圖6分別是品目2的序列分解圖、序列擬合和預測圖，圖7、圖8分別是品目3的序列分解圖、序列擬合和預測圖。

圖5 品目2序列分解

圖6 品目2序列擬合和預測

圖7 品目3序列分解

圖8 品目3序列擬合和預測

（二）模型誤差

為了檢驗Prophet模型在乘用車消費稅預測中是否有效，在運用2014年1月至2019年6月的數據進行訓練建模后，對2019年7—12月的乘用車消費稅進行預測，將預測值與實際值進行比較，計算出預測相對誤差，作為衡量該模型的預測準確性的依據，結果見表1。

表1 2019年7月—12月分品目乘用車消費稅預測相對誤差

從各月預測情況來看，2019年12月的誤差明顯較2019年7—11月的誤差大。這一方面是由于預測的月份越久，精度越差；另一方面也和年底調控因素有關。若剔除12月，從平均相對誤差來看，品目1的準確性最高，誤差最小，品目2次之，品目3的誤差最大。三個品目的平均預測誤差均在10%之內，其中品目1和品目2的誤差在5%之內，而品目3的誤差稍大。原因如下：一是品目3從2015年3月才有消費稅收入，較品目1、品目2數據量更少；二是品目3較品目1、品目2的消費稅收入基數更?。蝗瞧纺?屬于大排量高檔車，價格高，消費彈性大，和品目1、品目2的實用型中低檔車相比，消費稅收入更加不穩定。

五、研究結論與展望

文章運用了Facebook公司開發的Prophet模型，分析2014年1月至2019年6月的乘用車三個品目消費稅收入數據，建立模型，預測了2019年7—12月消費稅收入，得到乘用車三個品目消費稅收入預測的平均相對誤差分別為24.97%、5.70%、39.85%；考慮到最后一個月的調控因素，如剔除12月，則平均誤差分別為2.86%、4.90%、8.48%，均在10%之內，證明Prophet模型具有較好的泛化能力，在具有季節性和節假日特征的稅收預測上精度較高，具有優勢。但也發現，對于數據樣本小、收入不穩定的品目，預測精度有所下降。因此，Prophet模型更適用于全國或全省分稅種、分行業、分品目的稅收預測，而且應以盡可能多年份的歷史數據為基礎建立數據模型。

未來可以考慮使用Bagging思想，采用多個時間序列預測模型的集成，然后進行表決，進一步提升預測準確率。也可以對某一稅種的所有行業進行分類，并對每種類型采用精度最高的時間序列預測模型，最后加總預測出該稅種收入甚至全部稅收收入。與以稅基變量為基礎的“自上而下”的稅收預測相比，這種“自下而上”的稅收預測方法，數據的可獲得性更高，適應性更好，基礎數據的質量也更容易評估，因此在稅務部門有廣闊的應用前景。

基于時間序列Prophet模型的乘用車消費稅預測

一、引言

二、文獻回顧