王詩豪,張曉妮*,張云,王開盛
1 西北農林科技大學,經濟管理學院,陜西楊凌 712100;
2 陜西省煙草公司銅川市公司,陜西銅川 727031
煙草產業作為我國的支柱性產業,具有舉足輕重的地位,煙草稅利一直是全國財政收入的重要來源[1]。隨著經濟發展進入新常態,我國財政收入增速緩慢,煙草行業對我國經濟發展的貢獻更為突出。《煙草行業“十三五”規劃》提出了“優質卷煙市場建設”,為了建立卷煙需求與居民收入水平相適應的市場,以發揮資源有效配置的作用,對卷煙市場需求的預測則顯得尤為重要。
目前國內外學者對于卷煙需求預測研究主要有:一、基于回歸分析的預測研究。毛正中等[2]運用條件需求和吸煙決策兩部門模型分析成人的卷煙需求以及其影響因素。Martinez等[3]從長期和短期視角分析卷煙需求的主要影響因素為居民收入與卷煙價格。基于回歸分析的卷煙消費需求模型,大多學者通過截面數據預測當期預測值,而無法實現對未來銷量的預測。二、基于時間序列模型的卷煙需求預測研究。羅艷輝等[4]運用自回歸移動平均序列模型(ARMA)建立卷煙月銷量預測模型。趙傳良等[5]利用結構向量自回歸(SVAR)模型研究卷煙零售價格和居民收入水平對宜昌市卷煙銷量的影響。基于線性時間序列的卷煙需求模型中,自回歸移動平均(ARIMA)模型能較好地擬合具有線性特征的時間序列,但對非線性序列擬合效果較差;向量自回歸(VAR)模型把所有的變量都作為內生變量來處理,減少了由于主觀判斷錯誤而增加了聯立方程組模型中的不確定性,但如果滯后期越長,變量越多,需要估計的參數就越多,所以對數據樣本長度的要求就越大。基于非線性時間序列的卷煙需求模型中,Yunlan等[6]通過對比數據分組處理(GMDH)模型與多元線性回歸模型的預測結果,發現GMDH模型精度較高。雖然非線性時間序列模型具有較高的預測精度,但容易造成過擬合現象。支持向量回歸機具有多種可選擇的核函數,能刻畫卷煙需求的非線性特征,因此可以避免過擬合問題。三、基于組合預測(集成預測)模型的卷煙需求預測研究。趙旻[7]選用ARIMA模型和回歸法構建卷煙需求組合模型對云南省卷煙需求進行預測。Liu等[8]采用GMDH和自回歸移動平均的組合模型對浙江省卷煙需求進行預測。吳明山等[9]將不同算法的BP神經網絡模型組合對我國卷煙月度銷量進行預測。本文基于集成方法的思想,構建線性時間序列模型(ARIMA、VAR)、非線性時間序列模型(SVR)以及習慣性消費下卷煙需求模型的集成預測模型,對銅川市卷煙需求量進行預測。本文的創新之處有以下兩點:1.在市級宏觀數據的視角下根據卷煙消費者的習慣性消費構建卷煙需求模型,克服了回歸模型無法對未來銷量預測的缺陷;2.為提高集成模型的穩定性,將四個單預測模型分別對2017-2018年進行預測,求預測平均相對誤差,進而求得各個模型的權重。
自回歸移動平均模型,又稱ARIMA模型,該方法的基本原理是,預測的時間序列是由某個隨機過程生成的,這個隨機過程不隨時間變化而變化,那么該隨機過程可以被具體刻畫,進而通過以往的觀測值計算出未來的序列值。ARIMA(p,d,q)模型的一般表達形式如下:

其中,p、d分別是自回歸和移動平均階數;d為序列平穩時的差分次數;yt表示原始時間序列;B表示滯后算子;為d階差分;εt為零均值的白噪音序列;
向量自回歸(VAR)模型,是用所有當期變量對所有變量的若干滯后變量進行回歸,用來估計聯合內生變量的動態關系。一個包含k個變量的p階向量自回歸模型,一般表達式如下:

其中,Yt是k維內生變量向量,Xt是d維外生變量向量,p是滯后階數,εt是k維擾動向量。
VAR(p)模型是一個考慮多個變量之間相互影響的模型,可以利用序列本身的滯后信息與相關序列的滯后信息進行有效預測。
支持向量機(SVM)使用結構風險最小化原則替代經驗風險最小化原則,在解決小樣本、非線性、高維數以及局部極小點等實際問題中具有諸多特有的優勢,并能推廣應用到函數擬合等問題中。支持向量機應用到非線性回歸估計和曲線擬合中時,稱為支持向量回歸機(SVR)。

在有限理性的假定下,消費者的消費選擇并不具有前瞻性,而是根據目前的偏好對產品購買進行決策。由于卷煙這類消費商品的特殊性,卷煙消費者往往具有習慣性消費行為,因此當期卷煙銷量與前一期卷煙銷量存在緊密聯系。

其中Ct為卷煙當期銷量,Ct-1為上一期卷煙銷量,為當期消費者對于卷煙的預期消費,δ為實際卷煙消費向預期卷煙消費趨近的速度系數。
卷煙的預期消費取決于消費者偏好,消費者當期偏好主要取決于消費者當期收入與商品當期價格。

其中P為卷煙商品平均價格,Y為消費者收入水平。
合并式(4)和(5)可得習慣性消費下的卷煙需求模型為:

集成預測模型可以克服單一模型的缺陷,優化模型設定不合理而導致的預測誤差,主要包括簡單平均法和加權平均法兩種方法[10]。由于簡單平均法賦予每個模型預測值的權重相同,沒有使預測效果較好的模型和預測效果不好的模型的差異得到體現,因此本文采用的是加權平均法,對四個基礎預測模型分別賦予不同的權重,然后求加權平均值,以加權平均值作為最終的集成預測值。
加權平均法中權重的選取一般以模型的預測誤差計算得到,給予預測效果好模型較大權重。本文選取的權重的公式為:

其中,wj為第j個模型的權重,sj為第j個模型的預測誤差絕對值。
本文數據來源于銅川市煙草公司銷售情況和《陜西省統計年鑒2018》。國內學者對于卷煙銷量的研究主要從宏觀視角進行分析,石濤等認為人口規模、卷煙零售均價和居民收入水平是影響卷煙銷量最為主要的因素[11]。1998年銅川市人口規模為83.22萬,2018年銅川市人口規模為84.72萬,人口增長比例為1.8%,考慮到《煙草控制框架公約》實施以來,我國控煙力度逐年加大,特別是2015年我國新《廣告法》等法規相繼頒布實施后,卷煙宣傳促銷活動受到更加嚴格的限制。黨的十八大以來,嚴格執行禁止用公款支付煙草消費開支、領導干部在公共場所帶頭禁煙等規定,因此本文假定卷煙消費人數沒有顯著變化,選取1998-2018年銅川市卷煙銷量、卷煙零售均價、居民收入水平三個變量,通過對1998-2016年的樣本集進行模型擬合來預測未來兩年的卷煙銷量。變量的定義和描述性分析見表1所示。

表1 變量定義與描述性統計Tab.1 Variable definition and descriptive statistics
用ADF方法對煙草銷量序列進行單位根檢驗。結果表明原始序列存在單位根,說明該序列為非平穩序列,則需要對序列作一階差分,得到的序列不存在單位根,因此可以構建ARIMA模型。通過樣本的自相關圖、偏自相關圖以及AIC準則,確定最佳的模型形式為ARIMA(1,1,2),模型具體表達形式見表2。對模型的殘差進行檢驗,得到的殘差序列為白噪聲序列。模型整體通過了顯著性檢驗,并且R2達到了0.95,因此建立的ARIMA擬合效果較好。

表2 ARIMA 模型輸出結果Tab.2 The output results of ARIMA model
本文選取卷煙銷量(C)、卷煙零售均價(P)、居民收入水平(Y)3個內生變量建立VAR模型。VAR建模的必要條件是序列之間存在著相關性,對這三個變量進行相關性分析,得到相關系數都在0.85以上,可知這些變量之間具有較強的相關性,具備VAR建模的必要條件。為了避免異方差性,在建模前對三個變量進行對數變化。
首先對模型的序列平穩性檢驗。本文運用ADF法對各個變量進行單位根檢驗,檢驗結果如表3所示。

表3 變量的ADF檢驗結果Tab.3 ADF test results of variables
由表3可知,ΔlnC、ΔlnP在5%的顯著水平下為平穩序列,ΔlnY在10%的顯著水平下為平穩序列,因此當顯著水平為10%時,lnC、lnP、lnY為一階單整序列。
其次進行變量滯后期數的確定。由于受到觀測數據樣本較少的限制,本文選取最多滯后階數為2階。最佳滯后期階數的檢驗結果通過表4得出:根據LR檢驗,需滯后2階;根據FPE,需滯后2階;根據AIC準則,需滯后2階;根據HQIC準則,需滯后2階;根據SBIC準則,則需要滯后2階。因此本文選取最優滯后階數為2階。

表4 VAR模型最佳滯后階數Tab.4 Optimal lag order of VAR model
最后進行VAR模型估計。由表5得到卷煙銷量VAR(2)的預測模型,三個等式的R2分別為0.9555、0.9924、0.9964,擬合效果很好。

表5 VAR 模型估計結果Tab.5 Estimation results of VAR model
本文考慮到徑向基核函數具有較少的參數和良好的性能,因此采用徑向基核函數對銅川市1998-2016年的卷煙銷量構建SVR模型,通過R軟件計算得到,擬合曲線的平均相對誤差絕對值為0.0192,模型的擬合效果較好。
本文考慮到居民收入水平(Y)對卷煙零售均價(P)的調節作用,因此在式(6)中添加兩變量的交互項。然后運用銅川市1998-2016年的數據進行回歸分析,回歸結果如表6所示,從表中可以看出除常數項外的所有變量均通過顯著性檢驗,因此該卷煙需求模型能夠準確地對卷煙的習慣性消費進行刻畫。
本文用上述四種預測模型分別對銅川市2017和2018年的卷煙銷量進行預測,將兩年的預測誤差取平均值得到預測平均相對誤差,進而根據加權平均法的權重公式求得各個模型的權重,結果見表7所示。通過四個單模型及集成預測模型對2017—2018年的預測結果見表8所示。ARIMA模型的預測相對誤差絕對值控制在0.7%以內,平均相對誤差絕對值在0.6%左右;VAR(2)模型的預測相對誤差都控制在6.7%以內,平均相對誤差在5.7%左右;SVR模型的預測相對誤差絕對值控制在4.3%以內,平均相對誤差絕對值在3.3%左右;習慣性消費下卷煙需求模型的預測相對誤差絕對值控制在2.7%以內,平均相對誤差絕對值在2%左右;集成預測模型對卷煙銷量預測結果的相對誤差絕對值控制在1 %以內,平均相對誤差絕對值在0.8%左右。通過對比各模型的預測誤差發現,集成預測模型賦予精度較高的模型較高的權重,有效的提高了預測的精度。因此,本文的集成預測模型對卷煙銷量預測具有較為理想的效果。

表6 基于習慣性消費的卷煙需求模型回歸結果Tab.6 Regression results of cigarette demand model based on habitual consumption

表7 各模型的預測平均相對誤差及權重Tab.7 Predicted mean relative error and weight of models

表8 各模型的預測值及相對誤差Tab.8 Predicted values and relative errors of models
本文通過建立ARIMA、VAR、 SVR以及習慣性消費下卷煙需求模型,分別對銅川市卷煙需求量進行了建模預測,基于集成方法的思想,將上述四個模型的預測結果進行集成分析。選取1998-2018年銅川市卷煙銷量、卷煙零售均價、居民收入水平三個變量,通過對1998-2016年的樣本集進行模型擬合來預測未來兩年的卷煙銷量。研究發現:
(1)集成預測模型對卷煙銷量預測結果的相對誤差絕對值控制在1 %以內,平均相對誤差絕對值在0.8%左右,顯著提高了模型預測精度。
(2)基于習慣性消費的卷煙需求模型,刻畫了微觀主體普遍存在的習慣性消費現象,有利于深入了解卷煙市場微觀主體的消費行為。
(3)集成預測模型對卷煙市場需求的精準預測,能幫助政府制定合理煙草稅和相關政策提供重要決策信息,促進國家財政收入的穩定增長,進而推動經濟的發展。
(4)集成預測模型可向煙草公司提供按市場需求導向供貨信息,以發揮資源有效配置的作用,促進卷煙市場化取向改革。同時集成預測方法對于其它地區卷煙銷量預測也有著借鑒意義。