李明釗,李熠胥,王 佳
(1.紅云紅河煙草(集團(tuán))有限責(zé)任公司昆明卷煙廠,云南 昆明 650106;2.昆明理工大學(xué)自動化系,云南 昆明 650500)
煙草起源于美洲、大洋洲及南太平洋的某些島嶼,自哥倫布發(fā)現(xiàn)美洲大陸之后,開始逐漸傳播到世界各地。煙草遍布亞洲、美洲、非洲及東歐的廣大地區(qū),是中國及其他許多國家的重要經(jīng)濟(jì)作物[1],其利稅是國家和地方政府財政收入的重要來源之一。據(jù)統(tǒng)計,全國煙草行業(yè)在1993年便已創(chuàng)稅500億元,居各行業(yè)之首,并在后續(xù)年份持續(xù)上升。2010年達(dá)到5000億元,2021年實現(xiàn)13581億元,創(chuàng)歷史新高,為國家和地方財政增收、經(jīng)濟(jì)發(fā)展作出積極貢獻(xiàn)。此外,中國煙草的生產(chǎn)量占世界總量的三分之一以上,因此,為科學(xué)規(guī)劃煙草種植,對煙草產(chǎn)量的預(yù)測顯得尤為重要,可以為生產(chǎn)管理者提供決策支持。
目前,已有部分學(xué)者建立數(shù)學(xué)模型對煙草產(chǎn)量進(jìn)行預(yù)測。曾志三[2]等利用灰色預(yù)測模型預(yù)測福建省寧化縣的煙草產(chǎn)量,為科學(xué)規(guī)劃煙草種植提供依據(jù);劉曉宇[3]建立多元二次回歸模型,對黑龍江煙草產(chǎn)量進(jìn)行預(yù)測,并為黑龍江煙草生產(chǎn)提供相應(yīng)的對策建議;張慢慢[4]基于氣候因素建立與烤煙產(chǎn)量關(guān)系的多元回歸和BP神經(jīng)網(wǎng)絡(luò)模型,對河南省烤煙產(chǎn)量進(jìn)行預(yù)測,并對烤煙經(jīng)濟(jì)性狀進(jìn)行綜合分析;張?zhí)5]等基于植煙區(qū)土壤樣本的主成分分析,利用支持向量機(jī)回歸算法邵陽縣70個植煙區(qū)的煙草產(chǎn)量進(jìn)行回歸預(yù)測,為煙草產(chǎn)量的預(yù)測提供了一條新思路。通過文獻(xiàn)調(diào)研可知,建立數(shù)學(xué)模型對煙草產(chǎn)量進(jìn)行預(yù)測的相關(guān)研究較少,基于此本文提出一種梯度提升回歸樹(Gradient Boost Regression Tree,GBRT)模型對煙草產(chǎn)量進(jìn)行預(yù)測。
GBRT作為集成學(xué)習(xí)中的一種預(yù)測模型,其本質(zhì)是以決策樹為基本學(xué)習(xí)器的加法模型,由Friedman[6]首次提出,具有預(yù)測精度高、運算速度快、對異常值的魯棒性強(qiáng)、不容易陷入過擬合等優(yōu)勢,廣泛應(yīng)用于各行業(yè)預(yù)測研究。李津[7]等建立GBRT模型對高鐵區(qū)間晚點恢復(fù)進(jìn)行預(yù)測,幫助提高調(diào)度員決策效率及提升高鐵運營控制水平;陳靜[8]等建立GBRT模型對空調(diào)系統(tǒng)中冷水機(jī)組的能耗進(jìn)行預(yù)測,其預(yù)測精度足以滿足實際應(yīng)用需求;陳巖[9]等建立GBRT模型對風(fēng)力發(fā)電機(jī)溫度進(jìn)行預(yù)測,并與真實值比較,驗證所建模型的有效性。通過文獻(xiàn)調(diào)研可知,GBRT模型在諸多鄰域已得到廣泛應(yīng)用,但在煙草產(chǎn)量預(yù)測方面應(yīng)用較少,因此,本文利用GBRT預(yù)測煙草產(chǎn)量,并通過數(shù)據(jù)仿真驗證模型有效性。
綜上,本文利用GBRT模型對全國煙草產(chǎn)量進(jìn)行預(yù)測。首先,基于梯度提升思想建立GBRT模型;然后,根據(jù)近年來全國煙草產(chǎn)量的真實數(shù)據(jù)設(shè)置獨立因子;最后,通過仿真實驗驗證GBRT模型預(yù)測的有效性。
梯度提升建立在集成學(xué)習(xí)Booting思想上,通過將多個基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合,使弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器[10]。基于此,若弱學(xué)習(xí)器的生成依據(jù)是損失函數(shù)的梯度方向,則稱之為梯度提升。梯度提升算法首先要給定一個目標(biāo)損失函數(shù),通過迭代選擇一個梯度方向上的基函數(shù)來逐漸逼近函數(shù)局部極小值,以達(dá)到損失函數(shù)最小值。
GBRT模型的基學(xué)習(xí)器為回歸樹CART[11],其樹生成方法是將特征空間進(jìn)行分支劃分,分支時窮舉每一個特征值的每一個閾值,通過最小化均方差找到分支依據(jù),直到滿足預(yù)設(shè)的終止條件。一棵回歸樹對應(yīng)著輸入空間的一個劃分區(qū)域以及在劃分區(qū)域單元上的輸出值,假設(shè)一棵回歸樹有n個特征,每個特征Si(i∈(1,n))個值,通過窮舉每個特征的每個取值對空間進(jìn)行劃分,直至取到特征j的取值s,使得損失函數(shù)最小。
GBRT以弱學(xué)習(xí)器集合的形式產(chǎn)生強(qiáng)學(xué)習(xí)器,并在此基礎(chǔ)上進(jìn)行訓(xùn)練樣本的學(xué)習(xí)及模型預(yù)測。其核心思想是添加新的回歸樹以最小化每次迭代中的目標(biāo)函數(shù),每棵新樹都是在上一棵樹的殘差上進(jìn)行學(xué)習(xí),并沿著損失函數(shù)的負(fù)梯度方向進(jìn)行訓(xùn)練,通過多次訓(xùn)練,最終將弱學(xué)習(xí)器進(jìn)行線性組合,產(chǎn)生一個強(qiáng)學(xué)習(xí)器[12]。
GBRT模型算法步驟如下:
步驟1:訓(xùn)練數(shù)據(jù)集為T={(x1,y1),(x2,y2),…,(xn,yn)},n為正整數(shù)。損失函數(shù)為L={y,f(x)},回歸樹為F(x)。c為常數(shù),表示根節(jié)點的類別。初始化決策樹:
(1)
步驟2:設(shè)m=1,2,…,M表示迭代次數(shù),即生成的弱學(xué)習(xí)器個數(shù)。對樣本h=1,2,…,H,計算損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為殘差的估計:
(2)
步驟3:{(x1,r1m),(x2,r2m),…,(xN,rNm)}擬合一個回歸樹,得到第m棵樹的葉節(jié)點區(qū)域Rmj,j=1,2,…,J表示每棵樹的葉節(jié)點個數(shù)。
步驟4:對j利用線性搜索,估計葉節(jié)點區(qū)域的值,使損失函數(shù)最小化,計算最佳擬合值:
(3)
步驟5:更新為強(qiáng)學(xué)習(xí)器:
(4)
步驟6:得到最終回歸樹,即每棵樹的葉節(jié)點值相加:
(5)
本文數(shù)據(jù)均從公開數(shù)據(jù)中整理得到,將2017~2021年全國煙草月度產(chǎn)量趨勢顯示于圖1。其中,對1~2月的煙草產(chǎn)量整合,顯示2月的累計產(chǎn)量。此外,將2018~2021年各月度產(chǎn)量與上年同期產(chǎn)量同比增長量趨勢顯示于圖2。

圖1 2017~2021年全國煙草產(chǎn)量趨勢示意圖

圖2 2018~2021年全國煙草產(chǎn)量同比增長趨勢
從圖1中可以觀察出,煙草每年的月度產(chǎn)量走勢大致相同,但同年不同月份間差異明顯。從圖2可看出,不同年份各月度產(chǎn)量與上年同期產(chǎn)量間的差值差異明顯。由此可見,煙草產(chǎn)量與年份、月份及上年同期產(chǎn)量之間存在一定的關(guān)聯(lián)。因此,將煙草產(chǎn)量數(shù)據(jù)的年份、月份及上年同期產(chǎn)量作為獨立因子輸入GBRT模型。
為驗證GBRT模型預(yù)測的準(zhǔn)確度,將GBRT算法所得結(jié)果與2022年全國煙草產(chǎn)量的真實數(shù)據(jù)進(jìn)行比較,對比結(jié)果顯示于表1。此外,為更加直觀地看出GBRT預(yù)測結(jié)果與真實數(shù)值間的差異,將二者的月度趨勢繪制與圖3。

表1 預(yù)測結(jié)果對比

圖3 預(yù)測結(jié)果趨勢對比
由表1及圖3可知,GBRT模型在大多數(shù)月份的預(yù)測與真實數(shù)值誤差不大。除6月與12月預(yù)測結(jié)果偏差較大以外,其余月份的相對誤差基本保持在5%以內(nèi)。此外,全年月度產(chǎn)量整體走勢與真實數(shù)值大體相似,平均相對誤差為5.2%,且全年總產(chǎn)量與真實數(shù)據(jù)之間差異極小,驗證了GBRT模型的有效性。
本文針對煙草行業(yè)產(chǎn)量預(yù)測,綜合考慮年份、月份及上年同期產(chǎn)量等影響因素,建立GBRT模型,預(yù)測全國煙草產(chǎn)量。結(jié)果表明,GBRT模型預(yù)測結(jié)果與真實數(shù)值大體相似,各月度產(chǎn)量平均相對誤差為5.2%,全年相對誤差為0.1%,具有較強(qiáng)的實用性和有效性。