李新鋒,徐小紅
(福建省龍巖金葉復(fù)烤有限責(zé)任公司,龍巖 364102)
出片率是指煙葉原料經(jīng)過(guò)打葉復(fù)烤后,成品片煙(含2.36 mm以上的碎片)質(zhì)量占凈投料質(zhì)量的百分比[1]。出片率的高低能側(cè)面反映出企業(yè)的加工水平,決定企業(yè)的經(jīng)濟(jì)效益。長(zhǎng)期以來(lái),對(duì)烤煙出片率的研究,側(cè)重于煙葉物理屬性與煙葉出片率的相關(guān)性研究[2,3],或打葉工藝設(shè)備、工藝參數(shù)對(duì)出片率的影響[4~9],很少根據(jù)煙葉物理屬性建立出片率回歸模型。本研究根據(jù)煙葉物理屬性的各個(gè)指標(biāo),通過(guò)逐步回歸、主成分回歸、基于網(wǎng)格尋優(yōu)法、遺傳算法、粒子群算法尋找最優(yōu)參數(shù)c、g的支持向量機(jī)回歸方法建立回歸模型,通過(guò)回歸模型預(yù)測(cè)出片率,為在線工藝參數(shù)設(shè)定及技術(shù)經(jīng)濟(jì)指標(biāo)合同的談判和簽訂提供依據(jù)。
2016~2017年共選取煙葉模塊73個(gè),采用隨機(jī)分布抽樣法選取58個(gè)模塊樣品作為訓(xùn)練集,15個(gè)模塊樣品作為驗(yàn)證集。
1.2.1 煙葉物理屬性的測(cè)定
煙葉物理屬性[10]測(cè)定包括原始含梗率(x1)、原始含水率(x2)、單葉重(x3)、長(zhǎng)度(x4)、寬度(x5)、單位面積重量(x6)、葉片厚度(x7)、密度(x8)。
1.2.2 煙葉出片率的測(cè)定
煙葉出片率(y)的測(cè)定參考《打葉煙葉質(zhì)量檢驗(yàn)》[1]標(biāo)準(zhǔn)進(jìn)行。
1.3.1 逐步回歸法建模

1.3.2 主成分回歸法建模
主成分分析是將原來(lái)具有一定相關(guān)性的自變量,通過(guò)線性組合的方式重新組合成一組較少的線性無(wú)關(guān)的綜合指標(biāo)代替原來(lái)的指標(biāo),新變量能反映出原變量的絕大部分信息。主成分回歸中第一主成分x1對(duì)應(yīng)于數(shù)據(jù)變異(貢獻(xiàn)率e1)最大的方向,對(duì)x2,x3,…xm依次有e2≥…≥em。主成分回歸以m個(gè)新變量中的前k個(gè)貢獻(xiàn)比較大的新變量作為自變量建立回歸方程。
1.3.3 支持向量機(jī)回歸法建模
支持向量機(jī)通過(guò)用內(nèi)積函數(shù)定義的線性變換到一個(gè)高維空間,在這個(gè)空間中尋找最優(yōu)回歸超平面[11],使樣本數(shù)據(jù)到該平面的距離最小以實(shí)現(xiàn)回歸。本研究希望通過(guò)尋找這樣的超平面,找出自變量與因變量在高維空間中的定量關(guān)系[12~16]。
假設(shè)在出片率回歸試驗(yàn)中共得到n組樣本(X1,Y1),(X2,Y2)…(Xi,Yi) …(Xn,Yn),且每個(gè)Xi都是一個(gè)8維向量,可表示為
Xi=[xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8]’
(1)
式中:xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8分別表示為第i個(gè)樣本中的原始含梗率、原始含水率、單葉重、長(zhǎng)度、寬度、單位面積重量、葉片厚度、密度。
通過(guò)映射函數(shù)Φ(X)將Xi映射到高維的特征空間,建立線性回歸模型來(lái)估計(jì)回歸函數(shù),公式如下:
f(X,w)=w×Φ(X)+b
(2)
式中:w為權(quán)向量,X為輸入向量,b為閾值。
對(duì)于給定樣本集,采用ε不敏感函數(shù),對(duì)應(yīng)的支持向量機(jī)為ε-支持向量機(jī),其約束優(yōu)化問(wèn)題可表示為:
i=1,2…n
其中
(3)
式中:c是懲罰因子,本研究采用網(wǎng)格尋優(yōu)法、遺傳算法、粒子群算法找出最佳參數(shù)c。
式(3)的優(yōu)化問(wèn)題引入拉格朗日函數(shù)將其轉(zhuǎn)化為對(duì)偶問(wèn)題,通過(guò)解對(duì)偶問(wèn)題得到式(2)的解:
(4)

令g=1/δ2,采用網(wǎng)格尋優(yōu)法、遺傳算法、粒子群算法找出最佳g參數(shù)。
任何煙葉物理屬性組合對(duì)應(yīng)的輸入向量Xi通過(guò)式(4)都可以得到出片率預(yù)測(cè)結(jié)果,從而實(shí)現(xiàn)煙葉出片率的回歸與預(yù)測(cè)分析。
采用絕對(duì)系數(shù)R2、校正標(biāo)準(zhǔn)偏差SEC、預(yù)測(cè)標(biāo)準(zhǔn)偏差SEP作為模型精度的評(píng)價(jià)方法。對(duì)于建模集而言,R2越大,SEC越小,建模精度越高,模型越穩(wěn)定;對(duì)于預(yù)測(cè)集而言,R2越大,預(yù)測(cè)標(biāo)準(zhǔn)偏差SEP越小,模型預(yù)測(cè)精度越高。
由表1可知,煙葉出片率變幅為62.48%~73.85%,變幅較大;原始含梗率(x1)、原始含水率(x2)、長(zhǎng)度(x4)、寬度(x5)變異系數(shù)較為穩(wěn)定,而單葉重(x3)、單位面積重量(x6)、葉片厚度 (x7)、密度(x8)變異系數(shù)在12.38%~17.92%,較不穩(wěn)定。葉片厚度(x7)標(biāo)準(zhǔn)偏差最小,密度(x8)標(biāo)準(zhǔn)偏差最大,其余指標(biāo)標(biāo)準(zhǔn)偏差居于中間。

表1 煙葉出片率與煙葉物理屬性的描述性統(tǒng)計(jì)
2.2.1 逐步回歸法建模
采用Matlab做逐步回歸分析,結(jié)果如表2所示。建立包含含梗率(x1)、原始含水率(x2)、長(zhǎng)度(x4)、葉片厚度 (x7)、密度(x8)等指標(biāo)的估計(jì)出片率的最優(yōu)回歸方程:
y=199.270+4.582x1-17.874x2-3.654x4+1417.1x7+1.157x8-47.774x1x7-0.039x1x8+0.242x2x4。
對(duì)各偏回歸系數(shù)顯著性進(jìn)行檢驗(yàn),結(jié)果顯示:含梗率(x1)、原始含水率(x2)、長(zhǎng)度(x4)、葉片厚度(x7)達(dá)到極顯著水平(p<0.01)、密度(x8)達(dá)到顯著水平(p<0.05),對(duì)截距的檢驗(yàn)結(jié)果為顯著(p<0.05),可以認(rèn)為所得的逐步回歸方程成立。采用F檢驗(yàn)方法對(duì)構(gòu)建的逐步回歸方程進(jìn)行顯著性檢驗(yàn),檢驗(yàn)結(jié)果顯示達(dá)到極顯著水平(F=47.400,p<0.01),說(shuō)明該方程具有統(tǒng)計(jì)學(xué)意義。

表2 逐步回歸方程偏回歸系數(shù)和回歸常數(shù)顯著性檢驗(yàn)結(jié)果
2.2.2 主成分回歸法建模
采用Matlab軟件做主成分回歸分析,提取前8個(gè)主成分(累積貢獻(xiàn)率達(dá)到95.096%)參與建模,回歸方程為:
y=104.029-0.426x1-1.378x2+0.045x3-0.149x4-0.157x5+12.232x6+59.578x7-0.014x8
2.2.3 支持向量機(jī)回歸法建模
采用Matlab軟件中的map min max函數(shù)進(jìn)行數(shù)據(jù)的歸一化,同時(shí)采用網(wǎng)格尋優(yōu)法、遺傳算法、粒子群優(yōu)化法尋找最佳參數(shù)c和g,對(duì)比各參數(shù)下SVR的訓(xùn)練與回歸結(jié)果(圖1~3)。

圖1 網(wǎng)格尋優(yōu)法 圖2 遺傳算法 圖3 粒子群優(yōu)化法
對(duì)比3種參數(shù)優(yōu)化法,粒子群優(yōu)化法建模集和驗(yàn)證集的決定系數(shù)R2均大于其他2種方法;同時(shí),粒子群優(yōu)化法建模集的校正標(biāo)準(zhǔn)偏差和驗(yàn)證集的預(yù)測(cè)標(biāo)準(zhǔn)偏差均小于其他2種方法;因此選擇粒子群優(yōu)化法確定最佳參數(shù)c=29.744,g=0.01。在此參數(shù)下進(jìn)行SVR的訓(xùn)練與回歸,結(jié)果如表3所示。訓(xùn)練過(guò)程中共迭代53次。回歸過(guò)程中校正標(biāo)準(zhǔn)偏差和決定系數(shù)分別為0.582和0.963。

表3 支持向量機(jī)回歸結(jié)果參數(shù)表
對(duì)逐步回歸、主成分回歸、支持向量機(jī)回歸3種方法構(gòu)建的出片率模型進(jìn)行比較,建模集采用決定系數(shù)和校正標(biāo)準(zhǔn)偏差(SEC)判定,驗(yàn)證集采用決定系數(shù)和預(yù)測(cè)標(biāo)準(zhǔn)偏差(SEP)判定,得出不同模型的建模和驗(yàn)證精度(表4、5)。可以看出:支持向量機(jī)建模集和驗(yàn)證集的決定系數(shù)(R2)比其他兩種建模方法大,同時(shí)建模集的校正標(biāo)準(zhǔn)偏差(SEC)和驗(yàn)證集的預(yù)測(cè)標(biāo)準(zhǔn)偏差(SEP)比其他兩種建模方法小,表明采用支持向量機(jī)方法建模和驗(yàn)證較其他兩種建模方法好。

表4 不同模型建模的驗(yàn)證精度

表5 不同模型預(yù)測(cè)結(jié)果對(duì)比
續(xù)表5

驗(yàn)證集樣品出片率/%逐步回歸預(yù)測(cè)主成分回歸預(yù)測(cè)支持向量機(jī)回歸預(yù)測(cè)出片率/%絕對(duì)誤差出片率/%絕對(duì)誤差出片率/%絕對(duì)誤差1268.3867.84-0.5468.29-0.0968.33-0.051368.0268.200.1869.101.0868.710.691467.7668.180.4267.75-0.0167.71-0.051567.8866.69-1.1966.14-1.7467.44-0.44
(1)逐步回歸分析結(jié)果顯示,影響出片率的主要煙葉物理屬性指標(biāo)為含梗率、原始含水率、長(zhǎng)度、葉片厚度、密度。
(2)網(wǎng)格尋優(yōu)法、遺傳算法、粒子群優(yōu)化法均有良好的泛化能力,可以用于出片率預(yù)測(cè),其中粒子群優(yōu)化法出片率預(yù)測(cè)結(jié)果優(yōu)于其他兩種方法。
(3)逐步回歸、主成分回歸、支持向量機(jī)回歸3種方法模型預(yù)測(cè)精度都較高,說(shuō)明3種方法對(duì)出片率的預(yù)測(cè)是可行的。其中,對(duì)出片率預(yù)測(cè)最好的模型為粒子群優(yōu)化法選擇的最佳參數(shù)所對(duì)應(yīng)的支持向量機(jī)回歸模型,其次是逐步回歸模型,預(yù)測(cè)能力最低的是主成分回歸模型。
本研究從煙葉的物理屬性分析煙葉出片率,如果將煙葉的物理屬性與在線工藝參數(shù)結(jié)合在一起,更全面地分析煙葉的出片率,可能會(huì)有新的突破。