何孝強 - 李泓燊 - 向 虎 王 龍 張云飛 - 鄒玉勝 -g 趙 榮 劉戈弋U - 楊 濤 李紹臣 -
(1.紅云紅河煙草﹝集團﹞有限責任公司曲靖卷煙廠,云南 曲靖 655001;2.紅云紅河煙草﹝集團﹞有限責任公司,云南 昆明 650000)
卷煙吸阻是指消費者在吸煙時能感受到的阻力[1],會影響吸煙者對產品的接受性。卷煙通風是指通過未點燃卷煙(除前端外)吸入的空氣[2],包括從卷煙紙和水松紙進入煙支的空氣量,通風是一種影響卷煙煙氣(焦油、CO等)產生量和成品吸阻的決定性因素。卷煙吸阻和通風是影響卷煙抽吸感受、煙氣和感官質量的重要指標,因此建立卷煙吸阻、通風預測模型對產品設計和質量改進具有重要意義。目前,國內外對卷煙吸阻和通風的研究主要包括:研究相關因素對卷煙吸阻和通風的影響,包括卷煙材料、煙絲特性、物理指標和生產過程對卷煙吸阻、通風的影響[3-6],該類研究通過單一卷煙牌號的試驗探討了部分因素對卷煙吸阻和通風的影響,未能建立統一的吸阻、通風預測模型,存在一定局限性;通過原理分析建立通用的吸阻、通風數學模型[7-10],但該類模型中的部分關鍵參數如煙絲滲透率等需要借助專業的檢測儀器進行試驗獲取,且需要生產出煙絲和濾棒后才能進行相關參數的測量,對于卷煙設計存在一定的滯后性。
多元自適應回歸樣條方法(Multivariate adaptive regression splines,MARS)由Friedman[11]提出,具有靈活適用于回歸和分類問題的線性和非線性建模、支持變量交互、簡單易懂、幾乎不需要數據預處理、適用于不同類型的數據、數據預測效果好等特點[12-13],該方法已被應用于凍土分布模擬[14]和語音清晰度客觀評價[15]等方面。試驗擬從卷煙吸阻、通風原理出發,對檢測數據進行深入挖掘,利用多元自適應回歸樣條方法建立卷煙吸阻、通風預測模型,為產品設計和生產改進提供參考。
收集不同規格牌號卷煙的物理指標檢測數據并進行清洗,結合卷煙吸阻、通風的原理分析可能的影響因素,根據原理分析結果構建中間變量形成新的基礎數據,并將數據集分為訓練集和測試集,利用MARS方法對訓練集建立卷煙吸阻和通風預測模型,利用測試集對模型進行驗證。
曲靖卷煙廠2018年1月~2019年6月各牌號卷煙物理指標檢測數據17萬余條,涵蓋了14個卷煙牌號,卷煙規格包括常規煙支、中支和細支,卷煙紙透氣度、接裝紙透氣度、濾棒長度、濾棒吸阻、煙絲填充值等因子。以各牌號的產品技術標準為參考,對數據進行初步清洗,剔除明顯異常數據,形成如表1所示的數據。
卷煙吸阻是在煙絲柱體吸阻、接裝紙打孔上游濾棒壓降、下游濾棒壓降、卷煙紙透氣度、接裝紙透氣度的綜合作用下形成的[1],其中煙絲柱體吸阻與煙支長度、直徑、氣流黏度、煙支比阻有關,煙支比阻反映了煙絲形狀、尺寸及孔隙率對流體流動的影響[16]。根據煙支比阻的定義,與之相關且可測量的有煙支內的煙絲填充密度和煙絲本身的填充能力,煙填充密度越大,阻力越大,填充值越高,阻力越大,因此以煙絲填充密度與煙絲填充值的乘積表示氣體通過煙絲柱體受到的阻力,即煙絲填充系數:

表1 數據示意
(1)
式中:
fd——煙絲填充系數;
f——煙絲填充值,cm3/g;
m——單支卷煙所含煙絲量,g;
v——無嘴段煙支體積,mm3。
根據定義,fd反映了煙絲在煙支中的實際填充量與煙絲本身的填充性能的比值,值越大,煙絲在煙支內的填充越緊實,對氣體的阻力越大,吸阻越大。
卷煙通風包括紙通風和濾嘴通風,二者之和為總通風。卷煙通風與卷煙吸阻、卷煙紙透氣度、接裝紙透氣度、接裝紙打孔位置、濾棒壓降等因素有關,為此在原始數據集中加入卷煙紙透氣、接裝紙透氣度、濾棒壓降、濾棒長度,并根據水松紙打孔位置計算出濾棒上、下游壓降,根據卷煙重量、規格和卷煙材料重量、煙絲填充值計算出煙絲填充系數,形成如表2所示的數據集。
MARS模型通過樣條函數擬合復雜的非線性關系[14-15],其數學表達式為:

表2 變量注釋?
? 卷煙長度、濾棒長度、卷煙紙透氣度、接裝紙透氣度、卷煙直徑、無嘴段煙支長度為已知參數;輔料重量、濾棒壓降和煙絲填充值采用對應批次卷煙的平均值;濾棒上、下游壓降和煙絲填充系數根據已知參數計算;卷煙吸阻、濾嘴通風、紙通風和總通風為檢測結果。
(2)
式中:

a0——截距;
am——第m個樣條函數的系數;
M——樣條函數數量;
km——不同區域之間的線性回歸線交點的結點數;
Skm——右側或左側的樣條函數,取1或-1;
v(k,m)——標識變量;
tkm——結點位置。
樣條函數定義為:
11.2.1.1 瘤狀原基期:空氣相對濕度80%~90%,覆土層保持既疏松又濕潤;在土質疏松、原基出現較多時,應勤噴霧狀水。以保持瘤狀原基表面有水珠為準。
(3)
式中:
t——結點的位置;
x-tkm、tkm-x——給定t時右側和左側區域的樣條函數;
+——對于負值取0。
MARS模型通過交叉驗證實現變量的自動選擇,默認的方法是前向過程建模然后通過后向過程精簡模型,精簡過程根據廣義交叉驗證(GCV)進行,其定義為:
(4)
式中:
yi——實際觀測值;
M(λ)——模型中有效參數數量;

N——基函數個數。
GCV(λ)最小時對應的模型為最佳模型。
將數據集分為訓練集和測試集,其中訓練集為總樣本的80%,采用分層抽樣的方法在每個牌號卷煙的檢測數據中隨機抽取80%的樣本量組成訓練集建立模型,剩下的20%為作為驗證模型的測試集。考慮到模型的實際應用,數據變量中的輔料重量、煙絲填充值和濾棒壓降為對應批次的平均值,因此這些變量的波動可能會對結果產生影響,為盡量消除人為添加變量的波動和測試過程中的誤差,首先對訓練樣本進行聚類。以卷煙規格(重量、圓周、長度)為變量,利用K-Means聚類算法對訓練集進行聚類,根據總的類內平方和變化,同時為避免不同牌號卷煙數據的樣本量差異過大對模型精度造成影響,最終確定每個卷煙牌號的聚類數為200,以每個類別的數據中心值為新的訓練樣本,共2 800條數據。
利用MARS模型擬合訓練集,得到模型擬合的變量重要性見表3。
根據nsubsets(精簡過程完成后包含該變量的模型個數)準則[12],最終模型用到了10個變量中的8個,其中接裝紙透氣度和濾棒下游壓降最重要,其次為煙絲填充系數、卷煙長度、濾棒上游壓降、卷煙紙透氣度、無嘴段煙支長度和卷煙直徑,而濾棒長度和濾棒壓降在最終的模型中被刪除。
由圖1可知,當模型基函數為16時,GCV值達到最小421.6,因此確定最佳模型的基函數為16。
最終建立的模型為:
pd=947.483-97.976h1+943.738h2-616.126h3-0.111h4-34.639h5+0.210h6+7.048h7+1.124h8+0.754h9-5.128h10-10.473h11-83.608h12-7.382h13-22.855h14-8.835h15。
(5)

表3 變量重要性

圖1 模型選擇
其中各基函數表達式如表4所示。

表4 基函數?
? max(0,a)表示取0和a的較大值。
利用該模型對測試集進行5折交叉驗證,得到吸阻測試集的標準化均方誤差為0.276[23],預測絕對誤差平均值為37.5 Pa,相對誤差為3.26%,模型擬合效果較好。
利用同樣的方法建立卷煙紙通風、濾嘴通風預測模型。其中紙通風預測模型包含7個變量,其重要性由高到低依次為:lbpd(濾棒壓降)、st(接裝紙透氣度)、d(卷煙直徑)、jt(卷煙紙透氣度)、fd(煙絲填充系數)、lbl(濾棒長度)、yzl(無嘴段煙支長度),最優模型包含15個基函數,建立的預測模型為:
pv=10.153+0.011 96h1+0.027 6h2-0.069 28h3-0.249h4+0.026 9h5-0.231h6+20.722h7-15.507h8-0.077 5h9-1.041h10-0.056 5h11+0.035 8h12+0.001 98h13+5.856h14-3.564h15。
(6)
其中各基函數表達式如表5所示。

表5 基函數
5折交叉驗證得到紙通風測試集的標準化均方誤差為0.184,預測絕對誤差平均值為0.91%,模型擬合效果較好。
濾嘴通風預測模型包含6個變量,其重要性由高到低依次為:st(接裝紙透氣度)、jt(卷煙紙透氣度)、lbpd2(濾棒下游壓降)、l(卷煙長度)、lbpd(濾棒吸阻)、lbpd1(濾棒上游壓降),最優模型包含11個基函數,建立的預測模型為:
fv=7.994+0.162h1-0.02h2+0.273h3+0.157h4+0.032 7h5-0.007h6+0.029 2h7-0.018 4h8+6.353h9+0.79h10-0.097 7h11。
(7)
其中各基函數表達式如表6所示。
5折交叉驗證得到濾嘴通風測試集的標準化均方誤差為0.044,預測絕對誤差平均值為1.27%,模型擬合效果較好。

表6 基函數
卷煙總通風為濾嘴通風與紙通風之和,根據模型預測出的紙通風與濾嘴通風即可預測出總通風,通過計算,總通風測試集的預測絕對誤差平均值為1.7%。
為進一步分析模型預測效果,將卷煙吸阻和通風指標的實測值波動和指標產品技術標準進行對比,如表7所示。由表7可知,模型預測誤差遠小于吸阻實際波動范圍和技術標準規定允差,因此模型完全可應用于產品設計和實際生產中的吸阻和通風預測。

表7 模型預測誤差對比表
通過對卷煙吸阻、通風率的原理分析找出相關的影響因子,結合大量豐富的不同規格和原輔料特性的卷煙數據,利用多元自適應回歸樣條(MARS)方法建立了卷煙吸阻、通風預測模型,其中吸阻預測模型的標準化均方誤差為0.276,絕對誤差平均值為37.5 Pa;紙通風預測模型的標準化均方誤差為0.184,絕對誤差平均值為0.91%;濾嘴通風預測模型的標準化均方誤差為0.044,絕對誤差平均值為1.27%,模型預測效果較好,可應用于實際生產中的卷煙吸阻、通風預測。試驗中用于擬合模型的數據為曲靖卷煙廠目前生產的牌號和規格卷煙檢測數據,后續將納入其他生產廠的不同牌號、規格卷煙數據進行分析,進一步優化模型。