黃小艷 趙廣仁 黃晶 謝俊力 賈智偉



摘? ? 要:打葉復烤過程的工藝參數設置是穩定煙葉質量的關鍵,為了提高煙葉質量的穩定性,本文提出了一種基于決策樹與正交試驗設計的參數優化方法。使用決策樹算法模型挖掘與分析打葉復烤歷史數據的工藝參數與出口水分指標之間的關系,得到工藝參數對指標的影響權重排序,由此設計因素水平表進行正交試驗設計,根據試驗結果對決策樹模型進行驗證與修正,并獲得較優參數組合,現場驗證表明修正后的預測結果與實際相比誤差小于5%,所獲得的參數組合充分滿足現場需求。
關鍵詞:打葉復烤;參數優化;決策樹;正交試驗
中圖分類號:TS443? ? ? ? ? 文獻標識碼:A? ? ? ? ? DOI 編碼:10.3969/j.issn.1006-6500.2020.09.015
Abstract: The setting of technological parameters in threshing and redrying process is the key to stabilize the quality of tobacco leaves. In order to improve the stability of tobacco quality, a parameter optimization method based on decision tree and orthogonal experimental design was proposed. The decision tree algorithm model was used to mine and analyze the relationship between the process parameters of threshing and redrying and the export moisture index from historical data, and the influence weight of the process parameters on the indexes was obtained. The orthogonal experiment design was carried out by designing the factor level table. According to the experimental results, the decision tree model was verified and modified, and the optimal combination of parameters was obtained. The field verification showed that the modified model was feasible since the error between prediction and the actual results was less than 5%, and the obtained parameter combination fully met the field demand.
Key words: threshing and redrying; process parameter optimization; decision tree; orthogonal experiment
打葉復烤是卷煙生產加工中不可缺少的一部分,穩定煙草打葉復烤質量一直是企業面臨的重要問題,合理設置工藝參數是解決這一問題的有效方法。在煙葉打葉復烤加工過程中,煙葉水分的穩定性是多年來業界關注的重要課題,加工設備的工藝參數設置通常為現場技術人員根據經驗和現場臨時情況進行調整,囿于現場人員的經驗和能力差異,煙葉水分指標常常難以達到理想水平。因此,這一過程中的工藝參數優化成為關注的重點。楊洋等[1]利用層次分析法(AHP)和正交試驗對指定的煙葉進行檢驗,經過多組對比試驗,得出能顯著提高烤煙品質的參數組合。通過設置不同的潤葉參數并觀察潤二的出口煙葉溫度變化,徐國金[2]發現,適當增加風機頻率和潤葉段的蒸汽用量可以顯著改善出口的濕度和溫度。吳芳等[3]對3種不同產地的煙葉試驗了11組的不同來自經驗的參數組合,試驗結果與唐瑩[4]的研究結果類似:針對不同產地的煙葉原料,適合的工藝參數設置會讓打葉復烤的質量水平得到較大提高。劉彥嶺等[5]采用均勻試驗與多元線性回歸分析建立了潤葉段的2個指標與各工藝參數的調整模型,該模型可以準確地控制和優化潤葉效果。然而,這些參數優化研究大多是基于現場人員或企業的經驗,即使較少的模型建立與分析,數據也來源于根據經驗參數設置得到的指標,對歷史數據的挖掘不夠,所設計試驗代表性存在問題,因此,本文通過采用決策樹方法對歷史生產工藝參數與出口濕度關系進行分析和建模,選取重要工藝參數建立因素水平表,設計正交試驗方案,驗證并修正模型,獲得最優參數組合,采用現場試驗對最優參數組合進行檢驗。
1 材料和方法
1.1 試驗材料
郴州復烤廠2019年全年生產工藝參數及煙草指標數據,包括A3CD1、A2CD2、A4CH1、B3F、C3F、C2FABCD等煙葉等級。全年工藝參數記錄119 472項,每項記錄包括潤葉區8項參數、打葉區5項參數、復燥區13項參數,相當于打葉、復燥區26項參數。正交試驗和最后驗證采用材料為郴州C3F。
1.2 系統概述
算法設計如圖1所示。對原始歷史數據進行預處理后,用決策樹進行訓練,通過輸入參數組合預測輸出,建立決策樹模型。根據模型所得的工藝參數重要性排序設計正交試驗方案。依據正交試驗結果修正決策樹模型,并進行極差分析獲得最優參數組合,利用改進的決策樹模型對指標進行預測和驗證。
1.3 數據預處理
煙葉的工藝參數及理化指標數據來源于打葉復烤過程中的生產線數據采樣采集系統。這些數據直接反映了煙葉在打葉復烤過程中的實時情況。由于該過程由多個生產環節組成,數據預處理階段應消除異常值和缺失值,為后續的模型訓練和數據挖掘提供高質量的數據。
根據打葉復烤工藝參數的順序構造輸入空間X,空間的向量為x(x1,x2,…,xp ),p=26,。打葉復烤的質量指標主要由煙葉產量水分值決定,計算公式如下:
一般優化的目標為Y = 12%[6]。
1.4 數據處理
對郴州復烤廠2019年之前的歷史數據按照70%和30%的比例進行抽取,分別作為CART決策樹[7-8]的訓練集和測試集,獲得工藝參數特征對煙葉出口水分的映射,采用機器學習方法Scikit_learn 模塊中的Decision tree Regression模型對訓練數據集進行擬合。
回歸過程中,為了使決策樹回歸模型最優化,主要對模型里的超參數max_depth(樹最大深度)進行優化[9-10]。為了更好地評估回歸模型的性能,將使用均方根誤差(RMSE)、平均絕對誤差(MAE)作為模型指標,定義如下:
其中均方根誤差(RMSE)對回歸中的特大特小誤差反應非常敏感,能夠很好地反映出回歸的精確度,而平均絕對誤差(MAE)則能較好的描述預測值與實際值的離散程度。
1.5 算法模型評價
表1是經過決策回歸樹模型不同超參數的優化之后的實際值和預測值的均方根誤差、平均絕對誤差和出口水分特征的精確度的對比。由表1可知,對于多維度的輸入樣本X,決策樹模型經過優化后最好的精確度達到95.91%,說明 CART決策樹回歸算法對訓練集和驗證集具有較好的適應性。
表2是精確度最高時(max_depth=10)決策樹模型的特征重要度排序,表示模型中對出口水分指標影響較大的的工藝參數的排序,由于指標涉及到26個不同的參數,同時每個變量的取值范圍都比較大,所以難以使用遍歷方法來對參數的范圍和水平選取進行優化,根據現場需求,設計正交試驗方案求取最優參數組合。
1.6 基于特征重要度的正交試驗設計
正交試驗設計是研究多因素多水平的一種試驗設計方法。當試驗涉及的因素在3個或3個以上,而且因素間可能有交互作用時,試驗工作量會變得很大,甚至難以全面實施。針對這個困擾,正交試驗設計是一種更好的選擇。正交試驗設計的主要工具是正交表,根據試驗的因素數、因素的水平數以及是否具有交互作用等需求查找相應的正交表,依托正交表從全面試驗中挑選出部分有代表性的點進行試驗,可以實現以最少的試驗次數達到與全面試驗等效的結果。針對本次試驗的多維度多水平的實際情況,采用正交試驗設計,既能在滿足試驗條件的同時又能保障煙葉復烤廠的經濟效應性[11-12]。
應用決策樹模型得到工藝參數特征重要度排序(表2)后,考慮到生產現場可提供的煙葉試驗次數有限,每個因素選取3個水平,根據生產現場技術人員的實際經驗確定各因素的水平取值,獲得9因素3水平的正交設計表L27(93)(表3)進行正交試驗設計。對應的具體工藝參數選擇實施方案見表4,針對不同的工藝參數組合,利用決策樹模型可以預測相應的出口煙葉水分值,同樣列在表4中。
2 結果與分析
對表4中的正交試驗方案進行現場檢驗可以獲得對應出口水分實際值,與預測水分值相比,兩者存在一定的差距,因此將所獲得的27組現場數據以2∶7的比例分別加入訓練集和測試集,加大訓練集中現場數據的權重后重新訓練,獲得的新的預測值與實際出口水分值得對比如圖2所示,兩者差距小于5%。相同等級(郴州C3F)葉片理化特性的年際差異可能是造成這種差異的主要原因,符合現場的實際情況,驗證了決策樹模型的適應性。
根據正交試驗設計組合,采用極差分析法對正交試驗方案對應結果進行分析。因子A的K1為A第一水平因素對應的各試驗指標之和的平均值。由于本試驗不考慮交互作用,因此3組方案A1、A2、A3在相同試驗條件下執行。如果A對試驗指標沒有影響,那么輸出KA1, KA2, KA3理論上應該是相等的,如果實際上不相等,KA1均值、KA2均值和KA3均值的值分別反映了A1、A2和A3對試驗指標的影響。由于水分值應盡可能接近12%(實際要求),筆者單獨調整A,使A因素的水平達到最優,其他因素的最優水平也用相同方法得到。
極差分析法得到的最優參數組合如表6所示。對應的決策樹模型預測的水分值為12.44,現場試驗值為11.93,差值為0.51,相對誤差為4.27%,滿足現場要求。
3 結論與討論
由于歷史數據均來源于正常生產的歷史記錄,相應的工藝參數設置往往由現場經驗決定,參數范圍具有局限性和不完整性的特點,所以基于歷史數據的決策樹模型泛化能力存在天然的不足,特別當試驗參數與現場經驗參數設置相差較大時,預測結果可能與現場試驗結果相差較大。改善這一問題的有效方法是擴大歷史數據的取值范圍以及樣本數量。
本研究采用決策樹模型對打葉復烤工藝參數與出口水分的關系進行建模,以工藝參數為自變量,出口水分指標為因變量形成映射,并對模型超參數進行最優化,優化后模型精確度為95.91%。由于可供試驗的次數較少,根據決策樹模型的特征重要度獲得工藝參數的重要性排序,由此設計正交試驗方案,根據正交試驗結果修正模型,并采用極差分析獲得最優參數組合,將該工藝參數組合的現場試驗結果與模型預測進行對比,發現誤差為0.51,相對誤差小于5%。這一對比表明所采用的決策樹模型預測效果良好,可以為打葉復烤前的工藝參數決策提供良好的幫助。決策樹與正交試驗設計所形成的最優參數組合具有較好的現場效果,滿足現場生產需要。
參考文獻:
[1]楊洋,楊雨波,吳昊,等.煙草加工中打葉復烤工藝參數優化[J].農業工程,2018, 8(8):83-85.
[2]徐國金.不同潤葉設備參數對潤葉質量的影響[J].農業與技術,2017,37(6):99.
[3]吳芳,喻文蓉,李德綜,等.不同工藝參數的設定與打葉復烤質量的關系[J].科技與企業,2012(14):324.
[4]唐瑩.打葉復烤工藝參數優化探討[J].科技傳播,2013,5(16):134-135.
[5]劉彥嶺,王澤理,周強,等.打葉復烤潤葉段水分溫度控制模型的建立[J].安徽農學通報,2017,23 (22):109-111.
[6]吳洪田,李曉紅,崔焰,等.打葉煙葉質量檢驗: YC/T147 -2010[S].北京:中國標準出版社,2011.
[7]蘇志同,汪武珺.基于隨機森林的煅燒工藝參數的研究和分析[J].軟件,2018,39(4):148-150.
[8]BOGDAN Z, VUKOBRATOV IC,RASTISLAV J R. Struharik. Co-processor for evolutionary full decision tree induction[J]. Microprocessors and microsystems,2016,45: 253-269.
[9]張長水. 統計機器學習若干理論、方法與應用研究[D]. 北京:清華大學,2008.
[10]BAS B L, PENNING DE V,MAARTEN V S,et al.? Propensity score estimation using classification and regression trees in the presence of missing covariate data[J]. Epidemiologic methods,2018,7(1): 20-49.
[11]盧幼祥,徐其敏,楊波,等.基于正交設計的皖南煙葉葉片復烤工藝參數優化研究[J].安徽農業科學,2015,43(27):218-219,224.
[12]戰磊,肖明禮,尹智華,等.復烤溫度對西南清香型煙葉質量的影響[J].湖南農業大學學報(自然科學版),2018,44(2):136-139,150.