王滎 卓亮 何林洋 謝正全 張暉
摘要:煙草制絲過程中煙絲的加水量對制絲質量起著重要的作用,而影響加水量的因素眾多。為了定量研究各影響因素對生絲水分的影響程度,通過對綿陽卷煙廠生絲水分歷史數據,運用多種機器學習樹模型算法進行學習,并對結果進行對比分析。分析結果表明,不同模型所獲得的預測精度存在差別,在現有數據上極端梯度提升樹獲得了最高的預測精度。通過極端梯度提升樹模型計算了各影響因素對生絲水分的影響程度。
關鍵詞: 生絲水分;極端梯度提升樹;機器學習;樹模型;特征重要性
中圖分類號:TP181? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)04-0010-02
煙絲含水率是卷煙生產過程中最重要的質量參數之一,只有含水率在正常范圍內的煙絲才允許包裝出廠。制絲過程中水分主要由潤葉加料工序和烘絲工序決定,烘絲工序需要潤葉加料工序生絲含水率在規定范圍內的同時穩定一致,才能精確控制烘絲的時間和強度,生產出合格的煙絲,因此潤葉加料工序加水量對生絲含水率影響極大[1-3]。目前生絲潤葉加料工段總加水量的控制通常采用人工方式根據經驗進行調控,由于多班制的影響,難免因為班與班、人與人之間判定和操作不一致,以及外部環境不穩定性導致生絲含水率不佳的情況發生。而影響生絲水分的因素較多,包含儲葉溫濕度,加水量等可控因素和外部天氣情況、儲葉時間等不可控因素,人工調控潤葉加料工段總加水量高度依賴操作工個人經驗,存在一定難度,缺乏穩定性與精確性,并且不能快速應對外部環境的變化。本文采用綿陽卷煙廠制造執行系統(Manufacturing Execution System,MES)系統中提取的近三年生絲水分數據采用機器學習方法進行模型構建,將不同模型的預測結果與實際數據進行對比,進而確定影響生絲水分的因素。
機器學習是從數據中發現知識的技術,近年來由于其在圖像識別、語音識別上的進展而廣受關注。對已標注的數據,根據標記是數值型數據或離散型數據分為回歸和分類算法。本研究的主要目標是對潤葉加料工段總加水量這一數值型數據進行預測和分析,采用回歸算法。常用的回歸算法有線性回歸、支持向量回歸、深度回歸、基于樹的回歸算法等。本項目不僅需要獲得較高的預測精度,同時也需要對預測的結果進行評估,需要模型具有可解釋性。因此,本項目選擇回歸樹算法來建立模型,對潤葉加料工段總加水量進行預測。回歸樹的另一個優點是可以在高精度預測的同時,獲得特征對結果的重要性影響程度,從而幫助理解各影響因素的影響程度。
1 相關工作
由于生絲水分預測和控制對煙絲質量影響的重要性,目前已經有卷煙生產企業開展了生絲水分影響因素分析工作。金發崗等對制絲生產過程數據通過隨機森林進行特征選擇,使用差分進化優化的極限學習機進行含水率預測 [2]。李自娟等采用神經網絡和多元回歸模型建立烘絲出口水分預測模型[3]。鐘文焱等采用Pearson相關分析的方法,確定烘絲機入口含水率的主要影響因素,并用神經網絡算法和多元回歸分析方法建立含水率預測模型,保障制絲過程中烘絲機入口含水率的穩定性[4]。劉穗君等對松散回潮數據通過回歸分析建立統計模型,并通過自適應學習進行含水率精確控制[5]。何毅等采用梯度提升樹對煙草回潮機出料含水率進行了預測[6]。
這些研究工作表明,烘絲的出口水分主要受入口水分影響,因此控制好生絲的水分對最終制成煙絲質量影響重大。由于生絲需要在倉庫中存儲4小時~36小時才檢測出口水分,本質上生絲水分控制系統屬于大滯后控制系統,而大滯后系統的控制對控制界來講一直是一個難題。傳統的大滯后控制采用斯密斯預估,其缺點是需要控制對象的精確數學模型,而對生絲水分控制系統來講,其影響因素太多,很難建立精確數學模型。各煙廠開展的相關工作主要采用各種統計方法找到自變量和因變量的線性模型,或是采用神經網絡建立預測模型。與本文最相似的工作是文獻[2]和文獻[6],他們也采用樹模型來對生絲水分進行預測,本文與他們最重要的區別是本文采用了包括隨機森林、梯度提升樹在內的多種樹學習模型并對預測精度進行了比較,在此基礎上確定了精度最高的模型,并用其進行特征分析。
2 數據預處理
2.1 數據介紹
本文數據來自從MES系統中提取的四川中煙工業有限責任公司綿陽卷煙廠“利群(新版)”牌號煙葉2017年6月至2020年5月生絲水分歷史數據。三年總共有近6000條(一批次為一條)生絲水分歷史數據,共186個維度,主要包括松散回潮、潤葉加料、Sirox增溫增濕、烘絲、摻配加香五個生產環節。本項目考慮烘絲前的水分預測,所以只選用了松散回潮、潤葉加料、Sirox增溫增濕三個環節的數據,具體屬性如圖1所示。
其中多個數據存在子屬性未包括在圖1中,分別為均值、標準偏差(Standard Deviation, SD)、過程能力指數(Process Capability Index,CPK)、合格率四個子屬性,為了數據分析的方便性,本文只采用各屬性的均值進行計算。模型預測值為潤葉加料工段的累積加水量。
2.2 數據預處理算法
生絲水分原始數據存在部分數據記錄缺失(如潤葉加料工段的貯葉時間等屬性的數據未存入數據庫),每批次數據也存在部分缺漏,同時數據表里部分特征對生絲水分加水量無影響。所以在數據預處理過程中,先合并所有批次的數據,并對有缺失屬性的數據項進行了刪除。處理后的數據包括25個維度,它們是:“松散回潮皮帶秤實時流量均值”“松散回潮出口水分均值”“松散回潮出口溫度均值”“松散回潮回風溫度均值”“潤葉加料皮帶秤實時流量均值”“潤葉加料入口水分均值”“潤葉加料出口水分均值”“潤葉加料出口溫度均值”“潤葉加料料液實時流量均值”“潤葉加料累計加料量”“潤葉加料料液溫度均值”“潤葉加料瞬時精度均值”“潤葉加料累計精度”“Sirox增溫增濕皮帶秤實時流量均值”“Sirox入口水分均值”“Sirox入口水分SD”“Sirox蒸汽薄膜閥開度均值”“Sirox蒸汽減壓閥后壓力均值”“Sirox出口溫度均值”“整絲率”“碎絲率”“填充值”“純凈度”“儲葉房溫度”“儲葉房濕度”。
2.3數據標準化
由于數據特征量級、量綱均不一致,而不一致的量綱對機器學習算法具有較大影響,需要對特征數量級進行歸一化。筆者使用的歸一化計算公式如式(1)所示。
x=(x-maxx)/(maxx-minx)? ? ? ? ? ? ? ? ? (1)
歸一化后所有數據被縮放至0~1區間,再輸入到算法模型中進行學習預測。
3 特征選擇
3.1 模型選擇
將數據集按9:1比例隨機分為訓練集和測試集,訓練集用來訓練模型,測試集用來評估訓練好的模型。將訓練集輸入給不同算法進行訓練,通過網格搜索和交叉驗證尋找機器學習模型的最優參數,網格搜索用于系統遍歷多種參數組合,其目的是搜尋模型中的最優超參數,再通過交叉驗證確定最佳參數。
本文分別采用了回歸樹(Classification And Regression Trees, CART)[7]、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[8]、隨機森林[9]、極端梯度提升樹(Extreme Gradient Boosting, XGBoost)[10]、Lightgbm[11]、Catboost[12] 六種基于樹的回歸算法建模,對比預測精度,選取精度最高的模型。
各模型在測試集上預測精度結果如表1所示。從表1可以看出,在六種樹模型中,XGBoost的精度最高,因此筆者選擇Xgboost來具體分析特征間的關系。
3.2 特征重要性分析
使用XGboost計算出的特性影響權重如圖2所示。從圖2可以看出,潤葉加料入口水分均值的特征影響權重占比超過45%,仍占主要影響地位;儲葉房溫濕度、潤葉加料出口水分、松散回潮出口水分、松散回潮出口溫度和松散回潮累計加水量的特征影響權重占比占據重要影響地位。
4 結論
為掌握制絲工序中各影響因素對生絲水分的影響情況,本文對數據進行了預處理并篩選特征,通過使用回歸樹、GBDT、隨機森林、XGBoost、Lightgbm、Catboost多種常用樹學習模型對歷史數據的預測精度進行研究。通過對比選取的六個樹模型預測精度,選取精度最高的Xgboost作為本項目研究模型。
通過特征重要性計算和特征相關性分析,可以知道潤葉加料入口水分均值對總加水量影響最大,潤葉加料出口水分均值占據重要影響,潤葉加料累計加料量、潤葉加料皮帶秤累計值、松散回潮皮帶秤累計值、潤葉加料瞬時精度均值、潤葉加料出口水分、松散回潮出口水分和松散回潮出口溫度分別占據較為重要的影響。
參考文獻:
[1] 范羿,王錫瑩,何曉瑩,等.煙絲風送過程含水率變化趨勢研究[J].云南化工,2020,47(8):74-76.
[2] 金發崗,王雅琳,張鵬程,等.隨機森林和DE-ELM的烘絲機入口含水率預測[J].控制工程,2020,27(3):532-539.
[3] 李自娟,劉博,高楊,等.卷煙制絲環節關鍵工序水分預測模型的建立與檢驗[J].食品與機械,2020,36(10):190-195,205.
[4] 鐘文焱,陳曉杜,馬慶文,等.基于多因素分析的烘絲機入口含水率預測模型的建立與應用[J].煙草科技,2015,48(5):67-73.
[5] 劉穗君,王玉芳,李超,等.基于統計回歸分析的松散回潮出口含水率精準控制系統[J].煙草科技,2017,50(3):88-93.
[6] 何毅,李斌,普軼,等.基于梯度提升樹的煙草回潮機出料含水率預測[J].軟件,2020,41(6):151-157.
[7] 1Breiman L, Friedman J H, Olshen R A, et al. Classification and Regression? Trees[M]. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
[8] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5):1189-1232.
[9] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[10] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//KDD '16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:785-794.
[11] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting? decision tree[C]. Advances in neural information processing systems, 2017 : 3146- 3154.
[12] Dorogush A V,Ershov V,Gulin A.CatBoost:gradient boosting with categorical features support[J]. arXiv preprint arXiv:2018:1810-11363.
收稿日期:2021-10-15
基金項目:四川中煙工業科研項目“基于數據相關性分析的生絲水分控制智能決策系統”(202005)
作者簡介: 王滎(1986—),女,四川樂山人,工程師,本科,主要研究方向為工業自動化及智能制造;卓亮(1984—),男,四川綿陽人,工程師,碩士,主要研究方向為工業自動化;何林洋(1985—),男,四川綿陽人,工程師,本科,主要研究方向為工業自動化及儀器儀表;謝正全(1977—),男,吉林德惠人,工程師,碩士,主要研究方向為軟件工程;張暉(1972—),男,安徽宿松人,教授, 博士,主要研究方向為大數據技術。