摘要:對于卷煙工業(yè)企業(yè)而言,原料的選取非常關鍵。由于煙葉為農產品,穩(wěn)定性不足,為了解決在判斷煙葉等級的過程中主觀因素影響大、穩(wěn)定性不高的問題,《模型集群分析—隨機森林方法在煙葉分類中的應用》[1]一文提出思路,結合近紅外光譜數(shù)據(jù)與機器學習方法,探索如何對近紅外光譜數(shù)據(jù)進行預處理,以最有效的提高機器學習方法提高對煙葉進行分類的準確性。本文結合較為常用的機器學習算法以及近紅外光譜數(shù)據(jù),探討數(shù)據(jù)預處理方法對于使用機器學習分類方法開展煙葉分類工作的影響,探討使用何種數(shù)據(jù)預處理方法對近紅外光譜的煙葉數(shù)據(jù)能夠產生最有效的結果,方便企業(yè)在后續(xù)使用這些數(shù)據(jù)進行煙葉分類、煙葉選擇時,提升工作效率,最終企業(yè)能夠提升基于自身特色的煙葉選擇能力。
關鍵詞:近紅外光譜;煙葉分類;數(shù)據(jù)預處理;機器學習
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.16723198.2025.16.073
0 引言
對于卷煙工業(yè)企業(yè)而言,原料是核心資源,煙葉的質量在相當程度上是決定企業(yè)發(fā)展,影響卷煙品牌獲得成功的關鍵要素之一。原料選得好不好、原料用得對不對直接影響卷煙產品的質量好壞。按照行業(yè)對于卷煙品牌發(fā)展的思路,圍繞品牌配置資源將是煙草行業(yè)發(fā)展的主要方向。在此過程中,品牌配置的原料資源是關鍵之一。
1 研究背景與現(xiàn)狀
對于各工業(yè)企業(yè)而言,不斷追求獲得更多優(yōu)質原料、提高原料的普遍質量是所有煙草人的共同追求,但是從客觀上講,優(yōu)質原料的數(shù)量有限,因此,對于原料的判斷和確定顯得非常重要。對于各個工業(yè)企業(yè)而言,為了適配不同品牌的原料需求,需要有其自己獨特的原料選擇和判斷方法,以提高原料選擇的精準度。因此,選料方法成為各個工業(yè)企業(yè)在形成自身特色產品時所考慮的重要因素。對原料進行分類和確定的效率,在各個品牌發(fā)展過程中,將發(fā)揮越來越重要的作用。
多年來,近紅外光譜分析技術在煙草行業(yè)被廣泛應用在煙葉的主要化學成分、在線控制、葉組配方等分析中,由于其快速、無損的特點,可以有效地提高測定煙葉化學成分的速度,減少人力投入,提高生產力[29]。目前,在煙草行業(yè)中,煙葉等級劃分是評判煙葉質量的主要手段,而分級判斷主要根據(jù)煙葉的外觀特征[10]。目前,我國在煙草行業(yè)內部,對于怎么劃分和確定煙葉等級,是根據(jù)我國的煙葉等級的品質規(guī)定來劃分的,主要是依賴于人工分級,而對標準的確定則更多是依賴于人的感官判斷,通過對照標準規(guī)定來對煙葉劃分等級。這種方式在相當程度上依靠人的主觀判定,存在一定程度的不穩(wěn)定性,效率較低。同時,由于人的感官標準程度不一,受客觀因素影響存在波動,可復制性也有所欠缺。為此,《模型集群分析-隨機森林方法在煙葉分類中的應用》已經開始探討利用機器學習方法結合近紅外光譜的技術對煙葉等級進行建模,通過模型集群分析-隨機森林(MPA-RF)方法,取得了較好的分類結果。在這個結果上,本項目進行了數(shù)據(jù)和方法上的創(chuàng)新性研究,通過研究對近紅外光譜數(shù)據(jù)的處理,使得運用近紅外光譜進行煙葉等級分類的工作可以更加順暢。在經過預處理程序后,對這些煙葉近紅外光譜數(shù)據(jù)使用多種機器學習方法進行分類的準確性有了明顯提升。這有利于企業(yè)開展基于自身特色的煙葉選擇工作,可以為工業(yè)企業(yè)構建自己的獨特性提供幫助與支持,提高機器學習方法對于煙葉分類工作的準確度。
2 試驗材料和方法
2.1 項目步驟
首先,通過近紅外光譜儀進行煙葉原料進行光譜數(shù)據(jù)采集。然后整理各等級煙葉樣本的數(shù)據(jù),通過對數(shù)據(jù)進行預處理,整理出幾套經過預處理的數(shù)據(jù)集。再對各套數(shù)據(jù)集進行訓練集和驗證集的劃分,運用SVM、決策樹以及隨機森林這3種較為常見的機器學習方法,對數(shù)據(jù)集進行訓練和驗證。最后通過比對訓練以及驗證的結果,分析各種數(shù)據(jù)預處理的效果,探索對近紅外光譜數(shù)據(jù)最有效的數(shù)據(jù)預處理及機器學習方法。
2.2 數(shù)據(jù)集
選取國內梅州五華地區(qū)煙葉的6種不同等級的初烤煙樣本(B1F,B2F,B3F,C2F,C3F,X2F,由廣東中煙工業(yè)有限責任公司提供),每片煙葉均勻取樣,對于每個取出來的煙都要進行近紅外光譜掃描,每個點掃描1條光譜。對總共528個樣本進行劃分,其中422個為訓練集,106個為測試集。
2.3 機器學習方法
2.3.1 支持向量機
支持向量機(Support Vector Machine,SVM)[11]是一種常用的分類工具,能夠結合統(tǒng)計學習優(yōu)化方法和核函數(shù)方法,通過最小化訓練誤差和測試錯誤,找到最優(yōu)的分類超平面。常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、sigmoid核函數(shù)和徑向基核函數(shù)(RBF核函數(shù))[12]。
2.3.2 決策樹
決策樹是一種預測模型,通過構建樹狀結構,將對象屬性與對象值之間建立映射關系,用于分類和回歸分析[13]。
2.3.3 隨機森林
隨機森林(Random Forest,RF)是一種集成學習算法,通過Bootstrap方法生成多個決策樹模型,并對模型進行投票,最終得出分類結果[1415]。
3 數(shù)據(jù)預處理
3.1 小波變換
小波變換(wavelet transform,WT)小波變換是一種信號時頻分析工具,能夠根據(jù)頻率動態(tài)調整分析窗口,適用于非平穩(wěn)信號的分析和局部特征提取。
3.2 歸一化及標準化
3.2.1 歸一化
是為了將數(shù)據(jù)映射到0~1之間,去掉量綱的過程,讓計算更加合理,不會因為量綱問題導致1米與100mm產生不同。
3.2.2 標準化
所取用的數(shù)據(jù)在經過了標準化后能夠使得每個特征的平均值都為0,標準差變?yōu)?,可以被廣泛的使用在許多機器學習算法中(例如:支持向量機、邏輯回歸和類神經網絡)。
從圖中可以看出,歸一化和標準化后大幅度弱化了差異性較小的光譜波段所展現(xiàn)出的差異性。
3.3 二階差分
當間距相等時,用下一個數(shù)值,減去上一個數(shù)值,就叫“一階差分”,做兩次相同的動作,即再在一階差分的基礎上用后一個數(shù)值再減上一個數(shù)值一次,就叫“二階差分”。
當自變量從x變到x+1時,函數(shù)y=y(x)一階差分的差分稱為二階差分。
Δ(Δy(x))=Δ(y(x+1)-y(x))=Δy(x+1)-Δy(x)
=(y(x+2)-y(x+1))-(y(x+1)-y(x))
=y(x+2)-2y(x+1)+y(x)
從圖示可以看出,通過二階差分,讓數(shù)據(jù)序列更平滑,同時可以消除數(shù)據(jù)中存在的噪聲,讓數(shù)據(jù)呈現(xiàn)極為規(guī)律的對稱形狀。
4 模型訓練
使用SVM、決策樹以及隨機森林的方式分別對經過預處理(4種方法)的數(shù)據(jù)進行模型的訓練,看最終訓練結果并對結果進行分析判斷。由于小波變換是我們日常工作中對軟紅外光譜進行預處理的一般方法,因此可以把其視為原始數(shù)據(jù)。
4.1 SVM
使用SVM對小波變換、標準化、歸一化以及二階差分的數(shù)據(jù)進行分析,得出的結果分別是57.55%、54.37%、53.40%以及99.03%。明顯看出使用了二階差分的預處理對煙葉數(shù)據(jù)分類成效明顯,準確性有了顯著提升。
由于SVM是較為常用的分類工具,因此可以作為其他分類的對照組進行對比,以下的決策樹和隨機森林均會與SVM進行比對。
4.2 決策樹
使用決策樹對小波變換、標準化、歸一化以及二階差分的數(shù)據(jù)進行分析,得出的結果分別是46.23%、97.09%、52.43%以及99.03%。對于決策樹而言,標準化和二階差分的數(shù)據(jù)預處理均有不錯的表現(xiàn)。
4.3 隨機森林
使用隨機森林對小波變換、標準化、歸一化以及二階差分的數(shù)據(jù)進行分析,得出的結果分別是53.77%、61.17%、56.31%以及98.06%。對于隨機森林而言,二階差分的數(shù)據(jù)預處理有不錯的表現(xiàn)。
4.4 分析比對
從上表可以看出,二階差分的數(shù)據(jù)預處理方法在SVM、決策樹以及隨機森林三種機器學習方法中均取得了比較好的結果,以決策樹為例分析經過了二階差分優(yōu)化后的數(shù)據(jù)集,在使用機器學習模型訓練后的測試集精準度、召回率、準確率都有了大幅度提升。
5 結束語
對于卷煙工業(yè)企業(yè)而言,原料是非常重要的一種資源,因此,原料的評判能力非常關鍵。準確、高效地進行原料等級的判斷,是很多卷煙工業(yè)企業(yè)未來或者是現(xiàn)在能夠進行高質量發(fā)展的重要能力之一。能夠快速、準確地識別出符合企業(yè)特色的煙葉原料是企業(yè)能夠構建自身競爭力的重要基礎工作。本次工作通過對目前常用的近紅外光譜外數(shù)據(jù)使用二階差分的數(shù)據(jù)預處理方法,使得不同的機器學習方法均實現(xiàn)了對梅州五華產區(qū)6種等級煙葉高達99%左右的分類準確率。可以為下階段對全國產區(qū)、全等級煙葉進行全面高效分類工作起到一定的參考,并為企業(yè)運用人工智能技術在實際生產經營中提供一定的實踐經驗。
主要參考文獻
[1]譚觀萍,賓俊,范偉,等.模型集群分析——隨機森林方法在煙葉分類中的應用[J].江西農業(yè)學報,2017,29(1):6974.
[2]Shao Y N,He Y,Wang Y Y.A new approach to discriminatevarieties of tobacco using vis /near infrared spectra [J].European Food Research and Technology,2007,224(5):591596.
[3]Le J M,Chen Y,Ding Y.Nearinfrared spectroscopic prediction of composition of a series of petrochenical process streams for aromatics production[J].Guizhou Agric Sci,2005,33(3):6263.
[4]Huang Z,Turner B J,Dury S J.Estimating foliage nitrogen concentration from HYMAP data using continum removal analysis[J].Remote Sens Environ,2004,93(1):1829.
[5]蔣錦峰,李莉,趙明月.應用近紅外檢測技術快速測定煙葉主要化學成分[J].中國煙草學報,2006,12(2):812.
[6]張雅娟,馬翔.近紅外漫反射線性加和光譜在煙葉復烤配方中的應用[J].光譜學與光譜分析,2011,31(2):390393.
[7]邵平,王鈞,王星麗,等.近紅外漫反射光譜技術快速無損識別靈芝和云芝提取物研究[J].核農學報,2015,(3):499505.
[8]孫通,吳宜青,許朋,等.近紅外光譜聯(lián)合CARSPLSLDA的山茶油檢測[J].核農學報,2015,(5):925931.
[9]李勇,魏益民,王鋒.影響近紅外光譜分析結果準確性的因素[J].核農學報,2005,(3):236240.
[10]李紅梅.基于線性回歸和SVM 的煙葉質量分析及等級預測模型[D].昆明:昆明理工大學,2013:89.
[11]Liang Y.The expand and application research of SVM classifier[J].Hunan University,2008,(9):1728.
[12]Zheng H.The support vector machine method investigate[J].Northwestern University,2010,(6):1016.
[13]曹賽玉.幾種決策概率模型在現(xiàn)實生活中的應用.理論月刊,2006,(5):9193.
[14]Breiman LRandom forests [J].Machine Learning,2001,45(1):532.
[15]Zhang G Y,Zhang C X,Zhang J S.Outofbag estimation of the optimal hyperparameter in subbag ensemble method[J].Communications in StatisticsSimulation and Computation,2010,39(10):18771892.