



摘 要 煙葉化學成分影響因子眾多,尤以生長環境、品種和等級影響較大。通過收集楚雄卷煙廠2020—2022年入庫煙葉煙堿、總糖、總氮、氯共4項化學質量數據,并選取對應的煙葉品種、等級和地理、生態等生長環境影響因子作為數據源,利用隨機森林算法,對煙葉中的煙堿、總糖、總氮、氯4項化學成分建立預測模型,并在數據源中隨機抽取9 550個樣品對模型進行訓練和調優。通過建模分析和模型驗證,煙葉中煙堿、總糖、總氮成分的預測精準度都在83%以上。煙堿預測模型真實值與預測值之間相關性最強,擬合度最高,其精準度也較高,模型的預測效果最好;總糖預測模型雖然精準度較高,但其真實值與預測值的擬合度較低;氯的預測精準度為36.09%,為4項化學指標中精度最低者。預測結果對楚雄煙葉種植基地的化學品質的評估具有參考意義,可指導楚雄卷煙廠生產基地規劃、優質特色品種煙葉適種區域的界定。
關鍵詞 煙葉; 隨機森林算法; 預測模型; 化學質量
中圖分類號:S571 文獻標志碼:A DOI:10.19415/j.cnki.1673-890x.2024.01.001
煙葉的化學質量是評價其工業可用性的核心要素,也是卷煙工業中從農戶種植到配方投料都必須嚴格把控的關鍵,對不同的種植環境和不同品種的煙葉進行化學質量評價是了解煙草品質和發展新品種的先決條件。原料生產過程中的質量指標直接影響最終的工業可用性[1]。
周金仙在研究中表明,不同的生態環境對同一品種煙葉的化學成分質量有很大的影響,對于不同的生長環境,其化學成分存在明顯差異[2]。煙葉種植經驗和前期研究成果也證明,煙草喜溫熱環境,一般需要在年平均溫度為16~22 ℃的條件下生長,如果氣候過冷或過熱,煙葉的生長均會受到影響,從而影響其質量;煙草需要富含有機質和養分的土壤,這有利于煙葉生長和煙葉中化學成分的積累,不同土壤類型和土壤質量會影響煙葉的質量;適宜的降雨量對于煙草的生長和發育非常重要,降水量太少或太多都不利于煙葉的生長,會影響煙葉的質量;煙草在高海拔地區生長時,光照會更加充足,但氣溫更低,這也會影響煙葉的質量。王蘅等[3]在不同品種烤后煙葉質量評價研究中也得出其化學成分差異較大。因此,煙葉的化學成分對生長環境、煙葉品種、等級等都存在較大的依賴性。通過各影響因子對煙葉化學成分指標進行預測,在生產中具有較大的指導意義。
研究引入大數據和計算機深度學習的思想,以隨機森林算法(Random Forest)作為核心技術,旨在利用當前計算機新技術和數據處理框架,通過煙葉生長環境因子和煙葉品種等指標,實現對包含煙堿、總糖、總氮、氯在內的煙葉化學成分的模型預測。
根據《紅塔集團楚雄基地煙葉特色化研究及工業可用性潛力挖掘》的研究成果描述,楚雄州地處低緯高原,屬溫帶、亞熱帶季風氣候區,烤煙種植主要集中在海拔1 500~2 100 m的中亞熱帶至南溫帶之間,優質煙區大多分布在海拔1 600~1 900 m的北亞熱帶,基于楚雄地形復雜,地理環境特殊,海拔差異大,具有光照充足、光質良好、光能潛力很大,氣候溫和、四季春秋、溫度有效性高,雨量偏少、干濕分明、降水利用率低,類型復雜、溫熱兼備、烤煙氣候立體等特點,引入該區域海拔、年平均氣溫、5—9月平均氣溫、7月平均氣溫、≥10 ℃積溫、5—9月≥10 ℃積溫、年降雨量、5—9月降雨量、7月平均降雨量等地理和氣象因子作為影響煙葉化學成分的關鍵指標。
本研究所用的隨機森林算法是信息技術中一種基于決策樹的機器學習分類器算法,隸屬于Spark機器學習庫MLLib,具有預測精準度高、抗干擾能力強、模型訓練速度快等優勢。盧沛臨等應用隨機森林算法,實現了煙葉復烤打葉工藝參數優化[4];鄂旭等利用隨機森林算法,實現了水產品冷鏈物流鮮度預測模型[5]。以上研究都證明,隨機森林算法在處理多影響因子對指標的預測時可靠性較高。
1" 材料與方法
1.1" 試驗材料
以IntelliJ IDEA 2022.2作為程序開發環境,通過引入Spark機器學習庫MLLib,搭建隨機森林模型算法平臺,并以此為軟件平臺開展模型搭建和試驗。研究所采用的數據源為紅塔集團楚雄卷煙廠提供的2020—2022年煙葉等級、品種與對應的化學質量數據和楚雄州各鄉鎮地理與生態環境數據。
1.2" 試驗方法
1.2.1" 指標測定
以楚雄卷煙廠2020—2022年入庫煙葉的煙堿、總糖、總氮、氯含量數據和楚雄州各鄉鎮的種植環境數據作為模型建立樣本數據,樣本煙葉品種包括K326、NC297、Y87,等級包含所有上等煙、中等煙和下等煙,共9 650個。樣品的化學成分通過近紅外光譜檢測設備檢測得到。種植環境因子數據包括海拔、年平均氣溫等9個指標,煙葉屬性包括品種和等級(見表1)。
1.2.2" 分析方法
隨機森林算法(Random Forest),簡稱RF,是利用多決策樹對樣本進行訓練并預測的一種集成學習分類算法,要實現每一個樣本的預測,就需要將樣本輸入到每一棵決策樹中進行分類,最終獲得分類結果。隨機森林算法具有較高的準確性,可用于回歸、分類和聚類問題的求解[6]。此外,由于其具有易于實現和快速訓練的特點,可在大規模數據處理和實時決策等方面廣泛應用。
1.2.2.1 算法流程
抽取訓練數據集:從原始數據集中隨機抽取一定量的樣本作為訓練樣本,這些樣本將被用于生成決策樹。本次試驗從9 650個樣品中隨機抽取9 550個樣品作為訓練樣本數據集,并將剩余的100個樣品作為測試數據(袋外數據)。
特征選擇:對于每個決策樹節點,在該節點需要測試一個特征時,僅從所有特征的子集中選取最佳的特征。本次試驗中,所有測試的特征包括指標測定中所有煙葉化學質量的影響因子。
決策樹生成:根據特征選擇方式生成多個決策樹,并通過調整樹的最大深度、樹的個數等方式優化決策樹的性能。本次試驗中,模型決策樹的最大深度默認值為5,樹的個數默認值為20。
決策樹集成:將所有生成的決策樹通過權值加權等方式組合起來,得出最終分類結果。通過決策樹的集成,最終生成分類預測模型,從而預測煙葉中總糖、煙堿、總氮、氯的含量。
1.2.2.2 模型訓練
我們在算法部署環境搭建完成的基礎上,利用種植環境數據和與其對應的化學質量數據作為訓練數據集。設置算法參數,將煙葉品種等級、生長地理環境因子、生態因子作為模型訓練的輸入指標,并分別將化學成分中的總糖、煙堿、總氮、氯作為模型預測標簽列,通過調用程序內置接口完成模型訓練。
1.2.2.3 模型部署和調用
將開發完成的評價模型訓練程序部署成AI應用,完成后通過API接口的形式訪問和調用。在實際的驗證和應用中,將9項生長環境影響因子作為參數,并調用該API接口,參數以Json的數據格式與模型進行交互,等待模型完成計算后即可返回預測結果。調用模型的Json數據格式示例如下:
{\"data\": {
\"req_data\":
[{
\"海拔\":1 780,\" 年平均氣溫\":15.5,\" 5—9月平均氣溫\":19.7,\" 7月平均氣溫\":20.9,\" ≥10 ℃積溫\":4 884.6,\" 5—9月≥10 ℃積溫\":3 014.1,\" 年降雨量\":825,\" 5—9月降雨量\":667,\" 品種\":\"Y87\",\"等級\":\"C3F\"}]
}}
1.2.2.4 模型評價與優化
在預測和回歸過程中,利用均方根誤差(以RMSE表示)和精準度(A)作為模型評價指標[7],從質量數據表中另外抽取100個不包含于訓練數據集中的樣品作為模型測試樣品,通過對模型的調用,得到每個樣品化學成分的預測值,并結合其實際值計算得出RMSE。相對均方根誤差是用來衡量觀測值和真實檢測值之間的相對偏差,值越小,證明模型預測越精準。
式(1)、式(2)中,n為樣本數量,[yi]為樣品化學指標真實值,[yi_p]為樣品化學指標預測值。
模型的優化主要通過調整模型超參,并依據調整后模型的均方根誤差和判定系數進行評估,以此驗證整個模型的精準度,最后找到精準度最高的超參值。我們通過對模型超參的不斷調整,最終找出均方根誤差最小的超參。模型主要需要優化的超參包括決策樹的最大深度和樹的個數。模型優化過程通過對每一個超參制定試驗數據集,并通過組合后循環生成模型的方式進行[8]。通過進一步的模型優化,最終的預測模型評價結果如表2。
根據模型評價結果可知,應用隨機森林預測模型對煙堿、總糖和總氮的預測精準度分別達到83.75%、85.37%和86.44%,預測效果較好,但氯的預測精準度較低。
2" 結果與分析
通過測試數據,對最終優化后的預測模型進行驗證,結果如圖1~圖4。圖中的點距離直線y=x越近,證明其預測越精準。通過線性回歸和數據相關性分析,煙堿預測模型的真實值和預測值之間相關系數為0.68,總糖為0.13,總氮為0.49,氯為0.47。由此可知,煙堿預測模型真實值與預測值之間相關性最強,擬合度最高,而其精準度也較高,模型的預測效果最好。總糖預測模型雖然精準度較高,但其真實值與預測值的擬合度較低,這可能與總糖含量本身的變異系數較小有關,模型的總體效果不佳。測試樣本真實值與模型預測值的對比情況如圖5~圖8。
3" 討論與結論
3.1nbsp; 討論
在大數據、人工智能等新技術發展迅速的今天,人們的生產和生活方式發生了巨大的變革,也讓我們有了新的思路去解決生產中的各類問題。在當前,新型技術的應用已經不再是專業技術人員才能接觸的領域,現有的各類人工智能和大數據框架越來越簡單適用,加之不斷發展和成熟的開源技術環境,新型技術的學習和應用成本也在不斷降低。
煙草作為我國主要的經濟產業,對質量的控制一直是原料生產的核心,特別是加工企業對煙葉均質化加工要求越來越高的今天,原料的質量對卷煙加工配方決策有著關鍵性的作用,而煙葉質量的各項指標又影響著煙葉的總體協調性。對煙葉質量進行科學的預測和評價,有助于進一步指導煙區規劃,從而更加精細化地支撐卷煙生產配方質量,提升煙葉的均質化生產水平。
本次試驗將當前大數據與人工智能新型技術用于煙葉的質量綜合評價中,通過模型的建立和驗證,證明了在煙葉質量評價應用場景中,所用技術具有較高的適用性,為煙葉的質量預測探索了新的思路。
3.2" 結論
通過隨機森林模型對煙葉化學指標預測的模型建立,對測試樣本導入模型并完成4項指標的預測。通過模型評價和優化,確定了模型決策樹的超參數。對輸出的模型進行線性回歸分析,煙堿、總糖、總氮的預測結果精準度都在83%以上;總糖預測雖精準度較高,但其預測值和真實值的相關系數較低,整體預測擬合度較低,有待進一步研究原因并制定優化方案;而氯含量的預測精準度較低,可能與訓練樣本氯的變異系數過大有關。對不同基地和品種煙草的化學質量進行評價可以為煙草生產和加工提供有價值的信息,有助于指導優質特色煙葉基地的規劃建設,進一步提升煙草品質。
參考文獻:
[1] 蔣佳磊, 陸揚, 蘇燕, 等. 我國主要煙葉產區烤煙化學成分特征與可用性評價 [J]. 中國煙草學報, 2017, 23(2): 13-27.
[2] 周金仙. 不同生態條件下煙草品種產量與品質的變化 [J]. 煙草科技, 2005, 38(9): 32-35.
[3] 王蘅, 王小生, 陳斌, 等. 不同品種烤煙烤后煙葉質量評價 [J]. 安徽農業科學, 2017, 45(15): 34-36.
[4] 盧沛臨, 田青, 李瑞東, 等. 基于隨機森林算法的打葉工藝參數優化 [J]. 安徽農業科學, 2022, 50(20): 162-165.
[5] 鄂旭, 李俏竺, 周藝, 等. 基于隨機森林的水產品冷鏈物流鮮度預測模型 [J]. 渤海大學學報(自然科學版), 2022, 43(2): 166-171.
[6] 李紅春. 基于隨機森林算法的人口空間化研究 [J]. 佳木斯大學學報(自然科學版), 2023, 41(1): 171-174.
[7] 蘇志同, 汪武珺. 基于隨機森林的煅燒工藝參數的研究和分析 [J]. 軟件, 2018, 39(4): 148-150.
[8] 陳思羽, 徐愛迪, 劉春山, 等. 基于隨機森林的玉米儲藏試驗及溫度預測 [J]. 農機化研究, 2023, 45(4): 207-210.
(責任編輯:易" 婧)
收稿日期:2023-08-05
基金項目:紅塔煙草(集團)有限責任公司楚雄卷煙廠科技項目“楚雄原料基地煙葉品質提升的技術研究和應用”。
作者簡介:顧云海(1982—),碩士,主要從事信息化管理、信息化應用研究。E-mail:guckcn@163.com。
*為通信作者,E-mail:duiwang17@163.com。