張雪嫣,黎曉東,孫潔香
(北京機械工業自動化研究所有限公司 生產力中心,北京 100120)
當前煙草行業和公司為順應時代的大潮和國家發展的需要正積極推進智能化建設,行業內對智能工藝的研究目前處于萌芽階段。目前,煙草行業已基本實現卷煙生產過程與物流配送的自動化,以及管理決策的信息化,擁有了一定的智能制造應用基礎。但是,卷煙生產過程中的工藝控制方面,如烘絲段冷卻水分控制仍需要大量的人工干預工作,但這種控制流程存在的干預滯后、質量不穩定等問題,需要利用新的技術進行工藝質量控制提升途徑的探索。
目前,大量相關研究聚焦于針對滾筒烘絲機自身系統結構的優化[1~3],而忽略了控制過程中的干預滯后問題。針對這一問題,通過對煙絲冷卻水分的實時預測以及智能決策,解決數據的時效性問題。因此,首先需要通過數據相關性分析對烘絲段設備參數與冷卻水分之間的關聯度進行分析排序,從而篩選出其中與冷卻水分相關性較大的設備參數。用于對各領域中的各種數據之間的關聯進行挖掘的算法主要有Apriori算法、CART算法、隨機森林算法等[4]。相較于Apriori算法和CART算法,隨機森林算法具有噪聲和異常值的較高容忍度,并且在處理高維度數據方面具有較強優勢,可對非線性、具有共線性和交互作用的數據進行有效分析,并同時給出變量重要性評分等特點[5],因此本課題選用隨機森林算法進行冷卻水分與烘絲段設備參數的相關性分析。
在制絲生產中煙絲冷卻水分的穩定性是評價制絲質量的關鍵指標,煙絲冷卻水分是指冷卻風選后的冷卻水分檢測值,是前序工藝流程綜合影響的結果。對冷卻水分工藝質量的評價的指標是均值、標準偏差和置信度。目前對冷卻水分的控制是擋車工憑借人工經驗通過制絲集控系統修正烘絲機的筒壁溫度設定值配合烘絲機的PID控制,使最終煙絲的冷卻水分滿足工藝標準要求。在批次生產開始階段,擋車工對筒壁溫度的干預比較頻繁,此時主要參考當前的來料水分、上一批次的筒壁溫度均值及設定值、冷卻水分目標值等參數,烘絲機的溫度控制主要是前饋控制起作用。在生產的穩定階段人工干預比較少,此階段風選后水分儀可正常檢測煙絲,可形成煙絲水分的反饋控制,因此過程階段主要是前饋控制和反饋控制的綜合作用。正常生產時烘絲機的筒壁溫度范圍為130℃~132℃,最小的調整刻度是0.1℃,冷卻水分的工藝標準因牌號不同略有差異,一般是12.1% 左右。
當前控制流程下存在的主要問題:
1)對筒壁溫度的干預滯后性大。擋車工對筒壁溫度的干預依據是長期工作經驗的積累,屬于針對異常情況的應對性控制,每次干預5min~6min之后的冷卻水分的檢測值才是人工干預值的響應結果。
2)質量控制不穩定。工作過程中人工經驗的積累具有差異性,對質量控制手段受多種因素干擾,無法保證質量控制的穩定性。
3)難以復制好的控制實例。人工的操作經驗難以量化,沒有統一的評價標準,每個批次的生產狀態都存在隨機差異性,工藝質量控制精準的批次的干預操作也難以復制。
4)質量提升空間小。在當前人工經驗控制的模式下,工藝質量的提升空間很小,需要利用新技術探尋新的控制模式,開拓質量提升的空間。
提升煙絲質量穩定性、實現工藝質量精準控制的前提,就是解決筒壁溫度干預滯后問題。為此需要實現對煙絲冷卻水分及筒壁溫度的實時預測,
斯皮爾曼相關性系數也稱為秩相關系數或等級相關系數,由Carl Spearman提出[6,7]。斯皮爾曼相關系數被定義成等級變量之間的皮爾遜相關系數。對于樣本容量為n的樣本,n個原始數據被轉換成等級數據,相關系數ρ為:

在實際應用中,忽略變量間的連結,可以將相關系數ρ的計算簡化為:

斯皮爾曼相關系數只需要滿足兩個變量的觀測值是成對的等級評定資料或是由連續變量觀測資料轉化得到的等級資料這一條件即可應用,相對于皮爾遜相關系數來說,對數據的要求條件相對寬松。也就是說,不論兩個變量的樣本容量的大小、總體分布形態如何,都可以使用斯皮爾曼相關系數來進行研究。
隨機森林算法應用集成學習的思想,是由一組決策樹組成的分類器,每個決策樹都是使用隨機向量構建 的[8]。隨機森林算法具有較高的容噪性,適用于處理高維度數據,可對非線性、具有共線性和交互作用的數據進行有效分析,并同時給出變量重要性評分。一般變量重要性評分的表述方式有兩種,通過Gini指數表述和通過OOB錯誤率進行表述。而針對于連續變量來說,基于Gini指數的變量重要性評分是無偏的,且當信噪比較低時,其準確性要高于基于OOB錯誤率的變量重要性評分。因此將通過Gini指數定義變量重要性評分VIM,具體如下所述[9]。
將Gini指數用GI來表示,假設有m個特征X1,X2,X3,…,Xm,則每個特征Xj的Gini指數評分,即第j個特征在隨機森林中所有決策樹中節點分裂不純度的平均改變量可以表示為:

其中,K表示有K個類別,pmk表示節點m中類別k所占的比例。
特征XiXj在節點m的重要性,即節點m分枝前后的Gini指數變化量可表示為:

其中,GIl和GIr分別表示分枝后兩個新節點的Gini指數。
假設特征Xj在決策樹i中出現的節點在集合M中,那么Xj在第i顆樹的重要性為:

假設隨機森林中共有n顆樹,那么:

最后,歸一化處理可得變量重要性評分表示如下:

本文采用國內某卷煙廠制絲生產線MES導出過程數據進行分析。數據已經進行了料頭和料尾處理,并通過擬合參數與冷卻水分的關系找到對冷卻水分比較重要的參數,已知筒壁溫度最重要,通過調節筒壁溫度來控制冷卻水分在合理的范圍內。經過統計一共收集了106個批次,共68323條數據,覆蓋KLD烘絲段用蒸汽流量、SIROX烘絲分汽缸壓力、冷卻除塵風機負壓值、熱風蒸汽閥門開度等60個設備參數。不同牌號的冷卻水分要求是相同的,因此分析不分牌號進行。
首先對數據中的部分無效數據進行處理,隨后對數據進行固定值篩選。由于烘絲段冷卻水分隨著各設備參數的變化而不斷改變,因此可以認為參數值恒定的設備參數,包括KLD熱風風機頻率、排潮風機電機頻率、氣鎖電機頻率恒定、SIROX除塵房排潮風機頻率與冷卻除塵風機運行頻率,與冷卻水分無關,在此后的分析中將不做考慮。
對刪篩后的55個參數應用斯皮爾曼相關系數對數據相關性進行分析。首先,分別計算各參數與冷卻水分的相關系數,與冷卻水分相關性較高的參數有SIROX閥前蒸汽溫度(新增)、SIROX閥前蒸汽壓力(新增)、KLD除水量(1/h)、KLD烘后水分、KLD一次減壓后蒸汽壓力、KLD排潮溫度、SIROX蒸汽溫度、SIROX后溫度、KLD烘絲段用蒸汽流量、SIROX閥后蒸汽壓力、SIROX蒸汽流量以及SIROX蒸汽閥門開度。
隨后,進一步對兩兩參數間的斯皮爾曼相關系數進行計算,圖1所示為線性相關系數最高的前15個特征的關系矩陣。分析可得,SIROX蒸汽體積累計量(m3)與SIROX蒸汽質量累計量(kg)、SIROX蒸汽體積流量與SIROX蒸汽流量、1區筒壁溫度與2區工作蒸汽壓力、葉絲累計量與SIROX蒸汽質量累計量(kg)、1區工作蒸汽壓力與1區筒壁溫度等兩兩參數間存在較強的線性相 關性。

圖1 關系矩陣(前15個參數)
首先,設定生成樹數量為300棵,改變特征參數數量,分別對53、43、33個特征參數進行分析,得到如圖2所示結果。對比3次相關性分析結果,可知以下11個特征:KLD排潮溫度、KLD烘后溫度、SIROX蒸汽體積累計量、冷卻溫度、葉絲累計量、SIROX蒸汽質量累計量、SIROX閥后蒸汽壓力、SIROX蒸汽流量、SIROX蒸汽體積流量、KLD烘后水分、SIROX蒸汽閥門開度,對冷卻水分的綜合評價最高,且沒有隨著特征的篩選出現重要性減弱的跡象,雖然前11個特征的重要性排序稍有變化,但是總體趨勢沒有變化。其中尤其是KLD排潮溫度影響最大。
隨后,保持特征參數數量為53不變,改變生成樹數量,分別設定生成樹數量為500、600、700、1000來進行相關性分析,對比結果如圖3所示。生成樹數量從500棵增加到1000棵的過程中,前11特征參數沒有變化,只是得分排名順序稍有不同。其中KLD排潮溫度的重要性得分仍然最高。而且從500~1000的結果來看,數據并沒有明顯的變化,初步可以得出,生成500棵決策樹基本可以滿足相關性分析需要。

圖2 特征值數量改變分析結果對比

圖3 決策樹數量改變分析結果對比
為進一步提高分析效率與準確率,對具有強線性相關的特征參數進行篩選,刪除的特征參數包括:SIROX蒸汽質量累計量、SIROX蒸汽流量、1區筒壁溫度、2區筒壁溫度、1區回水溫度、KLD2區蒸汽薄膜閥開度、KLD烘前水分、SIROX閥后蒸汽壓力、SIROX閥前蒸汽溫度、SIROX烘后溫度及KLD除水量等11個特征參數。篩除特征后,通過運行500棵決策樹對余下特征參數進行相關性分析,得到結果如表1所示。

表1 與冷卻水分相關性較高的特征參數

表1(續)
其中,KLD排潮溫度仍然具有很高的重要性度量,而與筒壁溫度相關的工作蒸汽壓力也在第一梯度中。此外,KLD烘后溫度、SIROX蒸汽體積累計量、SIROX蒸汽體積流量、葉絲累計量以及冷卻溫度也與冷卻水分具有較高的相關性。
本研究以煙草烘絲設備參數為研究對象,應用斯皮爾曼相關系數及隨機森林等方法對其與烘絲段煙絲冷卻水分之間的相關性進行分析,從而為實現煙絲冷卻水分及筒壁溫度的實時預測網絡提供有效參數,為解決筒壁溫度干預滯后問題奠定基礎。