虞文進,蔣一翔,劉瑞東,錢 杰,王文娟
(浙江中煙工業有限責任公司,浙江 杭州 315504)
在制絲烘絲每個階段,對于煙絲溫度以及水分都有信號檢測,每隔10 s收集一次數據。擋車工主要通過調節筒壁溫度設定值(set point,SP),使得煙絲的烘后含水量達到質量工藝要求。人工調節的過程包括三個階段:料頭預熱階段、送料開始階段以及送料穩定過程的反饋控制調節。
烘絲過程中,影響烘前煙絲含水率的因素有很多,如來料時的水分、前期加水量、煙絲流量等。現有的儀器測量采集數據離散、時延較高,而比例積分微分(proportional integral differential,PID)控制溫度控制環節存在筒壁溫度升溫不及時。這使得烘絲筒筒壁預熱溫度的調節控制具有非線性和不確定性,且人工調節時在料頭預熱階段容易出現干頭或者過潮現象。為了使得料頭處理階段達到穩定水平,本文基于生產中積累的人工調節筒壁溫度的大量優秀先驗數據,對烘絲過程進行建模及仿真模擬。引入仿真模擬得到的預測數據作為決策參考,通過強化學習對設定的預熱溫度進行評價和優化調節,在烘絲工藝流水線進行現場試驗并得出了穩定優異的效果。通過仿真分析,驗證了算法的可行性。
制絲烘絲過程中,水分控制精準度的研究一直是煙草工業中的重要課題。比較常用的方法有PID控制、模糊控制、大數據分析等策略。在早期的煙草水分控制研究中,提出了一種基于模糊模型的自校正預測控制算法[1]。將烘絲流程分為送料前準備、送料開始和送料穩定這三個階段進行控制。通過對這三個階段的不同控制,實現了煙絲出口水分的穩定輸出。在工業控制中應用廣泛的是PID控制[2]。基于PID控制的改進調節[3]對烘絲筒溫度調節也有顯著的應用效果。
近期,隨著大數據技術的發展,基于已有大量制絲生產數據與控制參數數據進行分析,由大數據系統自動產生烘絲出口水分預測模型。同時,對烘絲出口水分預測模型進行動態持續優化,形成了烘絲機出口水分控制的預測模型[4]。
本文基于機器學習分析,發現獎勵反饋機制的強化學習能準確、有效地預測烘絲送料前預熱階段的溫度。
強化學習在人工智能、機器學習和自動控制領域得到廣泛的研究和應用,取得了飛速的發展。特別是在強化學習的數學基礎研究取得較大突破之后,強化學習的研究已成為當前人工智能的熱點之一。它比較適應智能體在未知的環境,通過“試錯”這一動作,獲得反饋,不斷自我調整、自我學習、自我提高,像人一樣具備了學習能力,可以積極、主動地完成目標。因此,思考和討論強化學習在人工智能中非常具有價值。強化學習又稱為“再勵學習”或者“評價學習”。
強化學習方法,出自Minsky在1954 年提出的智能體相關理論。而在20世紀八九十年代,一些研究者和工程師提出了經典的瞬時差分算法和著名的Q-leaning 學習方法。馬爾科夫決策模型為強化學習方法提供了基本的框架。強化學習算法已經成為了人們在人工智能領域體現其方法和思想的代表方法,并在很多領域得到應用,取得可喜的效果,是研究機器學習和人工智能的一個重要課題。在控制系統[5]、智能比賽和游戲[6]、單體 agent 控制領域、多agent合作探究和調度管理系統等領域,強化學習都有很不錯的表現和應用前景,為眾多的研究者所看好。
本文基于不同批次煙絲調節各個參數與人工調節設定數據SP的對應關系,找出一定規律,使溫度精準快速調節到烘絲適應狀態。而基于烘絲工藝控制過程中不確定性與復雜性的特點,為了能靈活處理不同煙草不同情況的及時處理,本文采用了可以不斷試錯并自我改進的強化學習算法。預熱前期,強化學習利用大量數據不斷搜索,直至尋到當前狀態下的最佳解決方案。此外,還引用了長短時記憶(longe short-term memory,LSTM)卷積神經網絡逼近算法來改善調度搜索的策略和搜索的收斂性。通過深度強化學習(deep q-learing,DQN)方法和仿真模擬方法的有效結合,形成了調度的有機整體。
烘絲機運行過程中各種狀態分類,具體分為待機、預熱(壓力積累)、準備、啟動、生產、料尾、重啟動、冷卻八大狀態[7]。在對每一批煙草制絲烘絲的操作中,烘絲機從預熱階段開始,預測機器預熱溫度。當閥后蒸汽壓力超過預設上限、凝結水溫度超過上限并在達到預設壓力形成最小持續時間時進行預熱,在筒壁溫度到達預熱溫度時進入料頭準備階段,檢查到有煙信號并延時45 s后進入啟動狀態,延時590 s后開始生產階段。此階段為料頭控制階段。
算法控制階段在預熱準備啟動生產過程分為:烘絲筒溫度預測控制調節階段、送料開始料頭預測控制調節階段、送料過程穩定控制調節階段。
原本的人工控制策略如下。
①根據牌號和煙絲流量,確定冷卻水分和脫水量目標值,按人工經驗預估目標預熱溫度。
②設定預熱目標溫度。
③等待設備水溫和壓力滿足升溫條件。
④執行升溫。
⑤檢測是否到達預熱溫度:如是,執行進料;否則,循環檢測。
⑥檢測筒內是否有煙絲:如有,延時45 s;如無,循環檢測。
⑦設定筒壁溫度目標值,執行升溫。
⑧等待料頭階段結束。
⑨檢測出口處水分含量,與目標值比對后,根據經驗調整筒壁溫度目標設定值。
⑩等待料中階段結束。
通過人工智能(artificial intelligent,AI)模型學習人工調節策略并對調節過程進行優化。基于歷史數據建立煙絲質量預測模型,并根據預測結果與歷史數據智能調節溫度設定值,以達到提高產品質量一致性的目標。
烘絲機進入啟動階段時,整個控制系統只有入口煙絲水分和入口煙絲流量有信號傳遞,烘絲機出口處尚未有煙絲產出。此時沒有冷卻水分反饋信號,因此烘絲機在啟動階段的筒壁溫度完全由強化學習前饋預測算法控制。
煙絲溫度調控是一個實時控制問題:根據DQN[8]算法中環境、動作、獎勵反饋與動作決策;根據大量參數數據,建立一個模擬煙絲烘絲過程的數學模型;根據環境檢測獲取參數數據。定義了一個Q學習函數,表示在狀態s中采取動作a,能夠得到的最大獎勵R,從而建立與一個經驗池(experience replay)存儲獎勵方案。使用一個神經網絡產生當前Q值,使用另外一個神經網絡產生TargetQ值,并利用更新函數Q′不停地更新Q值。
其中:Q函數為:

Q(s,a)]
(1)
損失函數為:
L(θt)-E{[TargetQ-Q(s,a;θt)]2}
(2)
式中:θ為網絡參數。
TargetQ目標函數設定為:
(3)
目標函數可以通過隨機梯度下降方法進行優化:
Q(s′,a′;θt)]θt(s′,a′;θt)
(4)
States:在每一個時間節點,agent所處的環境的表示即為State。在煙草烘絲環節中,在模擬烘絲筒當前時間節點的筒壁溫度狀態。
Actiona:在每一個 state 中,agent 可以采取的動作即為Action,通過升溫或降溫對筒壁進行調節。
Rewardr:每到一個state,agent 就有可能會收到一個 reward 反饋。
PolicyP:如何選擇動作的策略。希望能夠學習到一個策略可以讓 agent 得到最大的累積反饋。
針對煙草烘絲過程中料頭環節沒有反饋環節的情況,利用同牌號同批次歷史數據對當前批次進行模擬。一批次的生產周期為2 h,從來料生產到料頭冷卻水分檢測花費了6 min,每10 s檢測一次數據,在料頭烘絲過程共產生36條數據。設定預熱溫度后,烘絲筒筒壁溫度緩慢連續上升。這使得料頭呈現一種曲線波動的非穩態的過程。
適用于烘絲預熱的DQN算法,其模型算法結構及智能控制過程描述如下。
(1)初始化MemoryD,它的容量為N。
①初始化Q網絡,隨機生成權重ω。
②初始化targetQ網絡,權重為ω-=ω。
③循環遍歷episode =1,2,…,M。
④初始化initial stateS1。
⑤循環遍歷step =1,2,…,T。
(2)用ε-greedy策略生成actiona:以ε概率選擇一個隨機的action,或選擇at=MaxQ(St,a;ω)。
①執行actiona,接收rewardrt及新的stateSt+1。
②將transition樣本(St,at,rt,St+1)存入D中。
(3)從D中隨機抽取一個minibatch的transitions (Sj,aj,rj,Sj+1)。
①令yj=rj, 如(j+1)步為terminal。
否則,令yj=rj+γmax ′Q(St+1,a′ ;ω-)。
②對[yj-Q(St,aj;ω)]2關于ω使用梯度下降法進行更新。
③每隔Csteps更新targetQ網絡,ω-=ω。
動作函數a從環境獎勵中所得到的反饋,通過“動作-環境-獎勵-策略-動作”進行反復學習,根據不同的煙草批次建立不同的學習模型,生成不同的決策方案。
環境E{s1,s2}包含兩個數據流s:s_1為{"strea"m:流數據};s_2為{batch:批數據}。s_1的對應net采用了局部連接的方法,分別用不同的卷積核對連續36條數據作局部卷積和全局卷積。s2的對應net采用全連接的方法。
首先,將之與環境連接之后輸出動作函數a,通過得到的反饋,進行策略性的分析和整理,得到一個預測溫度值。其次,通過這個溫度值影響模型的進一步動作,并通過冷卻水分的反饋,讓學習體選擇合適和可行的預熱溫度。最后,作出影響環境的動作,學習人工操作初始化溫度狀態s值,在t時刻給出相對應的烘后冷卻水分是否滿足工藝標準。根據t時刻的狀態反饋值,決定(t+1)時刻的動作輸出動作,并進行仿真預測。
上文基于DQN,建立了筒壁溫度與冷卻水分、冷卻水分均值和標偏的控制模型。本節將通過仿真試驗對比智能控制與人工控制效果,驗證算法性能。基于上述模型所得參數將替代人工,在烘絲工藝流程啟動情況下對烘絲筒筒壁預熱溫度進行在線調節。
仿真試驗環境基于加熱過程的數學模型。在模擬料頭部分在烘絲筒內加熱,任何一小段的煙絲除水量是以一種積分狀態累計的。建設煙絲烘干水分的數學模型為:

(5)
圖1是在不同牌號、不同批次、不同產線上的產線料頭智能控制與人工控制對比。

圖1 產線料頭智能控制與人工控制對比圖
基于式(6)建立加熱過程的控制仿真模型。模擬料頭烘絲過程,是對送料前6 min的模擬。由試驗結果得到的仿真模擬數據能有效降低干頭率,能更好地控制在標準含水量12的優質范圍內,并且波動被有效控制在2.4左右。模擬驗證智能算法可行性后,將算法集成到工廠中的MAS系統中進行了實踐操作。
如圖1所示,通過產線D與產線F的智能預測與人工預測對比可知,智能控制與人工控制中在料頭部分控制趨勢相似,但有所差異; 而在料頭溫度穩定階段,智能控制與人工控制相近率為99%。根據十次線上實時運行試驗,并通過冷卻水分含水率對比,統計出智能調節與人工調節優秀率對比為:智能調節比人工調節優秀率高40%,兩者相近比率為40%。這表明了智能控制在很大程度上可代替人工作業。
通過在4個牌號上進行10批煙絲生產測試的結果分析可知,智能控制模型能夠在D、F線烘絲段料頭預熱過程中通過對筒壁溫度的調整實現的實時控制,且系統運行穩定。智能控制模型對冷卻水分均值和標偏的控制可以基本達到擋車工平均水平。智能調節的優秀率高于人工調節,使烘絲機出口煙絲干頭率由0.30降低到0.15左右。經試驗驗證,智能控制模型可以初步替代人工控制,實現智能化控制。
本文針對制絲烘絲工藝過程的料頭部分進行智能預測。由于料頭的非穩態過程,采用深度強化學習,通過大量歷史數據的學習,智能算法推出預測烘絲溫度。通過仿真試驗,驗證結果的可行性,并在烘絲流程線上驗證了智能算法可模擬并優于人工調節,證明了在工藝機理缺失的情況下大數據模型能夠有效提供決策建議,驗證了人工智能在優化調節控制邏輯這一方向上的可行性。后續工作將繼續對料中過程進行探究,實現料中過程的智能化控制。