王康 李曉理 賈超 宋桂芝
基于自適應動態規劃的礦渣微粉生產過程跟蹤控制
王康1李曉理2賈超1宋桂芝3
礦渣微粉是一種新型綠色環保型建材,可以大大提高水泥混凝土的力學性能.本文以礦渣微粉生產過程為研究對象,針對該過程難以通過機理建模進行辨識和控制的特點,利用數據驅動的思想,建立礦渣微粉生產過程的遞歸神經網絡模型.在此基礎上,利用自適應動態規劃,設計具有控制約束的跟蹤控制器,并將其應用到礦渣微粉生產過程中.仿真分析表明,建立的數據驅動模型能夠有效地辨識礦渣微粉生產過程,同時,本文提出的控制方法能夠實現輸入受限的微粉比表面積及磨內壓差的最優跟蹤控制.
礦渣微粉,數據驅動,自適應動態規劃,最優跟蹤控制,輸入有界
引用格式王康,李曉理,賈超,宋桂芝.基于自適應動態規劃的礦渣微粉生產過程跟蹤控制.自動化學報,2016,42(10): 1542-1551
礦渣粉磨生產是一個復雜多變量、強耦合的非線性過程,實質是將廢棄礦渣經過粉磨,及時選出物料中達到一定粒徑要求的微粉.高爐礦渣廢棄物經過粉磨,比表面積在400m2/kg以上的細粉稱為礦渣微粉.礦渣微粉可以部分代替水泥,以礦物參合料的形式參與混凝土配置,大大提高水泥混凝土的力學性能[1-2].近年來,建筑業對高質量的礦渣微粉需求十分緊迫,然而在實際生產過程中,高效率地生產超細礦渣微粉還面臨許多控制上的難題.例如,微粉的比表面積往往會受到風速、電機轉速、壓力、溫度等多方面因素的影響,礦渣粉磨系統的復雜性造成了對其進行有效控制十分困難.實際生產過程中,往往是憑借工人經驗、長期監控設備狀態和及時調整控制參數實現生產控制.然而由于工人操作水平參差不齊,往往造成產品質量波動較大.如何建立微粉生產過程的有效模型,并在此基礎上實現生產過程的高效自動控制,是一個極為重要的研究方向.
礦渣粉磨是一個多變量、強耦合、非線性的生產過程,并且立磨內部存在復雜的物理化學變化,難以建立整個微粉生產過程的準確機理模型.陳遠[3]對立磨中微粉顆粒進行了流體力學分析,并討論了產品細度與各單一變量之間的關系,對揭示立磨內部現象和粉磨機理起到了重要作用,但由于產品細度受到多變量的影響,難以建立生產過程的完整機理模型.另一方面,立磨粉磨過程中,具有豐富的離線和在線數據,例如主電機電流、磨機壓差、選粉機轉速、入磨溫度、比表面積等,這些數據僅被工人記錄并作為檢修參考數據,并沒有得到很好的利用和挖掘.
數據驅動控制不依靠生產過程的系統模型信息,僅利用在線和離線數據便能實現輸出變量和過程可測變量之間的建模與控制[4-6].對于水泥生產過程中的立磨粉磨系統,數據驅動控制正在被廣泛研究,試圖對復雜的粉磨系統進行準確辨識,以實現高效控制.針對料層厚度與喂料量、磨機出口溫度與熱風閥開度之間的關系,顏文俊等[7]采用最小二乘法建立了立磨控制回路模型,并采用預測控制方法實現了優化控制.Cai等[8]對水泥粉磨系統采用最小二乘支持向量機方法,建立了料層厚度的軟測量模型,實現了料層厚度的間接測量.Lin等[9]采用小波神經網建立了立磨粉磨模型,并通過蟻群算法實現參數最優設置.Umucu等[10]利用多層感知器神經網和徑向基函數神經網,建立了水泥粒度模型,并獲得了較高的預測精度.
作為一種數據驅動控制方法,自適應動態規劃(Adaptive dynamic programming,ADP)利用離線和在線數據,采用神經網絡逼近動態規劃中的性能指標函數和控制策略,進而滿足最優性原理[11-12].自適應動態規劃解決了傳統動態規劃中的“維數災”難題,為求解非線性系統的最優控制提供了一種切實可行的控制方案.2002年,Murray等[13]首先提出了針對連續系統的迭代ADP算法.迭代ADP通過策略迭代和值迭代來更新策略方程和值函數[14-15].然而迭代ADP算法往往迭代次數不確定,計算時間較長且計算量大,一旦系統發生變化,需要重新進行離線計算.近年來,在線ADP算法[16-17]被廣泛提出,這些在線算法不需要進行離線迭代計算,能夠通過在線自適應的方式獲得最優控制問題的解.實際生產過程中,各執行機構變量往往會受到范圍約束,存在飽和非線性.本文將在線自適應ADP應用到礦渣微粉生產過程中,在輸入受約束的前提下,設計輸入受限的在線ADP跟蹤控制器,實現生產過程的最優跟蹤控制.
針對礦渣微粉生產難以機理建模的特點,本文深入研究礦渣微粉生產過程機理,分析并給出了系統的非線性動態過程結構.采用遞歸神經網,建立基于數據的生產過程的辨識模型.根據辨識模型,采用在線自適應動態規劃的方法,實現了礦渣微粉生產過程輸入有界的最優跟蹤控制.本文結構如下:第1節分析礦渣微粉生產流程并給出系統動態方程描述;第2節建立微粉生產過程的數據驅動模型,并在此基礎上設計基于ADP的輸入有界跟蹤控制器;第3節將提出的建模和控制方法應用到礦渣微粉生產過程中,驗證方法的有效性;第4節對全文進行總結.
1.1礦渣微粉生產流程
礦渣粉磨生產是將廢棄礦渣經過粉磨,及時選出物料中達到一定粒徑要求的微粉.比表面積為400m2/kg以上的礦渣微粉可以部分代替水泥,以礦物參合料的形式配置混凝土,從而大大提高水泥混凝土的力學性能.
礦渣微粉生產系統主要由喂料皮帶稱、立磨機、物料傳送帶、收塵器、風機等設備構成.礦渣原料經過預處理,由稱量皮帶進行稱量并由傳送皮帶傳送至立磨,原料由于磨盤旋轉的離心力作用,在粉磨過程中移向磨盤邊緣,在磨盤和磨輥之間的擠壓下進行粉磨.自下而上的熱風將物料吹起烘干,同時將物料提送至磨機上部進行篩選,符合粒度要求的物料被抽出立磨進行收集,沒有被選出的粗顆粒被重新粉磨,其現場生產實時監控畫面及工藝流程如圖1和圖2所示.
1.2礦渣微粉生產系統分析
礦渣微粉生產系統的控制目標是在保證礦渣微粉質量的同時,最大限度地降低立磨振動,以保證生產過程平穩運行.
1.2.1磨機振動
影響立磨穩定運行的因素很多,立磨振動是最常見也是對立磨運行影響最大的一種異常工況.根據微粉粉磨生產的控制要求,立磨振動值僅允許在給定的范圍內變動,超出該范圍就可能引起立磨停機等故障.影響立磨振動的因素主要有磨內壓差、磨內溫度及選粉機轉速等.
1)磨內壓差.磨內壓差是指在粉磨過程中,磨腔選粉機下部與熱風入口處靜壓之差.壓差的變化直接反映了立磨內循環物料量的變化.正常情況下,磨內壓差是穩定的,標志著入磨物料量和出磨物料量達到了動態平衡.壓差低于穩定值表明物料入磨量小于出磨量,料層厚度降低,直至立磨因空磨而振動停機;壓差高于穩定值表明物料入磨量大于出磨量,嚴重時導致料層不穩定或吐渣嚴重,造成飽磨而振動停機.一般情況下,磨內壓差可以通過調整喂料量來進行調節.實際生產過程中,磨內壓差一般維持在20~35mbar,并以磨內壓差作為立磨振動大小及立磨穩定運行的指標.

圖1 礦渣微粉生產監控畫面Fig.1 Monitor screen of slag grinding process

圖2 礦渣微粉生產流程圖Fig.2 Flow chart of slag grinding process
2)磨內溫度.磨內溫度過高,會造成磨內上部物料由于靜電作用而大規模聚集,掉入磨盤底部進行重新粉磨,從而造成立磨振動值增大.入磨熱風溫度是影響磨內溫度的主要因素.
3)選粉機轉速.選粉機轉速過快,大量微粉物料因不能滿足細度要求而落入磨內重新研磨,導致磨內物料增多,磨內壓差增大,引起立磨振動.選粉機轉速一般要求小于1250r/min.
1.2.2微粉比表面積
微粉比表面積是衡量礦渣微粉產品質量(即產品細度)的重要指標,當高爐礦渣細磨成比表面積為400m2/kg以上時,可以以20%~70%的比例替代水泥,以礦物摻合料的形式參與混凝土配置,大大提高了水泥混凝土力學性能.超細礦渣微粉是指比表面積達到500m2/kg以上更為細化的礦渣微粉,其活性較普通的礦渣微粉更強,具有水化熱低、耐腐蝕、與鋼筋粘結力強、后期強度高、防微縮等特點.影響微粉比表面積的因素主要有:
1)入磨物料.入磨物料的硬度、含水量等直接影響礦渣微粉的產量,同時也是影響產品細度的重要參數.
2)入磨熱風.入磨熱風不僅對立磨內物料進行烘干,而且將粉磨后物料提升至選粉區域進行選粉,熱分的風量、風速以及出入磨風溫等對選粉機的產量和產品細度都有著重要影響.在風速一定的前提下,風量過大或過小都會影響產品細度.磨內風量增大,則產品細度變粗,微粉產量增大,同時造成磨內回料量增多,料層穩定性變?。荒蕊L量過小,導致產品細度變細,產量降低,同時由于磨內顆粒濕度增加,造成回料量增多.磨內風量一般通過控制入磨循環風閥開度來進行調節.
3)選粉機轉速.選粉機轉速是直接影響微粉生產產量和產品細度的重要參數.在選粉機分級力場中,微粉顆粒主要受到兩個力的作用:選粉機轉速決定的離心力Fu和風速決定的徑向方向上氣流對顆粒的阻力Fr.如圖3所示,當Fu>Fr時,顆粒向邊壁沉降,成為粗粉進一步粉磨;當Fu<Fr時,顆粒在氣流的攜帶作用下穿過分級面形成細粉.選粉機轉速越快,離心力越大,產品細度越細.在實際生產過程中,出磨風量及風速變化不大,控制選粉機轉速是控制產品細度的重要手段.立磨選粉機轉子采用了變頻調速系統,能夠實現平滑調速,從而更好地控制產品細度.

圖3 微粉顆粒受力圖Fig.3 Stress analysis of slag powder
通過以上分析可知,礦渣微粉的產量和質量,以及立磨的正常運行,受到磨內壓差、料層厚度、喂料量、入磨循環風閥開度、選粉機轉速等諸多參數的影響.這些參數之間具有很強的耦合性,互相影響、互相制約.
1.3礦渣粉磨系統動態方程描述
通過對礦渣粉磨系統進行機理分析,磨機控制過程主要與以下參數有關:
1)主要被控量,如比表面積s、磨內壓差pd等;
2)主要控制量,如喂料量m、選粉機轉速v、入磨熱風溫度T及入磨循環風閥開度p.同時還受到礦渣濕度、熱風風量、入口負壓等參數θ的影響.
系統動態過程可描述為

其中,u=[u1,u2,u3,u4]T,x=[x1,x2]T,u1=m,u2=v,u3=T,u4=p,x1=s,x2=pd,θ為常數.
在控制器的設計過程中,既要保證系統的穩定性、收斂性和對設定值的有效跟蹤,又要保證控制器設計的可實施性.在實際生產過程中,各執行器受到自身物理條件的約束,各輸入變量不能任意選取,只能在給定范圍內取值;從生產工藝來看,立磨要穩定運行,其熱風溫度、喂料量、選粉機轉速等運行參數也必須保持在一定范圍內波動.因此,往往獲得的最優控制并不是理論上的最優值,而是滿足約束條件(2)的次優控制.

其中,xd為被控量的期望值為各控制量的變化范圍.
從被控對象的數學模型描述(1)來看,由于礦渣微粉生產系統具有可控變量多、各變量之間耦合性強、系統非線性等特點,難以通過機理分析的方法建立全系統的精確數學模型.本文利用生產過程中的大量數據,建立有效的數據驅動模型.并在此基礎上,考慮控制約束條件(2),設計在線ADP控制策略,在保證系統穩定的前提下,提高產品質量,實現微粉生產過程的最優跟蹤控制.
2.1數據驅動建模
基于輸入輸出數據,采用遞歸神經網(Recursive neural network,RNN)[16],系統(1)可以寫成仿射非線性的形式

其中,系統狀態x∈Rn,控制輸入u∈Rm,A?,B?,C?,D?為未知的理想神經網權值矩陣,模型重建誤差ε(t)是有界的.激活函數f(·)為單調遞增函數,且對于任意的x,y∈R,x≥y,存在k>0滿足

式中,‖f(x)‖≤bf‖x‖,其中bf為正常數.本文令f(x)=tanh(x).
根據式(3),可以構建數據驅動模型


結合式(3)和式(5),可推導出模型誤差動態方程

引理1[16].若數據驅動模型(5)的網絡權值矩陣和調節參數按照如下學習律進行更新:

其中,Λi,i=1,2,···,5為相應維數的正定矩陣,則模型辨識誤差漸近收斂,即limt→∞em(t)=0.且當t→∞時,分別趨近于常值矩陣A,B,C,D.
因此,采用大量離線數據,經過足夠長時間的模型辨識,非線性系統(1)可表示為

2.2輸入受限的ADP跟蹤控制器設計
針對遞歸神經網模型(9),本小節采用特殊指標函數解決輸入有界問題,采用評價網逼近指標函數,采用執行網逼近最優控制,從而設計出滿足控制約束的ADP跟蹤控制器.
2.2.1問題描述

假設期望狀態軌跡為xd(t),由式(10)可得:

其中,ud(t)為期望輸入量,可通過下式直接計算獲得:

其中,C-T=C(CTC)-1為C的偽逆.
定義狀態誤差e(t)=x(t)-xd(t).根據式(10)和式(11),誤差系統可以寫成

其中,fe(t)=f(x(t))-f(xd(t)),ue(t)=u(t)-ud(t).下文中e(t),u(t),ue(t),ud(t)將分別簡寫為e,u,ue,ud.
根據式(10),令ue滿足約束條件

對于帶有約束的最優跟蹤控制問題,其目標是尋找滿足約束條件的最優控制律ue(t),使得系統(13)漸近穩定,使狀態誤差e漸近收斂到零,并且能夠使如下性能指標函數最小:

其中,效用函數r(e,ue)=Q(e)+W(ue).通常,和R為對稱正定矩陣.由于要求控制輸入有界,采用

其中,R為對角正定矩陣,s∈Rm,?(·)∈Rm為單調遞增的有界奇函數,滿足|?(·)|≤1,且其一階導數的界為常數,?-1(·)表示?(·)的反函數,?-T=(?-1)T.由于?-1(·)為單調奇函數且R是正定對角陣,故W(ue)也是正定的.不失一般性,本文令?(·)=tanh(·),R為m維單位矩陣.
定義如下Hamilton函數:

定義1[18].若ue(e)在?上連續,ue(0)=0,ue(e)能夠使系統(13)在?上穩定,并且對于任意的e∈?,V(ue(0))都是有界的,則稱控制量ue(e):Rn→Rm對于?上的函數(15)是容許的,記作ue∈ψ(?).
定義最優指標函數

滿足如下HJB方程:


2.2.2基于ADP的跟蹤控制器設計
為了實現基于ADP的輸入有界最優跟蹤控制,分別設計評價網絡和執行網絡.
1)評價網絡.根據前饋神經網的全局逼近特性,指標函數可以通過如下網絡精確表示:

其中,W1∈RN1為理想評價網絡權值,N1為神經元個數,φ1(e)=[φ11(e),φ12(e),···,φ1N1(e)]T∈RN1為激活函數向量,ε1(e)為有界評價網逼近誤差,假設其對于e的一階偏導也是有界的.
指標函數V(e)對于e求導,可得:


根據式(17)和式(23),可以推導出如下逼近的Hamilton函數:

評價網絡的目標是極小化如下目標函數:

根據梯度下降法,評價網的權值更新法則可以表示為

其中,αc>0為評價網的學習率,
2)執行網絡.為了求得嚴格受約束的反饋控制策略,通過執行網絡逼近函數Φ(e):

其中,W2∈RN2×m為執行網的未知理想權值矩陣,φ2(e)∈RN2為執行網激活函數,N2為神經元個數,ε2為執行網逼近誤差.

根據式(20)和式(23),執行網絡的誤差函數為

執行網絡的目標是使如下的目標函數極小化:

根據梯度下降法,執行網絡的權值更新律可以表示為

其中,αa為執行網絡的學習率.執行網輸出可表示為

對于帶有控制約束的系統(10),采用上述方法設計的ADP最優控制器,有如下定理成立.
定理1.對于如式(13)描述的帶有控制約束的非線性系統,如果給定合適的學習律αc,αa,采用式(23)和式(28)描述的評價網和執行網,且其權值分別按照式(26)和式(31)在線調整,則當神經元個數足夠多時,系統狀態誤差e及評價網和執行網的估計誤差均一致最終有界.
根據文獻[19]中的收斂性證明過程,易證對于誤差系統(13),定理1成立,具體過程從略.
本文以濟南魯新新型建材股份有限公司3號礦渣微粉生產線采集的數據為研究對象,驗證上述基于數據驅動的建模與最優跟蹤控制的有效性.
3.1實驗數據及預處理
實驗針對3號礦渣微粉生產線運行數據,每隔2min進行采樣,共獲得325組實驗數據,如表1所示.由于測量誤差或人為因素等原因,直接從現場獲得的數據中不可避免地存在顯著誤差.當采樣點的值與均值的偏差大于三倍標準差時,刪除該點數據以消除顯著誤差.同時,對最終得到的250組數據進行歸一化處理.

表1 濟鋼魯新建材3號礦渣微粉生產線生產運行數據Table 1 Production data of Luxin mill line 3
由前述分析可知,礦渣微粉生產過程是一個多變量、強耦合的非線性系統.在實際生產過程的各項數據中,比表面積作為微粉細度的指標,是衡量產品質量的重要指標.磨內壓差對于正常生產過程的穩定運行具有重要意義.本文將微粉的比表面積和磨內壓差作為控制量,將喂料量、選粉機轉速、入磨熱風溫度及入磨循環風閥開度作為控制變量,通過RNN進行模型辨識.
為了在保證產品質量的同時,維持生產過程的穩定,各控制變量必須達到某一指定范圍,同時根據各執行機構自身約束和現場工程師經驗,各控制變量都有其容許的變化范圍,如表2所示.

表2 各控制變量容許變化范圍Table 2 Tolerance range of different variables
3.2模型辨識效果
采用如式(5)的遞歸神經網對輸入輸出數據進行辨識.令遞歸神經網初始值為(0)=[0;0],各辨識參數分別為S=-30I2,η=1.5,Λ1=[1 0.1;0.1 1],Λ2=[1 0.2;0.2 1],Λ3=[1 1 1 0.1;1 1 0.1 1;1 0.1 1 1;0.1 1 1 1],Λ4=0.2,Λ5=0.1.辨識效果和辨識誤差如圖4和圖5所示,為了方便顯示模型辨識效果,圖4僅顯示前40組數據模型辨識曲線.從圖5可以看出,由于初始值選擇問題,模型誤差在初始階段較大,但經過一段時間后,模型誤差趨近于0,得到的基于數據的模型能夠有效地辨識出真實系統.
得到的辨識模型(10)中各穩定參數為

3.3ADP跟蹤控制效果
根據現場工程師經驗,微粉比表面積維持在440m2/kg左右時,產品質量滿足要求,且產量最優;磨內壓差維持在27mbar左右時,保證出入磨物料達到動態平衡,生產能夠穩定運行.基于以上經驗數據,通過歸一化,得到微粉生產過程的跟蹤目標,使輸出狀態跟蹤到如下期望軌跡:


圖4 模型辨識曲線Fig.4 Curve of model identification

圖5 模型辨識誤差曲線Fig.5 Curve of model identification error
同時各控制變量需滿足表2所示的控制約束.根據式(12),可以推導出期望狀態ud,其變化范圍為

為了使最優控制量滿足約束條件,令|ue|≤[1.86 0.59 1.24 1.27]T.
采用帶有控制約束的最優跟蹤控制策略,評價網和執行網權值曲線如圖6和圖7所示,各權值均收斂到穩定值.圖8顯示了期望控制曲線ud和采用本文方法得到的各控制曲線u.采用無控制量約束最優控制方法得到的各控制量曲線如圖9所示.圖10顯示了兩種控制方法得到的狀態跟蹤曲線xc,xu和期望狀態曲線xd.

圖6 評價網權值曲線Fig.6 Critic network weights

圖7 執行網權值曲線Fig.7 Actor network weights
由圖8及對比表2所示的容許范圍可知,采用本文控制方法能夠使控制誤差ue滿足約束條件,從而保證控制量u始終保持在約束范圍內.而無約束的最優控制由于ue最大值過大,造成控制量u超出約束范圍,如圖9所示.電機轉速u2在初始階段為負值,明顯與實際意義不符;進口風溫u3最大值遠遠超過了實際生產能夠提供的最大風溫.因此,圖9所示的無約束控制結果僅能在理論上跟蹤上期望軌跡,實際生產過程中很難被采用.同時,如圖10所示,在控制過程中,帶有控制約束的輸出狀態xc同樣能夠使比表面積跟蹤上期望值440m2/kg,磨內壓差穩定在27mbar.同時,由于控制量受約束,跟蹤曲線xc超調量小于無約束最優控制曲線xu,但跟蹤上期望軌跡需要更多的調整時間.

圖8 受約束控制曲線Fig.8 Constrained control signal

圖9 無約束控制曲線Fig.9 Control signal without constraints

圖10 狀態輸出曲線Fig.10 Output state signal
針對礦渣微粉生產這一多變量、強耦合、控制有界的復雜非線性系統,本文提出了一種基于數據的最優跟蹤控制方法.采用遞歸神經網建立了生產過程的數據驅動模型,并在該模型的基礎上設計了基于近似動態規劃的最優控制器,在狀態輸出跟蹤上期望軌跡的同時,保證了控制量始終在約束范圍內變化.微粉生產過程的實驗表明,在各執行器滿足約束的前提下,該方法能夠保證微粉質量和磨內壓差穩定,從而保證生產過程平穩運行.在接下來的研究中,將引入微粉產量這一重要指標,針對產量-質量這兩個互相矛盾的目標,采用多目標優化算法求得最優解,作為微粉生產過程的跟蹤值,進而采用本文方法實現微粉生產過程產量-質量的最優跟蹤控制.
References
1 I?s?kda?g,Top?cu˙I B.The effect of ground granulated blastfurnace slag on properties of Horasan mortar.Construction and Building Materials,2013,40:448-454
2 Zhang Y J,Zhang X.Grey correlation analysis between strength of slag cement and particle fractions of slag powder. Cement and Concrete Composites,2007,29(6):498-504
3 Chen Yuan.Study on Separator of Large-scale Vertical Mill[Master dissertation],Chongqing University,China,2008.(陳遠.大型立磨選粉機研究[碩士學位論文],重慶大學,中國,2008.)
4 Xu J X,Hou Z S.Notes on data-driven system approaches. Acta Automatica Sinica,2009,35(6):668-675
5 Hou Zhong-Sheng,Xu Jian-Xin.On data-driven control theory:the state of the art and perspective.Acta Automatica Sinica,2009,35(6):650-667(侯忠生,許建新.數據驅動控制理論及方法的回顧和展望.自動化學報,2009,35(6):650-667)
6 Dai Wei,Chai Tian-You.Data-driven optimal operational control of complex grinding processes.Acta Automatica Sinica,2014,40(9):2005-2014(代偉,柴天佑.數據驅動的復雜磨礦過程運行優化控制方法.自動化學報,2014,40(9):2005-2014)
7 Yan Wen-Jun,Qin Wei.Modeling and control optimization in cement vertical roller mill process.Control Engineering of China,2012,19(6):929-943(顏文俊,秦偉.水泥立磨流程的建模和控制優化.控制工程,2012,19(6):929-943)
8 Cai X Y,Meng Q J,Luan W L.Soft sensor of vertical mill material layer based on LS-SVM.In:Proceedings of the2013 International Conference on Measurement,Information,and Control(ICMIC).Harbin,China:IEEE,2013.22 -25
9 Lin X F,Qian Z.Modeling of vertical mill raw meal grinding process and optimal setting of operating parameters based on wavelet neural network.In:Proceedings of the 2014 International Joint Conference on Neural Networks(IJCNN). Beijing,China:IEEE,2014.3015-3020
11 Zhang Hua-Guang,Zhang Xin,Luo Yan-Hong,Yang Jun. An overview of research on adaptive dynamic programming. Acta Automatica Sinica,2013,39(4):303-311(張化光,張欣,羅艷紅,楊王君.自適應動態規劃綜述.自動化學報,2013,39(4):303-311)
12 Xu X,Zuo L,Huang Z H.Reinforcement learning algorithms with function approximation:recent advances and applications.Information Sciences,2014,261:1-31
13 Murray J J,Cox C J,Lendaris G G,Saeks R.Adaptive dynamic programming.IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2002,32(2):140-153
14 Wei Q L,Liu D R,Yang X.Infinite horizon self-learning optimal control of nonaffine discrete-time nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems,2015,26(4):866-879
15 Liu D R,Wei Q L.Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems,2014,25(3):621-634
16 Zhang H,Cui L,Zhang X,Luo Y H.Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method.IEEE Transactions on Neural Networks,2011,22(12):2226-2236
17 Modares H,Lewis F L,Naghibi-Sistani M B.Integral reinforcement learning and experience replay for adaptive optimal control of partially-unknown constrained-input continuous-time systems.Automatica,2014,50(1):193-202
18 Wei Q,Liu D.A novel iterative θ-adaptive dynamic programming for discrete-time nonlinear systems.IEEE Transactions on Automation Science and Engineering,2014,11(4):1176-1190
19 Qin C B,Zhang H G,Luo Y H.Adaptive optimal control for nonlinear discrete-time systems.In:Proceedings of the 2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning.Singapore:IEEE,2013.13-18

王 康北京科技大學自動化學院博士研究生.2012年獲得北京科技大學自動化系學士學位.主要研究方向為最優控制,自適應控制.
E-mail:wangkangustb@gmail.com
(WANG KangPh.D.candidate at the School of Automation and Electrical Engineering,University of Science and Technology Beijing.He received his bachelor degree from University of Science and Technology Beijing in 2012. His research interest covers optimal control and adaptive control.)

李曉理北京工業大學電子信息與控制工程學院教授.1997年獲得大連理工大學控制理論與工程碩士學位,2000年獲得東北大學博士學位.主要研究方向為多模型自適應控制,神經網絡控制.本文通信作者.
E-mail:lixiaolibjut@bjut.edu.cn
(LI Xiao-LiProfessor at the College of Electronic Information and Control Engineering,Beijing University of Technology.He received his master degree in control theory and control engineering from Dalian University of Technology in 1997,and Ph.D.degree from Northeastern University in 2000,respectively.His research interest covers multiple model adaptive control and neural network control.Corresponding author of this paper.)

賈 超北京科技大學自動化學院博士研究生.2011年獲得青島理工大學學士學位.主要研究方向為多模型控制,模糊控制和神經網絡控制.
E-mail:jiachaocharles@outlook.com
(JIA ChaoPh.D.candidate at the School of Automation and Electrical Engineering,University of Science and Technology Beijing.He received his bachelor degree from Qingdao Technological University in 2011.His research interest covers multiple model control,fuzzy control,and neural network control.)

宋桂芝濟南魯新新型建材股份有限公司電氣工程師.2007年獲得山東大學電氣工程及其自動化碩士學位.主要研究方向為大型立磨系統的自動控制.
E-mail:luxinsonggz@163.com
(SONG Gui-ZhiElectrical engineer at Jinan Luxin Materials Company Limited.She received her bachelor degree in electric engineering and automation from Shandong University in 2007.Her research interest covers automatic control of large scale vertical mill.)
Optimal Tracking Control for Slag Grinding Process Based on Adaptive Dynamic Programming
WANG Kang1LI Xiao-Li2JIA Chao1SONG Gui-Zhi3
Super fine slag powder is a new kind of green environmental-friendly construction material,which can greatly improve the mechanical properties of cement concrete.However,the slag powder grinding process is hard to identify by a mechanism model.In this paper,a data-driven based recurrent neural network model is constructed utilizing the information measured from slag grinding system.Based on this model,an adaptive dynamic programming algorithm is proposed to realize the optimal tracking control with constrained control input.Further,this algorithm is applied to the slag grinding process.Simulation examples show that the data-based model can effectively identify the grinding process,and the control method can realize the optimal tracking control of specific surface area and mill differential pressure with control constraints.
Slag grinding process,data driven,adaptive dynamic programming,optimal tracking control,input constrained
Manuscript November 30,2015;accepted March 2,2016
10.16383/j.aas.2016.c150808
Wang Kang,Li Xiao-Li,Jia Chao,Song Gui-Zhi.Optimal tracking control for slag grinding process based on adaptive dynamic programming.Acta Automatica Sinica,2016,42(10):1542-1551
2015-11-30錄用日期2016-03-02
國家自然科學基金(61473034,61673053),高等學校博士學科點專項科研基金(20130006110008),北京工業大學內涵發展-引進人才科研啟動經費,北京科技新星計劃跨學科合作項目資助
Supported by National Natural Science Foundation of China(61473034,61673053),Specialized Research Fund for the Doctoral Program of Higher Education(20130006110008),Beijing University of Technology Start-up Funding of Content Development and the Introduced Talent Research,and Beijing Nova Programme Interdisciplinary Cooperation Project
本文責任編委魏慶來
Recommended by Associate Editor WEI Qing-Lai
1.北京科技大學自動化學院 北京1000832.北京工業大學電子信息與控制工程學院北京1001243.濟南魯新新型建材股份有限公司濟南250109
1.School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 1000832.College of Electronic Information and Control Engineering,Beijing University of Technology,Beijing 1001243.Jinan Luxin Materials Company Limited,Jinan 250109