高爐爐溫控制中數據挖掘方法的運用

2022-11-02 13:03:40董雪，何苗

工業加熱 2022年9期

董雪，何苗

(寶雞文理學院計算機學院，陜西寶雞 721000)

隨著鋼鐵行業的不斷發展，鋼鐵材料成為現代人類社會使用最廣泛的材料之一，對于國民經濟的持續提升具有重要作用。高爐煉鐵的發展可直接影響鋼鐵行業的節能降耗，但是高爐煉鐵過程中存在非線性、時間滯后以及大噪聲等特性，可增加溫度自動化控制的復雜程度。為此本研究采用數據挖掘方法對高爐溫度特征進行提取，并建立各變量之間的隱含關系，對于鋼鐵行業的發展具有重要意義。

1 數據挖掘流程

數據挖掘屬于一種適應性綜合方法，可代表待選模型的反復產生過程，其中待選模型的復雜度處于逐漸增加的狀態。該方法的核心技術為GMDH，通過GMDH技術只需要完成初始輸入函數以及傳遞函數等的指定，即可從觀測樣本中自動生成數據模型。為實現數據的深度挖掘，數據挖掘方法應滿足三個核心條件：

(1)包含一個簡單的初始組織；

(2)可使組織產生突變的機制(該機制主要在訓練數據集的基礎上提出假設)；

(3)該方法內部應包含一個選擇機制，將組織改善作為目標進行突變的評價(該機制主要在檢測數據集的基礎上對假設進行檢驗)[1]。

通過數據挖掘實現模型建立時，首先應將樣本數據劃分為訓練集以及檢測集，其中訓練集中存在的高爐溫度控制數據主要用于模型建立中，包括參數估計數據以及結構綜合數據等：檢測集中包含的數據僅在選擇最優復雜度模型時被使用，在模型建立過程中不被使用。數據挖掘算法實際上是一種對數據進行分組處理的方法，由數據挖掘算法中的樣本數據可完成各項數據挖掘技術的本質區分，數據挖掘算法整體流程如圖1所示[2]。

數據挖掘算法整體流程主要在領域理論的基礎上進行實現，其運作流程為：利用先驗信息對數據挖掘模型知識提取能力進行整體提升，知識的提取主要通過數據和科學理論結合的方法實現。該方法在一定程度上對領域理論具有完善作用，將其應用于高爐溫度控制中，可向高爐提供獲取知識的方法或者新的理論范疇，有利于幫助高爐完成理論檢測。

2 高爐溫度數據預處理

歷史數據的數量及質量可直接決定高爐溫度預測模型的性能。傳統高爐冶煉在基本輸入條件一定的情況下，數據異常以及數據缺失等情況發生的概率極高，易受到外界因素以及人為等因素的影響，從而產生低精度或者失效的測量數據，若將該數據直接應用于高爐溫度預測系統中，可造成系統整體性能的大幅度下降，最終無法保證高爐爐溫的精準控制。并且高爐溫度控制預測模型建立過程中，系統內部各輸入變量之間相互影響程度較大。為保證系統對高爐溫度控制的精準性，應在溫度控制之前完成高爐數據的預處理[3]。

通常情況下在高爐冶煉過程中，主要采用時間序列分析方法完成多輸入變量的時間序列數據處理，或者利用記錄儀以及觀察測量方法對數據集合進行獲取。但是該方法可使數據出現錯誤現象，不利于預測模型的精度。為保證數據集合的完整性，應將其剔除，對于各輸入變量之間存在的耦合性，應對高爐數據進行歸一化和主元分析處理。

2.1 異常值(Outlier)檢驗

由于高爐冶煉過程中產生的數據存在較嚴重的波動性，為此本研究采用異常值檢驗的方法，對高爐冶煉中的異常數據進行剔除。其異常值檢驗流程為：對高爐冶煉過程中的時間序列數據進行獲取，對該項數據中的異常值進行檢驗，若時間序列數據中存在異常值的產生，應進一步判斷異常值數據的產生時間；若異常值數據對于高爐溫度控制預測模型建立的準確率以及預測精度影響較大，應采取剔除的方式對該項數據進行處理[4]。

本研究主要采取3σ準則(拉依達準則)對高爐冶煉過程中產生的異常數據進行處理，通常對高爐冶煉的精度要求為：若一組樣本數據X={x1,...,xn}的偏差數值大于3σ的數值，應將該數值剔除，其3σ準則公式為

(1)

2.2 缺損值補足

對于高爐時間序列數據的缺失問題，應嚴格按照數據的運行軌跡以及變化趨勢，利用數據平滑處理方法對于數據缺損值進行推測。通過該方法有利于補足高爐時間序列數據的缺損數值，對于高爐溫度控制預測模型的精準度具有重要提升作用[5]。

2.3 數據歸一化處理

由于高爐冶煉過程中產生的測量數據存在量綱不同的問題，若量綱不同可直接造成測量數值的差異性，從而引發數據范圍的不確定性。數據差異性的擴大可直接影響高爐溫度控制預測模型的精準性，使該模型的精度無法滿足工藝要求。為提升高爐溫度控制預測模型的預測精度，從根本上解決該模型測量數據的差異性，本研究采用歸一化的方法對采集數據進行處理。數據歸一化處理方法主要指的是將系統內全部數據轉化為[0,1]之間的數，實現計算偏差數據的消除[6]。為保證預測結果的可觀察性，應對預測結果進行反歸一還原，其公式為

(2)

2.4 數據相關性分析

數據挖掘時采用的樣本數據庫中存在較多變量，為保證系統可從大規模的數據集中挖掘出各變量之間的關聯，本研究采用降維的方法進行樣本數據的確定。降維方法實際上是對各變量進行預測，利用變量之間的相關結構實現預測變量個數的減少。該方法主要分為因子分析及主成分分析兩種方法。

1)因子分析方法

該方法為描述各變量之間的相關性，對變量相關系數的結構進行分析，以此找到可以反映全部變量中少數個變量。通常情況下少數變量屬于不可預測的變量，可將其稱之為因子。在相關性分析的基礎上，按照數據相關性的大小對變量進行分組，有利于提高組內變量的相關性，并降低不同組內變量的相關性[7]。

2)主成分分析方法

該方法實際上指的是一種統計方法，可將多個指標變量轉換為幾個相互獨立的綜合指標變量。為計算出每一個綜合指標的數值，應嚴格遵循概率的角度要求，使幾個綜合指標變量之間形成不相關性。

本研究為確定影響高爐溫度中的核心變量，利用Pearson相關系數對兩個變量線性關系之間的統計量進行定義，以此對變量之間線性關系的強弱進行衡量。首先設(Xi,Yi)(i=1,2,...,n)為取自總體(X,Y)的樣本，此時該樣本的Pearson線性相關系數公式為

(3)

通過計算可知，高爐噴煤與溫度之間屬于負相關關系，當時間滯后步長為0時，可計算出噴煤與溫度之間的相關系數為-0.396 6。隨著滯后時間的不斷延長，使噴煤與溫度之間的相關性逐漸減弱，此時只針對滯后步長為0時刻的相關性進行綜合考慮。選取6個影響高爐溫度的輸入變量，對其進行相關性分析，各輸入變量的相關系數如表1所示[8]。

表1 各輸入變量的相關系數

通過對表1中數據分析可知，與高爐溫度相關的變量只有5個，其中噴煤、風溫以及煤氣利用率均為影響高爐溫度的直接因素，富氧率以及爐頂溫為英系那個高爐溫度的間接因素。

3 基于BP神經網絡的高爐溫度預測模型建立與優化

BP神經網絡算法主要包含輸入層、隱含層以及輸出層，其信號傳遞流程為：通過輸入層對輸入信號進行輸出，使其經過隱含層到達輸出層。本研究主要采用BP神經網絡算法對高爐預測模型進行建立與優化，將該算法應用于多元回歸模型以及多元時間序列模型中，并采用MISO結構對模型進行建立ωji，BP神經網絡算法的拓撲結構如圖2所示。

圖2中,x1,x2,...,xn為BP神經網絡算法的輸入值；O1為BP神經網絡算法的預測值；ωij和ωj1為BP神經網絡算法的網絡權值[9]。

3.1 BP神經網絡算法的模型建立

模型建立的主要步驟共分為8個步驟：

(1)首先應完成BP算法中輸入輸出閾值、權值以及學習速率等變量的初始化，該算法的數據列為(x,y)，輸入節點數n=6，隱含節點l=7，輸出節點數m=1。

(2)結合輸入變量x、連接權值以及閾值對隱含層的輸出進行計算，其公式為

(4)

式中：H為BP神經網絡算法的輸出；l和f為隱含層的節點數和激勵函數，激勵函數的公式為

(5)

(3)完成BP神經網絡算法預測值O1的計算，預測值O1的公式為

(6)

(4)結合預測輸出值O以及實際輸出值y對該網絡的誤差e進行計算，誤差公式為

e1=y-O1

(7)

(5)實現對權值的更新

ωij=ωij+ηHj(1-Hj)x(i)ωj1e1

(i=1,2,...n;j=1,2,...l)

ωj1=ωj1+ηHje1(j=1,2,...l)

(8)

式中：η為學習率。

(6)對節點閾值a和b進行更新，其公式為

(9)

(7)判斷BP神經網絡算法是否迭代結束，若系統仍處于迭代中，應返回步驟(2)[10]。

(8)完成BP神經網絡模型的仿真校驗，通過上述公式對模型的命中率進行計算，其中BP神經網絡多元回歸模型的命中率為88.42%、BP神經網絡多元時間序列模型的命中率為90.53%。兩個模型的平均相對誤差分別為0.48%、0.46%，高爐溫度預測模型的精度分別為2.678 3、2.634 8。綜上所述，BP神經網絡多元時間序列模型各方面性能更優秀，其精度缺陷主要源于BP神經網絡自身存在的過于依賴初始權值的選取以及收斂速度慢等問題。

3.2 BP神經網絡模型的優化

本研究主要采用遺傳算法對BP神經網絡模型進行優化，其優化流程為：首先對BP網絡進行優化，優化方式主要包括確定BP神經網絡、優化遺傳算法以及預測BP神經網絡。優化的主要內容為初始權值以及閾值，有利于提高BP神經網絡的預測輸出能力。

優化步驟包括7部分：

(1)首先應完成種群的初始化，在高爐溫度內部輸入輸出變量已知的情況下完成網絡結構的確定。

(2)利用訓練數據對BP神經網絡進行訓練，以此得到控制系統的預測值，計算出期望值與預測值之間的誤差絕對值，將其作為適應度值F，適應度值F公式為

(10)

式中：n為輸出節點；yi為第i個節點的期望輸出；oi為第i個節點的預測輸出；k為系數。

(3)利用適應度比例法完成選擇概率pi的計算。

(11)

(4)選用實數編碼完成交叉操作。

(12)

式中：b為[0,1]之間的任意數。

(5)選取第i個個體的第j個基因aij，完成變異操作。

(13)

式中：f(g)=r2(10g/Gmax)；r2為任意數；g為當前迭代次數。

將遺傳算法中各參數設置為：種群規模數10，進化次數50次，交叉概率0.4，變異概率0.2。

(6)對權值及閾值進行實時更新，以此獲取最佳優化結果。

(7)經過優化后的BP神經網絡多元回歸模型的命中率為92.63%、BP神經網絡多元時間序列模型的命中率為93.68%。兩個模型的平均相對誤差分別為0.44%、0.43%，高爐溫度預測模型的精度分別為2.568 1、2.549 4。綜上所述，在高爐爐況波動較小時，BP神經網絡多元時間序列模型各方面性能更優秀，可使誤差較小。但是高爐爐況波動較大時，BP神經網絡多元時間序列模型各方面性能不如回歸模型。

4 結語

由于高爐冶煉過程中產生的數據存在較嚴重的波動性，本研究為提高對高爐溫度控制的精準性，在高爐溫度控制系統中應用數據挖掘方法，并采用異常值檢驗、歸一化、相關性分析等方法，對高爐冶煉中的異常數據進行剔除，實現數據的預處理。通過BP神經網絡對高爐溫度控制預測模型進行建立，利用遺傳算法實現模型的優化。優化結果表明，BP神經網絡多元時間序列模型各方面性能更優秀，可使誤差較小。但是高爐爐況波動較大時，應采取BP神經網絡多元回歸序列模型。