趙 哲,張 勇,于楠楠,崔桂梅
(內蒙古科技大學 信息工程學院,包頭 014010)
高爐冶煉是一個持續性的高溫生產過程,高爐的穩定順行是一切生產技術經濟指標和良好的經濟效益的基礎[1]。爐溫是高爐穩定順行的一個重要指示,在高爐冶煉過程中,一直以化學熱[Si](高爐鐵水硅含量)來表征爐溫,一定時期內對于指導高爐操作具有積極的作用。但由于爐況的波動,爐況非平穩時會出現高硅、高硫及低爐溫的現象[2],再利用鐵水硅、硫含量這種傳統方法去表征高爐爐溫是不準確的甚至是與實際相反的。隨著測量手段的發展鐵水溫度測量數據的獲取和存儲已在各大高爐得到了廣泛的應用,以鐵水溫度表征爐溫的物理熱的形式也越來越受到了爐長們的關注。
鐵水溫度除了表征高爐爐溫以外,還是影響高爐出鐵和出渣的重要參變量,鐵水溫度過高或過低都不利于出鐵和出渣。而現行的高爐操作是以爐長為主的人為操作制度,鐵水溫度數據受人為因素、測量環境變化等影響容易出現數據缺失及記錄異常。這些異常數據的存在,使得通過鐵水溫度觀測爐溫,反映爐況運行狀態及指導高爐操作變的比較困難。
針對數據缺失及異常,常規方法主要采取3σ法則進行異常值剔除[3],并用均值插補法進行數據修補。研究發現采取傳統的方法進行異常數據處理則有可能造成數據的填充不準確或正確數據被誤剔除的現象。在數據檢測上本文首先針對數據樣本進行常規的數學統計,確定均值、方差及問題數據的時間點,進而從多尺度[4]的角度對問題數據的時間點采取短時間序列[5]的重新組合、統計及計算。在數據修補上,結合AR模型[6]對缺失值插補,并考慮數據本身的特點。最后,以某鋼廠高爐數據做模型試驗,結果表明本方法比常規方法具有良好的檢測效果及修補優勢。
現行的高爐操作是以爐長為主的人為操作制度,高爐數據受人為因素、測量環境變化等影響容易出現數據記錄異常。如表1所示536批鐵次的鐵水溫度明顯是異常數據;而表2第1032批鐵次鐵水溫度缺失則是受人為或儀器故障造成。如何更精確地檢測到異常數據,并還原數據,讓以數據為基準的高爐操作更具可操作性,是高爐建模、優化及操作面臨的首要問題。

表1 鐵水溫度異常Tab.1 The Thm abnormal

表2 鐵水溫度缺失Tab.2 The Thm missing
常規異常值檢測主要采用3σ法則,在3σ法則中σ表征標準差,μ為均值,以某鋼廠高爐鐵水溫度3000組數據為例,計算得其均值μ=1493,標準差σ=12.71。由3σ法則對于值不在內的概率小于0.3%既認為其為異常值,可找到其異常值位置并對其進行剔除。現對某鋼廠3000組鐵水溫度進行檢測,發現表1中的第536批鐵次的異常值被正常剔除,其結果如圖1所示。但遇到表3中第853、854、855批鐵次由于高爐在停爐、休風、檢修及開爐時,爐況波動較大,數據變化也大,常規3σ法則無法判斷其鐵水溫度下降原因,從而導致正常值被誤剔除,其結果如圖2所示。正常數據被誤剔除給高爐后期的建模、優化及操作帶來不利影響。所以針對高爐這種高度復雜系統采用傳統3σ法則進行數據異常值檢測是不合理的。

圖1 鐵水溫度異常值被剔除Fig.1 Reject abnormal data of Thm

圖2 鐵水溫度正常值被剔除Fig.2 Reject normal data of Thm

表3 鐵水溫度正常Tab.3 The Thm normal
常規缺失值補值主要采取均值插補法[7]。由于高爐冶煉是一個持續性的高溫生產過程,其鐵水溫度前一時刻與后一時刻均相互關聯,因此利用均值插補法進行補值是合理的。首先確定鐵水溫度缺失位置,然后以其前一時刻的鐵水溫度與最近的下一時刻鐵水溫度求均值,最后對缺失位置進行補值。現對于表2中的第1032批鐵次缺失值可以利用均值插補法進行補值,但如遇到由儀器長時間故障造成鐵水溫度連續缺失,顯而易見,簡單地利用均值插補法對連續缺失的數據進行補值則是不合理的。
針對傳統異常數據檢測及修補方法對于高爐這種高度復雜的系統的不合理性,現結合高爐數據本身特點提出新的解決方法,為節能型高爐建模、優化及操作提供更為真實的數據。
由于常規異常值檢測3σ法則存在無法準確區分數據超出μ±3σ范圍外的問題,既當高爐正常休風維護時造成的鐵水溫度正常下降超出μ±3σ范圍時,被誤當做異常值給剔除的問題。現結合高爐數據本身特點引入多尺度與常規3σ準則相互結合來判斷鐵水溫度超出μ±3σ范圍是否由異常值引起的。
尺度是空間數據的共有特征,同時人們對數據的觀測及判斷也是在不同尺度上進行的。因此用多尺度來描述、分析數據是非常自然的事情[8]。
多尺度與傳統3σ法則結合,先用粗尺度對數據共性進行認識,再進行尺度變換以細尺度對數據個性進行認識,最終通過尺度變換達到對數據的準確認識,如圖3所示為其檢測流程圖,針對鐵水溫度異常值檢測具體步驟為
步驟13σ法則對整個樣本空間進行粗尺度異常值檢測,找到μ±3σ外鐵水溫度的鐵間批次Tn;
步驟2以Tn為中心與n-1、n+1批鐵次組成小樣本空間對其進行細尺度3σ檢測,找到μ1±3σ1外鐵水溫度的鐵間批次 T(1)n,其中 μ1、σ1分別為小樣本空間的均值與方差;
步驟3鐵間批次T(1)n所對應的鐵水溫度既判定其為異常溫度對其進行剔除。

圖3 新異常值檢測方法流程圖Fig.3 New outliers detection method flow chart
均值插補對于數據的單一缺失值有良好的補值效果,但對于事故造成一段時間內數據連續缺失時再簡單的利用均值插補法進行補值會對數據產生較大的偏差,這些偏差較大數據難以反映高爐數據的真實性。
AR模型是數據處理、修補及噪聲方差估計過程中常用的模型,其可以通過時間序列的歷史數據來體現數據隨時間的變化規律,將這種變化延伸到未來,從而實現對數據的預測[9]。既某一時刻的鐵水溫度可由前幾個時刻的數據并依據自回歸時間序列模型修復:

式中:yt為第t批鐵次的鐵水溫度。
考慮高爐數據特點,此處值可由異常數據的前2個時刻數據并依據二階自回歸模型修復,其中ai(i=1,2)為模型參數,由鐵次t前的正常高爐爐溫樣本數據{y1,y2,…,y(t-1)}訓練可得。
an為第t-n批鐵次與第t批鐵次相關系數,an用最小二乘辨識方法進行參數估計[10],普通的最小二乘需要更多的數據對其進行訓練,但高爐的復雜性使其數據存在不確定性,不能有效的保證更多的訓練數據都為正常數據,對其進行參數估計存在較慢的收斂速度,較低的估計精度,因此在此選用多信息最小二乘方法進行參數估計[11],即用更少的數據獲得更快收斂速度,更高的預測精度。
考慮到t-p+1到t時共有p組數據,令


矩陣方程:

取準則函數:

使準則函數最小的多信息最小二乘算法如下:

式中:yt∈R為系統輸出,a∈Rn為待辨識的參數向量,Φt∈Rn是由系統輸入ut∈R和輸出Xt構成的回歸信息向量,εt為均值為零的干擾噪聲。在此用100組數據即可對a進行參數估計。
現應用新方法對鐵水溫度進行檢測,其檢測結果如圖4、圖5所示。從圖中可看出鐵水溫度異常值被準確剔除,而由于休風引起的鐵水溫度正常下降未被誤剔除,數據處理結果表明常規準則與多尺度結合針對高爐這種高度復雜的系統可以準確地剔除異常值,并有效地防止高爐因正常維護引起的鐵水溫度過低被誤剔除。

圖4 鐵水溫度異常值被剔除Fig.4 Reject abnormal data of Thm

圖5 鐵水溫度正常值未被剔除Fig.5 Not reject normal data of Thm
現人為去除表4中2002~2007批鐵次的鐵水溫度,分別使用常規均值插補法與AR模型對缺失值進行補值,并與原始值進行對比,校驗數據修補性能。

表4 鐵水溫度Tab.4 Data of Thm
現分別對2種補值方法用平均相對誤差、最大相對誤差、預測精度相對比,結果如表5所示,其中用均方根誤差表示預測精度:

式中:Xt為鐵水溫度實際值;X^t為預測鐵水溫度;n為預測樣本個數。

表5 各模型性能比較Tab.5 Model performance comparison
從表5中可以看出AR模型補值的效果優于均值插補法,在鐵水溫度連續缺失時AR模型也能取得較好的補值效果。
其修補結果如圖6所示,圖6為2種方法修補后數據與原數據進行對比,從圖中也可以明顯地看出AR補值相比于傳統的均值插補法補值效果更好。

圖6 均值插補與AR模型補值對比Fig.6 Comparisons between mean interpolation and AR model process
本文針對傳統修補方法不適合高爐這種高度復雜的系統的問題,結合高爐本身特點,提出多尺度與傳統3σ法則相結合對鐵水溫度進行異常值檢測、異常數據的位修補、基于AR模型的數據修補等新方法。并應用某鋼廠數據仿真,數據仿真結果表明,本文提出的新方法可有效地剔除異常值,同時防止正常值被誤剔除,補值效果也更接近于實際值,這為后期節能型高爐建模、優化及操作提供了更為真實的數據。
[1]范廣權.高爐煉鐵操作[M].北京:冶金工業出版社,2008.
[2]周傳典.高爐煉鐵生產技術手冊[M].北京:冶金工業出版社,2012.
[3]桂衛華,陽春華.復雜有色冶金生產過程智能建模、控制與優化[M].北京:科學出版社,2010.
[4]高惠君.城市規劃空間數據的多尺度處理與表達研究[D].北京:中國礦業大學,2012.
[5]肖輝.時間序列的相似性查詢與異常檢測[D].上海:復旦大學,2005.
[6]常太華,王璐,馬巍.基于AR、ARIMA模型的風速預測[J].華東電力,2010,38(1):59-62.
[7]金勇進.缺失數據的插補調整[J].數理統計與管理,2010,20(5):47-53.
[8]潘泉,張磊,崔培玲,等.動態多尺度系統估計理論與應用[M].北京:科學出版社,2007.
[9]胡勁松,楊世錫.EMD方法基于AR模型預測的數據延拓與應用[J].震動、測試與診斷,2007,27(2):116-170.
[10]彭秀艷,王茂,劉長德.AR模型參數自適應估計方法研究及應用[J].哈爾濱工業大學學報,2009,41(9):12-16.
[11]丁鋒.系統辨識[J].南京信息工程大學學報:自然科學版,2012,4(1):1-28.