潘召濤
(霍州煤電集團呂梁山煤電有限公司方山發電廠, 山西 呂梁 033102)
風機的持續穩定運轉對提高火電廠機組工作效率非常關鍵,其工作的穩定性直接影響火電廠的經濟和安全。由于火電廠風機工作環境相對惡劣,經長時間大負荷運行,容易產生各種故障,而大部分火電廠對風機仍然采取巡檢、定期維護、停運檢修的故障預防和處理方法,這對火電廠的運行效率產生一定的影響。本文提出利用數據挖掘技術在風機故障對機組運行造成影響之前,提早發出預警,使風機管理人員及時做出維修方案,避免事故造成重大經濟損失。使用數據挖掘技術首先要有完整的數據源,對數據進行集成、選取和處理,然后挖掘其中內在的關聯規則,以此改善風機故障的預警方法,使其在故障發生前短時間內發出報警,對風機的管理起到優化效果。
火電廠中常用的風機主要包括引風機、冷卻風機、密風機、送風機、吸潮風機、一次風機等,其中由于一次風機運行條件較差,需要連續地在煙塵濃密的環境中進行大功率輸出,具有很高的故障率,進行故障維修平均每年需要兩次以上,每次維修都會導致整個機組減負荷運行甚至造成非計劃停機。從維修記錄和現場經驗總結,風機的常見故障主要包括傳動機構損壞、葉片磨損、動葉卡澀、噪音過大、突發降速、喘振、軸承振動和軸承溫度高等[1]。
KDD 是一種數據挖掘技術,其過程是根據一些特定的度量方法和閾值提取有意義的交互和迭代式多階段過程,主要包括數據準備、數據挖掘、結果表達三個步驟,如圖1 所示。

圖1 數據挖掘技術流程
本文以某火電廠機組系統中的一次風機故障報警優化過程作為研究對象,該風機已經運行4 年,各種運行參數和檢修過程記錄完整,比較適合作為數據挖掘技術的研究內容。該一次風機共安裝檢測點31個,其中入口調節檔板開度1 個、電機前后軸承振動4 個、出口壓力 2 個、風機前后軸承振動 4 個、A 相電流1 個、風機前后軸承溫度6 個、電機前后軸承溫度2 個、出口溫度1 個、電動機定子線圈溫度6 個、風機變頻裝置輸出電流1 個、電機潤滑系統3 個。4 年記錄的運行參數和檢修數據量達到千萬條之多[2]。
數據準備過程由數據集成、數據選取和數據處理三個步驟完成。數據集成是將多個數據渠道獲取的信息進行合并處理;數據選取是將所需要處理的有效數據范圍從整體數據中提取出來,縮小工作量,提高工作效率;數據處理是將原始數據中不準確或遺漏的信息使用其他的數據處理方法進行處理,以滿足挖掘算法的需求,這也可以彌補數據挖掘技術的局限性。
2.1.1 數據集成和選取
需要選取一次風機無故障運轉狀態下的歷史數據信息和另一組故障記錄及其記錄時間點前后的歷史數據。因此,選取一次風機無故障歷史記錄信息的時間為2018 年9 月至2019 年4 月,選取故障信息點及其前后的歷史信息記錄從2019 年7 月至2019年9 月。對選取的數據進行初步統計,各個參數的數據量從4 000~14 000 不等。首先需要進行數據清洗,從記錄中找到嚴重偏離正常范圍的數據或者遺漏和亂碼的數據,對這些數據進行清除。在保證足夠數據量的基礎上去掉一些數據量少、遺失信息過多的測點,數據清洗后保留測點20 個,這些保留的測點全部為數字型物理參數量,包括振動、溫度、開度、電流、壓力等[3]。
2.1.2 數據處理
由于各測點對應的參數不同,所以采集周期和采集數量不同,導致在同一個時間段內每個測點對應的數據時間間隔不一樣,這不符合數據挖掘技術處理要求。因此,需要給每組測點的數據設置一個時間碼,由設定的時間碼,對時間一致性差的數據進行插值處理,這樣處理后的數據就可以做到同一個時間段內各測點的數據數量相同,完成數據的一致性。對選取時間段內一次風機各測點數據插值處理后,重新得到280 000 組數據。這樣龐大的數據量,通過數據挖掘技術是難以處理和完成的[4]。而對于數據挖掘不需要保證時間上連續,只需保證數據對時間上的一致性即可。所以等間隔提取非故障狀態下的1 000組數據和故障點前后5 000 組數據用來研究即可。
描述和預測是數據挖掘的兩個重要因素,描述是找出隱藏在數據中的相關信息,預測是在使用已知數據建立模型的基礎上判斷新數據的發展方向。首先要對數據進行關聯分析,挖掘關聯規則,數據間的關聯表現出的是屬性及其數值頻繁的在給定數據集中體現出的條件。關聯規則的形式可以表現為:

式中:A、B 對應事件屬性,關聯規則X?Y 可解釋為“數據庫中的記錄滿足條件X,那么也很有可能滿足Y”。例如,如果放任風機軸承振動增大,則也極有可能導致電流增大,這種判斷使用關聯規則表示如下:

可以解釋為,這條關聯規則的信任度為80%,支持率為3%,即風機軸承振動增大同時電流也增大的可能性為80%,且這樣的事件發生的概率為3%。數據挖掘過程就是利用建立的關聯規則,從中找出各個測點之間不能被直接發現的內在隱藏關系,因此,為了使挖掘出的關聯能夠更加準確地表達各個測點之間的內在聯系,最小信任度minConf 和最小支持率minSup 的選取是一個非常關鍵的問題,在這個過程中需要使用“匹配率”這個指標,同時使用多組實際數據,從中挖掘出最佳的minSup 與minConf,每組數據對規則庫的匹配率定義為mr則:

式中:k1為所有符合關聯規則的數據總和;k2為只符合規則前件而不符合規則后件的規則數。mr越大越能夠更正確地表達出系統的穩定性,各測點屬性狀態更趨于平穩[5]。
將挖掘出的規則進行整理形成規則庫,選取故障點時間前后5 000 組數據來驗證規則庫的有效性。采用滑動窗口統計法進行驗證,這種方法可以避免不確定因素干擾導致數據偏離有效范圍而發生誤報警。將窗口寬度設置為20,即把20 個測點數據的匹配率取均值。在驗證過程中,將匹配率的下限預警值設定為47%,則表示匹配率低于47%時,系統將進入不穩定狀態,驗證結果如圖2 所示。

圖2 匹配率驗證結果
圖2 中預警點就是匹配率首次降低至47%時的時間點,與原超限報警時的時間點相比提早了7 530 s,即2.5 h,從而起到了預警的效果,對一次風機的故障報警系統具有明顯的優化作用。
通過數據挖掘技術對一次風機故障預警系統進行優化,使用關聯規則可以反映各測點之間的內在關系,故障的形成要通過一個轉變過程,各測點之間的匹配關系逐漸被打破,測點之間的匹配度降低,當低于預警匹配率時,系統提早發出報警,并且報警時間點可以控制在一個良好的時間段內,與原超限報警相比,不會因事后報警而造成生產上的影響,也不會過早發出預警而增加維修作業的工作量,對風機故障的預警系統起到了良好的優化作用。