馬 咸
(大唐國際發電股份有限公司北京高井熱電廠,北京 100043)
設備報警系統對電廠的設備控制、運行效率和安全生產具有十分重要的指導作用。通常電廠的運行人員可以通過分布式控制系統(Distributed Control System,DCS)發出的報警發現設備故障和運行異常,以便及時采取行動避免事故的發生。隨著近年來信息技術的飛速發展,電廠部署的傳感器數量成倍增加,報警原理和方式也在不斷發展[1,2]。如何在大量的數據中挖掘有效信息,提高報警的時效性越來越受到研究人員的關注[3,4]。
很多研究人員和企業利用智慧信號系統來實現設備故障預測。智慧信號系統利用狀態空間方法建模,將實時工況與設備正常運行工況庫進行運算比對,判斷設備是否存在異常進而發出預警。該系統發出設備故障報警時間遠超前于DCS系統,但準確率難以通過傳統DCS系統的計算方法進行評價。
本文通過研究智慧信號系統預警分類和演變,對比分析多種預警準確率評價方法,初步建立了適用于智慧系統的預警評價方法。利用該方法對6家電廠2017年10月至2018年4月的預警分析情況和變化趨勢進行了分析和總結。
當設備發生異常時,智慧信號系統將發出一個或多個預警(Advisory)。預警被觸發后,數據中心將按照處理流程進行預警分析。對預警采用逐級處理的方式進行分析,每經過一步處理,預警的狀態都會改變。處理完畢的預警最終會解除預警。預警分析處理是一個連續的過程,一個預警從產生到最后處理完成,數據分析工程師按照工作流程在60天內處理完畢。具體預警處理階段和狀態如圖1所示。

圖1 預警處理流程
通常對一個預警的整個生命周期中分四步進行處理。首先由快速響應人員(RRT)初步篩選、之后交由分析工程師(CRE)分析判斷、再由數據分析主管(CRM)做決定性分析、最后交由分析工程師(CRE)發出預警判斷結果。一個預警無論經過何種狀態最終都會被解除(Dismissed)。
需要特別說明的是,所有預警無論經過產生、分析和處理過程,最終都會被關閉變為三種狀態:①瞬態預警、②模型維護完成、③預警解決形成閉環管理。
預警解除的三種情況中,瞬態預警表示該預警是由于機組運行工況發生劇烈變化引起的,其中也存在一定誤預警。模型維護表示該預警可以有效地提高模型精度和適應性,并已經完成重新訓練模型的過程。解決形成閉環的情況就是已經開具案例(Case)并得到電廠反饋為有效案例,并已經進行了修理或更換等相應處理,預警被解除。
目前對于預警準確率存在三種統計方法,以下將對三種計算方法原理進行說明。
有效案例預警統計法是通過有效案例和總預警量的比值來統計預警的準確率。具體如下式所示:
AdvisoryAccuracy(預警準確率)=
這種方法的不足在于:
①多個預警有時只能生產一個案例(Case)。計算案例數和總預警數量是兩個不同的統計量,不具有可比性。
②案例和預警的處理周期不同。未生成案例的預警的處理速度將遠快于案例的處理速度。
③該方法會變相減少有效預警。設備發生故障的時候,往往會產生多個預警,多個預警只能合并生成一個案例。智慧信號系統與傳統監測手段相比,一個重要的特點就是靠多個測點的相關設備指標的變化判斷設備故障。
該方法是將統計一個時間段中解除瞬態預警量和允許的總預警量比值定義為誤報率。通過將誤報率換算后間接求出預警準確率[5]。
通常認為一個訓練合格的狀態空間允許總預警量為一個定值,也就是數據中心監視設備模型總量的60%。每個模型被觸發都可以預警,智慧信號系統中允許存在的活動的預警不應超過模型總量60%。詳見下式:
AdvisoryFalserate(預警誤報率)=
這種方法的不足在于:
(1)該統計方法存在分子與分母不是完全相互包含的問題。
(2)該統計方法還存在將活動預警(Active Advisory)和已解除預警(Dismissed Advisory)進行混合比較的問題。任何預警在產生后,經過處理后都會被關閉。無論如何,處理預警都會在系統中最后以模型維護、閉環解決和瞬態預警三種狀態存在。但是該統計的總預警量是指還處于活動期(未處理完成的預警)量,解除的瞬態預警數量(分子)不存在于總預警數量中(分母)。
智慧信號系統根據設備狀態進行建模,利用設備健康情況下的歷史工況建立狀態矩陣(State Matrix),一旦設備當前工況與狀態矩陣中的工況不同,就會發出一個或多個預警(Advisory)。預警通常表示為設備存在故障。預警還會在設備性能劣化或者發生某種新工況(如試驗、設備切換)時候發出。
預警發出后會經過數據中心人員進行判斷分析并于現場進行核實,在這一階段預警都處于活動狀態,可以視為活動預警(Active Advisory)。現場設備故障解決后數據中心會將預警解除,此時預警可以視為已解除預警(Dismissed Advisory)。活動預警和已解除預警屬性不同,活動預警仍在處理過程中,已解除預警有處理結果,兩類預警應該按照不同的統計方法進行預警準確率(Advisory Accuracy)評價。
前文中提到,預警可以分為活動預警和已解除預警兩類。活動預警實際上還在進行處理,無法簡單定義預警的有效性。但是已解除的預警是經過數據中心分析后得出結論的預警,分析已解除預警對評價數據中心工作具有一定意義。該方法對預警誤報率的定義是:已解除預警中瞬態預警和已解除預警總量的比值。
AdvisoryFalserate(預警誤報率)=
本研究提出的這種預警統計方法具有以下幾點優勢:
①該方法統計的并不是所有預警,而是統計已經有結論的經過分析流程的解除預警。預警由于在不同階段有不同的狀態,活動預警和已解除預警不能混在一起進行計算對比。該方法主要用于評價已解除預警的準確率。
②統計的分子和分母本身是包含的關系,也就是解除的瞬態預警是在解除預警的總量中的,具有一定的統計意義。
③將模型維護調優考慮為一種有效預警。從模型意義上講,預警生成本身并不一定是設備故障,它實際表示的一種與模型不匹配的設備異常情況,或者有新的未在模型中存在的運行工況發生。新工況的識別,也要通過預警來進行提示,將新的工況數據輸入模型中訓練(Train)。因此,預警不僅是在指示設備異常,也是模型優化和機器學習的重要過程和手段。
本研究應用2.3中的已解除預警評價方法計算了智慧信號系統監視某6家電廠的預警準確率,結果如圖2所示。

圖2 數據中心預警準確率分析
圖2為數據中心預警準確率分析。數據中心20172017年7月以來至2018年3月,通過對智慧信號系統進行模型維護、閾值調整和修改模型,使得系統預警誤報率有較大降幅。其中電廠2、電廠3和電廠4誤報率降低均達到50%以上。電廠1在2017年10月的預警準確率不足14%。在經過模型維護和調整后,2018年3月高井電廠準確率升至63%。智慧信號系統監視6家電廠的預警準確率在2018年3月相較2017年10月提升33%。
本文通過分析智慧信號系統預警分類和演變,對比分析多種預警和案例評價方法初步建立了智慧電廠電力數據監測診斷評價指標。根據評價指標對北京國際電力數據監測診斷中心2017年10月至2018年3月的預警分析情況變化趨勢進行分析和總結。
研究表明已解除預警評價法計算的預警準確率,可以有效地反應數據中心工作的質和量,對評價分析中心工作具有一定意義。通過對智慧信號系統進行模型維護、閾值調整和修改模型,可以有效降低系統預警誤報率。2017年10月至2018年3月智慧信號系統誤報率下降26%~59%,智慧信號對6家電廠的預警準確率已從2017年10月的25%升至2018年3月的58%。