賴紅軍,王志芳,謝文奮
(1.中國石油天然氣股份有限公司 獨山子石化公司 科技信息處,新疆維吾爾自治區 獨山子區 833699;2.獨山子石化公司 信息網絡公司,新疆維吾爾自治區 獨山子區 833699)
工業控制系統的過程報警作為工藝操作輔助手段和重要的安全措施之一,在現代工業生產過程中扮演著不可或缺的角色。作為工業過程的首道保護層,報警系統的性能優劣直接關系到過程安全、產品質量、生產成本甚至人員傷亡。國內外研究顯示,異常情況下出現的報警過載是常見問題,這通常意味著報警系統在最需要的時候效果最差。
報警系統設計不當的突出表現:設置數量不合理、優先級配置不當、參數配置不當、無法識別和阻止報警洪水等問題,導致報警泛濫,超出操作人員承受能力。DCS 實際處于“報而不警”的狀態是目前石化行業普遍存在的問題[1]。
統計公司某裝置連續3 天的報警為23 萬多條,其中重復報警占到80%。工藝人員處于繁忙的確認和診斷報警中,有效報警識別困難,錯過重要報警的機會增加,大量的異常報警如不能加以有效控制,一旦應對不及時,就可能造成生產波動,帶來效益損失,存在很大的安全隱患。
1)缺乏報警系統頂層設計
缺乏報警理念的科學統一認識,缺乏有效的理論和方法指導,缺乏可持續的管控機制。在裝置建設初期,工藝設計以及DCS 系統的報警組態設計階段,沒有報警需求規格書遵循,各方參與人員對于報警優化問題不夠重視,設計和DCS 組態隨意性較大,仍然集中于單變量獨立簡單設計,并未充分考慮過程變量之間的關聯性和邏輯性,并且只考慮正常工況;在裝置后期運行過程中,從來未開展過報警性能評估和報警合理化分析,報警值、報警級別設置混亂,沒有依據;DCS 增加報警幾乎沒有成本,報警只增不減,報警管理幾乎失控。
2)缺乏報警系統性能監控,沒有有效的技術分析工具和手段,關鍵評價指標不夠明確
裝置每周產生的報警信息數量有成千上萬條之多,多者甚至達到每周五六十萬條,裝置技術人員要每天統計DCS 報警情況,進行原因分析和整改。靠手工完成統計工作,不僅工作量大,而且工作效率低下,誤差較大,僅能統計出報警次數、報警位號等簡單信息,報警信息利用價值并沒有被充分地挖掘出來,一方面工藝人員無法及時篩選出重要報警加以解決,另一方面給DCS 系統維護工程師帶來很大負擔,裝置報警系統性能無法準確評估。
從20 世紀90 年代開始,世界著名石化企業、工程公司和專業公司共同對報警系統進行了研究及實踐,運用先進報警管理的理念,推出了相關的國際規范和工程導則。通過先進報警管理系統的實踐,證明可提高報警系統的有效性和安全性,對工業領域報警管理產生很大影響。
目前國際廣泛認可的報警管理標準或最佳實踐主要包括:ANSI /ISA 18.2-2009 Management of Alarm System for the Process Industries[3]和IEC 62682-2014 Management of Alarm system for the Process Industries[4]。PAS 公司于2016 年發行了《報警管理手冊》,填補了流程工業中一個重要技術領域的空白,是對報警管理影響最大的專著。遵從國際標準及最佳實踐是實現建立和持續保持高水準報警管理的最佳途徑。這一系列標準著作為創新報警管理提供了理論基礎和實踐參考。
學習研究國際規范(國際自動化協會:ISA18.2《過程工業報警系統管理》和英國工程設備和材料用戶協會:EEMUA191《報警系統設計、管理和采購指南》),借鑒國外專業管理公司的最佳實踐,確定報警治理目標和分步實施方案。
第1 步:對標ISA18.2,利用信息化手段收集分析報警數據,實時掌握各裝置報警現狀。對報警系統改進前必須進行全面而完整的報警信息收集和分析,更清楚地了解現有缺陷,為精確查明存在的問題并提出最高效的解決方案提供依據。
第2 步:基層單位成立專家團隊,組織進行不良報警、高頻報警分析,精準施策。持續開展報警合理化工作,從報警設置的目的、報警值和報警級別的優化、操作人員的響應等方面,考慮長效治理措施。
第3 步:對標評價控制系統的報警性能,完善報警管控機制。
第4 步:總結報警治理經驗,制定和遵守企業報警導則。
1)將DCS 系統報警和過程報警完全分開,系統報警對于操作人員來說并沒有多大的意義,不需要他們響應,在操作站的操作界面中,不顯示系統報警信息。利用短信推送功能,將系統報警信息實時推送給DCS 系統維護工程師,確保了系統報警實時響應。
2)搭建DCS 報警信息采集和實時監測管理平臺,從DCS 原始日志入手解析報警記錄的時間順序,通過分析報警、恢復、確認時間,分析不同時段的報警次數、報警響應時間,精準定位不良報警(瞬閃報警、重復報警、陳舊報警等)。經過統計分析和大數據挖掘,將復雜多變的報警信息轉變為可以度量的數字、數據,為裝置的報警統計分析、優化提供決策支持,便于管理者對裝置報警優化情況實時掌握。開發的主要應用功能,實現報警KPI 對比、報警泛濫統計、裝置每日(月)報警數對比、TOP10 報警閉環處置、裝置報警性能評價等數據可視化展示,為裝置報警優化治理提供了強大的數據支撐。
3)充分利用網絡和短信技術,依托移動短信平臺,建立報警推送統一管理系統,將報警信息分級分專業精準推送到指定人員手機短信,提醒裝置各級技術和管理者關注裝置異常變動。另外當裝置發生報警泛濫(10min 內報警超過10 次)時,通常意味著裝置出現波動,也會發送短信給相應裝置和運行部管理人員,便于管理人員及時掌握生產波動信息,實現儀表運維、質量管控、環保監測、工藝管理、設備管理等專業異常故障信息分級管理,重要關鍵點全天候實時報警管控,推動生產管控向智能化運維轉型。
4)圍繞報警合理化,精準施策,優化設計。報警合理化分析的基本方法非常簡單,對每個報警的配置和用途進行審查,各單位組建由相關專業技術人員參與的專家團隊,針對系統中的報警點主要進行以下工作:
①討論該點上每個已組態和可能組態的報警。
②驗證任何所組態的報警是否確實應該存在。通過工藝流程圖、基礎數據、功能說明、工藝安全分析、保護層分析及事故調查報告等資料,根據報警設置的原則確認需要有足夠的時間響應。
③驗證一個報警不會復制在相同條件下發生的另外一個類似的報警。如果出現復制的情況,保留最能夠說明異常條件根本原因的那個報警。
④確定每個報警的正確優先級。報警優先級的確定是根據偏差產生的后果和人員需要響應的時間共同決定的(見表3)。通常,后果越嚴重,所需響應時間越短,報警的優先級越高。
⑤根據工藝歷史數據、相關操作程序、設備和安全系統規范等,確定報警的正確設定值。報警值設定的基礎要考慮到響應報警的時間足夠防止偏差后果的發生,并且恢復至報警設定點和報警死區的正常范圍內。
⑥對于具有不同操作狀態的工藝來說,是否需要多個不同的報警值和報警抑制的條件。
報警合理化分析是報警生命周期活動中的重要一步,是一個持續、動態、循環的過程。通過合理化分析,實現了在現有系統上配置正確的報警、糾正錯誤配置的系統,以提高性能,消除重復報警等;報警合理化分析的結果,為裝置報警優化提供依據。
借助報警平臺的統計和報警合理化分析的結果,占無效報警總數大約70%的不良報警(重復、陳舊、瞬閃、震蕩等)和高頻報警(裝置每天報警超過5 次的)被迅速定位。結合DCS 歷史趨勢和組態,可以精準判斷其屬于哪一類不良報警,從而采取針對性的措施。
按照表1 中的不良報警治理方法,通過優化報警上下限,修改報警死區,優化報警級別等可以很快見效,總體報警事件平均減少50%以上,而改進工作量相對最少。

表1 典型不良報警的治理方法Table 1 Treatment methods of typical bad alarm
5)多工況高級報警技術應用[5]。對于聚合、橡膠、裂解爐等間歇式工藝,生產裝置通常處于多個工況,如開停工、原料和產品切換、設備維修。針對同一個儀表位號在不同配方、不同過程階段或操作模式下,報警的需求通常是不同的。通過按不同工況進行抑制,不同工況報警值設置的技術手段,解決開停工和檢修期間報警泛濫。
6)完善報警系統性能綜合評價機制,ISA18.2 標準中建議的報警性能指標主要有:基于至少30 天的數據的日均每崗、10min 內報警的最大數目、報警泛濫時長占比、抖振報警和瞬閃報警的數目、陳舊報警的數量等。在實踐中單一的指標,如峰值報警和平均報警并不能準確反映報警系統性能,不能簡單地直接用于評價考核。公司創造性地用日報警次數、不良報警(重復報警、瞬閃報警、陳舊報警等)的治理效果、報警泛濫程度等指標進行綜合考量。
7)明確新建裝置的DCS 組態原則,從源頭治理報警,如:死區、濾波、延遲的設置;設置多工況報警抑制和動態修改;系統報警不推送到前臺;報警點的選擇,尤其是DI 點。
8)編制報警管理規范文件,企業報警導則是國外專業管理公司的最佳實踐[6]——報警管理七步法中最基礎的一環,是企業針對報警的制定、實施和修改而編制的一套綜合性指導方針,明確“如何正確執行與設定報警”,為報警的選擇、優先級設置、組態、響應、處理方法、系統監控以及許多其他主題提供一個最理想的規則。國內的石油石化行業中建立企業報警導則的很少,參考ISA-18.2 的要求和公司的報警治理實踐,編制的公司報警導則,作為新裝置報警系統設計、老裝置報警治理的指南,為報警選擇、優先級設置、配置、響應、處理方法、系統監測提供了最佳依據。主要內容包括報警點的選擇、報警優先級的確定、報警的設置、報警的處理方法、報警系統性能的監控、不良報警的解決方案,以及如何進行合理化分析等。為了更好地發揮報警導則的指導作用,將總結的DCS 報警組態的原則和報警治理的基本方法納入其中。
2020 ~2021 年,報警管理關鍵性能指標——日均每崗報警次數從2019 年治理優化前的400 次持續下降到目前的35 次,降幅達90%,其中不良報警數量降幅達83.3%,日均每崗報警次數遠低于國際標準KPI 可接受數量(150 次),如圖1。裝置檢修及開停工期間的報警也得到很好管控,全廠各裝置報警基本達到平衡,并持續降低,個別裝置存在小幅波動。與此同時,操作人員的操作數量也明顯下降。數據統計顯示,報警治理前后操作次數降幅達50%,有效降低了操作人員的操作強度,減少了誤操作的可能性,生產運行更加平穩。

圖1 2021年每崗位報警次數統計Fig.1 Statistics of alarm times per post in 2021
以制度和信息化工具的方式使傳統基于經驗的報警管理方式向系統化、規范化的方式轉變,無效報警數量大幅下降,DCS 報警系統作用充分體現。可靠的報警系統不能直接產生經濟效益,但合理的報警設置和及時正確的操作響應有效提高了裝置的安全性和可操作性,提升了操作人員異常情況處置能力,防止因報警未及時響應處理而產生的工藝波動,從而提高裝置整體運行效能。