李學偉,姚常青,高 嵩
(1.華電章丘發電有限公司,濟南 251200;2.國網山東省電力公司電力科學研究院,濟南 250003)
MaxDNA控制系統DPU頻繁切換導致機組跳閘故障分析
李學偉1,姚常青2,高 嵩2
(1.華電章丘發電有限公司,濟南 251200;2.國網山東省電力公司電力科學研究院,濟南 250003)
對一起335 MW機組MaxDNA控制系統DPU(分布式處理單元)頻繁切換導致機組跳閘的故障進行分析,通過進行切換試驗、故障統計,對比DPU版本號和查閱MaxDNA系統硬件手冊,發現該切換故障是由DPU本身硬件缺陷所導致的。制定解決方案對相應的DPU模塊進行更換,有效地防止了該類型故障的發生。
機組跳閘;分散控制系統;分布式處理單元;頻繁切換
1.1 系統組成
華電章丘發電有限公司二期工程建設2臺350 MW機組,機組分散控制系統 (Distribution Control System,DCS)采用MaxDNA系統。3號機組和4號機組分別于2006年8月和2006年11月相繼投產。
MaxDNA系統的結構如圖1所示。MaxDNA的網絡結構取消了過程級控制和監督級控制之間的區分,把兩者的控制組建在了同一層網絡拓撲中,稱之為MaxNet通信網絡。MaxNet通信網絡采用符合IEEC802.3的雙層以太網介質、物理星型、邏輯環型拓撲,具有冗余通信功能。MaxNet的網絡帶寬可達1 G bit/s,足以勝任大型控制系統的通信負載要求,直連在MaxNet網絡上的有工作站和DPU,共享MaxNet帶寬。工作站與DPU之間的數據通信不需要服務器中轉,可以直接點對點(DPU與DPU之間)或通過廣播 (工作站與工作站或工作站與DPU之間)進行數據通信[1-2]。每1臺工作站或1個DPU在MaxNet網絡看來都是1個結點(Node),也就是MaxDNA取消了過程級控制和監督級控制之間的區分,解決了這兩層控制層之間存在的服務器瓶頸問題。
3號機組DCS由25對DPU構成 (含2對公用系統),4號機組DCS由23對DPU構成,軟件版本為DPU4F 4.3,操作員站各7臺,歷史站各1臺,工程師站各1臺。各對DPU功能分配如表1所示。
正常情況下,每對分布式處理單元的2臺DPU同時運行,1臺工作1臺熱備用。當主DPU故障時將自動切換到副DPU運行,副DPU將接管網絡和I/O系統。主、副DPU通過組態來選擇,一對DPU中任何一個都可以作為主控制器。如果檢測到重大的診斷錯誤,控制權將自動傳給副控制器。DPU可以下載變化的數據并無擾傳給組態。組態的下載可以是整個控制策略也可以是一個單獨的點。完全面向對象的設計允許對控制策略的數據進行封裝以防止在下載和測試過程中由于疏忽引起的擾動。

圖1 MaxDNA系統結構

表1 DPU功能分配
1.2 系統故障情況
2014-07-19T02∶10∶14,4號機組A引風機和B引風機動葉調節指令由48%突減至18%(引風機動葉調節指令自動時低限設置為18%,手動時低限設置為0%),動葉調節開度減小,引風機出力降低,爐膛壓力升高,達到跳閘值,鍋爐MFT。期間4號機組參與引風機自動控制運算的BO6副DPU控制故障,向主DPU自動切換。查閱DCS引風機系統控制器4B06_P在線組態數據,參與控制器間調用的中間變量信號間通信故障報警,無法讀取其余控制器的變量,通過切換實驗初步判斷為DPU故障。
1.3 故障測試
由于DCS系統采用的是MaxDNA早期產品,存在網絡通信故障的隱患[3-4]。2012年和2014年利用機組檢修的機會,委托DCS廠家先后對4號、3號機組DCS控制系統進行了升級,更換了上位機硬件,DPU軟件版本由4.1升級到4.3,控制器(DPU)硬件未進行更換,升級后各項功能正常,切換試驗正常。系統升級后,通過運行一段時間的觀察,DPU切換次數較升級前明顯增多。問題發生后,對DPU頻繁切換的原因進行了分析,并將故障DPU返廠進行進一步測試,分別進行3種切換方式試驗。1)復位切換:復位主控制器,則輔助控制器應接管運行,然后復位輔助控制器,則主控制器接管運行;2)拔卡切換:拔掉主控制器,則輔助控制器應接管運行,然后拔掉輔助控制器,則主控制器接管運行;3)畫面軟件切換:在控制器監控畫面中,選擇輔助控制TAKEOVER按鈕,點確認,則輔助控制器接管運行。在控制器監控畫面中,選擇主控制器TAKEOVER按鈕,點確認,則主控制器接管運行,每次都切換正常。在測試過程中,DPU工作正常未出現網絡通信故障或DPU切換故障。為了徹底排除靜電干擾,增設了獨立的DCS接地極和接地電纜并經測試合格。
1.4 故障影響
自2014年2月至2015年1月,3號、4號機組共發生DPU切換45次,其中3號機組23次、4號機組22次,DPU切換相當頻繁,且不具有周期性和規律性。DPU頻繁切換增大了控制器故障的概率。DPU頻繁切換的主要風險有:一旦主控制器異常切換副控制器失敗時,相關的所有參數將無法顯示,設備無法操作;而當主控制器切換后,接管的副DPU故障時,也可能造成切換不成功控制器內部保護信號的翻轉或者模擬量指令的跳變,造成保護誤動,重要輔機跳閘甚至機組跳閘。如:2011-12-28T09∶16,3號爐C磨煤機跳閘,首出原因為 “一次風機全停”。C1、C2給煤機連鎖跳閘,就地檢查3號爐C磨煤機電機開關無報警信號。檢查歷史趨勢發現從09∶14中斷2 min,查看DCS系統狀態中3F03控制器狀態,發現3F03主控制器在09∶14重啟復位。檢查磨煤機跳閘邏輯,3F03控制器調用的一次風機關反饋的初始值為1,即在控制器重啟復位時,默認初始值,一次風機全停信號被誤發出來,C磨煤機跳閘。主控制器故障復位,由于控制器軟件版本較低,副DPU切換不成功。
針對DPU頻繁切換的情況,通過深入分析現場的一些故障信息與現象,基本上可以確定DPU切換是由DPU故障[5-7]造成的,DPU4F所采用的CPU芯片存在相應的缺陷(BUG)。
DPU4F的CPU采用AMD公司的GeodeSC2200。早期的DPU4F采用D3版本的GeodeTMSC2200,D3版本的CPU由于存在相應不足,后來經過AMD公司的改進,GeodeTMSC2200升級到D3.3版,在CPU升級后,DPU4F也采用D3.3版本的CPU。D3.3與D3版的一個重要升級,修復了存在于D3版本中嚴重BUG。關于這個BUG,AMD官方有一個文檔描述[3-5],具體如下。
異步事件的具體調整導致宕機
說明:如果CPU取指令跨越了頁邊界,并導致tablewalk,PCI總線主控事件,中斷事件發生在一個非常具體的調整;CPU可能出現宕機。
含義:這個宕機的概率是非常小的。根據長期以非常極端的負載條件測試微軟WindowsXP和Linux操作系統內核2.4.17版本及以上的版本,宕機現象已經被觀察到。而這種危險應該也在其他操作系統存在,只是故障還沒有被觀察到。
解決方法:無。宕機的概率有可能通過減少的IRQ和/或SMIs的頻率被降低。總線一次掌管高速緩存行大小(8字節),而不是更少的量,這樣也將減少宕機發生的概率。
通過上述說明可以看出當CPU在某種情況下,會出現宕機現象。雖然發生這種宕機的概率較小,但當計算負荷大且測試時間足夠長,這種宕機現象是確實存在的。
因此可以判斷,當DPU運行時間較長后,D3版本中存在的這個BUG就可能導致該DPU發生宕機,如果此時該DPU的狀態正是Active時,由于Active DPU已不能產生相應的心跳信息,那么此時就會發生切換,另一個DPU就會進行接管。該DPU的心跳信號,與發生宕機時會出現的現象非常吻合。另外從全廠所有的DPU來看,一個月內會發生一次DPU的切換,然而根據用戶報告,發生切換的DPU并不是同一個,即這次切換是這個DPU,下次是另一個DPU,可以看出這種情況只有在DPU運行時間足夠長的時候才會出現,因此與AMD官方文檔的描述也基本吻合。由于這個問題,牽涉到CPU底層的硬件問題,單獨的軟件修復解決這個問題的可能性不大,因此唯一的辦法就是更換DPU,徹底解決D3版本的GeodeTMSC2200所存在的這個BUG。最后確定徹底解決這一問題的方法就是硬件升級和更換新的DPU卡件徹底替換掉那一批DPU,特別是計算負荷大的DPU要優先更換。
DCS廠家研發人員對現場情況進行檢查,2013年脫硝DPU連續運行2年多未發生切換的情況基本確定頻繁切換的原因為DPU本身硬件存在BUG造成。
利用機組調停的時間,首先對4號機組的部分DPU進行了更換和調整。利用現有的4塊全新的備品以及后上系統(脫硝系統、4B塔脫硫系統、脫硝空壓機系統)DPU為2005年以后的產品,不存在設計漏洞。對10塊DPU進行了調換,通過對低版本升高版本以及將相對重要性差一點或者輔助運行的高版本DPU更換到相對重要的主DPU運行各5塊。這樣4號機組23對DPU中保證有16對DPU的主運行DPU為高版本DPU,低版本的DPU作為熱后備使用;2015年9月15日對3號機組DCS系統DPU升級,更換DPU 8對,DPU軟件升級為MR版,運行情況正常,至此所有整改措施完成,這個結果與能夠大幅的降低DPU頻繁切換的次數的分析相符合,也進一步證明了DPU頻繁切換確是由于2004生產的DPU存在BUG的推斷,隨著DPU全面升級計劃(考慮電子元器件壽命)的實行,故障得到徹底解決。
對一起335 MW機組MAXDNA系統DPU頻繁切換導致機組跳閘的故障進行分析,通過切換試驗、故障統計、對比DPU版本號和查閱MAXDNA系統硬件手冊,發現該切換故障是由DPU本身硬件BUG所導致的,并制定了相應的解決方案對相應的DPU模塊進行了更換,實際運行中大大降低了DPU的切換次數,4號機組運行近一年多時間、3號機組運行近半年的時間內未發生DPU頻繁切換的故障,取得了預期的效果。在現場設備維護過程中DPU頻繁切換是一種異常狀態,是機組跳閘的先兆,一旦發現一定要找出真正原因并徹底解決,徹底消除控制系統安全隱患。
除了要加強設備巡檢維護,對電源電壓經常檢測灰塵清理和接地檢查外,建議廠家完善對DPU運行狀態的監視功能,提高DPU切換及故障報警級別,運行過程中主DPU要時刻監測副DPU的心跳信號和網絡狀態,發現異常語音報警同時對副DPU進行隔離,一旦此時主DPU也發生故障將不再進行切換,而是根據實際情況模擬量保持安全值、開關量保持原狀態。
[1]何滔.MaxDNA集散控制系統故障分析[J].電工技術,2013(3):50-51.
[2]曹曉雨.國電智深DCS系統DPU異常切換的處理[J].電子技術與軟件工程,2015(24):134.
[3]楊麗.MaxDNA分散控制系統的分析與探討[J].儀器儀表用戶,2012,19(1):88-91.
[4]曹光偉.MaxDNA分散控制系統在安慶電廠的應用[J].電力建設,2008,29(3):88-90.
[5]吳科,馬振華,朱能飛,等.國產MaxDNA大型分散控制系統在1 000 MW機組一體化控制中的應用[J].華電技術,2015,37(8):6-9.
[6]陳建.新華DCS系統DPU頻繁切換故障的處理[J].寧夏電力,2011(5):47-48.
[7]何滔,張宇飛.MaxDNA集散控制系統在火力發電廠中的應用[J].工業控制計算機,2013,26(7):6-7.
[8]陳珍順.DCS系統DPU網絡故障導致操作失控案例分析[J].內蒙古電力技術,2015,33(1):94-97.
Fault Analysis of Unit Trip Caused by DPU Frequent Switching of MaxDNA System
LI Xuewei1,YAO Changqing2,GAO Song2
(1.Huadian Zhangqiu Corporation,Zhangqiu 251200,China;2.State Grid Shandong Electric Power Research Institute,Jinan 250002,China)
A unit trip fault caused by DPU frequent switching of MaxDNA system in a 350 MW power unit is analyzed.The switch fault is found to be caused by the DPU hardware bug through analyzing the switching test and fault statistics,contrasting the DPU version number and consulting the MaxDNA system hardware manual.The corresponding solution is formulated,and the corresponding DPU module is replaced,which effectively prevents the occurrence of the fault.
unit trip;distribution control system (DCS);distribution processing unit(DPU);frequent switching
TM621.6
B
1007-9904(2017)03-0070-04
2016-09-11
李學偉(1967),男,高級工程師,從事發電廠熱工控制系統維護工作。