, ,
(國(guó)家電網(wǎng)公司運(yùn)行分公司宜賓管理處,四川 宜賓 644000)
特高壓直流控保系統(tǒng)網(wǎng)絡(luò)風(fēng)暴造成主機(jī)死機(jī)機(jī)理分析及網(wǎng)絡(luò)測(cè)試方法研究
禹佳,劉俊杰,孫文
(國(guó)家電網(wǎng)公司運(yùn)行分公司宜賓管理處,四川 宜賓 644000)
基于特高壓直流輸電工程實(shí)際發(fā)生的由于控制保護(hù)系統(tǒng)網(wǎng)絡(luò)風(fēng)暴引發(fā)主機(jī)死機(jī)的事件,分析了相關(guān)機(jī)理,提出了造成主機(jī)死機(jī)的3個(gè)條件,并給出了事件發(fā)生原因,分析表明現(xiàn)有特高壓直流控制保護(hù)系統(tǒng)中,主機(jī)網(wǎng)絡(luò)報(bào)文篩查檢測(cè)功能不完善,在出現(xiàn)長(zhǎng)報(bào)文自鎖時(shí)不能及時(shí)提醒CPU采取應(yīng)對(duì)措施的嚴(yán)重缺陷。因此,在保護(hù)主機(jī)中增加了對(duì)超長(zhǎng)報(bào)文的篩查檢測(cè)功能,當(dāng)信息子站與控制保護(hù)系統(tǒng)之間的報(bào)文超過(guò)255字節(jié)后,控保主機(jī)系統(tǒng)選擇不進(jìn)行接收。同時(shí),為了驗(yàn)證網(wǎng)絡(luò)性能及分析相關(guān)事故,提出了特高壓換流站控制保護(hù)系統(tǒng)網(wǎng)絡(luò)測(cè)試方案。實(shí)際事件分析體現(xiàn)了分析的正確性。
特高壓直流;控保系統(tǒng);網(wǎng)絡(luò)風(fēng)暴;測(cè)試方案
隨著中國(guó)西部大開(kāi)發(fā)和電力能源戰(zhàn)略的推進(jìn),集中于四川金沙江、雅礱江流域的多條特高壓直流輸電工程已逐漸投運(yùn)[1-3]。其中,宜賓地區(qū)兩條額定電壓±800 kV特高壓直流輸電線路,總額定容量達(dá)到14 400 MW,已經(jīng)成為“西電東送”重要的電力通道。
由于特高壓直流采用晶閘管這一電力電子元件進(jìn)行交流與直流的換流,因此必須配置控制系統(tǒng)調(diào)節(jié)直流的電壓和電流[3-5]。如今,特高壓直流的控制保護(hù)系統(tǒng)由雙極控制、極控制、閥組控制等多個(gè)環(huán)節(jié)共同組成。為了保證控制環(huán)節(jié)間相互協(xié)調(diào),需要在不同環(huán)節(jié)間進(jìn)行系統(tǒng)狀態(tài)、控制指令等信號(hào)的通信。一旦網(wǎng)絡(luò)系統(tǒng)出現(xiàn)故障,將導(dǎo)致特高壓直流異常運(yùn)行,甚至出現(xiàn)雙極閉鎖,后果極為嚴(yán)重。
復(fù)奉直流是國(guó)家電網(wǎng)公司第一條特高壓直流工程,迄今為止已運(yùn)行6年,其源源不斷地將西部清潔能源輸送至東部負(fù)荷中心。復(fù)奉直流采用ABB公司提供的DCC800直流控保系統(tǒng),在2016年7月19日由于網(wǎng)絡(luò)風(fēng)暴導(dǎo)致雙極保護(hù)主機(jī)狀態(tài)丟失,引起了復(fù)奉直流雙極閉鎖,引發(fā)了業(yè)界極高的關(guān)注。
其實(shí)網(wǎng)絡(luò)風(fēng)暴所引起的安全問(wèn)題在智能變電站已經(jīng)得到了高度的重視,有學(xué)者在綜述智能變電站二次系統(tǒng)過(guò)程層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可靠性和實(shí)時(shí)性分析的文章[6]中就指出,當(dāng)智能變電站單個(gè)設(shè)備通信鏈路異常時(shí),有可能會(huì)引起多個(gè)設(shè)備數(shù)據(jù)鏈路發(fā)生崩塌式異常,進(jìn)而導(dǎo)致整個(gè)二次網(wǎng)絡(luò)系統(tǒng)癱瘓。

圖1 LAN網(wǎng)絡(luò)示意圖

圖2 控制保護(hù)系統(tǒng)監(jiān)視總線(以1極為例)
然而,換流站中由于網(wǎng)絡(luò)異常導(dǎo)致主機(jī)死機(jī)、雙極閉鎖等問(wèn)題還鮮見(jiàn)報(bào)道。在此背景下,在介紹特高壓直流控制保護(hù)系統(tǒng)典型結(jié)構(gòu)的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)風(fēng)暴造成主機(jī)死機(jī)的機(jī)理進(jìn)行了分析,并提出了特高壓換流站控制保護(hù)系統(tǒng)網(wǎng)絡(luò)測(cè)試方案。通過(guò)對(duì)復(fù)奉直流“7·19”典型事件的分析,驗(yàn)證了機(jī)理分析的正確性,并提出了相應(yīng)的反故障措施。
以復(fù)奉直流為例,介紹特高壓直流控制保護(hù)的典型結(jié)構(gòu)。
復(fù)奉直流控制保護(hù)主機(jī)為ABB公司的DCC800系統(tǒng),采用Intime實(shí)時(shí)操作系統(tǒng)。每臺(tái)主機(jī)配置雙網(wǎng)絡(luò)分別接入交換機(jī)A和B,再通過(guò)BPSIA、BPSIB接入SCADA系統(tǒng),SCADA系統(tǒng)由南瑞供貨,如圖1所示。
每套極控系統(tǒng)(PCPA1、PCPB1)均通過(guò)eTDM總線監(jiān)視3套雙極保護(hù)系統(tǒng)(BCPA2、BCPB2、BPC2)的狀態(tài),如圖2。從PCP軟件中能看到,在PCP控制主機(jī)無(wú)法檢測(cè)到3套BCP保護(hù)主機(jī)狀態(tài)時(shí),會(huì)導(dǎo)致PCP控制主機(jī)發(fā)出極S停運(yùn)的指令,可造成極停運(yùn)??紤]到eTDM總線運(yùn)行正常,極有可能是交換機(jī)故障引起雙極控制保護(hù)主機(jī)死機(jī),PS932板卡監(jiān)測(cè)到主機(jī)狀態(tài)不為ACTIVE,并將信息發(fā)送至極控。
2.1機(jī)理分析
控制保護(hù)系統(tǒng)主機(jī)死機(jī)是一種極為罕見(jiàn)的事件。考慮到普通的數(shù)據(jù)掉包、交換機(jī)故障只會(huì)引起通信故障,因此若要引起特高壓直流控制保護(hù)主機(jī)死機(jī),須滿足以下條件:
1)由于一旦網(wǎng)絡(luò)數(shù)據(jù)不符合控制保護(hù)廠家的協(xié)議,則在網(wǎng)絡(luò)層解包時(shí)即被忽略,無(wú)法到達(dá)應(yīng)用層。因此,如果發(fā)生由于網(wǎng)絡(luò)原因?qū)е轮鳈C(jī)死機(jī),必然是由于主機(jī)收到大量的符合廠家控制保護(hù)協(xié)議的數(shù)據(jù),超過(guò)控制保護(hù)主機(jī)的內(nèi)部緩存,引起主CPU讀取超時(shí),引起主機(jī)死機(jī)。
2)主機(jī)沒(méi)有內(nèi)部緩存溢出檢測(cè)功能,或檢測(cè)功能不完善,導(dǎo)致大量數(shù)據(jù)在內(nèi)存中堆積,而主CPU沒(méi)有及時(shí)發(fā)現(xiàn)。
3)若要引起大面積主機(jī)同時(shí)死機(jī),那么大量數(shù)據(jù)還必須是通過(guò)網(wǎng)絡(luò)廣播的方式發(fā)送的。
根據(jù)上述條件可知,如果控制保護(hù)主機(jī)是由于網(wǎng)絡(luò)原因出現(xiàn)死機(jī),可以得出如下判斷:
1)數(shù)據(jù)來(lái)源自控制保護(hù)設(shè)備本身,比如網(wǎng)關(guān)服務(wù)器;
2)考慮到換流站系統(tǒng)LAN中,主機(jī)間是不進(jìn)行通信的,具有廣播性質(zhì)的數(shù)據(jù)主要是網(wǎng)關(guān)服務(wù)器的總召指令。
綜上所述,由于網(wǎng)絡(luò)風(fēng)暴導(dǎo)致控制保護(hù)系統(tǒng)死機(jī)的主要原因是網(wǎng)關(guān)服務(wù)器與主機(jī)之間的通信存在問(wèn)題,導(dǎo)致網(wǎng)關(guān)服務(wù)器發(fā)出的總召?gòu)V播沒(méi)有得到響應(yīng)而頻繁發(fā)送總召?gòu)V播,長(zhǎng)字節(jié)數(shù)據(jù)造成主機(jī)超時(shí)死機(jī),亦即網(wǎng)絡(luò)中出現(xiàn)死鎖現(xiàn)象。一旦出現(xiàn)死鎖,一組節(jié)點(diǎn)由于沒(méi)有空閑緩沖區(qū)而無(wú)法接收和轉(zhuǎn)發(fā)分組,節(jié)點(diǎn)之間相互等待并一直保持這一僵局,此時(shí)只能靠人工干預(yù)重新啟動(dòng)網(wǎng)絡(luò)來(lái)解除死鎖。
2.2反事故措施
通過(guò)分析表明,隨著特高壓直流運(yùn)行時(shí)間的不斷增長(zhǎng),設(shè)備老化等現(xiàn)象逐漸顯現(xiàn),網(wǎng)絡(luò)異常導(dǎo)致流量劇增現(xiàn)象是難以避免的。因此,需要采取必要措施防止網(wǎng)絡(luò)異常后引起故障擴(kuò)大。而網(wǎng)絡(luò)異常后導(dǎo)致事故進(jìn)一步擴(kuò)大的根本原因在于控保系統(tǒng)主機(jī)網(wǎng)絡(luò)報(bào)文篩查檢測(cè)功能不完善,在出現(xiàn)長(zhǎng)報(bào)文自鎖時(shí)不能及時(shí)提醒CPU采取應(yīng)對(duì)措施。
因此主要的改進(jìn)措施應(yīng)是在保護(hù)主機(jī)中增加對(duì)超長(zhǎng)報(bào)文的篩查檢測(cè)功能,當(dāng)信息子站與控制保護(hù)系統(tǒng)之間的報(bào)文超過(guò)255字節(jié)后,控保主機(jī)系統(tǒng)選擇不進(jìn)行接收(IEC 60870-5-1規(guī)定的最大用戶數(shù)據(jù)的數(shù)目為255個(gè)字節(jié),如果幀長(zhǎng)影響到召喚的循環(huán)時(shí)間,特別是當(dāng)發(fā)生傳輸差錯(cuò)時(shí),還得進(jìn)一步限制用戶數(shù)據(jù)的數(shù)目)。
由于特高壓直流控制保護(hù)系統(tǒng)網(wǎng)絡(luò)對(duì)直流輸電安全可靠性具有重要的意義,因此為了驗(yàn)證網(wǎng)絡(luò)性能,分析相關(guān)事故,需要在投運(yùn)前以及事件發(fā)生后對(duì)控保系統(tǒng)網(wǎng)絡(luò)進(jìn)行測(cè)試。
3.1測(cè)試平臺(tái)
待測(cè)試交換機(jī)通過(guò)以太網(wǎng)口連接所有二次設(shè)備(服務(wù)器),二次設(shè)備連接在仿真的并可以交換相關(guān)電力數(shù)據(jù)的一次設(shè)備上,整個(gè)網(wǎng)絡(luò)上的結(jié)構(gòu)和數(shù)據(jù)交換情況需接近真實(shí)網(wǎng)絡(luò)。所有網(wǎng)絡(luò)設(shè)備之間通過(guò)建立于TCP/IP協(xié)議之上的IEC 60870-5-103協(xié)議進(jìn)行通信。
網(wǎng)絡(luò)測(cè)試器具有若干網(wǎng)絡(luò)端口,每一個(gè)端口可以模擬一個(gè)網(wǎng)絡(luò)設(shè)備,進(jìn)行數(shù)據(jù)收發(fā)。測(cè)試可模擬多臺(tái)網(wǎng)絡(luò)設(shè)備,通過(guò)網(wǎng)線連接在交換機(jī)上。網(wǎng)絡(luò)系統(tǒng)分析儀通過(guò)網(wǎng)線連接在交換機(jī)上,用以對(duì)網(wǎng)絡(luò)情況進(jìn)行監(jiān)控并抓取數(shù)據(jù)報(bào)文。
3.2建議測(cè)試項(xiàng)目
1)吞吐量測(cè)試:恒定負(fù)載時(shí)間為60 s;測(cè)試次數(shù)為20次并取平均值;測(cè)試粒度為1%,幀長(zhǎng)度選擇分別為64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
2)時(shí)延測(cè)試:數(shù)據(jù)發(fā)送持續(xù)時(shí)間為120 s;重復(fù)次數(shù)為20次并取平均值;同時(shí)發(fā)送方和接受方有時(shí)間同步。
3)丟包率測(cè)試:負(fù)載量由100%開(kāi)始按5%逐級(jí)遞減,該測(cè)試會(huì)一直重復(fù)進(jìn)行,直到存在連續(xù)3個(gè)迭代沒(méi)有發(fā)生幀丟失;測(cè)試次數(shù)為20次;幀長(zhǎng)度選擇分別為64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
4)背靠背測(cè)試:測(cè)試時(shí)間至少為2 s;測(cè)試次數(shù)為50次。
4.1事件描述
2015年7月19日14時(shí)40分,復(fù)龍站報(bào)SCM服務(wù)器與SCADA通訊故障,ABB后臺(tái)與南瑞OWS雙極直流場(chǎng)區(qū)域開(kāi)關(guān)量狀態(tài)及主機(jī)的監(jiān)視全部變灰,失去監(jiān)視功能,如圖3所示。經(jīng)分析判斷為雙極SI服務(wù)器(BPSIA、BPSIB)故障。
14時(shí)51分報(bào)出“PCP11A/B 系統(tǒng)與1臺(tái)BCP MC2的通訊故障,PCP21A/B 系統(tǒng)與1臺(tái)BCP MC2的通訊故障、PCP21A 與所有BCP MC2的通訊故障、PCP11B 與所有BCP MC2的通訊故障”,隨后極控發(fā)出“PCP21/11 極控 5 min內(nèi)慢停ON”的信號(hào),雙極功率控制OFF,單極功率控制ON,5 min后極Ⅰ和極Ⅱ功率分別以100 MW/min開(kāi)始下降,直至極Ⅰ和極Ⅱ相繼降至零。主要事件記錄見(jiàn)表1。

表1 事件記錄

圖3 SCADA系統(tǒng)失去監(jiān)視功能
4.2網(wǎng)絡(luò)測(cè)試結(jié)果
7月24日至26日,在仿真試驗(yàn)室開(kāi)展了網(wǎng)絡(luò)測(cè)試工作,試驗(yàn)前,用復(fù)龍站換下的故障交換機(jī)替換下仿真試驗(yàn)室的交換機(jī),啟動(dòng)所有控制保護(hù)主機(jī)和RTDS仿真器,開(kāi)展72 h的運(yùn)行觀察以及交換機(jī)單體試驗(yàn)。
總體結(jié)果反映,數(shù)據(jù)幀長(zhǎng)越小,對(duì)測(cè)試結(jié)果影響越大;反之,幀長(zhǎng)越大,對(duì)測(cè)試結(jié)果影響越小。因?yàn)閷?duì)于網(wǎng)絡(luò)設(shè)備而言,在同一帶寬下,幀長(zhǎng)越小數(shù)據(jù)幀的數(shù)量就越大,那么網(wǎng)絡(luò)設(shè)備處理這些數(shù)據(jù)幀花費(fèi)的時(shí)間就會(huì)越多;反之幀長(zhǎng)越大,數(shù)據(jù)幀的數(shù)量就越小,那么網(wǎng)絡(luò)設(shè)備處理這些數(shù)據(jù)幀花費(fèi)的時(shí)間就會(huì)越少,也就越容易處理。隨著網(wǎng)絡(luò)負(fù)載的逐漸增大,相關(guān)網(wǎng)絡(luò)性能參數(shù)也紛紛降低,但并未出現(xiàn)網(wǎng)絡(luò)擁塞導(dǎo)致設(shè)備之間通訊中斷的情況,網(wǎng)絡(luò)系統(tǒng)分析儀也一直可以抓取到相關(guān)一次設(shè)備之間的數(shù)據(jù)報(bào)文。通過(guò)測(cè)試結(jié)果分析認(rèn)為,該被測(cè)試交換機(jī)的性能在上述4個(gè)指標(biāo)的表現(xiàn)上屬于正常。
試驗(yàn)時(shí)也發(fā)現(xiàn),在網(wǎng)絡(luò)中出現(xiàn)長(zhǎng)字節(jié)數(shù)據(jù)時(shí),主機(jī)與網(wǎng)關(guān)服務(wù)器間的通訊會(huì)頻繁中斷。
4.3事件原因分析
由上述分析結(jié)果表明,復(fù)龍站由于網(wǎng)絡(luò)異常導(dǎo)致控制保護(hù)主機(jī)大面積死機(jī),并引發(fā)雙極閉鎖直接原因是網(wǎng)絡(luò)中發(fā)生了極小概率的故障,導(dǎo)致網(wǎng)關(guān)服務(wù)器與控制保護(hù)主機(jī)的通訊死鎖,產(chǎn)生了大量的廣播報(bào)文,而控制保護(hù)主機(jī)沒(méi)有完善的檢測(cè)手段,主CPU面對(duì)大量的報(bào)文運(yùn)行超時(shí)死機(jī)。
4.4復(fù)奉直流功率緩降原因
復(fù)奉直流極控系統(tǒng)在檢測(cè)到3套雙極保護(hù)系統(tǒng)同時(shí)故障(NO_BIP_ACTV_AND_OK)延時(shí)5 min,或者檢測(cè)到直流分壓器SF6氣體壓力降低至跳閘值時(shí)(DC_VOLT_DIVIDER_S_STOP),將以100 MW/min的速度回降該極的功率。

圖4 功率回降功能啟動(dòng)
而在該事件中,檢查極控系統(tǒng)軟件,發(fā)現(xiàn)故障時(shí)4套極控系統(tǒng)主機(jī)均檢測(cè)到3套雙極保護(hù)主機(jī)不在值班(ACTIVE)狀態(tài),極控啟動(dòng)直流功率回降,符合軟件功能邏輯(即雙極區(qū)域無(wú)保護(hù)運(yùn)行時(shí),極控啟動(dòng)功率回降)。
在介紹特高壓直流控保系統(tǒng)典型結(jié)構(gòu)的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)風(fēng)暴造成主機(jī)死機(jī)的機(jī)理進(jìn)行了分析,并提出了特高壓換流站控制保護(hù)系統(tǒng)網(wǎng)絡(luò)測(cè)試方案,得出了以下結(jié)論:
1)網(wǎng)絡(luò)風(fēng)暴引起特高壓直流控制保護(hù)主機(jī)死機(jī),須滿足以下條件:主機(jī)收到大量的符合廠家控制保護(hù)協(xié)議的數(shù)據(jù),超過(guò)控制保護(hù)主機(jī)的內(nèi)部緩存;主機(jī)沒(méi)有內(nèi)部緩存溢出檢測(cè)功能,或檢測(cè)功能不完善,導(dǎo)致大量數(shù)據(jù)在內(nèi)存中堆積,而主CPU沒(méi)有及時(shí)發(fā)現(xiàn);大量數(shù)據(jù)還必須是通過(guò)網(wǎng)絡(luò)廣播的方式發(fā)送的。
2)由于網(wǎng)絡(luò)風(fēng)暴導(dǎo)致控制保護(hù)系統(tǒng)死機(jī)的主要原因是網(wǎng)關(guān)服務(wù)器與主機(jī)之間的通信存在問(wèn)題,導(dǎo)致網(wǎng)關(guān)服務(wù)器發(fā)出的總召?gòu)V播沒(méi)有得到響應(yīng),頻繁發(fā)送總召?gòu)V播,長(zhǎng)字節(jié)數(shù)據(jù)造成主機(jī)超時(shí)死機(jī),亦即網(wǎng)絡(luò)中出現(xiàn)死鎖現(xiàn)象。
3)由于特高壓直流控制保護(hù)系統(tǒng)網(wǎng)絡(luò)對(duì)直流輸電安全可靠性具有重要的意義,因此為了驗(yàn)證網(wǎng)絡(luò)性能,分析相關(guān)事故,在投運(yùn)前以及事件發(fā)生后須對(duì)控保系統(tǒng)網(wǎng)絡(luò)進(jìn)行測(cè)試。測(cè)試項(xiàng)目包括吞吐量測(cè)試、時(shí)延測(cè)試、丟包率測(cè)試和背靠背測(cè)試。
4)網(wǎng)絡(luò)異常后導(dǎo)致事故進(jìn)一步擴(kuò)大的根本原因在于控保系統(tǒng)主機(jī)網(wǎng)絡(luò)報(bào)文篩查檢測(cè)功能不完善,在出現(xiàn)長(zhǎng)報(bào)文自鎖時(shí)不能及時(shí)提醒CPU采取應(yīng)對(duì)措施。因此,主要的改進(jìn)措施應(yīng)是在保護(hù)主機(jī)中增加對(duì)超長(zhǎng)報(bào)文的篩查檢測(cè)功能,當(dāng)信息子站與控制保護(hù)系統(tǒng)之間的報(bào)文超過(guò)255字節(jié)后,控保主機(jī)系統(tǒng)選擇不進(jìn)行接收。
[1] 鄭曉冬,邰能靈,楊光亮,等.特高壓直流輸電系統(tǒng)的建模與仿真[J] .電力自動(dòng)化設(shè)備,2012,32(7):10-14.
[2] 謝紹宇,王秀麗,王錫凡.交直流混聯(lián)系統(tǒng)可靠性評(píng)估[J].電力自動(dòng)化設(shè)備,2011,31(7):10-16.
[3] Aik D L H, Andersson G. Power Stability Analysis of Multi-infeed HVDC Systems[J].IEEE Trans. on Power Delivery, 1998,13(3):923-931.
[4] IEEE PES Transmission and Distribution Committee.IEEE Guide for Planning DC Links Terminating at AC Locations Having Low Short-circuit Capacities[R].Newyork:1997.
[5] 李少華,劉濤,蘇勻,等.±800 kV特高壓直流輸電系統(tǒng)解鎖/閉鎖研究[J].電力系統(tǒng)保護(hù)與控制,2010,38(6):84-87.
[6] 陰玉婷,楊明玉,鄭永康.智能變電站網(wǎng)絡(luò)化二次系統(tǒng)及其在線監(jiān)測(cè)研究綜述[J].電氣自動(dòng)化,2014,36(1):1-4.
According to the actual network failure caused by network storm in UHVDC control and protection system, the relevant mechanism is analyzed, three conditions are put forward to host crashes, and the causes of the accident are given, which ultimately leads to the DC bipolar blocking event. Through the system simulation analysis of the blocking event, it is found that the DCC800 host network packet screening detection function is not perfect, in the emergence of long packets of self lock it cannot be timely remind CPU to take measures to deal with serious defects. Therefore, in the protection of the host the length of the packet screening detection function is added, when the message is more than 255 bytes between the station and the control protection system, the host computer control system selects not to receive. At the same time, in order to verify the performance of the network and analyze the related accidents, the network testing schemes for the control and protection system of UHVDC converter station are proposed. The analysis of actual event shows the correctness of the analysis.
UHVDC;control and protection system;network storm;testing scheme
TM76
:B
:1003-6954(2017)04-0034-04
2017-04-16)
禹 佳(1983),本科、高級(jí)工程師,研究方向?yàn)樘馗邏褐绷鬏旊娂夹g(shù); 劉俊杰(1989),本科、助理工程師,研究方向?yàn)樘馗邏褐绷鬏旊娂夹g(shù); 孫 文(1980),本科、高級(jí)工程師,研究方向?yàn)樘馗邏褐绷鬏旊娂夹g(shù)。