鄧 勇 黃 烽 陸 榛 宋福海 任曉輝
(1. 國網福建電力調度控制中心,福州 350003;2. 國網福州供電公司,福州 350009)
一起繼電保護裝置數據異常故障分析與對策
鄧 勇1黃 烽2陸 榛1宋福海1任曉輝1
(1. 國網福建電力調度控制中心,福州 350003;2. 國網福州供電公司,福州 350009)
本文針對某次繼電保護裝置告警“內存錯誤”并伴隨差動保護元件動作報文的故障進行分析,詳細介紹了動作情況、現場檢查和缺陷排查過程,查明故障原因是Hdlc編碼芯片運行一段時間后發生引腳接觸不良,導致與CPU總線相連的器件通信異常,影響各器件的穩定運行。本文結合故障案例,分析繼電保護裝置內部器件結構,提出了在裝置狀態檢修工作中應對裝置內部器件及其之間通信狀況開展監視、對Flash芯片壽命進行評估等建議。
繼電保護;誤動;裝置缺陷;裝置自檢;Flash
繼電保護裝置屬于電子產品,由許多邏輯功能器件組成,即各類功能芯片及其外圍電路和數據通信總線組成,通過微型處理器的強大運算能力實現復雜的保護邏輯。邏輯功能器件劣化將會造成不同程度裝置缺陷的發生,嚴重時將對保護邏輯、裝置行為造成影響,甚至導致裝置誤動、拒動的發生。邏輯功能器件通常可靠性較高,因此暴露出的問題相對較少。同時由于裝置硬件結構復雜,需要運維人員具有較高的素質才能夠分析裝置缺陷原因[1]。
裝置缺陷的發展過程通常可用P-F曲線描述,即裝置功能退化到潛在缺陷P點之后才逐步發展為能監測到的缺陷,若潛在缺陷未被發現并及時處理,則通常將加速退化直至 F點而造成故障[2]。潛在的硬件缺陷往往也屬于裝置隱性故障,正常運行時對系統沒有影響,但當系統處于壓力狀態時同樣可能造成誤動或拒動故障[3]。對于電力系統一次設備的老化程度分析通常可以使用其理化參數[4-5]。而由于保護裝置結構的復雜性,關于保護裝置故障的研究通常是圍繞保護邏輯上的錯誤開展[6-8],深入研究由裝置劣化引起故障機理的文獻則相對較少。隨著保護裝置自檢技術的發展,大部分功能缺陷通過裝置自檢能夠被發現,并主動閉鎖保護邏輯和發出告警信號,使運維人員能及時開展檢修工作。許多文獻開展了裝置在線監測技術的研究,主要包括定值校核、自檢告警事件上傳、多源數據對比等。但這些監測功能同樣只局限于反映裝置缺陷是否發生,仍存在無法反映裝置劣化過程的問題[9-10]。
本文針對某次由單芯片異常造成裝置其他芯片損壞、保護邏輯錯誤的故障,詳細介紹了裝置檢查、缺陷分析和處理過程,分析導致故障發生的原因。探討繼電保護裝置狀態檢修工作的改進措施,指出應進一步關注裝置內部器件的劣化過程。分析了裝置內部器件結構,提出對裝置內部器件及其之間通信狀況開展監視、對 Flash芯片壽命進行評估等措施,以更全面掌握裝置運行狀態,提高裝置狀態檢修水平。
2015年5月,現場對220kV某線路A變電站側差動保護開展定期檢驗工作。正常運行情況下,發現零序差動保護元件條件滿足,發出動作報文。但啟動 CPU不滿足動作條件,出口繼電器的 24V電源未開放,保護裝置未出口跳閘。檢查保護裝置,電壓電流采樣值均無異常,裝置供電電源無異常。保護裝置的錄波文件無法讀取和打印,裝置液晶屏面板頻繁出現“CPU1:內存錯誤”報文,檢查期間還出現保護CPU初始化的情況。初步認為A變電站側保護裝置的保護模件和AD模件存在缺陷,由于采樣值異常導致差動保護元件條件滿足。將保護裝置返廠檢查,進行詳細試驗分析。
2.1 裝置及元件初查
檢查保護裝置模件和AD模件內部器件,沒有發現器件燒損、鼓包,電路板完整,芯片與印制電路焊接良好。檢查 ROM 程序完好性。裝置液晶屏顯示版本號、CRC碼等信息與ROM芯片上標簽一致。
現場檢查發現裝置有“內存錯誤”告警,初步判斷保護模件中Flash失效,影響CPU對同一總線上的RAM的數據讀寫,造成電壓電流采樣值異常,導致差動保護發出動作報文。
2.2 裝置試驗驗證
在實驗室中,給保護裝置輸入電壓電流模擬量,進行多次故障試驗,使保護裝置頻繁動作,產生事件報文,強制CPU重復讀寫Flash。試驗中出現“內存錯誤”告警并且無法讀取錄波文件的情況,復現了現場缺陷情況。然后替換嶄新的同型號 Flash芯片,繼續多次試驗,未再發生同類事件。
在后續試驗過程中,發現裝置液晶屏顯示差動保護通道誤碼總數緩慢增大。排除另一套裝置自身異常和光纖接線問題后,判斷保護模件仍存在缺陷未消除。再次檢查保護模件,發現Hdlc編碼芯片在PLCC插座中一側明顯翹起,如圖1所示。

圖1 保護模件側視圖
取下芯片檢查,發現翹起面多個引腳有氧化現象,并有3個引腳氧化嚴重。氧化的引腳處于CPU總線的地址位、地址/數據控制位、中斷申請信號位,其接觸不良將造成數據錯誤、通信異常等問題。更換新的 Hdlc芯片,連續通電 100h,未再出現異常現象;輸入模擬量反復進行故障試驗,保護均正確動作。
2.3 缺陷原因分析
綜上可以得,本次故障由于Hdlc芯片接觸不良造成CPU總線上相連的器件間通信異常引起。如圖2所示,一方面表現為裝置運行過程中,CPU頻繁對 Flash芯片進行擦寫操作,最終造成擦寫次數過多造成Flash損壞。保護CPU記錄事件時無法正常讀寫Flash,檢測程序判斷Flash出錯,保護裝置輸出“內存錯誤”告警。另一方面,總線異常導致保護CPU從RAM讀寫采樣值時出錯,正好滿足故障特征,差動保護邏輯條件滿足。CPU自身無法判斷采樣值的錯誤,不輸出告警信號。

圖2 保護CPU板器件框圖
通過上述故障分析過程可以看出,當前繼電保護裝置輸出的異常信息未充分體現保護內部器件的健康狀況,還需深入地挖掘可獲取的信息作為補充,以加強對裝置內部器件的監視。因此,下文首先對保護裝置內部結構進行分析,確立器件之間的關系。然后從器件劣化程度和運行狀態兩方面,探討保護裝置輸出信息的改進措施,分析反映 Flash自身劣化程度的狀態量和反映各器件運行狀態的狀態量。
3.1 保護裝置內部器件結構
微機型保護裝置發展已較成熟,通常在分析缺陷時將其分為交流插件、CPU插件、開入插件、開出插件、人機交互插件和電源插件[11]。但使用這種典型結構來描述裝置缺陷部位仍較為簡單,對裝置缺陷產生的機理往往無法描述清楚。對裝置缺陷的統計、缺陷知識庫的構建也是不夠的。通過對不同型號裝置結構的對比和研究,將常規站微機型保護裝置內部器件以功能作為劃分的主要標準進行細化總結,如圖3所示。

圖3 保護裝置內部細化結構
保護裝置供電電源為直流220V或110V。輸入電壓通過抗干擾處理后,由 DC/DC變換器轉換為+5V(3.3V)、+24V、±12V(10V)等多組電源。交流信號通過電壓、電流互感器轉變為保護所需的弱電信號,再通過兩個獨立的濾波和AD轉換模塊轉換為數字信號分別送至啟動CPU和保護CPU。啟動CPU判斷啟動條件、保護CPU判斷保護條件分別開放保護出口電源和驅動保護出口繼電器動作。保護CPU通過光耦隔離,接收外部開入信號。管理CPU則用于實現裝置的其他輔助功能。對于使用光纖通道的縱聯保護,保護CPU還連接通道編解碼、光電轉換器、光纖等。不同型號裝置的設計主要在實現各模塊功能的硬件選擇上和模塊間通信總線選擇上存在差異。
裝置插件內部細化結構能更清晰地表現裝置各功能模塊之間的關系,可以作為裝置缺陷分析的通用的模型。按照裝置插件硬件設計,建立功能模塊級和插件級兩級對應關系,從而可在功能模塊級對保護缺陷進行分析,定位缺陷,并映射至插件制定維修和更換策略。此外,通信總線作為連接各個功能模塊的通道,也應重點關注。
3.2 Flash老化程度評估指標
根據圖3所示,保護裝置的邏輯功能器件包括MCU、DSP、FPGA、E2PROM、RAM、Flash、AD轉換芯片、通信芯片等多種集成芯片及其外圍電路。通過各器件互相配合、交互數據實現裝置各項功能。邏輯功能器件可靠性較高,且大部分沒有明顯的劣化過程。而其中 Flash芯片劣化過程較明顯。對于長期不間斷運行的保護裝置,Flash的剩余壽命是值得關注的;同時裝置硬件缺陷或程序設計缺陷可能造成 Flash劣化程度出現差異,應在狀態檢修工作中應對其壽命進行監視和評估。
Flash利用懸浮柵貯存電子實現數據存儲。對其進行數據擦寫將消耗懸浮柵表面的硅氧化物,導致Flash失效[12]。其壽命與對其擦寫操作有較大關系。其每個存儲器單元有擦寫次數限制,驅動程序通常利用壞塊管理和損耗均衡等技術來保證數據存儲正確和芯片的設計壽命[13],故其壽命可通過壞塊率和寫入總容量這兩個指標來評估。
其中寫入總容量用轉化為允許倍數來評估壽命。定義Flash寫入容量允許倍數s為

式中,n為Flash累計寫入容量(字節);PE為Flash最大擦寫次數;n0為Flash容量(字節)。
3.3 器件通信狀態監視
目前保護裝置提供的許多自檢信息是用于反映各器件是否存在缺陷的。如利用模式校驗法檢查RAM存儲內容;利用奇偶校驗法或求和校驗法檢查ROM存儲內容;利用定時器監視法檢查CPU運行情況;對比冗余數據、檢查通道報文格式等手段判斷芯片是否失效[14],當失效的情況達到一定次數或一定頻率時裝置輸出告警信號。同時保護裝置能通過自動初始化、重發重收、冗余配置等容錯機制以提高可靠性。但這也造成了一些缺陷難以被發現,使保護運行存在隱患。
隨著保護裝置運行時間增加,裝置內部存在的潛在缺陷逐漸發展,裝置功能產生錯誤的概率往往將增加。對于沒有明顯劣化過程的邏輯功能器件來說,應監視其運行中產生的異常情況,從側面反映其健康程度。
保護裝置中各器件通過大量現場總線連接。外部干擾、裝置硬件和軟件缺陷都有可能造成模塊間通信異常。因此,保護CPU應對各器件的通信狀態進行有效校驗,將每次功能模塊發生的通信異常進行記錄,統計總數、頻率等詳細信息,并按照器件所屬總線進行統計。利用裝置本身歷史運行情況進行縱向對比,將能對裝置運行狀態變化趨勢進行判斷。
本文針對某次繼電保護裝置自檢告警并發生保護邏輯異常的故障,介紹了現場檢查和試驗過程,說明缺陷分析方法和故障原因,為裝置內部邏輯功能器件缺陷分析提供了借鑒的案例。
繼電保護裝置作為電子產品,內部設計復雜多樣、制作工藝繁多。目前的裝置狀態檢修中,運維人員對裝置內部器件存在的潛質缺陷的發現能力還有待加強。通過分析本次故障,提出應更全面地獲取裝置內部器件的信息用于促進裝置潛在缺陷的發現,改進狀態檢修工作。這就需要根據裝置內部器件和其間關系構建更詳細的裝置檔案,對器件運行狀態和通信狀態進行監視,特別地應對 Flash開展剩余壽命的評估。
[1] 曾錦松, 鄭南章. 變電站繼電保護消缺方法的探討[J]. 電力系統保護與控制, 2008, 36(24): 104-106,109.
[2] 馮軍. 智能變電站原理及測試技術[M]. 北京: 中國電力出版社, 2011.
[3] 李博通, 李永麗, 姚創, 等. 繼電保護系統隱性故障研究綜述[J]. 電力系統及其自動化學報, 2014, 26(7):34-39.
[4] 廖瑞金, 劉捷豐, 楊麗君, 等. 電力變壓器油紙絕緣狀態評估的頻域介電特征參量研究[J]. 電工技術學報, 2015, 30(6): 247-254.
[5] 李贏, 舒乃秋. 基于模糊聚類和完全二叉樹支持向量機的變壓器故障診斷[J]. 電工技術學報, 2016,31(4): 64-70.
[6] 陳強, 鄧潔清, 潘建亞, 等. 一起主變壓器低壓側故障的分析與對策[J]. 電力系統自動化, 2015(8): 164-167.
[7] 劉航, 楊廣明, 周海廷, 等. 一起220kV線路單相故障重合閘未動作的事故分析與處理[J]. 電氣技術,2015, 16(9): 118-119, 132.
[8] 徐英, 李朝勛. 通道自環引發保護不正確動作的故障分析及對策[J]. 電氣技術, 2015, 16(9): 95-97.
[9] 王躍強, 廖華興, 袁曉青, 等. 基于保信系統的繼電保護狀態評價系統的開發與應用[J]. 電力系統保護與控制, 2014, 42(8): 134-139.
[10] 邱金輝, 錢海, 張道農, 等. 基于 PFIS的繼電保護常態特性在線監視與隱性故障診斷[J]. 電力系統保護與控制, 2015, 43(8): 145-149.
[11] HUANG S, CHEN S, QIU Y, 等. Online condition monitoring methodology for relay protection based on self-test information[C]//Advanced Power System Automation and Protection (APAP), 2011 International Conference on, 2011: 256-260.
[12] 范婭玲. 閃存芯片(NOR)編程特性與可靠性的研究[J]. 蘇州大學學報: 工科版, 2008(3): 64-68.
[13] 林剛. NAND Flash壞塊管理算法及邏輯層驅動設計[D]. 西安: 西安電子科技大學, 2009.
[14] 陳志雄. 微機保護硬件平臺可靠性設計研究[D]. 成都: 西南交通大學, 2006.
Analysis and Countermeasure for Data Abnormal Fault of Protective Relay
Deng Yong1Huang Feng2Lu Zhen1Song Fuhai1Ren Xiaohui1
(1. State Grid Fujian Power-Dispatch & Control Center, Fuzhou 350003;2. State Grid Fuzhou Electric Power Supply Company, Fuzhou 350009)
This paper faced to a fault of protective relay that device alarmed "flash error" with sent the message of differential protection element action. The details of the process of action, inspection and defect diagnosis were introduced. The cause of fault was that the poor contact of Hdlc chip leaded to disorder of CPU bus and maked every chip contacting to the bus operate unstably. According to the fault,the detail of structure of protective relay was analyzed, propound that the status and communication of chips should be monitored and the operation life of Flash should be evaluated.
protective relay; misoperation; device defect; device self-test; Flash
鄧 勇(1978-),男,碩士,高級工程師,主要研究方向為電力調度自動化、電力市場、繼電保護。