周旭朋
(1.北京科技大學; 2.安陽鋼鐵股份有限公司)
2000 m3級高爐環網故障診斷與分析
周旭朋
(1.北京科技大學; 2.安陽鋼鐵股份有限公司)
介紹了安鋼 2000 m3級高爐環形網絡的構成,對應用中出現的網絡瓶頸、網絡癱瘓,所導致的信息無法傳輸,造成高爐休、慢風的原因進行了分析,并對網絡故障進行最終診斷,提出了相應的改進措施,解決了 2000 m3高爐環網存在的問題。
高爐環網 故障診斷
安鋼煉鐵廠 2000 m3級高爐的建設是安鋼“三步走”中關鍵的一步,年產生鐵 128萬 t,于 2005年 10月試車投產。PLC控制技術是高爐三電控制中的重要設備,其各個控制站通過光纖相連接,互相通信,實現重要數據的交換。網絡結構的合理性、可靠性、安全性關系著高爐的正常生產。
安鋼 2000 m3級高爐 PLC控制系統由控制站、HM I客戶端、HM I服務器、工程師站、以太網交換機以及控制站的電源等組成。主要完成生產過程的數據采集與處理,數據顯示與記錄,數據設定和生產操作,執行生產過程的連續調節控制和邏輯順序控制。整個工藝流程控制系統采用 C/S結構,網絡上設置兩臺冗余服務器,主服務器負責與現場 PLC通訊,采集數據與完成相關操作,從服務器與主服務器通訊,通過主服務器實時更新數據。當主服務器宕機時,從服務器接管主服務器的任務,與現場 PLC通訊,實現數據采集與操作,當主服務器重新投運后,需要手動切換為原來的模式。網絡上的客戶端與這兩臺冗余服務器通訊,服務器負責提供網絡上的客戶端所需的監控、操作數據。2000 m3級高爐的網絡結構采用單環網拓撲結構,整個網絡分為煉鐵區域 8個工作站和動力區域 5個工作站,總共 13個工作站,所選用交換機型號為MOXA ED6008-MM-SC,其網絡拓撲圖如圖 1所示。

圖1 2000 m3級高爐網絡拓撲圖
環網投運初期,運行較為可靠,但 2009年 7月份以來,頻繁出現網絡速度慢,反應超時等現象,操作工點擊一個按鈕,需要 2 s~3 s的延時,有時還出現監控工作站數據死機現象,嚴重地影響了高爐的正常操作。熱風爐高爐工長操作站故障現象比較嚴重,常造成無法監控的情況。這種現象出現后,有時重新啟動計算機能正常工作,有時把兩臺冗余服務器重新啟動也能解決問題,最后熱風爐數據操作站徹底死掉,無論怎樣啟動計算機與服務器,也無法與服務器通訊。
3.1 網絡故障診斷與排查
針對上面出現的問題,用 P ING命令測試網絡是否正常,發現從熱風爐站無法 P ING到服務器的 IP地址,煉鐵區域的其它工作站均正常,初步判斷本站交換機可能出現故障。為了查清故障原因,把熱風爐監控站暫時更改為單機版單獨運行,在不影響熱風爐操作的情況下,再處理網絡故障。單機版監控站通過交叉連接的雙絞線,直接與熱風爐 PLC連接,通訊正常,將交換機兩個光口上的光纖拔出,使交換機脫離環網,再使單機版監控站通過交換機與 PLC連接,發現也能正常工作,這樣基本否定了交換機故障的可能性??紤]為網絡堵塞或其它原因造成的網絡故障。在高爐建設時期,沒有設計網絡監控軟件,無法簡單判斷網絡故障的原因以及地方,只有對整個網絡進行徹底排查才能最終做出診斷。
對整個網絡的全面排查,分為對 13個工作站網絡交換機以及光纖的走向情況進行排查。首先對 13個交換機的工作情況進行了排查,從熱風爐工作站向環網的兩個方向開始檢查。從一個方向檢查時,發現循環水站交換機有一光口指示燈不亮,說明此處網絡存在問題,再往下一個站點檢查時,發現 1#INBA和 2#INBA的交換機根本就沒有送電,說明環網從這兩處已經斷開。
從另一個方向檢查時,發現動力區的 TRT站與煉鐵區高爐主控室站的通訊失敗,無法 P ING到高爐服務器 IP地址,TRT的交換機已經更換為施耐德產品;噴煤站、鍋爐房站的交換機各有一個光口指示燈不亮,考慮可能是光纖的收、發接錯所致,在對噴煤站、鍋爐房站的光纖接頭進行了拔、插調換后,交換機的指示燈亮了,再從動力區的 TRT站以及煉鐵區域的熱風爐站 P ING服務器的 IP地址時,均能 P ING通,這說明網絡暫時恢復正常,能夠正常通訊,但此時因為 1#INBA與 2#INBA的交換機沒有送電,光纖環網沒有構成,只是構成了總線網絡,但為了不影響高爐生產,沒有進一步排查,暫時恢復了熱風爐的客戶端工作站使其正常工作。
在以后的應用中,又多次發現槽下工作站通訊不正常,將光纖頭重新插拔暫時能夠解決問題,發現光纖頭接觸不好,考慮為交換機光纖口或光纖頭有問題。
8月份,利用 2000 m3級高爐檢修的機會徹底對環網進行了檢查恢復。在一個環網中,有不同品牌的交換機,可能會因為內置的環網協議不一致而導致環網通訊失敗,為了排除這個原因,對 TRT的交換機進行了更換,統一為MOXA同一品牌交換機;同時把槽下的光纖接頭和交換機進行了更換,解決了接觸不好的問題。而后把 1#INBA、2#INBA交換機的電源送上,發現網絡又發生堵塞,通訊不正常,把電源斷掉,網絡又能夠正常工作,說明網絡一旦形成物理上的環,會造成網絡數據堵塞,通訊失敗,網絡只能在總線結構下能夠正常工作。
為了解決不能構成環網的問題,用MOXA交換機自帶的軟件對交換機進行測試,發現好幾個站的交換機 IP地址無法 P ING通,交換機的指示燈正常;另外網絡上存在兩個管理機 (MAST),環網中只有一個管理機(MAST),網絡可能存在其它問題。為了解決這一問題,對光纖的走向進行了全面檢查,在對 13個站的檢查中發現有多處交換機光口上的光纖收、發不一致。交換機光纖口的收、發一般是固定的,當形成環網時,一個交換機的發要與另一個交換機的收相連接,這樣最終形成一個環網 (如圖 1所示)。發現問題后,對環網的光纖進行了收、發統一,確保連接正確,但環網的另一個管理機 (MAST)無法更改為從機(SLAVE)模式,更換交換機也一樣不能更改。此時,用軟件測試時,只有 1#INBA站的交換機無法 P ING通,其它的交換機均能 P ING通,考慮可能是此交換機有問題,對其更換后,此交換機的 IP地址能夠 P ING通,插上光纖,網絡沒有堵塞,整個網絡通訊完全正常,拔掉一根光纖實驗,網絡仍然能夠在總線網下工作,再插上去,環網也能正常工作,這說明整個環網恢復成功,實現了冗余功能。用軟件測試時,整個環網只有一個管理機 (MAST),這說明多出的管理機(MAST)是在構不成環網時自動產生的虛擬管理機。
3.2 網絡故障原因分析
熱風爐監控站數據死機,通訊失敗的原因主要是數據阻塞。通過故障的診斷與排查,可以得知,網絡設備沒有改變,光纖也沒有斷點,重新在噴煤站、鍋爐站拔、插光纖接頭后,通訊恢復正常,充分說明了當時網絡處于阻塞狀態。當光纖接頭拔掉后,交換機對失去連接的光口進行復位,再插上去,恢復了正常通訊。
網絡阻塞的原因主要是槽下站的交換機光口與光纖接頭接觸不好造成的。由于 1#INBA與 2#INBA交換機沒有送電,環網工作在總線結構下,任何站點幀的發送和接收過程,都使用帶碰撞檢測的載波偵聽多路訪問(CS MA/CD)技術,這種媒體訪問控制技術使得碰撞的可能性存在,若檢測到碰撞,說明幀未發送成功,要重新發送。TRT站、熱風爐站、噴煤站、槽下站都要對服務器進行訪問,當槽下站的交換機出現問題時,這幾個站想要訪問的數據無法獲取,每隔一定的時間都要發送數據幀,這樣形成網絡阻塞,熱風爐站無法獲取服務器的數據,造成通訊失敗。
環網不能組建的原因,歸納起來,主要有三種原因:一是在平時的維護中,沒有注意光纖接頭的收、發順序,網絡中的部分交換機光口收、發不一致;二是 1#I
NBA的交換機故障;三是 TRT的交換機與其它交換機的品牌不一致。這三種原因導致了環網無法構建。
在故障診斷與排查的過程中,遇到一種平時較為少見的現象,目前仍無法找到答案,在這里提出來,供同行研究與商討。
4.1 一個可疑的 IP地址
網絡正常后,剛開始恢復熱風爐的客戶端時,客戶端仍然無法讀取服務器的數據,服務器、熱風爐站PLC的地址都能 P ING通。此時把熱風爐站 PLC的網線拔出,仍能 P ING通其 IP地址,用 CONCEPT下裝序控制程序,還能下裝,但網絡上只有熱風爐 PLC是此 IP地址,其它沒有 PLC設為此 IP地址,當時正在生產,若其它 PLC設為此 IP地址,下裝程序時一定會發生大事故的,但當時什么也沒有發生。若上位機設置此 IP地址,是無法聯機 (用 concept連接 PLC的IP地址)的,這個在試驗室做過實驗。此 IP從哪里來,此疑問筆者無法解釋。
4.2 PLC通訊處理器死機的可疑性
在熱風爐監控站通訊失敗的處理過程中,動力區域 TRT站的比肖夫 PLC的 CPU停止工作,處于 STOP狀態,當時沒有人對此 CPU進行操作,出現這種情況,可能是網絡對其造成了影響。但網絡故障對 PLC的 CPU的工作狀態造成影響,有點解釋不通。
對于上面提到的問題,運用目前的理論與診斷方法無法解釋,有待進一步研究與探索。
2000 m3級高爐的環網事故,對高爐造成一定的影響。這說明對環網要加強管理,平時的維檢中,不能輕易改變原來的結構以及走向,要時常檢查網絡交換機的工作狀態。在重要的局域生產網絡中,特別是控制站相對較多,通訊較為重要的,項目設計階段宜考慮設計網絡監控軟件,以便實時了解、掌握網絡的運行情況,一旦出現故障,通過監控軟件能夠及時找到故障所在,并快速進行處理,不致于影響生產。
[1] 張公忠.局域網技術與組網工程.北京:經濟科學出版社,2000:23-24.
[2] 倪維楨.數據通信原理.北京:中國人民大學出版社,2000:15-16.
FAULT D IAGNOSIS AND ANALYSIS OF LOOPED NETWORK FOR 2000 m3BF
Zhou Xupeng
(1.University of Science and TechnologyBeijing; 2.Anyang Iron﹠Stell Stock Co.,Ltd)
The paper introduced the consistof looped network for 2000 m3BF inAnyang steel,analyzed the network bottleneck and network break-down which caused data cannot transport leading to stopped blast,final diagnosiswas carried out to network fault,the relative improved measureswere given to solve the existing problems in looped ne twork for 2000 m3BF.
looped network forBF fault diagnosis
*
2009—12—3