[慕家驍 羅森文 宗凌 黃建華 馬波]
某運營商在西北某省公司大型IDC數據機房內的IP數據設備、電源設備先后發生200多臺次以上的大面積重啟、瞬斷、宕機等故障,該運營商集團公司匯集了國內頂尖的數個通信設備制造商、集團級技術權威專家數十人,歷時超過大半年時間均未能找到造成這些設備發生故障的任何原因,后通過采用QC因果分析法,終于找到了造成這些故障的原因,并予以排除這些故障。
全面質量管理產品質量控制因果分析法簡稱QC(Quality Control),QC因果分析法在我國制造業推廣應用較多,但在運營商行業維護工作中應用較少,QC的因果分析法如圖1所示。

圖1 產品質量控制因果圖
某大型IDC數據機樓內共發生電源、IP數據設備重啟、宕機、誤碼等故障逾數百臺次以上,其中大量交、直流電源和IP數據設備每次重啟的設備在時間、廠家、型號等方面都不完全一樣,具有明顯的離散性;其中數據設備共發生重起22次,涉及設備重起事件104次,涉及的設備有某設備供應商163網國家骨干設備2臺12 008,163網省網核心設備1臺12 816,省網匯聚設備1臺12 416以及省網接入設備2臺6 509、2臺3 750、1臺3 550、2臺7 513、2臺4 500、2臺7 513;某設備廠家的1臺窄帶接入服務器A8010、1臺接入交換機A8016、2臺BRAS 5200G、1臺接入交換機6506R、1臺接入交換機3 528;某設備廠家的接入交換機1臺T64G、6臺3 952;某公司BRAS設備ERX 705一臺。部分設備故障發生如圖2所示。

圖2 部分設備頻繁啟動記
根據IDC數據機房電源和IP數據設備維護管理實際情況,我們可以做出如下排除疑難故障的分析方法和思路,如圖3所示。根據圖3我們逐一進行故障原因排查。

圖3 IDC數據機房莫名其妙故障原因因果圖
3.2.1 關于電源問題
(1)關于市電輸入:根據動環監控系統和現場示波器監控顯示,市電在發生故障期間一直正常,盡管從市電在現場的示波器上觀察情況來看,輸入的電源確有干擾,有振蕩波形和毛刺尖峰較多,但這幅度很小,都在規范要求范圍之內,跟據這些檢測到的現象并不會對設備造成直接的故障因素,除此之外示波器并未記錄下任何電源的波動情況會引起電源和IP數據設備的故障。因此市電輸入原因可以排除。
(2)關于二次交、直流電源:相關電源設備廠家研發專家專程到現場確認,二次交流(UPS)、直流(開關電源)設備的軟硬、件均正常,二次交、直流電源設備模塊工作也正常,并未出現工作異常,因此二次交直流電源無問題。
為了進一步排除由于二次交、直流電源引起的嫌疑,設備廠家重新更換了全新的二次交、直流電源設備,這些二次新電源設備安裝后,IP數據設備故障依然在不斷地發生……因此可以完全確認二次交直流電源設備的引起故障的因素也完全可以排除掉。
(3)關于地線系統:①大樓接地電阻值:通過三角法測量大樓接地電阻為0.35 Ω,遠低于A級機樓1 Ω 的規范要求;②大樓地線連接:經檢查,各接地線、接地銅排、地線線纜接頭等接觸良好可靠;③零地電壓:直流電源設備正極對地電壓均為0 V,交流設備零線對地電壓均小于1 V,均屬正常;④地線電流變化:人為重啟MA5200G、S8016設備,冷重啟(開關電源),監測到地線電流發生突變(0.5 V到1.5 V左右),屬正常;熱重啟(網管命令操作),均未監測到地線電流明顯變化,但IP數據設備疑難故障依然在不斷發生……說明地線系統不是引起這些疑難故障的原因。
為了更進一步排除地線系統引起的故障,該IDC數據機樓重新花費20多萬元的投資,全面改造了整個IDC機樓的地線系統,然而故障依然,說明故障原因并非地線系統所引起,也可以完全排除地線系統的故障原因。
3.2.2 關于硬件問題
各有關IP數據設備廠家的研發高級工程師也專門對其設備進行過DIA檢測,可確認設備硬件均未出現異常,此類設備在網運行數量很多,且在其它機樓均未出現類似故障,故也可以排除IP數據設備硬件工作異常導致。因此硬件所引起的原因也可以排除。
3.2.3 關于軟件問題
若是軟件原因,則系統軟件會留下計算錯誤、死循環類的意外事件紀錄,各個IP數據設備廠家研發的專家多次對設備檢查,并未發現任何此類紀錄,且此版本在網運行數量很多,均未出現類似故障。故也可以排除由于IP數據設備軟件運行異常導致這些疑難故障的發生。
3.2.4 關于人為問題
為了排除人為因素,故障排除人員作出了如下的措施:
(1)對口令管理制度逐條進行落實,對口令定期修改、口令字的組成要求、口令的使用登記、廠家口令的使用管理以及遠程登陸的口令管理等進行了全面的自查,對登陸設備設置的登陸帳號和口令絕對不允許在兩臺及其以上的設備設置相同的帳號和口令;對口令管理和使用人員進行清理,相應設備的口令只允許包機人和中心主任掌握;清除所有為廠商支撐等設置的登陸權限和登陸帳號及口令。
(2)在數據局局域網的互聯網出口設備上采取端口映射的方式,使用SNIFFER軟件對所有與局域網交互的流量進行抓包監控分析。
(3)將該機樓所有IP網數據設備的日志集中自動上傳至日志服務器,并定期對所有上傳的日志進行了認真、細致的分析。
(4)采用NTP的方式將所有IP網設備時間進行了統一。
(5)對該IDC數據機樓IP網所有數據設備的配置進行了逐一梳理和核對,同時加強了對該數據機樓內的IP網所有數據設備的數據制作的審核,凡是涉及到局部數據增加和修改時,必須由中心主任審核;涉及到全局數據修改時,必須由運維部主任審核,并對所有的操作的操作時間、操作內容、執行的命令等進行嚴格的登記,嚴禁未經允許的操作。
(6)嚴格規定了IP數據設備和電源設備的操作審批流程,所有涉及到對該機房內數據設備、電源等的操作必須經過公司運維部的審核批準。
(7)在重起期間,進入機房的外來施工人員和操作情況進行了逐一核實,并加強了對外來人員進入機房的管理,所有外來人員到機內房進行的操作必須有相應的人員陪同和監督。
通過以上嚴格的人為操作管理,避免人為因素的影響,然而電源設備和IP數據設備的重啟、宕機等故障依然在發生,因此完全可以排除人為的因素。
3.2.5 關于黑客外部攻擊
(1)該IDC數據機樓一樓、三樓、四樓所有IP網數據設備只容許采取本地終端的方式進行登錄。
(2)對于高級的黑客而言是可以實現控制大量設備同時或不同時間進行復位,并且在日志中無法查到相關信息(可通過編譯代碼、修改日志代碼輸出實現);但是在現場出現了多次設備在未啟動完全的時候,設備再次重啟的情況發生,對此,就目前的認知而言黑客基本無法做到;設備在啟動的時候是有類似于PC上BIOS一樣的BOOTROM芯片在控制,這是黑客很難侵入系統,無法對設備進行控制。
由以上情況來看,認為因素和黑客破壞因素也完全可以排除。
3.2.6 關于環境問題
環境因素包括:溫度、濕度、潔凈度、電磁感應、靜電感應。
(1)關于溫度:為了準確檢測機房內的溫濕度,機房維護單位新購置了6臺溫濕度計,經過一個星期的校準后,檢測室內溫度基本都保持了20~25℃范圍之內,完全符合機房規范對溫度的規定和要求。
(2)關于濕度:該數據機樓內的相對濕度非常低。為了準確檢測機房內相對溫濕度,維護部門專門新購置檢測相對濕度的儀表,且都經過了一個星期檢驗和校準。根據近一個月的檢測,該IDC數據機樓內的相對濕度都非常低,一般相對濕度都在15%以下,有時甚至還低于10%,該IDC數據機房內的環境相對濕度遠遠超過了一類通信機房規范要求的30~70%,如圖4所示。為何該機樓的機房內相對濕度是如此之低呢?根據現場調查和了解,原來該機樓的機房精密空調原本是有加濕功能的,但由于出現過加濕水管漏水現象,故維護人員把該機房精密空調的加濕功能全部擅自取消了,才導致該機樓里機房內的相對濕度極低。

圖4 IDC數據機房內相對濕度低于15%
(3)關于潔凈度:該IDC數據機房內的潔凈度堪憂。目視就可以看到各種設備上落有厚厚的積塵,用人手即可以在IP數據設備上和數字電路板上面隨便寫字,如圖5所示。

圖5 IDC數據設備電路板和金屬外殼上厚厚的灰積塵
(4)關于電磁干擾影響:經過對射頻電場強度、射頻磁場強度、射頻功率密度等相關技術指標測試后,現場電磁環境測試數據完全符合相關標準和規范的要求。
電磁測試項目監測數據:電磁測試項目監測數據如表1所示。
測試數據分析:現場電磁環境測試數據符合相關標準要求,7月24日16:00~17:30之間S8016設備重啟,在該時間段儀表監測到電場強度最大為11.53 V/m,這一突變數據,分析有三種可能產生:(1)外界突發電磁干擾,儀表捕捉到這一變化,該干擾導致S8016設備重啟;(2)S8016設備由于其他原因重啟,其自身在重啟過程中產生一定的電磁輻射(不同于穩態運行狀態),儀表捕捉到這一變化;(3)人為干擾,在儀表附近使用無線電設備(GSM、(GSM、PHS等)。7月25日,人為重啟S8016設備,儀表監測數據無較大變化;同時,到7月27日期間,機房多次多個設備發生重啟故障,儀表監測數據均無較大變化。

表1 電磁測試項目監測數據
小結:機房電磁環境正常,達到一級機房要求標準。外界電磁環境正常且無突發干擾,不會導致設備重啟;設備重啟過程產生的電磁輻射也屬正常;7月24日儀表捕捉到的突變數據可能為人為干擾影響;除此之外長時間監測無突發干擾,且設備重啟故障前后,儀表數據均無明顯變化,故也可以排除電源和IP設備故障是由電磁感應干擾引起的因素。
(5)關于靜電感應:靜電感應電壓非常高。經測試,該機房內靜電感應電壓非常之高,一般都達到1 000 V以上,甚至到達2 000 V以上的也不少。遠遠超過IDC數據機房內絕對值不超過│200 V │的絕對值規范要求(如圖6),而且不斷發生重啟、瞬斷、宕機的故障特點也與靜電感應電壓引起故障的特點極為類似和吻合。
根據以上對電源、硬件、軟件、人為、黑客和環境等六個方面的全部檢測和分析可知。前面五個因素完全符合IDC數據機房內設備的軟硬件要求,因此可以排除在外。現在就剩環境因素,而環境因素中的電磁感應干擾影響也可以完全排除在外,現在就剩下環境因素中的相對濕度、靜電感應和灰塵三個因素均遠遠超過IDC數據機房對環境條件的要求,而且超出標準要求也非常之多和嚴重,現進一步分析如下:
該IDC數據機房內的相對濕度極低,而且遠低于IDC數據通信機房環境條件標準下限30%的要求,就是說機房內相對濕度一般都在15%以下,有時甚至低于10%,造成IDC數據機房內非常干燥,而相對濕度極低又會導致IDC數據機房內靜電感應電壓非常之高,這個自然現象就像我們在干燥冷凍的冬季里到處會碰到被靜電擊到的現象一樣。

圖6 IDC機房內靜電感應
在IDC數據機房內對靜電感應電壓有明確的要求,靜電感應電壓的絕對值不得高于│200 V │,然而現場測試靜電感應電壓則遠遠超過這個最大值的數倍,乃至10倍以上,如圖6所示。當這些靜電感應電壓高于這些設備主控電路板上的電子電路彼此之間的絕緣強度時,就會發生瞬時靜電感應電壓放電現象,從而引起設備自動重啟、產生誤碼、宕機等故障現象,而當靜電感應電壓放完靜電之后,這些電路板卡上又恢復了正常運行,由于室內空氣非常干燥,這些電路板卡上又會不斷產生靜電感應電壓……而電源控制電路板和IDC數據機房內的IP數據設備的數字電路板卡無規則且多次大面積重啟現象的特征也正是與靜電感應電壓引起的故障特征現象非常吻合。
機房內普遍積塵很大,各類電源設備和控制電路板卡及IP數據設備的金屬外殼甚至這些設備的電路卡板上的積塵也非常大,如圖5所示。積塵的厚度完全可以用手在上面隨便寫字。那么灰塵大會對設備的正常運行究竟會造成哪些影響呢?
當機房內灰塵掉落在各種電子設備的電路板上時,由于現在電路板卡上都是精密電子元器件和電路構成,電路板卡上的電路之間彼此距離都非常靠近和密集,若空氣中的相對濕度比較大時,這些空氣中的大量水分子就會被沉積在數字電路板上的大量灰塵所吸收,導致這些精密電路板卡上的電路之間的絕緣強度下降,甚至造成瞬間短路,從而產生數據設備控制電路板卡的自動重啟、誤碼和宕機等故障現象。由此可見,把電子設備內電路板卡上灰塵清潔干凈是非常重要,這些灰塵也是導致在潮濕季節里電路板卡瞬時短路而造成自動重啟、瞬斷、誤碼和宕機等故障的極大隱患之一。
綜上所述,由于上述機房存在特殊的環境條件,最終造成了設備自動重啟、宕機、誤碼等疑難故障:當機房相對濕度很低時,就會產生極高的靜電感應現象,這些極高的靜電感應電壓就會造成電源、IP數據設備的自動瞬斷、誤碼、宕機等故障;而當這些電源設備和IP數據設備由于靜電感應太高而發生靜電感應電壓放電而這些設備瞬間宕機后,這些電源和IP數據的電路板卡上的靜電感應電壓瞬間就消失,于是這些電源和IP數據設備就恢復正常狀態,就會重新再次起動,造成這些電源設備和IP數據設備不斷地隨著靜電感應電壓的重復放電和不斷地發生自動重啟、宕機、瞬斷和誤碼等故障現象的發生。
而當該IDC機樓機房內相對濕度很高時,比如夏季濕度達到80%以上時,電源和IP數據設備上沉積的大量灰塵會由于灰塵會吸附空氣中大量的水分子,這些大量的水分子加上灰塵一起就會造成這些精密電子電路板上的電子元器件和電路之間的絕緣下降,同樣也會造成精密數字控制電路卡板上電路之間瞬間短路故障,產生自動瞬斷、誤碼、宕機等故障現象;而當這些電子元器件放電產生熱量后,這些精密數字電路卡板上電路上的相對濕度就降低,密數字電路卡板上電路上的絕緣強度又會恢復正常啟動,于是這些電源和IP數據設備又會自動恢復正常運行狀態,這才造成了該機樓里疑難故障的復雜性。
根據上述分析,故障原因基本就可以鎖定為該機樓的機房內相對濕度極低而導致靜電感應電壓奇高和該機房內灰塵大這兩個方面,于是該IDC數據機房維護人員全面清理該機房內設備內外及數據板卡上的積塵,并把機房內精密空調的加濕功能重新啟用,且保持機房內相對濕度到達45%以上,如圖7所示。

圖7 IDC數據機房相對濕度達到45%以上
該IDC數據機房內的靜電感應電壓也大幅下降到規范標準要求之內,同時全面清理該IDC機樓機房內的灰塵后,困擾維護人員達大半年之久的該大型IDC數據設備機樓的達數百臺次以上的自動重啟、瞬斷、誤碼等故障亦隨之消失。該大型IDC數據機樓里的所有設備至今運行正常,再未出現過此類疑難故障現象。
在我國國標GB和行標GBT 50174-2008-I、YDT 1821-2018、YDT 983-2018、GB/T 2887-2011等相關的標準中,對各類通信和大型IDC機房的環境要求如下:
(1)對各類通信和IDC機房內對潔凈度的要求:
A~D類通信和IDC機房內不應有導電的、鐵磁性和腐蝕性的粒子,其濃度應滿足直徑大于0.5 μm的灰塵粒子濃度<18 000粒/升。對通信設備有腐蝕性的氣體和對人身有害的氣體以及易燃易爆的氣體,應防止流入機房內。
(2)對各類通信和IDC機房內對溫度和相對濕度的要求:
有冷熱通道隔離各類通信和IDC機房內對溫、濕度的要求如表2所示。

表2 有冷熱通道隔離各類通信和IDC機房內對溫、濕度的要求

表3、無冷熱通道隔離或設備無進風口機房內對溫、濕度的要求
(3)A~E類通信和IDC機房的靜電感應電壓要求:
靜電感應電壓絕對值不超過<│200 V │。
(4)電磁場干擾要求
無線電干擾環境場強:機房內無線干擾磁場在頻率范圍0.15 MHz~1 000 MHz時不大于126 dBμV。
磁場干擾場強:機房內磁場干擾場強不大于800 A/m(相對于100 e)。
對于大型IDC數據機樓和綜合性樞紐機樓里發生的疑難故障建議嚴格按照GBGBT及YD等國標和行標執行,才能保障大型IDC數據機樓和各類通信機房里所有設備正常安全可靠地運行,尤其環境條件往往會被忽略,這才是造成IDC機樓和核心樞紐機樓疑難故障的很大隱患。如果大型IDC數據機樓和綜合樞紐大樓機房里和其它機樓里出現了自動重啟、誤碼、宕機等疑難故障時,建議應該采用QC因果分析法不失為一種很好的分析和解決問題的方法,逐個故障因素去排除,最后鎖定到產生故障的真正原因上面,并予以排除和解決,它是解決此類疑難故障的很有效的方法,可以達到事半功倍的效果。