徐世軍
(中國電信股份有限公司惠州分公司,廣東 惠州 516000)
(1)機房數量逐年增加。隨著4G向5G網絡不斷升級和云服務、大數據產業的迅猛發展,電信網絡業務范疇不斷擴大,數據通信機房數量驟增,逐步形成多個IDC數據通信集群。
(2)機房設備更新換代頻繁。通信機房的設備隨著網絡升級不斷升級和擴容,如動力機房整流模塊數量及蓄電池組隨著通信設備的需求不斷調整,智能化程度越來越高,基本都提供RS485接口及相關配套協議,給智能化管控帶來了便利。
(3)機房設備多元化。機房設備采購均采用框架協議,設備廠商和種類雖有限制,但集采價格內設備的穩定性和安全系數有下降趨勢,對安全管控的要求提高到更高級別。
對于重點機房,安排機房管理人員24 h值班,規定時間巡視機房設備通信狀態環境變化信息、測量和記錄機柜負載電流等數據。這對管理人員的素質要求相對較高,需要對各專業的設備有所了解,突發應急事件發生時,按照應急處置預案有條不紊地處置問題。但是,實際中,機房管理人員發現問題后不能有效處置,沒有規范的流程和制度,缺乏科學有效的管理方式,對機房設備的運行安全和穩定性提出了嚴峻挑戰。
在原有動環監控系統基礎上升級改造的集約動環平臺,通過集中平臺管控,對數據采集信息進行大數據比對分析和規則判斷,通過分區域分專業下發派單機制,及時提醒設備專管員,第一時間通過智能手機收到APP告警信息,并通過APP進行故障處理考核,閉環處理故障,起到了有效保障機房設備安全穩定運行的作用。
動環集約系統實現對通信局站內各種動力設備、空調設備及機房環境的監控、智能維護和綜合管理,保障電信動力系統運行的可靠性,降低維護成本。該系統是實現通信動力設備由分散維護向集中維護改革的有效工具和手段。動環集約系統集中并融合了現代計算機技術、自動控制技術、通信技術、傳感器技術和人機技術的最新成果而構成的計算機集成系統[1]。動環集約系統采用點到點的拓撲結構,由監控中心(SC-Supervision Center)和端局(SU-Supervision Unit,又名監控單元)構成。動環集約化系統平臺是在原有動力設備及環境集中監控系統基礎上的升級拓展應用,相較于前期系統具備如下優勢:基于云平臺數據開發,提供了固定網絡IE瀏覽和移動網絡APP瀏覽兩種便捷方式訪問動環數據;解決了數據瀏覽、數據監控、報表處理、故障回單只能在監控中心操作的歷史。目前,智能終端日漸普及,移動網絡支持高速傳輸條件下,專業維護人員能方便快捷地掌握現場情況的第一手信息。
監控中心SC由本地服務器模式升級到云服務器模式,底端SU升級到具備嵌入式系統功能,數據通過統一的B接口協議上傳到監控中心統一的云服務器;監控中心是集中監控系統的維護和管理中心,對數據進行統一梳理篩選后,對異常信息集中派單,通過北向接口與派單系統相互關聯,做到按照區域、專業、職能進行派單;省去了監控站SS,略去了中間環節,減少了動環監控本身的故障點,提高了系統的穩定性[2]。省級集約動環平臺具備管理各地市各監控站的職能,應用于通信機房動環監控配套項目。動環集約平臺通過DCN網絡監控局站組成局域網,監控單元SU通過采集器監控端局的各類測點。
動環集約化系統在結構上更簡捷,從C/S架構向B/S架構方向發展,從PC端應用向智能終端應用方向發展,從固定監控模式向移動監控模式方向發展[3]。它綜合利用計算機技術、控制技術、物聯網技術、云計算和大數據分析技術,完成了對機房數據的實時數據采集和本地或遠程的自動控制,為安全生產、管理、優化和故障診斷提供了一整套完整的數據和技術支持。動環集約化系統平臺的數據采集技術,部分綜合運用虛擬儀器軟件開發平臺和基于WEB的遠程數據采集兩個部分(分別針對于前期有自主監控平臺的廠家提供虛擬RMU端口、新建SU采用B接口協議直接上傳),以XML為基礎的WML語言標準為基礎,為便捷的人機界面提供了先決條件。動環集約化系統平臺涉及實時監視功能模塊、告警功能模塊、系統自診斷監視功能模塊、系統用戶管理功能模塊以及遠程設備管理功能模塊5大功能[4]。
(1)實時數據采集和監視功能。實時故障告警輸出,告警的過濾和排序,告警跳轉到實時數據的瀏覽以及告警派障;動環集約系統通過各SU,將機房設備的運行參數在底端預處理后,上報給動環集約平臺的數據服務器;設備主管人員通過PC端或者APP端方便查詢實時數據信息。
(2)設備故障告警功能。動環集約系統在被監控的各類設備出現異常的情況下,會以APP推送形式將告警信息發送到相關人員的手機上。派單根據區域專業不同,自動下發給設備專管員,由專管員在規定時效范圍內回單。
(3)系統自診斷功能。動環集約系統對所有設備的通信狀態進行輪詢通信檢測,判斷自身設備是否通信正常,如出現網絡異常,將立即上報采集設備異常告警數據。
(4)系統用戶管理功能。動環集約系統將管理權限分為區域劃分、專業劃分和操作級別。對于各級管理人員的管理范圍和權限可以自由管理,在PC或智能終端上登錄,可查詢、操作指導范圍內設備的相關業務。
(5)遠程管理功能。動環集約系統提供遠程管理功能,維護人員可以通過PC或智能終端登錄集約云平臺,修改和調整遠端站端采集設備配置。其中,告警規則在在線方式下可以進行靈活調整(集約平臺配置方案選擇相應的模板)。升級和擴容設備后,系統配置只需要刷新相應的配置即可。
(1)與傳統動環系統相較,動環集約化系統采用云架構,滿足了動環監測管理數據的存儲、計算,并能與公司內部政務云平臺、派單告警平臺融合,實現信息共享。全系統實時監測,利用大數據和規則判定和智能派單,不需要在監控中心安排值班人員,減少了人員成本;與傳統動環系統比較,系統智能派單區別于傳統監控模式由值班人員電話通知的方式,減少了人為因素導致的系統派單不及時、責任界定不清、回單不及時不能閉合處理等問題。
(2)與傳統動環系統相較,當前計算機CPU的處理能力顯著提升,網絡帶寬明顯增加,促進了大數據時代的信息傳輸。動環集約系統平臺在可控的時間內可獲取、管理、處理和組織海量數據。動環集約系統引入大數據分析與挖掘技術,從而為判定潛在問題提供預警機制。最顯著的應用案例是蓄電池內阻監測應用和PUE能耗監測應用,提供大數據建模、數據分析和數據挖掘,對異常數據提供預警機制,由此得出大數據推進精英決策,進一步提高了信息社會的智能化水平。
(3)與傳統動環系統相較,計算機智能算法技術被應用于動環集約化系統,制定相關規則、制定計算模型、設計相應算法,用于解決各類復雜問題。區別于傳統監控的只還原現場數據信息的呈現,動環集約化系統將帶來更多的趨勢化分析報告,為設備維護保養提供科學的數據支撐。
(4)與傳統動環系統相較,動環集約化系統在節能減排方面單獨劃分模塊進行管理,依托計算機網絡技術、通信技術、計量控制技術,實現電源監控與能耗管控相結合的創新能源監控平臺;系統的實施可實現對通信機房內PUE數值的動態監測,自動分析對標結果,系統利用分析后的數據,根據節能監測標準進行科學的專家咨詢決策。數據采集系統引入多協議智能數據采集網關模型,集成數據采集、數據傳輸和數據接收一體化運作。
(5)與傳統動環系統相較,動環集約化系統引入統計分析系統SAS,為實現預警、預測、異常分析和輔助決策等提供技術支撐;采用B/S架構,基于微軟.NET平臺技術,采用多層架構,模塊化、組件化設計;適用于強大的數據庫體系,使數據整合和分析具備現場應用價值。
通信機房前端采集主機采用嵌入式系統,先行在站點做數據采集,具備自動巡回監測、系統自診斷監測等功能。軟測試可以簡化系統硬件機構,縮小系統體積,降低系統功耗,提高測控系統的可靠性。
動環集約系統布局感知層、網絡層、服務層和應用接口層4層體系機構。每層都提供相應的安全控制,如訪問控制、設備認證、數據完整性和傳輸機密性與可用性,以及提供針對DCN網絡病毒和攻擊的防御能力。
動環集約系統平臺涉及各種各樣終端與云端的交互,不同的通信協議對系統的穩定性和后續延展性影響深刻,在協議架構、協議功能、協議特定、報文結構、資源模型以及安全機制方面,都做了兼容性研究[5]。機房設備種類多、生產廠家多,通信協議各不相同。因此,為提高系統的兼容性,通過與各廠家溝通索取設備的協議文本、測試軟件等資料,通過協議開發方式,將上述不同設備悉數接入動環系統。在設備擴容時,可以根據需要進行通信方式的擴充、協議模塊內容的擴充,如開關電源新增整流模塊設備,增加相應模塊就能接入該系統進行集中監控。
動環集約系統平臺利用現有IP網絡或E1網絡資源將各個分散機房集中管控,通過底端采集、中心處理、報警派單和處理消單等形成一個完整的閉環鏈路。該系統的上線運行通信機房所有設備監測數據信息都集中到云平臺,融入大數據挖掘分析、平臺接口融合等多層技術,使系統的應用更具現實意義。操作便捷性方面,可選擇PC和智能終端兩種方式進行設備管控。該系統使得監控人員徹底改變了傳統的集中式監控模式,使數據的應用更加貼近于實際維護工作,擺脫了固定值班人員值守的老舊模式。該集約化動環系統對所有設備數據信息進行采樣、分析和規則比對,對異常告警進行派單,根據告警的級別產生相應的時效要求,以提示設備管理者及時了解故障情況,在規定時效范圍內回單處理。
動環集約化系統平臺對PUE能耗管控的應用,通過對通信機房能源數據的采集獲取,對機房供電負荷安全、機房節能應用發揮關鍵性作用。能耗數據的采集主要來自兩個方面:一方面來源于現場智能儀表、傳感器采集的原始數據;另一方面來源于根據供電局的計費系統數據分析后得出的數據。通過上述方式完成由傳統人工抄表方式到自動化、信息化的轉變,實現了對企業重要能源的采集與監測。PUE能耗在線監測系統用到的數據源種類形式繁多,數據通信形式多樣。如何更好地發揮各類儀表的性能,保證最優的測量精度,是能耗監測系統的核心工作。在現有條件下,保障A類重要局房數據源為實際儀表采集數據,逐步延伸到B、C、D類機房[6]。
通過對通信機房PUE能耗劃分小精細化管控試點,采樣機房列柜機架的入口溫度、出口溫度及機架內溫度,采用自動化控制模式,實現冷池智能溫控,達到節能預期10%的目標。
首先,采用冷池內部溫度和外部溫度作為設定空調啟停溫度和調節風速的依據。在冷池內布置多個溫度探測點,選擇冷池內需要保障的溫度值,將實測值與需要保障的值進行比較。如果實測值偏低,則可以調高空調的啟停溫度;反之,則可以調低空調的啟停溫度。同時,比較冷池內外的溫差,根據設定標準溫差實時調節空調的送風風速。調節方式與溫度的調節方式一樣。
其次,改空調控制由人工調節為自動調節。空調的設定溫度和風速如果是人工調節,將不能滿足動態需要,而且費時費力,可以通過技術手段采用自動調節。自動調節的實施主要有兩種方式:一是直接通過通信協議設定空調;二是將自動分析的設定需求上報集中監控中心,由監控中心對空調進行遠程設定。
最后,直接通過通信協議對空調進行設定。由于空調的現有通信接口已經被集中監控占用,所以必須擴展通信口行。串口擴展后,集中監控將不受任何影響,與原來一樣監控空調。本方案將可以通過擴展的另一個通信口對空調實施智能調節。
綜上所述,實時監測和自動化調節解決了人工調節費時、費力且不能滿足溫度不斷變化的需求。不改變空調原有的控制方式,只是自動調節空調工作點溫度,大大降低了改造的安全隱患。通過改造數據采集技術、大數據分析技術、智能聯控技術,促使空調工作更加智能化,大大降低了能源浪費。
5.4.1 應急能力大大增強
動環集約化平臺系統綜合運用云平臺采集模式和計算機大數據分析技術,保障了系統的高效運行,既提高了資源利用率,又提升了系統的應急能力。
5.4.2 運維效率大幅提升
依托動環集約化平臺,動力機房數量增加、設備數量增加、人力基本不變的矛盾得到了很好解決。通過智能化電子工單管理等手段,維護工作井然有序開展。故障隱患的集中上報處理,使執行有力、運行質量穩步提升,降低了重大斷電事故率。
5.4.3 科學指導系統優化和技術改造
依托動環集約化平臺,系統提供設備性能評估,通過統計分析歷史數據,評估設備的性能,并作為設備大修、改造或更新的依據。設備考核與選型時,統計各廠家各型號設備故障率、平均故障修復時間、重要告警總歷時、電源效率、誤告警率以及平均使用年限等,對設備進行綜合考核,將同類設備分廠家進行排序,以作參考。
本文涉及的動環集約化系統平臺已在廣東電信惠州分公司上線試運行,運行效果良好。目前,系統正在探索精細化管控發展方向,對機房管理中實際存在的問題做拓展性應用研究。靈活、及時地把最新的技術應用到集約化系統平臺,才能使系統不斷與實際工作融合,保障通信機房的高效、安全、穩定運行,不斷滿足通信業發展的需求。
電信機房中運行的眾多關鍵設備,與機房的動力保障和環境保障有著密切關系。安全可靠的動環集約化系統平臺,對保障設備的正常運行起著重要作用。電信運營商面臨的問題包括機房的業務安全等級高、設備運行環境要求高、機房多、設備多以及人員配備少等。動環集約化系統可為通信機房設備的運行維護提供良好保障,及時預見和分析設備故障,及時發現、排除設備故障,有效降低設備損壞情況的發生,減少維修的時間和費用,降低運營成本,有效監控和管理出入機房的人員,增強機房的安全防范,實現主管領導和設備主管隨時掌控機房設備的運行情況,瀏覽和查詢機房設備數據信息,快速響應快速閉環處理各類設備故障。