,,, ,
(國家信通產業集團 安徽繼遠軟件公司,合肥 230008)
基于管家式-集約化通信運維平臺的設計與實現
秦浩,夏同飛,王光發,陳顥,吳金淦
(國家信通產業集團安徽繼遠軟件公司,合肥230008)
隨著國網信息化工程建設的推進,越來越多信息系統需要上線轉運行,在國網信息化水平踏上新臺階的同時,對于信息運維水平、標準化程度、規范性提出了更高的要求;因此,基于業務與運行保障為中心,研究采用跨平臺的J2EE技術結合B/S模式開發環境下的自動化運維平臺,設計“管家式-集約化”運維平臺整體的技術架構和功能模塊,集成了優秀的開源運維工具,給出了部分典型流程并分析其應用成效,最后順利通過機理評估,該平臺實現既有成功整合目前現有分散的專業運維管理子系統的“管家”功能,又改變過去以設備為對象的監控,打破過去各設備系統獨立管理的模式,起到“集約”監控作用,形成統一的運維智能監控一體化平臺,力圖為電企信息運維服務提供高效支撐平臺。
運維;自動化;Open Stack;平臺
隨著通信技術的迅速發展,社會和企業的信息化程度不斷深入。企業信息化水平和企業經營業務之間的關系越來越緊密,企業業務對信息技術的依賴程度也越來越高。現有運維服務體系以人力投入為基礎,利用各類交換機、服務器等信息化產品傳輸和采集各類業務數據和監控數據,利用各類軟件管理平臺進行數據的簡單處理分析,展現給用戶的是零散的業務信息和片面的業務監控數據。如何有效地利用各類采集數據和告警信息有效的保障業務健康度,成為當下提升運維服務質量的發力點和增長點。本文基于管家式-集約化通信運維平臺的設計與實現,實行有效管理成為實現企業信息化的一個重要關鍵。
近年來,伴隨之科學技術提升,電力信息通信也得到史無前例活躍,不只在軟開發明顯進步了,而且硬件設備更日新月異。然而與此同時不可避免的是一系列通信系統運維問題,其催生了運維技術難度大、運維設備成本高、運維智能化滯后、運維檢測不全面等。縱觀整個電力行業發展,其通信業務往來頻繁、規模龐大、交織網寬。如此一來滯后的運維方式,已成為電力通信行業內關注的焦點話題,它所面臨的問題是如何構建通信與信息一體化穩定、安全任務,因而,國內外學者們紛紛圍繞“合理、科學、集約化”等作探討,如:學者Min Luo和Benjamin曾提出“設計和實現企業ServiceBus(Enterprise service bus,ESB)和SOA解決方案”,而國內學者桂林,也提出“數據中心自動化運維平臺建設方法”操作和保護零碎的建立是基于信息和通信的集成治理方法等,屬于一種粗放運維治理方式。筆者認為應當下需要博眾家之長,設計打造一個“管家式-集約化”運維平臺,在這個技術框架上,聯合當下電力信息通信網絡的理論情形,能對網絡操作、保護形式、網絡的狀況能夠合理化評估,評估成果能有效轉化為運維所需數據,以使其改善電力通信系統操作和維護效率。
往往單一追求使用超前,帶來的后果是運維管理的滯后,電力信息通信運維存在諸如下面的問題:
1)模式單一。分析電力通信網運行,不難看出缺乏信息與通信沒有行之有效的一套互通資源管理模式以致通信不穩、不準,降低運維管理實效。
2)模式不科學。面對通信模式配置不科學,類別琳瑯滿目,運維方式各自為政,從而加大運維工作量與難度,進而降低電力通信效果。
3)監測局限。整個電力通信運維系統存在一定的監測局限性,盡管網絡信息和通信監控兩者是聯合的,但在現實中兩者存在一定的孤立性,監測面窄,數據共享與交互性差,其影響運維時數據集成和剖析,阻礙找到故障,使系統無法準確反饋,
開發一套基于管家式維護服務模型的國家電網公司信息通信基礎設施環境集約化運維智能監控統一平臺,平臺以業務為主線,對跨廠家、跨專業的基礎設施環境數據進行集中實時監測,對各項業務的健康程度進行評價,并根據變化趨勢分析存在的缺陷和預警;平臺可多級部署,在中心和分中心集中應用;通過系統建立,基于大數據分析,建立故障排錯數據庫體系,完善管理制度,為異常情況提供技術決策支撐。
3.1 邏輯架構設計
本研究平臺大致分為公共服務層、應用服務層、底層服務層、協議接入層4個層次,其中:
1)公共服務層:包含一些后臺告警模塊、外部接口模塊和管理員管理模塊內容;
2)應用服務層:是系統功能的實現層,完成監控管理的所有業務邏輯,并且面向用戶進行信息呈現。本系統采用B/S模式呈現用戶界面,用戶端無需安裝任何專門的客戶端軟件,只需要在瀏覽器上即可使用全部功能;
3)底層服務層:完成采集數據、運算以及存儲功能,并且提供組態畫面供系統設計員設計界面;
4)協議接入層:根據實際情況,以靈活的方式接入各種被管設備的實時狀態與參數。
系統的層次結構如圖1所示。

圖1 平臺架構
3.2 系統部署
1)跨平臺:本系統軟件采用先進的跨平臺技術J2EE為開發平臺,服務端可以穩定運行在Unix/Linux/ Windows等各種操作系統平臺下,用戶可以根據需要靈活選擇;
2)B/S架構:本系統軟件采用B/S模式開發,用戶只需要有瀏覽器即可完成全部操作,無需安裝專門的客戶端軟件;
3)耦合設計:平臺采用模塊化松耦合設計方式,系統至少包含應用服務模塊(主程序服務)、采集服務(采集接入服務)、流媒體服務及web服務,各服務模塊可部署在不同的物理服務器上;
4)收集服務模塊和流媒體服務模塊都采用分布式體系結構,并且可以擴大水平依據數據的增加和支持Scare-out擴張模式;
5)實時性:實時數據采用push模式,提高系統實時性;
6)Flash動畫效果:本系統軟件以Flash動畫形式實現用戶界面,能以Flash動畫的形式形象的表現被監控對象的實時狀態和參數;
7)組態功能:本系統軟件具有畫面組態功能,并且提供形象、豐富的動畫元件和圖元,用戶可以通過簡單的鼠標點拖動作和參數設定自由組合監控畫面;
8)自動模板:對同一類型的設備可建立統一的設備模板,新增設備時可以直接套用此模板,生成相應的資源配置信息,提高資源錄入效率;同樣,對同一類型的設備可建立統一的畫面模板,新增設備時可以直接套用此模板直接生成監管畫面;
9)歷史回放:系統能將歷史數據存入歷史數據庫,并能夠從任意時刻開始回放選定的歷史監控畫面,回放時應具有自動播放、暫停、快進等功能,并且支持視頻系統與其它子系統間的聯動;
3.3 業務處理流程
以物聯網技術感知基礎設施環境數據,結合國家電網公司信息通信運維管理的實際需求和管理流程,對數據進行實時存儲與分析,根據各項數據的閾值進行判斷是否告警,如是則通過相應手段通知運維人員;以業務為主視角,結合實時數據/歷史數據進行分析,形成趨勢分析結果,深入挖掘趨勢背后所包含的預警、缺陷等信息;在此基礎上,實現共性故障分析共享,縮短共性故障響應速度和解決事件。
中心側以物聯網軟件平臺為核心,結合國家電網公司的行業特點和管理需求,開發相應軟件功能;軟件設計開發遵循軟件工程的方法,所有軟件都經過充分測試,程序運行穩定可靠,系統軟件平臺通常選擇流行性和通用性強的可靠安全版本。
現場側物聯網數據網關為核心,結合基礎環境數據傳感器、執行機構以及各種智能設備的通信協議,實現基礎設施環境數據實時采集與告警聯動。
3.4 軟件描述
平臺所采用的軟件描述如表1所示。

表1 平臺所采用的軟件描述
4.1 拓撲監視
系統具有拓撲監視功能,用戶可根據需要,自定義各種拓撲視圖,如總體分布圖、各分系統的系統圖、任一分系統內某一部分或設備的局部圖、以及其它各種自定義視圖,當分站點數量頗多,采取拓撲方式展示不失為一種整齊直觀的方式,并且對同一類型的設備可建立統一的畫面模板,新增設備時可以直接套用此模板直接生成監管畫面。
整體拓撲監視如圖2所示。

圖2 監控首頁圖
4.2 告警聯動
當系統或設備中,某一節點或指標出現異常產生告警時,該系統或設備便會進入告警狀態。如在上圖監控首頁中,機房動環系統呈現黃色閃爍告警,是由于該子系統中某一節點告警聯動的作用,點擊機房動環系統圖標,進入圖3所示的機房界面,便可發現具體的告警節點:

圖3 機房監控圖
監控數據/狀態的列表/圖表顯示系統具有監控參數列表顯示功能,按照用戶需要設定表格形式,在表格內顯示模擬量、模擬量累計值和開關量等。
1)對于模擬量,系統具有曲線顯示功能:系統具有模擬量實時曲線和歷史曲線顯示功能。曲線為點繪圖,根據需要可以按照多線圖的方式在同一坐標上使用不同顏色同時顯示多個變量,或同一變量的最大、最小、平均值等曲線;
2)對于狀態量,系統具有圖形化顯示功能:系統具有開關量狀態圖及柱狀圖、餅狀圖等各種圖形顯示功能。

圖4 采集通道狀態餅狀圖
4.3 典型運行流程示意圖
平臺采用的Flex和Flash一樣,都以ActionScript作為其核心編程語言,并被編譯成“.swf”文件運行于Flashplayer虛擬機里,而Flashplayer是內嵌于瀏覽器內的,所以客戶端只需要瀏覽器即可運行。Flex開發的Web程序運行流程如圖5所示。

圖5 運行流程圖
省電力公司2016年6月以來開展對管家式-集約化運維平臺局部測試,綜合集成了配電自動化系統、用電信息采集系統、能量管理系統等方面信息數據,并實現與95598系統、配電網搶修指揮平臺的業務聯動,實現了配電網運行狀態綜合監控,以及配電網搶修等運維業務的過程管控,在配電網低電壓監控及治理、提升配網搶修效率等方面均發揮了重要作用。
初步統計,省電力公司上一年度同期發生644次公用配電變壓器低電壓情況,投入測試后當月僅發生6次;通過配電網運行綜合監控以及與配網搶修業務的聯動,及時發現配電網運行薄弱環節,提高搶修工作效率,同比故障減少27%,故障修復時間同比減少15%。
為了更進一步驗證管家式-集約化運維平臺通信性能,研發并組建一套簡單的測試平臺,其結構為單主站系統,具體構成如圖6所示。

圖6 測試平臺構成
該系統中,CPU315-2DP作為一類主站,插有CP5611現場總線接口卡的PC機為二類主站,WAGO 750-833、BK3120、ET200L、LM3107、ET200M及AC3105等作為從站,通過A型標準電纜和9針D型總線連接器將網絡連接起來。
另外,將帶有背板式插座的總線連接器將ProfiCore連接入PROFIBUS-DP中,通過總線分析軟件ProfiTrace即可查OMS系統(見下拓撲圖9)中的各種類型的報文和參數信息;再配以Tektronix TDS 2012B雙通道數字示波器,用來觸發顯示各個設備的電平信號波形,從而進一步對系統分析與診斷。如下圖7,左側目錄樹中OMS系統的告警與頁面告警點位聯動,獲取點位中嚴重等級最高的告警級別為OMS系統的告警級別;OMS的父級業務系統的告警與每一個業務系統進行聯動,獲取業務系統中告警級別最嚴重的等級為當前告警級別。

圖7 目錄樹告警
實驗過程: AC3105接有4個AS-i從站,它既是AS-i網絡的主站,又是DP網絡的從站。

圖8 測試波形圖
實驗分析:從圖8波形上來看,AS-i的通信質量很高,其峰一峰值不超過3V,傳輸速率固定為167kbit/s。同時利用AS-t報文監視器來監視AS-i報文,發現其工作正常,沒有檢測到任何損壞的報文,見圖9所示管家式-集約化運維平臺在實時和歷史告警列表界面中,每一個告警內容,都有區域歸屬,對不同區域的告警內容進行分類匯總,可以得出是正常分顯示,而一旦出現告警產生比較頻繁的重點告警區域,對于重點告警區域,需要密切關注或深入分析其告警原因,實踐充分證時平臺通行可靠。

圖9 實時和歷史告警圖
近年來隨著電網企業信息化工作的飛速發展,信息系統己經成為支撐電網安全生產和經營管理不可或缺的重要支撐手段,對整個電網企業通信系統運行監控、日常運維和故障處理顯得猶為重要,本系統的投入運行有效解決了信息設備信息多頭管理、數據重復的問題,通過管家式-集約化運維平臺投入運行對通信系統及網絡不間斷的維護和管理,有效縮短了信息網絡系統故障發理及處理,進一步提升了信息運行的可靠性,為電網企業安全生產和經營管理提供了更加可靠的支撐。
該項目建設后形成一套完整的集動力系統(如供配電系統、UPS、通信電源、蓄電池組等)、運行環境(溫濕度、空調、漏水監測)及配套設備(如消防系統、門禁系統、安保系統等、視頻圖像)的運行狀態進行實時監控,實現遙測、遙信、遙控、遙視的管理功能,同時對網絡設備端口的通斷和服務器運行的狀態參數,存儲設備容量的使用和數據健康指數等數據進行有效整合,形成聯動和連鎖的用戶告知,及時發現運行過程中的隱患和告警為一體的智能監控統一管理平臺。
[1] Luo M, Goldshlager B. Designing and Implementing Enterprise Service Bus(ESB) and SOA Solutions [A].IEEE International Conference on Web Services(ICWS'OS)[C].2015:83-90.
[2] 王懷民,史佩昌,丁 博,等.軟件服務的在線演化[J].計算機學報,2013,34(2):32-36.
[3] 唐躍中,曹晉彰,郭創新,等.電力企業基于面向服務架構的應用集成研究與實現[[J].電力系統自動化,2016,32(14):50-54.
[4] 桂 林.數據中心自動化運維平臺建設方法[J].中國電子商務,2014(11):79-80.
[5] 羅 蕓,張曉川,朱建中,等.面向云平臺的集群運維管理方法研究[J].現代電信科技,2013(7):54-59.
[6] 徐紅泉.電力調度自動化系統綜合運維平臺設計方案[D].杭州:浙江大學,2014.
[7] 周昕毅.Linux集群運維平臺用戶權限管理及日志審計系統實現[D].上海:上海交通大學,2013.
[8] 梁鴻健,郭 池,喬治中,等.基于ITIL的電網調度自動化運維流程系統的研究與建設[J].中國電子商情:通信市場,2011(6):187-192.
[9] Delimitrou C, Kozyrakis C. Quasar: Resource-efficient and qos-aware cluster management[J].ACM SIGPLAN Notices, 2014, 49(4): 127-144.
[10]王 波,王明宇,劉淑貞.Linux高可用負載均衡集群技術的研究與應用[J].電子商務,2013(8):55-56
[11] 陳曾勝,夏登俊.基于大數據的高風險網絡入侵與阻斷方法研究[J].電信技術,2016(01).
[12] 高雪生,陳 兵,韓春雷,等.電力通信運維管理風險評估研究及應用[J].電力信息與通信技術,2013(09).
[13] 邢寧哲,徐 鑫.電力通信網安全防護體系架構模型研究.信息安全與通信保密,2014,(09).
[14] 李偉平.工作流管理系統的建模方法和實現技術研究[D].沈陽:中國科學院沈陽自動化研究所,2002.
[15] Lionzl.縱觀jBPM:從jBPM3到jBPMS以及Activiti5[EB/OL].http:blog.csdn.net. 2013.11.10.
DesignandImplementationofStewardship-IntensiveCommunicationOperationPlatform
Qin Hao, Xia Tongfei, Wang Guangfa, Chen Hao, Wu Jingan
(National ICT Industry Group, Anhui Ji Yuan Software Company,Hefei 230008,China)
With the advancement of the information construction of the State Grid, more and more information systems need to be put into operation. While the information level of the State Grid is on a new level, the information operation and maintenance level, standardization degree and normative also raised higher requirement. Therefore, the technical architecture and functional modules of "Stewardship-Intensive" operation and maintenance platform are designed based on the business and operation assurance, and the research of cross-platform J2EE technology combined with B / S mode development environment automation operation and maintenance platform, Integrated excellent open-source operation and maintenance tools, given some typical processes and analysis of the effectiveness of its application, and finally through the mechanism of the successful evaluation of the platform to achieve both successful integration of the existing decentralized professional operation and maintenance management subsystem "steward" , And change the past to equipment for the object of monitoring, breaking the previous system of independent management of the equipment model, play a "intensive" monitoring role in the formation of a unified operation and maintenance of intelligent monitoring platform for the operation of information services, support platform.
operation and maintenance; automation; Open Stack; platform
2017-03-07;
2017-03-23。
安徽省電力公司科技項目(2016-00633-XTGS)。
秦 浩(1982-),男,安徽肥東人,大學,工程師,主要從事信息安全、軟件評測、量子通信等方向的研究。
1671-4598(2017)10-0147-04
10.16526/j.cnki.11-4762/tp.2017.10.038
TP302
A