馬文珍,張文飛,王忠花,王 婷
(國網(wǎng)青海省電力公司信息通信公司,西寧 810008)
國家電網(wǎng)信息化“十三五”規(guī)劃期間,國網(wǎng)公司發(fā)布信息通信工作要點,要求各單位運維自動化工具推廣覆蓋率達100%。2018 年5 月,為推進信息系統(tǒng)運維自動化,落實國網(wǎng)公司186 發(fā)展戰(zhàn)略和公司“十三五”信息化規(guī)劃,有關(guān)部門提出關(guān)于加快推進信息系統(tǒng)運維自動化工作等有關(guān)要求。為了能夠跟上時代發(fā)展的步伐,滿足各項通知標準,需要進一步改進互聯(lián)網(wǎng)技術(shù)運維(Internet Technology Operation,IT),通過結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)集成,基于數(shù)據(jù)關(guān)聯(lián)和機器學(xué)習(xí),實現(xiàn)信息化管理目標。
目前,很多電力公司信息通信系統(tǒng)設(shè)施種類繁多、組成結(jié)構(gòu)復(fù)雜,在網(wǎng)絡(luò)層面、存儲層面、主機層面、數(shù)據(jù)庫層面、中間件層面缺乏統(tǒng)一性,依然停留在半自動化、半人工管理上,自動化管理手段不完善。企業(yè)的專業(yè)運維人員對運維對象管控度不足,在日常巡檢、故障分析、故障處理中,運維效率和處理問題效率非常低。分析企業(yè)實際運維現(xiàn)狀,全面建設(shè)統(tǒng)一的自動化/智能化運維管理平臺,有助于提升自動化運維水平。
結(jié)合電力公司信息通信體系現(xiàn)狀,其主要的發(fā)展困境如下:①運維技術(shù)復(fù)雜、孤立;②缺乏快速響應(yīng)并解決問題的方案;③超過 80% 的時間用于維護,而非創(chuàng)新。
為了實現(xiàn)自動化運維目的,本次自動化運維平臺建設(shè)的目標設(shè)定為:①做好預(yù)測和預(yù)防,提前預(yù)測系統(tǒng)服務(wù)運行狀況,防止發(fā)生中斷;②使用事件群集降低用戶系統(tǒng)的平均修復(fù)時間;③IT 和業(yè)務(wù)可視性檢查,以便更輕松地協(xié)作,實時洞察用戶系統(tǒng)IT、業(yè)務(wù)運行狀況。
建設(shè)統(tǒng)一自動化/智能運維管理平臺必須要打破傳統(tǒng)運維體系的束縛,突破傳統(tǒng)技術(shù)的枷鎖。主要建設(shè)內(nèi)容包括:①將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);②將各種工具“精巧脆弱”的集成轉(zhuǎn)變?yōu)榻褦?shù)據(jù)集成;③針對難以擺脫Faults和Traps 的情況,通過大數(shù)據(jù)獲取實時價值;④將關(guān)注各個組件轉(zhuǎn)變?yōu)殛P(guān)注整個業(yè)務(wù)/服務(wù);⑤將基于搜索的分析轉(zhuǎn)變?yōu)榛跀?shù)據(jù)關(guān)聯(lián)和機器學(xué)習(xí)的分析。
要建立機器大數(shù)據(jù)平臺,應(yīng)用程序中的多行日志,實現(xiàn)平臺自動化運行。
平臺通過分析大數(shù)據(jù)信息內(nèi)容,對數(shù)據(jù)庫工具編程開展設(shè)計,有效提高通信數(shù)據(jù)解析速率,將復(fù)雜信息簡單化。同時,在數(shù)據(jù)庫平臺上融入系統(tǒng)維護技術(shù),定期維護,優(yōu)化數(shù)據(jù)倉庫工具,建立數(shù)據(jù)存儲框架,采集系統(tǒng)傳輸數(shù)據(jù)支持實時更新、修改。當系統(tǒng)發(fā)出數(shù)據(jù)采集、讀取指令后,可通過預(yù)置接口獲取數(shù)據(jù)信息。平臺存儲結(jié)構(gòu)空間大,可實時更新數(shù)據(jù),保證數(shù)據(jù)獲取的精準性。
大運維體系建設(shè)要以機器大數(shù)據(jù)平臺為基礎(chǔ),以數(shù)據(jù)管理為中心,采取相應(yīng)控制、調(diào)度措施,將各項資源整合,從而保證整個大運維體系運行安全、穩(wěn)定。主要建設(shè)體系內(nèi)容如下。
3.2.1 物理資源層
作為整個運維體系的基礎(chǔ)硬件,本設(shè)計提出的ORCAITOA 總體架構(gòu)支持各種類型的機器,如服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、安全設(shè)備等,可對各類設(shè)備硬件進行運維管理。
3.2.2 邏輯資源層
電力公司可以借助大數(shù)據(jù)平臺,先建設(shè)物理資源、虛擬資源映射模型,這一環(huán)節(jié)可以將物理資源轉(zhuǎn)變?yōu)樘摂M資源,虛擬資源,包括存儲資源、計算資源、網(wǎng)絡(luò)資源。接著將這些資源整合,構(gòu)建大運維資源體系,劃分到大數(shù)據(jù)平臺的數(shù)據(jù)庫當中,可以提高IT 業(yè)務(wù)系統(tǒng)拓展性、調(diào)度性、分配性。
邏輯資源層建設(shè)需要注意兩個方面:一是建設(shè)映射模型,切實反映各類信息資源的類型和特性,精準映射出物理資源、虛擬資源性能數(shù)據(jù)與拓撲指標的關(guān)系;二是實現(xiàn)接口標準化管理,統(tǒng)一規(guī)范、統(tǒng)一管理,這樣即可在異構(gòu)資源下實現(xiàn)信息的管理和分析。
3.2.3 虛擬化管理層
虛擬化管理層是大運維體系自動化管理系統(tǒng)的核心,融合了各項智能化技術(shù),決定管理平臺性能。首先,通信接口可以轉(zhuǎn)發(fā)、接收數(shù)據(jù),自動化機器具有學(xué)習(xí)功能,發(fā)現(xiàn)異常活動便會自動發(fā)出警報,此時相應(yīng)模塊及時調(diào)整異常、解決故障,避免服務(wù)降級。如果在檢測過程中發(fā)生重大事件,就會對事件進行再分級,全方位預(yù)測停電與異常活動,根據(jù)預(yù)測內(nèi)容采取相應(yīng)措施,保證用戶服務(wù)質(zhì)量。其次,借助資源管理模塊,整合分析各類異常數(shù)據(jù),自動完成資源分配、管理、監(jiān)視,實現(xiàn)統(tǒng)一配置。最后,系統(tǒng)平臺管理模塊帶動虛擬機運行,使其自動完成啟動/停止、備份/恢復(fù)等操作。
虛擬化管理層可以針對不同的數(shù)據(jù)情況、設(shè)備映射信息、智能優(yōu)化管理流程,創(chuàng)建管理模式,從而實現(xiàn)統(tǒng)一的管理體系,減少人為因素的影響。再者,采用標準、通用的通信協(xié)議,統(tǒng)一通信接口、整合系統(tǒng)資源,可以讓資源服務(wù)管理和內(nèi)部資源、外部資源、系統(tǒng)程序交互。
3.2.4 服務(wù)管理層
用戶是大運維體系信息化管理平臺建設(shè)的重要對象,必須要注重服務(wù)。應(yīng)通過完善制度、整合流程,讓整個IT 業(yè)務(wù)運營更加標準化、效率化。服務(wù)管理層模板主要作用是采集信息資源,合理分配、科學(xué)調(diào)度所采集的數(shù)據(jù)信息,保證資源配置和業(yè)務(wù)需求間的協(xié)調(diào)性;結(jié)合用戶信息采集和使用情況,統(tǒng)計業(yè)務(wù)需求量,再由系統(tǒng)自動判斷服務(wù)狀態(tài),完成大數(shù)據(jù)平臺資源的合理規(guī)劃。
自動化系統(tǒng)根據(jù)數(shù)據(jù)信息情況,自動完成數(shù)據(jù)收集、統(tǒng)計、分析、分類存儲,并生成報表,實時判斷分析應(yīng)用程序關(guān)鍵性能指標、趨勢,減少了人工預(yù)判的限制,以真實數(shù)據(jù)作為判定標準更加準確。系統(tǒng)通過統(tǒng)計分析IT 環(huán)境數(shù)據(jù),實時發(fā)出警報并解決問題,縮短平均故障間隔時間,快速恢復(fù)原有功能。
大運維系統(tǒng)可統(tǒng)計、分析網(wǎng)站或應(yīng)用程序等IT 環(huán)境中的數(shù)據(jù),了解用戶使用模式和地理分布趨勢,并確定最具分量的用戶。通過用戶的劃分,掌握有效用戶實際需求,針對性優(yōu)化業(yè)務(wù)流程,為用戶提供更加優(yōu)質(zhì)的服務(wù)。
大運維系統(tǒng)基于服務(wù)器和網(wǎng)絡(luò)基礎(chǔ)設(shè)施監(jiān)控,提供針對端對端的網(wǎng)絡(luò)運維分析,對錯誤事件、容量配置、服務(wù)器和網(wǎng)絡(luò)元件安全性進行深入考察,監(jiān)測操作系統(tǒng),保證異構(gòu)環(huán)境完整運營可視度,主動預(yù)防、管理Windows 和Linux 操作系統(tǒng)中的性能問題、意外事件、變更和安全風險,綜合了解業(yè)務(wù)應(yīng)用狀態(tài)、資源消耗情況、處理能力等。
隨著科學(xué)技術(shù)不斷發(fā)展,自動化、智能化技術(shù)也更加成熟。為了推動電力產(chǎn)業(yè)發(fā)展、提高用戶服務(wù)質(zhì)量,全面構(gòu)建信息通信大運維體系有著重要意義。完善資源管理制度、加強資源監(jiān)控與業(yè)務(wù)協(xié)調(diào)性,可以進一步發(fā)揮大運維體系的作用。