[邱傳寧]
隨著電信網(wǎng)絡(luò)云網(wǎng)一體化轉(zhuǎn)型的不斷深入,網(wǎng)絡(luò)設(shè)備的高度集中,各類型設(shè)備硬件及軟件運(yùn)維壓力持續(xù)增大。在傳統(tǒng)運(yùn)維模式中,當(dāng)網(wǎng)絡(luò)運(yùn)行出現(xiàn)異常,產(chǎn)生告警時,運(yùn)維管理人員通過告警定位信息,查看網(wǎng)管告警、性能日志去查找和定位故障信息,這種方法已無法滿足面向用戶感知的網(wǎng)絡(luò)網(wǎng)絡(luò)智能運(yùn)維需求,傳統(tǒng)依賴人工的運(yùn)維手段逐漸向自動化、智能化的運(yùn)維手段轉(zhuǎn)變。運(yùn)維模式逐漸趨向主動監(jiān)測分析業(yè)務(wù)、網(wǎng)絡(luò)、設(shè)備各層面的運(yùn)行情況,主動發(fā)現(xiàn)網(wǎng)絡(luò)隱患和業(yè)務(wù)質(zhì)量下降趨勢,彌補(bǔ)設(shè)備告警的不足。
與此同時,由于電信運(yùn)營網(wǎng)絡(luò)的分拆整合,部門的重組調(diào)整,網(wǎng)絡(luò)工程師流動性加大,這就要求將專家維護(hù)經(jīng)驗(yàn)固化和沉淀下來,起到降本增效的作用。還可將固化的電信維護(hù)操作案例作為新員工專業(yè)培訓(xùn)教材,通過經(jīng)典案例的學(xué)習(xí),解決新員工培訓(xùn)上崗周期長的問題。
現(xiàn)有的日志分析技術(shù),主要以網(wǎng)絡(luò)和信息安全審計為目的,對接入平臺終端用戶的登錄情況、設(shè)備操作行為等進(jìn)行記錄和檢測,審計是否存在繞行等異常登錄,高危的敏感操作是否按單施工,以及其他的違規(guī)操作。
針對上述電信網(wǎng)絡(luò)現(xiàn)狀以及運(yùn)維訴求的痛點(diǎn),本文提出了一種基于日志數(shù)據(jù)分析的智能網(wǎng)絡(luò)運(yùn)維方法,通過分析處理海量操作日志數(shù)據(jù),獲取成功維護(hù)經(jīng)驗(yàn),從而將優(yōu)秀專家維護(hù)經(jīng)驗(yàn)固化,引入大數(shù)據(jù)和AI 來替代重復(fù)工作,解決復(fù)雜和難點(diǎn)問題,為提升運(yùn)營商的運(yùn)維水平打下夯實(shí)基礎(chǔ)。
網(wǎng)絡(luò)設(shè)備硬件、軟件在運(yùn)維過程中,產(chǎn)生了海量的操作日志數(shù)據(jù),本文以日志采集處理架構(gòu)ELK(ElasticSearch全文檢索數(shù)據(jù)庫、Logstash 日志采集器和Kibana 可視化數(shù)據(jù)搜索)為基礎(chǔ),對日志數(shù)據(jù)進(jìn)行采集、清洗以及分析。通過操作日志數(shù)據(jù)分析,回溯網(wǎng)絡(luò)設(shè)備故障工單告警產(chǎn)生信息,故障閉環(huán)信息,對于網(wǎng)管所執(zhí)行操作能成功排除故障的案例,獲取其成功維護(hù)經(jīng)驗(yàn),自動生成專家經(jīng)驗(yàn)庫,用以指導(dǎo)同類故障處理,并通過預(yù)先定義的告警項(xiàng)、觸發(fā)器、故障動作等,做到實(shí)時故障預(yù)警、故障恢復(fù),評估可實(shí)現(xiàn)約10%的網(wǎng)絡(luò)設(shè)備故障自動修復(fù),從而有效提升故障處理的時效性,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備運(yùn)維智能化、自動化。
與現(xiàn)有技術(shù)相比,本文利用大數(shù)據(jù)架構(gòu),分析操作日志數(shù)據(jù),回溯故障工單,獲取成功維護(hù)經(jīng)驗(yàn),提高了運(yùn)維效率及可靠性,同時自動生成經(jīng)典維護(hù)案例,實(shí)現(xiàn)運(yùn)維知識的高效傳遞。
本文介紹的基于操作日志分析的智能運(yùn)維設(shè)計方法,操作日志分析以大數(shù)據(jù)ELK 平臺為基礎(chǔ),包含了ElasticSearch 全文檢索數(shù)據(jù)庫、Logstash 日志采集器和Kibana 可視化數(shù)據(jù)搜索,系統(tǒng)架構(gòu)設(shè)計如圖1 所示。

圖1 系統(tǒng)架構(gòu)設(shè)計
Logstash 具有實(shí)時傳輸能力的數(shù)據(jù)采集引擎,以Logstash 進(jìn)行日志數(shù)據(jù)、故障工單數(shù)據(jù)的采集和解析,再將數(shù)據(jù)傳送到ElasticSearch 數(shù)據(jù)庫。
ElasticSearch 是一個實(shí)時的分布式搜索和分析引擎,ElasticSearch 提供的API 是基于HTTP 協(xié)議的RESTful API,可以用于全文搜索和分析,使用字段、數(shù)值范圍檢索,指定時間范圍查詢的大數(shù)據(jù)檢索,使海量數(shù)據(jù)可以達(dá)到秒級響應(yīng)。運(yùn)維日志分析引擎利用ElasticSearch API 封裝了自定義的運(yùn)維日志分析模塊,按運(yùn)維需求,結(jié)合故障工單數(shù)據(jù),對經(jīng)過采集、清洗過的4A 操作日志、網(wǎng)管操作日志進(jìn)行分析,獲取成功維護(hù)經(jīng)驗(yàn)。
Kibana 為ElasticSearch 提供了分析和可視化的Web接口,通過Kibana 使用戶能連接ElasticSearch 搜索引擎,進(jìn)行搜索、統(tǒng)計數(shù)據(jù),并能對Elasticsearch API 封裝的自定義運(yùn)維日志分析規(guī)則進(jìn)行驗(yàn)證,生成各種維度表格和圖形。
基于操作日志分析的智能運(yùn)維模型,從網(wǎng)絡(luò)安全和運(yùn)維的需求出發(fā),提出基于大數(shù)據(jù)海量日志分析基礎(chǔ)上進(jìn)行的智能安全感知算法,擁有日志全文搜索、可視化多維分析等核心功能,通過前端WEB 界面進(jìn)行分析與展示,實(shí)現(xiàn)統(tǒng)一管理、隱患分析、故障定位、安全預(yù)警等分析功能,給運(yùn)維人員提供價值最大化的日志數(shù)據(jù)信息。實(shí)現(xiàn)“面向設(shè)備”、“面向網(wǎng)絡(luò)”的傳統(tǒng)監(jiān)控模式轉(zhuǎn)變?yōu)椤懊嫦蚩蛻簟弊詣踊⒅悄芑闹鲃舆\(yùn)維模式。
當(dāng)網(wǎng)絡(luò)設(shè)備運(yùn)行出現(xiàn)異常,網(wǎng)絡(luò)集中告警監(jiān)控系統(tǒng)檢測到異常并實(shí)時生成故障工單,派修至相關(guān)責(zé)任部門,相關(guān)部門遠(yuǎn)程集中維護(hù)人員開始故障處理,通過4A 平臺授權(quán)登錄,接入各網(wǎng)管執(zhí)行維護(hù)操作,排查故障。以上大量網(wǎng)內(nèi)故障處理以及日常運(yùn)維操作過程產(chǎn)生的海量操作日志數(shù)據(jù)經(jīng)過ELK 平臺處理后,進(jìn)入日志分析模塊。日志分析從故障工單入口,通過回溯網(wǎng)絡(luò)設(shè)備故障工單告警產(chǎn)生關(guān)鍵信息,故障閉環(huán)信息,對操作日志進(jìn)行分析,將網(wǎng)管所執(zhí)行操作能成功排除故障的案例,打上經(jīng)驗(yàn)標(biāo)簽,成功維護(hù)經(jīng)驗(yàn)權(quán)重值置“1”,獲取成功維護(hù)經(jīng)驗(yàn),運(yùn)維操作日志分析邏輯流程如圖2 所示。

圖2 日志分析邏輯流程圖
以下通過實(shí)例分析,進(jìn)一步論證在大數(shù)據(jù)ELK 平臺基礎(chǔ)上,對運(yùn)維操作日志分析,回溯網(wǎng)絡(luò)設(shè)備故障工單,獲取成功維護(hù)經(jīng)驗(yàn)邏輯的有效性和可行性。
如圖1 系統(tǒng)架構(gòu)設(shè)計所示,日志數(shù)據(jù)、故障工單數(shù)據(jù)通過Logstash 數(shù)據(jù)采集引擎采集,并傳送到ElasticSearch數(shù)據(jù)庫。ElasticSearch 運(yùn)維日志分析模塊按運(yùn)維梳理規(guī)則,提取故障工單關(guān)鍵信息;比對分析故障關(guān)鍵信息與操作日志;利用匹配出的操作日志數(shù)據(jù),回溯到故障工單“結(jié)單信息”;生成成功維護(hù)經(jīng)驗(yàn)數(shù)據(jù),存儲到專家經(jīng)驗(yàn)庫。
以某故障為例,如圖3,故障標(biāo)題“2012 烽火江珠中80*(40/100)Gb/sDWDM 系統(tǒng)OOP_HIGH”。

圖3 故障工單
實(shí)例處理步驟1:提取故障工單關(guān)鍵信息,對應(yīng)圖2步驟1。
故障工單-“故障描述”(故障內(nèi)容)字段查找網(wǎng)絡(luò)設(shè)備告警產(chǎn)生關(guān)鍵信息如下:
【告警時間】:2021-02-22 15:54:40
【告警位置】:/Ems=廣東二干烽火100G 波分網(wǎng)管/Ne=04-01-江門炮臺
-OTM-珠海方向/Shelf=1-3/Board=49/Port=1
【告警信息】:OOP_HIGH
實(shí)例處理步驟2:將故障關(guān)鍵信息與ELK 平臺采集清洗后的操作日志匹配,對應(yīng)圖2 步驟2。
EMS 網(wǎng)管操作日志數(shù)據(jù)如圖4 所示,其中“操作對象”與故障工單關(guān)鍵信息中的“告警位置”相關(guān)聯(lián)匹配,對于關(guān)聯(lián)上的操作日志,同時關(guān)聯(lián)故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內(nèi)),搜索關(guān)聯(lián)操作,查找“操作指令”(詳細(xì)信息)。

圖4 EMS 網(wǎng)管操作日志
光保護(hù)網(wǎng)管操作日志數(shù)據(jù)詳見圖5,其中“局站”與故障工單關(guān)鍵信息中的“告警位置”相關(guān)聯(lián)匹配,對于關(guān)聯(lián)上的操作日志,同時關(guān)聯(lián)故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內(nèi)),搜索關(guān)聯(lián)操作,查找“當(dāng)前路由(切換指令)”,匹配出對應(yīng)該故障工單的操作日志數(shù)據(jù)“備”到“主”的切換操作。

圖5 光保護(hù)網(wǎng)管操作日志
實(shí)例處理步驟3:利用以上匹配出的操作日志數(shù)據(jù),回溯到故障工單“結(jié)單信息”,對應(yīng)圖2 步驟3。
如圖6 所示,匹配結(jié)果與所執(zhí)行操作一致,根據(jù)網(wǎng)管執(zhí)行操作動作,故障得以清除,插入新增字段“經(jīng)驗(yàn)獲取”標(biāo)志權(quán)值為“1”,對應(yīng)圖2 步驟4。
實(shí)例處理步驟5:生成成功維護(hù)經(jīng)驗(yàn)數(shù)據(jù),存儲到專家經(jīng)驗(yàn)庫
故障工單“經(jīng)驗(yàn)獲取”標(biāo)簽值為“1”,作為成功維護(hù)經(jīng)驗(yàn)數(shù)據(jù)固化到專家經(jīng)驗(yàn)庫,對應(yīng)圖2 步驟5。

圖6 故障工單結(jié)單信息
通過以上實(shí)例說明,基于操作日志分析,回溯故障工單,獲取成功維護(hù)經(jīng)驗(yàn)進(jìn)行固化的方法,在電信大數(shù)據(jù)平臺的基礎(chǔ)上,利用人工智能自學(xué)習(xí)的運(yùn)維模式,自動生成專家經(jīng)驗(yàn)庫,并通過優(yōu)秀專家維護(hù)經(jīng)驗(yàn)的指導(dǎo)和學(xué)習(xí),也保證運(yùn)維人員隊(duì)伍的維護(hù)水平,從而保障網(wǎng)絡(luò)安全、穩(wěn)定的運(yùn)行,讓網(wǎng)絡(luò)維護(hù)優(yōu)化工作更加面向客戶,以提升客戶對網(wǎng)絡(luò)的感知。
利用大數(shù)據(jù)框架分析處理海量操作日志數(shù)據(jù),獲取成功維護(hù)經(jīng)驗(yàn),從而將優(yōu)秀專家維護(hù)經(jīng)驗(yàn)固化和沉淀下來,解決了網(wǎng)絡(luò)運(yùn)維工程師流動性趨增的問題。并按運(yùn)維需求預(yù)設(shè)告警觸發(fā)器,故障動作,實(shí)現(xiàn)故障自動預(yù)警,自動修復(fù)。