張曉燕 聶智戈




摘要:近年來,全國重大通信事件時有發(fā)生,網(wǎng)絡問題已上升到國家安全、社會穩(wěn)定層面。隨著網(wǎng)絡云化,扁平化、集約化的進程,一個故障的影響范圍之大、傳播速度之快給維護帶來了非常大的壓力。由于故障數(shù)量呈上升趨勢,且跨專業(yè)的疑難故障比例不斷提升。本文通過對云網(wǎng)故障進行深入剖析,查找故障管控關鍵點。以重大故障關鍵管控點為切入,從提升網(wǎng)絡安全專項能力入手,探討如何構建出一套網(wǎng)絡安全防護管控體系,保障網(wǎng)絡安全、可靠、穩(wěn)定和可持續(xù)演進。
關鍵字:云網(wǎng);故障管控;網(wǎng)絡安全防護
一、引言
云網(wǎng)融合已經(jīng)成為云計算領域的發(fā)展趨勢。隨著云計算產(chǎn)業(yè)的不斷成熟,業(yè)務需求和技術創(chuàng)新并行驅動,加速了網(wǎng)絡架構正發(fā)生深刻變革。云網(wǎng)融合,云特指云計算,網(wǎng)指代通信網(wǎng)絡。云計算主要指高速的計算能力,擴充性強的存儲能力,高效的管理協(xié)同性能;通信網(wǎng)絡涵蓋了基礎接入網(wǎng),承載網(wǎng),移動通信網(wǎng)等各大運營商所提供的網(wǎng)絡。云網(wǎng)融合已經(jīng)成為新型信息基礎設施的發(fā)展方向。云網(wǎng)融合——“云是核心,網(wǎng)是基礎,網(wǎng)隨云動,云網(wǎng)一體”,成為新型信息基礎設施的必然發(fā)展方向。運用云技術加速新一代通信網(wǎng)絡技術創(chuàng)新,通過網(wǎng)絡加快云的應用和發(fā)展,與數(shù)字產(chǎn)業(yè)、實體經(jīng)濟相結合,加速驅動數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化進程。
目前各種網(wǎng)絡云化程度各不相同。有高度云化的5G核心網(wǎng),也有正被逐步融入的城域網(wǎng)絡。云與網(wǎng)正在高度協(xié)同,他們不再各自獨立。云計算的業(yè)務開展需要有通信網(wǎng)絡的支撐才能發(fā)揮作用。網(wǎng)絡的性能瓶頸同樣需要依賴云計算的優(yōu)勢去消除。最終實現(xiàn)云與網(wǎng)彼此按需打通,實現(xiàn)智能化,高效率,深度融合的新生態(tài)云網(wǎng)通信網(wǎng)絡。
二、云網(wǎng)融合背景下的運維挑戰(zhàn)
云技術對于目前傳統(tǒng)通信網(wǎng)絡運維工程師是一個全新領域。新技術帶來的不僅僅是新技術的學習,伴隨的是網(wǎng)絡架構的變革,新業(yè)務的沖擊,ICT的融合,新型的網(wǎng)絡安全隱患等等,對于云網(wǎng)運維工程師帶來的是翻天覆地的變化。云網(wǎng)運維人員肩負著網(wǎng)絡和云平臺運維的雙重重任,承受著巨大的壓力。
三、探索云網(wǎng)防護管控體系的目標
本文以重大故障關鍵管控點為切入,輸出針對性的生產(chǎn)操作優(yōu)化舉措,解決重大故障管控的痛點問題;基于云網(wǎng)基礎維護體系,進一步健全和優(yōu)化基礎維護管理體系,指導云網(wǎng)基礎維護管理工作開展,實現(xiàn)從生產(chǎn)到管理的提升,為高質量云網(wǎng)維護奠定堅實管理基礎。
四、提升云網(wǎng)安全防護能力
為提高云網(wǎng)安全防護和應對能力,我們首先要深入挖掘網(wǎng)絡的潛在風險,提升網(wǎng)絡整體安全水平。在該維度下我們創(chuàng)建了三項任務:隱患排查整改;日常維護作業(yè)計劃;應急預案規(guī)范化。
(一)隱患排查整改
首先我們需要從以下方面進行隱患的逐級排查,盡可能全面的挖掘隱患。
1. 物理層安全隱患及措施
目前云網(wǎng)的構成設備主要是以路由器、交換機、服務器為主。網(wǎng)絡結構主要采用拓撲型結構方式。物理層隱患除了設備自身的隱患外,還包含物理鏈路的隱患,機房環(huán)境等多方面的因素。
云網(wǎng)安全隱患的基本問題很多來自于物理層安全隱患。對此,我們要加強物理層安全隱患的排查與整治。從各個通信專業(yè)看,物理層的基礎設施主要包括了傳輸光纜、市內(nèi)光纖、無線信道等等。首先我們要加強機房管理,包括機房的門禁管理,機房消防設施配備,機房溫度,機房巡檢記錄完備性檢查,機房安全規(guī)范的張貼宣貫,設備標簽管理,防鼠板的設置等等。按照維護規(guī)程落實日常預檢預修。加強室內(nèi)、室外設施的巡檢制度落實,對電源或電池性能劣化,波分系統(tǒng)光功率越限,傳輸通道誤碼,匯聚及核心設備板卡性能劣化、溫度過高、CPU/內(nèi)存利用率過高等問題,日常隱患主動發(fā)現(xiàn)。
其次針對物理線路,要確保排線規(guī)范整潔,杜絕拉飛線。確保設備接入電源列頭柜的雙路保障。云網(wǎng)設備的端到端線路至少雙路由隱患排查也至關重要。對于云網(wǎng)設備硬件的定期巡檢,做到及早發(fā)現(xiàn)設備硬件預警。樞紐局(站)及承載匯聚、BBU池等網(wǎng)絡業(yè)務骨干節(jié)點機房電源與空調(diào)系統(tǒng)的結構性安全、設備完好性、監(jiān)控有效性、機房環(huán)境安全等維度的運行安全評估;骨干節(jié)點機架、設備側單電源、單回路供電等隱患的定期排查整治。
2.系統(tǒng)性安全隱患及措施
無論是云計算設備還是網(wǎng)絡設備都無法避免網(wǎng)絡安全風險。網(wǎng)絡攻擊者會利用云網(wǎng)設備漏洞入侵系統(tǒng),竊取數(shù)據(jù)信息。帶來的災難不僅僅是網(wǎng)絡的崩潰,還有用戶數(shù)據(jù)信息的泄露。加之云計算系統(tǒng)的融入,使得網(wǎng)絡安全得更加錯綜復雜。所以系統(tǒng)安全問題必須防患于未然。系統(tǒng)要及時的進行補丁操作及其版本更新。
對于網(wǎng)絡系統(tǒng)的安全防護,我們要采用多樣性的手段,以形成層次化,體系化的安全保護措施。首先是建設異常流量監(jiān)測系統(tǒng),大流量對攻擊對網(wǎng)絡的影響是最直接的,及早的發(fā)現(xiàn)異常流量,切斷異常源,讓影響減少到最小可以最大程度保護用戶的網(wǎng)絡使用感知。其次對于網(wǎng)絡安全部門發(fā)布的漏洞病毒要及時進行修補查殺。服務器設備要重視安全軟件的使用,外接設備的安全性,最大限度的避免病毒的傳播。
3.建立隱患風險值評估模型,量化隱患風險
隱患梳理完成后,需要將隱患進行分級,進而決定隱患的處理時長。那么如何科學的對隱患進行分級顯得尤為重要。本文提出了一種基于專家評價和風險矩陣的隱患風險評估模型,如圖1。
利用專家評價和二維矩陣法定量計算出受評系統(tǒng)的風險值和平穩(wěn)運行值,進而計算出平臺風險總值與平臺平穩(wěn)運行值。公式如下:
(1)
(2)
通過該模型可以計算出隱患風險評估值,將隱患進行科學理性的分級,量化隱患風險程度。
4.建立電子化隱患庫
對于梳理出來的隱患,要有持續(xù)性的跟蹤與動態(tài)管理。避免因為人員更迭造成隱患管理出現(xiàn)斷層。對各專業(yè)、各等級的網(wǎng)絡隱患、業(yè)務隱患進行清單式閉環(huán)管理。同時打通電子隱患庫與故障工單管理系統(tǒng)打通,對需要立即處理的隱患進行派單,跟蹤隱患處理狀態(tài)。
(二)日常維護作業(yè)計劃的管控
落實日常規(guī)程,對各專業(yè)的維護作業(yè)計劃進行統(tǒng)一管理,統(tǒng)一巡檢,統(tǒng)一呈現(xiàn)。一直以來日常維護作業(yè)是維護工作中最常見的計劃之一。但維護作業(yè)計劃的初衷是對網(wǎng)絡的日常檢查,發(fā)現(xiàn)問題及時處理。但往往維護作業(yè)計劃的系統(tǒng)是獨立于工單管理系統(tǒng)之外的。本文重點解決的是維護作業(yè)計劃的閉環(huán)管控問題。本文將各專業(yè)網(wǎng)管通過接口推送作業(yè)計劃執(zhí)行匯總結果到日常維護作業(yè)計劃所在系統(tǒng),進行匯總及統(tǒng)一展現(xiàn)。對于異常作業(yè)計劃可轉入電子隱患庫及派整治工單到相關崗位,從而完成閉環(huán)管控。
(三)應急預案規(guī)范化管理
應急預案是通過運維經(jīng)驗預估可能發(fā)生的故障,并針對故障做出的應對措施方案。應急預案需要定期的進行模擬或實戰(zhàn)演練。目的是檢驗應急預案是否適應當前的網(wǎng)絡狀況,考察運維人員的處理能力,檢查故障處理流程是否順暢。目前的應急預案管理通常是分散的,各個專業(yè)彼此獨立,缺乏系統(tǒng)性的管控。但是目前各專業(yè)關聯(lián)性越來越緊密,應急預案的演練等環(huán)節(jié)需要跨專業(yè)協(xié)作。那么系統(tǒng)性的規(guī)范應急預案的管理非常重要。本文旨在將各大專業(yè)關聯(lián)起來,加強各專業(yè)之間的合作。實現(xiàn)對全專業(yè)應急預案和演練進行統(tǒng)一管理及展示,應急演練的審批和應急演練留痕實現(xiàn)全流程系統(tǒng)化。
如圖2,對于文檔型預案的存放,本系統(tǒng)選擇使用知識庫系統(tǒng),便于日常查看。由應急預案牽頭人制訂應急預案演練計劃,到設定時間點,會自動觸發(fā)演練工單。由人工來判定是否需要風險審批。審批完成后,將觸發(fā)保障系統(tǒng)事件,系統(tǒng)會自動進行相關人員通知進行演練,演練完成后,更新相應的演練概況到計劃模板。整個環(huán)節(jié)可以全面考量緊急狀況的現(xiàn)象、診斷方式、應急手段,進而建立完善有效的應急預案。
五、維護人員云網(wǎng)安全意識的培養(yǎng)
加強人員的日常維護和規(guī)范管理也尤為重要。維護人員的技術水平和安全意識都直接影響到網(wǎng)絡設備與用戶信息的安全。首先要將云網(wǎng)安全管理納入日常維護工作中,制訂科學的安全維護計劃,使得網(wǎng)絡安全工作常態(tài)化。其次要配置專業(yè)的安全崗位人員,定期進行設備安全巡檢,協(xié)助并指導設備管理員進行安全防護。同時定期組織開展網(wǎng)絡安全教育培訓,提高維護人員安全應對能力和處理能力,加強維護人員安全素質的培養(yǎng),提升安全責任意識,促進網(wǎng)絡安全人才交流。
六、結束語
隨著云計算的高速發(fā)展,通信行業(yè)也已步入云網(wǎng)融合時代的快速發(fā)展期。通信設備從傳統(tǒng)的通信設備逐步向云網(wǎng)型通信設備轉型。在新技術引領下,運維人員需要對新型網(wǎng)絡進行系統(tǒng)性的,科學的維護與管理。提升用戶的用網(wǎng)感知體驗,保護網(wǎng)絡信息的安全,保障人民安全的網(wǎng)絡環(huán)境,促進社會文明的發(fā)展。
作者單位:張曉燕? ? 中國電信股份有限公司浙江分公司
聶智戈? ? 中國移動智慧家庭運營中心
張曉燕(1980.12-),女,漢族,河北,碩士研究生,中級通信工程師,研究方向:數(shù)據(jù)維護通信;
聶智戈(1977.04-), 男, 漢族,河南,碩士研究生,高級工程師, 研究方向:大規(guī)模互聯(lián)網(wǎng)業(yè)務運維保障;
李偉(1986.12-),? ?男,漢族,湖北,學士,高級工程師,研究方向:移動網(wǎng)絡規(guī)劃設計。
參? 考? 文? 獻
[1]王純子, 張斌, 李艷. 云網(wǎng)絡安全技術研究現(xiàn)狀綜述[J]. 信息安全與技術, 2015, 6(8).
[2]王全, 方琰崴. 5G電信云網(wǎng)絡安全解決方案[J]. 郵電設計技術, 2018,(11):6.
[3]羅曉波. 私有云網(wǎng)絡安全風險及安全策略設計[J].數(shù)字化用戶, 2019,025(021):103-104.