張明 尹廣彬 周輝

針對(duì)復(fù)雜網(wǎng)絡(luò)和多樣化業(yè)務(wù)對(duì)故障管理提出的高要求,首先總結(jié)了運(yùn)維發(fā)展歷程,從人工運(yùn)維、半自動(dòng)化運(yùn)維、自動(dòng)化運(yùn)維和智能化運(yùn)維(Artificial Intelligence for IT Operations)幾個(gè)階段,闡述了智能運(yùn)維的核心和關(guān)鍵點(diǎn),對(duì)比了國(guó)內(nèi)外標(biāo)準(zhǔn)化組織的運(yùn)維發(fā)展特色和貢獻(xiàn);在此基礎(chǔ)上梳理分析了網(wǎng)絡(luò)故障方面的標(biāo)準(zhǔn)化組織對(duì)故障管理研究的特色和貢獻(xiàn),最后,進(jìn)行了故障數(shù)據(jù)采集提取方式分類(lèi),故障定義分類(lèi)研究。
隨著網(wǎng)絡(luò)規(guī)模擴(kuò)大、復(fù)雜性增高、業(yè)務(wù)多樣化,對(duì)網(wǎng)絡(luò)運(yùn)維管理的要求越來(lái)越高,而故障管理是運(yùn)維管理中非常重要的功能之一,如何在故障發(fā)生時(shí),快速準(zhǔn)確定位迅速解決故障恢復(fù)正常一直是運(yùn)維管理追求的目標(biāo),同時(shí)大數(shù)據(jù)人工智能技術(shù)的發(fā)展,對(duì)運(yùn)維管理的智能性也提出了更高的要求,尤其對(duì)告警管理提出了前瞻性預(yù)測(cè)的需求,因此研究故障診斷技術(shù)是一項(xiàng)非常有意義的工作。
智能運(yùn)維發(fā)展歷程
人工運(yùn)維、半自動(dòng)化運(yùn)維、自動(dòng)化運(yùn)維和智能化運(yùn)維是傳統(tǒng)網(wǎng)絡(luò)運(yùn)維經(jīng)歷的發(fā)展過(guò)程和階段,其中,智能化運(yùn)維最早由Gartner定義為采用AI和機(jī)器學(xué)習(xí)等人工智能算法,通過(guò)人工智能算法解決已知的和潛在的運(yùn)維問(wèn)題。
智能運(yùn)維與傳統(tǒng)運(yùn)維最大的區(qū)別在于,構(gòu)建以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的智能化運(yùn)維管控平臺(tái),將數(shù)據(jù)、算法和模型應(yīng)用于網(wǎng)絡(luò)運(yùn)維任務(wù)和流程中,進(jìn)行自主分析和決策,實(shí)現(xiàn)從“基于專家經(jīng)驗(yàn)”到“基于機(jī)器學(xué)習(xí)”的轉(zhuǎn)變,在動(dòng)態(tài)變化的復(fù)雜場(chǎng)景條件下,基于智能化運(yùn)維平臺(tái)自適應(yīng)觸發(fā)高效準(zhǔn)確的決策判斷。尤其體現(xiàn)在海量告警數(shù)據(jù)聚合、動(dòng)態(tài)異常流量監(jiān)測(cè)、故障預(yù)警、故障預(yù)測(cè)等基于海量運(yùn)維數(shù)據(jù)做出分析判斷等應(yīng)用場(chǎng)景下的自主決策和分析。
故障管理國(guó)內(nèi)外研究現(xiàn)狀
為了降低運(yùn)維成本,提高網(wǎng)絡(luò)的可靠度和健壯性,國(guó)內(nèi)外標(biāo)準(zhǔn)化組織和科研機(jī)構(gòu)均針對(duì)網(wǎng)絡(luò)智能化運(yùn)維開(kāi)展了系列標(biāo)準(zhǔn)化和研究工作,具體分析如下:
國(guó)內(nèi)外在網(wǎng)絡(luò)故障運(yùn)維方面的標(biāo)準(zhǔn)化組織包括中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)(CCSA)、ITU-T和3GPP等。其中CCSA的網(wǎng)絡(luò)管理與運(yùn)營(yíng)支撐技術(shù)工作委員會(huì)(TC7)的研究領(lǐng)域包括:運(yùn)維管理、電信運(yùn)營(yíng)OSS/BSS相關(guān)領(lǐng)域的研究及標(biāo)準(zhǔn)制定。負(fù)責(zé)ITU-T SG4研究領(lǐng)域的研究工作。CCSA TC7面向無(wú)線接入網(wǎng)(2G,3G,4G)、SDN/NFV網(wǎng)絡(luò)、SDH/OTN/PTN等不同的網(wǎng)絡(luò)均提出了對(duì)應(yīng)的網(wǎng)絡(luò)運(yùn)維和管理技術(shù)要求,形成了一系列標(biāo)準(zhǔn)報(bào)批稿。面向網(wǎng)絡(luò)的智能運(yùn)維,CCSA于2018年立項(xiàng)了通信網(wǎng)智能維護(hù)技術(shù)要求“基本原則”和“通信網(wǎng)敏捷運(yùn)營(yíng)管理框架”等三項(xiàng)行標(biāo),并在此前開(kāi)展的第1、2部分研究基礎(chǔ)上,討論通過(guò)了“通信網(wǎng)智能維護(hù)技術(shù)要求第3部分:智能運(yùn)維支撐系統(tǒng)”和“通信網(wǎng)智能維護(hù)技術(shù)要求第4部分:智能運(yùn)維信息模型”兩項(xiàng)行標(biāo)立項(xiàng)建議,并在2020年1月獲批。
著名組織針對(duì)故障管理研究
傳統(tǒng)的通信網(wǎng)絡(luò)運(yùn)維管理主要依靠人工參與,管控流程過(guò)度依賴人工判斷,缺乏自動(dòng)化操作,智能化程度低,管理規(guī)則大部分基于主觀形成,缺乏科學(xué)性和客觀性,嚴(yán)重影響運(yùn)維自動(dòng)化智能化和管控效率。隨著融合物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)技術(shù)的智能可穿戴技術(shù)的實(shí)用化,以及人機(jī)交互能力的友好性不斷提升,基于智能可穿戴技術(shù)的運(yùn)維已經(jīng)應(yīng)用于大型裝備領(lǐng)域,并在通信網(wǎng)絡(luò)智能管理方面進(jìn)行了典型應(yīng)用。在上述應(yīng)用的基礎(chǔ)上,與ITU-T同步進(jìn)行的“通信網(wǎng)智能維護(hù)技術(shù)要求”相關(guān)研究,提出了涵蓋功能、性能、接口、信息模型、網(wǎng)絡(luò)功能編排等具體技術(shù)標(biāo)準(zhǔn),從而為業(yè)界應(yīng)用提供相關(guān)指導(dǎo)和規(guī)范作用。
國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(ITU-T),它是國(guó)際電信聯(lián)盟管理下的分支機(jī)構(gòu),負(fù)責(zé)制定電信標(biāo)準(zhǔn)。其中工作組SG2和SG12和網(wǎng)絡(luò)運(yùn)維相關(guān)。SG2,負(fù)責(zé)業(yè)務(wù)提供和電信管理的運(yùn)營(yíng)問(wèn)題,SG12負(fù)責(zé)性能、QoS和QoE的相關(guān)標(biāo)準(zhǔn)化。在這些標(biāo)準(zhǔn)化工作組的帶領(lǐng)下,ITU-T的M系列標(biāo)準(zhǔn)描述了通信管理、網(wǎng)絡(luò)運(yùn)維相關(guān)的標(biāo)準(zhǔn)需求,包括電信管理網(wǎng)TMN,增強(qiáng)運(yùn)營(yíng)圖(eTOM)等。為引入網(wǎng)絡(luò)智能,2019年12月ITU-T會(huì)議上針對(duì)5G網(wǎng)絡(luò)人工智能的應(yīng)用提出了對(duì)應(yīng)的標(biāo)準(zhǔn)化建議。ITU-T的E系列標(biāo)準(zhǔn)則引入了整體的網(wǎng)絡(luò)運(yùn)營(yíng)的概念,并在近期提出了智能網(wǎng)絡(luò)分析和診斷的指南標(biāo)準(zhǔn)草稿ITU-TE.475
3GPP成立于1998年12月,多個(gè)電信標(biāo)準(zhǔn)組織伙伴共同簽署了《第三代伙伴計(jì)劃協(xié)議》。3GPP最初的工作范圍是為第三代移動(dòng)通信系統(tǒng)制定全球適用的技術(shù)規(guī)范和技術(shù)報(bào)告。第三代移動(dòng)通信系統(tǒng)基于的是發(fā)展的GSM核心網(wǎng)絡(luò)和它們所支持的無(wú)線接入技術(shù),主要是UMTS。隨后3GPP的工作范圍得到了改進(jìn),增加了對(duì)UTRA長(zhǎng)期演進(jìn)系統(tǒng)的研究和標(biāo)準(zhǔn)制定。目前有歐洲的ETSI、美國(guó)的ATIS、日本的TTC、ARIB、韓國(guó)的TTA、印度的TSDSI以及我國(guó)的CCSA作為3GPP的7個(gè)組織伙伴(OP)。目前獨(dú)立成員超過(guò)550多個(gè),此外,3GPP還有TD-SCDMA產(chǎn)業(yè)聯(lián)盟(TDIA)、TD-SCDMA論壇、CDMA發(fā)展組織(CDG)等13個(gè)市場(chǎng)伙伴(MRP)。
SA WG5主要規(guī)范網(wǎng)絡(luò)(RAN,CN,IMS)及其服務(wù)的配置和管理,體系結(jié)構(gòu)和解決方案。工作組將根據(jù)相關(guān)工作組制定的相關(guān)收費(fèi)要求及解決方案,指定網(wǎng)絡(luò)及其服務(wù)計(jì)費(fèi)的體系結(jié)構(gòu)和協(xié)議。
工作組將確保其工作也適用于融合網(wǎng)絡(luò)的管理和計(jì)費(fèi),并可能適用于固定網(wǎng)絡(luò)。該工作組將與其他3GPP工作組和所有相關(guān)的SDO進(jìn)行協(xié)調(diào),以實(shí)現(xiàn)與網(wǎng)絡(luò)及其服務(wù)提供,收費(fèi)和管理有關(guān)的規(guī)范工作。
3GPP的規(guī)范中,編號(hào)為32系列的是網(wǎng)絡(luò)管理與運(yùn)營(yíng)相關(guān)的技術(shù)規(guī)范。為了降低人工運(yùn)維的成本,提出了自組織網(wǎng)絡(luò)的系列規(guī)劃,支持3G,4G以及未來(lái)5G網(wǎng)絡(luò)自配置、自優(yōu)化、自修復(fù)等功能,是網(wǎng)絡(luò)智能化運(yùn)維的基礎(chǔ)系列標(biāo)準(zhǔn)。
基于以上分析可知,智能化的配置、性能、故障等管理已經(jīng)得到了國(guó)內(nèi)外各大標(biāo)準(zhǔn)化組織的關(guān)注,并已列入相關(guān)的標(biāo)準(zhǔn)化進(jìn)程。然而目前的標(biāo)準(zhǔn)僅僅是指導(dǎo)性文件,對(duì)網(wǎng)絡(luò)智能方法的具體部署和實(shí)現(xiàn)方法,以及在專用網(wǎng)絡(luò)中的適應(yīng)性,還需要進(jìn)一步的分析。
故障數(shù)據(jù)來(lái)源及分類(lèi)
通過(guò)梳理國(guó)內(nèi)外重要標(biāo)準(zhǔn)化組織在運(yùn)維管理和故障管理中的重大貢獻(xiàn),總結(jié)出故障數(shù)據(jù)的提取和分類(lèi)是故障管理中最重要和基礎(chǔ)的研究?jī)?nèi)容。
告警數(shù)據(jù)的采集可以通過(guò)多種方式和渠道。可以通過(guò)SNMP協(xié)議中的TRAP主動(dòng)上報(bào)獲取,也可以通過(guò)定時(shí)輪詢重要參數(shù),并設(shè)定閾值對(duì)比進(jìn)行越限告警;還可以通過(guò)操作日志獲取,通過(guò)SYSLOG接口作為網(wǎng)管系統(tǒng)接收設(shè)備系統(tǒng)日志的接口,用于網(wǎng)元日志管理功能。大規(guī)模準(zhǔn)確的告警數(shù)據(jù)的獲取是進(jìn)行精準(zhǔn)告警的重要前提和基礎(chǔ),設(shè)備使用日志、設(shè)備錯(cuò)誤日志以及用戶活動(dòng)日志均是告警數(shù)據(jù)的來(lái)源,大量訓(xùn)練數(shù)據(jù)的采集存儲(chǔ)是進(jìn)行可靠神經(jīng)網(wǎng)絡(luò)建模的前提和基礎(chǔ),建模數(shù)據(jù)要求準(zhǔn)確、完整和海量。
通過(guò)告警管理可以監(jiān)控、管理系統(tǒng)自身或管理對(duì)象上報(bào)的告警、異常或事件,提供了豐富的監(jiān)控和處理規(guī)則,以滿足各種監(jiān)控和處理場(chǎng)景需要,幫助高效監(jiān)控、快速定位和處理網(wǎng)絡(luò)故障。
告警上報(bào)、告警訂閱、活躍告警同步、告警確認(rèn)、告警清除、告警查詢、告警過(guò)濾、告警統(tǒng)計(jì)、活躍告警、歷史告警、告警同步、靜態(tài)告警信息查詢、告警經(jīng)驗(yàn)庫(kù)、性能越限事件告警。告警處理能力和網(wǎng)絡(luò)中的告警數(shù)量、服務(wù)器的處理性能、內(nèi)存大小等有關(guān)系,在發(fā)生告警風(fēng)暴時(shí),告警處理能力很容易達(dá)到極限。
常見(jiàn)的告警類(lèi)型或方式為:
①通信告警:被管網(wǎng)元內(nèi)部、網(wǎng)元之間、網(wǎng)元與管理系統(tǒng)之間、管理系統(tǒng)之間的通信失敗,如設(shè)備通信中斷告警;
②業(yè)務(wù)質(zhì)量告警:業(yè)務(wù)質(zhì)量退化問(wèn)題而引起的告警,如設(shè)備擁塞告警;
③處理錯(cuò)誤告警:軟件或處理過(guò)程錯(cuò)誤而引起的告警;版本不匹配告警;
④設(shè)備告警:物理資源故障而引起的告警,如單板故障告警;
⑤環(huán)境告警:設(shè)備所在地相關(guān)的問(wèn)題而引起的告警,如設(shè)備機(jī)房有煙霧而產(chǎn)生的煙霧告警;
⑥完整性告警:請(qǐng)求的操作不能正常提供,如篡改用戶信息;
⑦操作告警:所需服務(wù)因不可用、故障或錯(cuò)誤調(diào)用等問(wèn)題無(wú)法正常運(yùn)行,如服務(wù)拒絕、服務(wù)退出、程序性錯(cuò)誤等;
⑧物理資源告警:物理資源受到破壞;
⑨安全告警:安全服務(wù)或機(jī)制檢測(cè)到有關(guān)安全方面的問(wèn)題發(fā)生;
⑩時(shí)間域告警:某事在不應(yīng)該發(fā)生的時(shí)間內(nèi)發(fā)生;
⑾屬性值改變:管理對(duì)象的屬性值發(fā)生改變。
上述所列告警類(lèi)型是故障管理的精細(xì)化分類(lèi),均可作為網(wǎng)絡(luò)故障劃分的依據(jù)和參考。
故障管理是網(wǎng)絡(luò)運(yùn)維管理五大功能之一,是網(wǎng)絡(luò)健康度評(píng)估的重要因素,是網(wǎng)絡(luò)運(yùn)行狀態(tài)的晴雨表,最初網(wǎng)絡(luò)故障都是人工手動(dòng)發(fā)現(xiàn)、手動(dòng)排除的,通常都會(huì)影響在網(wǎng)運(yùn)行業(yè)務(wù)的正常運(yùn)行,是以業(yè)務(wù)中斷為代價(jià)的;隨著大數(shù)據(jù)人工智能新技術(shù)的產(chǎn)生和迅猛發(fā)展,故障管理逐漸向主動(dòng)上報(bào)、自動(dòng)診斷、故障預(yù)測(cè)等智能性和前瞻性方向演進(jìn)。