999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據網格的電信IT系統智能運維體系

2018-07-03 08:38:58郭云峰蔡珩戈磊
電信科學 2018年6期
關鍵詞:深度智能故障

郭云峰,蔡珩,戈磊

?

基于大數據網格的電信IT系統智能運維體系

郭云峰,蔡珩,戈磊

(中國電信股份有限公司上海分公司,上海 200041)

提出利用電信大數據平臺的優勢,創新地利用人工智能的自學習運維模式,通過采集并分析IT系統的海量日志數據主動感知各個IT系統節點的運行狀態,通過智能圖計算和網格星云圖直觀展示各個IT系統節點的影響力、健康度以及依賴關系,利用Keras深度學習框架實現節點故障智能預測,構建電信IT系統大數據網格智能運維體系。

大數據;網格;智能運維;智能圖計算;網格星云圖;故障預測

1 引言

目前電信傳統運維體系在運維過程中存在“系統變化感知滯后”“未來故障無法預測”“故障響應慢成本高”三大痛點。針對上述痛點,中國電信股份有限公司上海分公司(以下簡稱上海電信)對現有的運維體系進行量子化劃分,同時利用國際先進的大數據智能圖計算分析技術和Keras深度學習算法,創新性地推出了大數據網格智能運維方案,可以大大提升電信IT系統的運維能力,主要表現在以下方面。

? 電信傳統運維需要預先定義各個節點的功能范圍以及系統之間的連接,系統變化感知滯后。大數據網格智能運維利用電信大數據平臺的優勢,通過電信IT系統海量日志的自動采集及分析,主動感知IT系統節點運行狀態的變化。

? 電信傳統運維不提供電信IT系統各節點的點、線、面關系的分析及展示功能。大數據網格智能運維通過構建大數據運維網格模型,采用網格星云圖直觀展示各個系統節點的影響力、健康度以及依賴關系,實現IT系統節點的立體感知。

? 電信傳統運維的告警處理屬于事后人工修復,故障響應時間長。大數據網格智能運維采用人工智能的深度學習運維模式,預測各個系統節點未來可能發生的潛在故障,真正實現“防患于未然”。

綜上所述,大數據網格智能運維實現了主動化、智能化的電信IT系統運維變革,大大提升了電信IT系統的維護效率,同時節約了電信IT系統維護成本,滿足電信智慧運維的需求。

2 運維智能化變革機遇

2.1 傳統運維的痛點

電信傳統運維體系在運維過程中存在以下痛點。

? 傳統運維需要預先定義各個節點的功能范圍以及系統之間的連接,但是實際生產過程中,各個節點的功能經常升級擴容而且節點連接也經常發生變化,傳統運維無法自動感知上述變化,將出現嚴重系統變化更新滯后的問題。

? 傳統運維通常是根據系統輸出的日志,分析系統歷史狀態的信息和告警,無法提供預測未來故障的關鍵智能分析功能,不能及時發現系統可能發生的潛在故障,無法實現“防患于未然”。

? 傳統運維產生告警通知維護人員進行維修,屬于事后的人工修復,故障的響應時間為小時級別甚至天級別,不能滿足實時性高的業務需求;系統運維人員需要花費大部分時間和精力處理一些簡單重復的問題,體力勞動量偏大,工作效率低,需要投入大量的維護資源。

綜上所述,電信傳統運維體系已不能滿足現有業務發展的需要,需要引入智能化運維體系,實現系統變化自動感知、主動預測未來故障、故障自動派單修復,以提升電信IT系統的運維水平,增強企業競爭力。

2.2 大數據時代的機遇

電信傳統運維體系通常采用C/S以及B/S架構的第二代數據處理技術,面對海量數據,系統利用關系型數據庫和復雜SQL語言的傳統數據處理方法將占用大量處理與存儲資源,造成承載的服務器負載過高,執行效率低下,無法勝任大數據時代的要求。

為了應對大數據的挑戰,上海電信構建了大規模的Hadoop大數據平臺,通過分散存儲滿足海量IT系統日志的存儲需求,利用并行計算實現節點主動感知和大數據網格構建,同時利用深度學習實現故障智能預測,從而為上海電信實施大數據網格和智能化運維提供了必備的條件。

2.3 人工智能運維應用

電信傳統運維體系采用預定義運維模式,通過人工預先定義各個IT系統的節點配置。同時由于系統不具備大數據分析挖掘能力,所以不能實時感知IT系統的節點運行狀態,節點的影響力、健康度以及依賴關系,也不能提供故障預測等智能分析功能。

日益興盛的人工智能技術,讓人們意識到賦予電信IT系統“智能化”是大趨勢。AIOps(artificial intelligence for IT operations)是將AI人工智能用于IT運維領域的人工智能平臺,結合大數據、機器學習和其他技術來支持所有主要的IT運營功能。

上海電信創新地利用人工智能的全文檢索算法,通過建立自我感知模式,可以主動發現系統節點,感知節點間的真實拓撲關聯,自動生成點線面立體運維網格;同時通過海量日志不斷訓練深度學習模型,可以實現運維故障智能預測。

正是通過引入全文檢索和深度學習等人工智能算法,才能顛覆傳統網管的預定義模式,為上海電信實施大數據網格和智能化運維提供了核心技術支持,符合產業界最新AIOps運維體系的要求。

3 運維智能化主動創新

3.1 運維體系創新思路

由于電信傳統運維體系無法勝任大數據時代的要求,需要顛覆傳統運維的預定義運維模式,創新地利用人工智能的自學習運維模式,創新思路如圖1所示。

圖1 電信運維體系創新思路

第一階段:利用電信大數據平臺的優勢,通過電信IT系統海量日志的自動采集及分析,主動感知IT系統節點運行狀態的變化。

第二階段:采用圖計算技術自動構建運維網格,并通過網格星云圖直觀展示電信各個節點的影響力、健康度以及依賴關系,實現IT系統節點的立體感知。

第三階段:利用Keras深度學習算法,構建電信IT系統日志的深度學習應用模型,實現IT系統節點故障的智能預測。

3.2 節點主動感知——實時發現IT系統節點的運行狀態變化

本文利用電信大數據平臺的優勢,通過業務日志實時采集技術和probe(探針)進程日志自動采集技術,主動感知電信IT系統節點運行狀態的變化,包括資源使用變化、網絡拓撲變化、軟件進程變化、服務調用變化、業務響應時間變化等。

(1)節點主動感知流程

節點主動感知業務流程如圖2所示。

圖2 節點主動感知流程

第一階段:實時采集上海電信多個IT系統的節點日志數據。

第二階段:將采集到的節點日志自動存儲到上海電信大數據平臺,生成大數據基礎信息表。

第三階段:實時分析大數據基礎信息表,獲取節點運行狀態。

(2)節點日志實時采集

本文采用Kafka+Storm流式數據實時采集技術架構,對上海電信多個IT系統的業務日志數據進行實時采集,從而實時感知IT系統節點的運行情況、業務調用等信息,其中,CSB(channel service bus)等系統的業務日志為實時采集,響應時間最快可以達到秒級。

同時通過在上海電信多個IT系統節點部署probe進程日志采集程序,獲取節點進程的運行情況,從而實時感知IT系統節點服務進程之間的相互連接情況以及進程自身的資源占用情況。為避免probe采集程序消耗過多的系統資源,probe進程日志自動采集頻率為分鐘級別,通常為3~5 min。

(3)節點日志實時匯聚

節點日志自動存儲到上海電信大數據平臺后,根據業務需求生成大數據基礎信息表。大數據基礎信息表示例如下。

? 流量數據表:數據字段包括設備號、端口號、入口流量、出口流量。

? Syslog數據表:數據字段包括設備號、端口號、時間戳、告警內容。

? 用戶數據表:數據字段包括端口名、端口ID、設備名、客戶ID。

? CPU和內存數據表:數據字段包括設備名、時間戳、使用占比。

? 修障事件單數據表:數據字段包括設備名、狀態ID、時間戳、客戶ID、主題、事件描述。

? 設備關聯信息表:數據字段包括本端設備號、遠端設備號。

(4)節點狀態主動感知

基于大數據基礎信息表實時分析電信IT系統海量日志,主動感知各個IT系統節點的運行情況,包括節點運行狀態(on/down)、節點內存使用情況、節點CPU使用情況、節點流量情況、節點告警情況等節點運行信息。

(5)節點主動感知覆蓋范圍

截止到2017年6月,上海電信統一規劃并建設了包含CRM系統、IBP系統、綜合資源系統、CSB系統、計費系統、大數據平臺、信息網絡部IDC數據中心的大數據智能網格運維應用。

? 業務日志每天數據量為2.9 TB左右,記錄數為11.3億條左右。

? 已部署probe進程日志采集的設備971臺,記錄數為4 900萬條/天。

以CSB系統為例,通過節點主動感知,可以獲得CSB系統節點實時動態網絡拓撲如圖3所示。

3.3 運維網格構建——直觀展示IT系統節點的點線面關系

本文利用Graphx的圖計算框架,構建電信網格運維模型,并通過星云圖直觀展示運維網格中設備的依賴關系和運行狀態,從而形成運維網格的點、線、面的矢量關系圖。

圖3 CSB系統節點實時動態網絡拓撲

(1)IT系統網格化運維模型

IT系統網格化運維模型按照人、事、物、態標準劃分網格單元,實行全方位、扁平化、聯動式的動態管理。首先要將運維的對象、內容、主體、狀態進行網格化,即所謂的點;找出點之間內在的邏輯關系,即所謂的線;找出線之間的邏輯關系,即所謂的面。

IT系統網格化運維模型如圖4所示。

(2)構建圖形數據庫

Graphx的圖形數據庫是一種非關系型數據庫,它應用圖形理論存儲實體之間的關系信息。數據模型主要是以節點和關系(邊)來體現,也可處理鍵值對。利用圖形數據庫可以直觀地描述電信業務系統之間點線面的關系。

運維網格系統中的圖數據結構抽象如下。

圖4 電信網格化運維模型

? 節點:主要是服務器主機或者一組功能相同的機器。

? 關系:不同系統的軟件的相互通信,比如進程連接、業務調用以及依賴關系等。

(3)網格星云圖展示

利用圖計算的智能日志分析方法,計算出網格中每個節點的狀態信息,通過星云圖將網格中的節點狀態信息最直觀地反映出來。通過星云圖的展示,可以直觀地看到節點的影響力、健康度、連接、影響范圍等節點的狀態信息。

? 影響力量化:將每個進程的影響力量化通過每個節點面積表示。

? 連接可視化:將每個進程之間的鏈接通過連線描述。

? 健康度量化:將設備當前的運行狀況通過不同的顏色表示。

(4)網格星云圖應用示例

截止到2017年6月,上海電信統一規劃并建設了包含CRM系統、IBP系統、綜合資源系統、CSB系統、計費系統、大數據平臺的大數據智能網格運維應用,其中,大數據智能網格運維星云圖示例如圖5所示。

圖5 上海電信大數據智能網格運維星云圖應用示例

3.4 故障智能預測——深度學習事先發現IT系統故障

本文利用深度學習算法構建日志數據的深度學習應用模型,并且可以輸出智能預測的應用結果,用于實現故障的智能預測,并且實現事先告警有助于提前實施預防措施,真正實現“防患于未然”。

(1)深度學習數據處理流程

電信IT系統深度學習數據處理流程如圖6所示。

圖6 IT系統運維節點故障自動預測業務流程

通過上述深度學習數據處理流程,可以深度學習運維網格各個系統的歷史日志,從而獲得深度學習模型并且輸出最有效的預測模型。

(2)Keras深度學習應用模型

由于故障預測是在事先未知情況下,利用歷史數據通過無監督學習的方法,輸出未來故障的預警。因此本文采用Keras算法構建深度學習應用模型。Keras算法是一個高層神經網絡庫,具有良好的模塊化和快速原型迭代等優點,可以滿足海量日志的無監督學習以及故障預測響應時間的要求。

Keras深度學習應用模型如圖7所示。

圖7 Keras深度學習應用模型

目前采用的Keras算法主要采用Sequential(序貫模型,也稱為單輸入單輸出模式),未來深度學習算法準備升級到Keras2,可以支持基于Model(一般模型)的多輸入多輸出,從而提高迭代效率和自學習速度。

(3)故障智能預測模型

本文基于深度學習的方法,對IT系統的進程和端口網絡進行分析,并對該IT系統的節點即某個進程或端口的狀態進行預測。

系統對該進程網絡中的節點進行如下分析:

? 將某個進程的占用CPU、內存情況看作進程節點的“固有屬性”;

? 將進程之間的通信看作進程網絡中的邊;那么,節點在網絡中的中心度可以衡量節點的活躍程度以及與外界聯系的緊密程度;

? 把進程崩潰視作一個進程的行為,那么進程崩潰這一現象可以類比為社交網絡中信息的擴散。

因此,端口網絡中的某個節點可以表示為{(in1,out1,1),(in2,out2,2)…},其中(in,out,t)表示在t時刻,具有入流量in,出流量out

基于以上分析,本文把一個進程或端口發生崩潰、阻塞等異常的現象定義為網絡中一個節點的狀態;在給定的時間戳下,網絡中的節點可以被分為兩類:處于異常狀態的節點和處于正常狀態的節點;因此,預測網絡中節點的異常可以轉化為針對網絡節點的二分類問題。

本文仔細地選取節點的相關屬性作為節點分類的特征,用卷積神經網絡(convolutional neural network,CNN)對該模型進行分類,并得到了較為可信的結果。

CNN是一類特別設計用來處理二維數據的多層神經網絡,也是一種深度監督學習下的機器學習模型,具有極強的適應性,善于挖掘數據局部特征,提取全局訓練特征和分類,它的權值共享結構網絡使之更類似于生物神經網絡,在模式分類的各個領域都取得了很好的成果。

(4)故障智能預測準確性驗證示例

為了驗證故障智能預測的準確性,上海電信利用大數據網格智能運維系統對信息網絡部IDC(互聯網數據中心)進行端口故障預測的驗證工作。其中采集的數據范圍是2017年8月13—20日,預測的設備數量為617個,端口數量為5 930個,具體驗證結果見表1。

通過此驗證示例可知,本運維網格模型在信息網絡部IDC端口故障預測中的準確率均超過90%,滿足了維護人員對于故障預測的準確性要求,可以用于支撐今后的智能運維工作。

4 運維智能化未來展望

大數據網格智能運維系統顛覆了傳統網管的預定義運維模式,創新地利用人工智能的自學習運維模式,實現了節點主動感知、運維網格構建和故障智能預測,填補了人工智能在電信運維應用領域的空白。

系統下一階段的目標是將智能預測的故障,實時提交給自動排障系統,逐步積累修障知識庫,陸續將可以通過自動腳本或者軟件工具修復而無需人工干預的故障剝離出來,提交給智能機器人自動修復故障,從而大大縮短故障修復時間并降低IT系統運維成本。

表1 上海電信IDC故障智能預測準確率驗證結果

圖8 未來智能運維機器人應用示例

下一階段,智能運維機器人可以通過深度學習系統日志、告警信息以及故障處理單等數據,同時結合RCA(root cause analysis)根因分析等智能運維流程,實現設備故障的提前預測和自動處理,從而實現智能化運維的目標。

智能運維機器人應用如圖8所示。

圖8中,當智能運維機器人上線后,系統發生141個故障時,智能運維機器人可以自動修復129個故障,運維人員只需要處理12個故障,大大減少了運維人員的工作量,提高了IT系統的運維效率。

5 結束語

本文利用大數據平臺的優勢,創新地利用人工智能的自學習運維模式,實現電信IT系統節點運行狀態主動感知、節點運維網格構建和節點故障的智能預測,未來還可以實現人工智能機器人自動運維,從而實現電信IT系統智能化運維的目標。

[1] 馬世龍, 烏尼日其其格, 李小平. 大數據與深度學習綜述[J]. 智能系統學報, 2016, 11(6): 728-742.

MA S L, WUNIRI Q Q G, LI X P. Deep learning with big data: state of the art and development[J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 728-742.

[2] 任浩, 屈劍鋒, 柴毅, 等. 深度學習在故障診斷領域中的研究現狀與挑戰[J]. 控制與決策, 2017(8): 1345-1358.

REN H, QU J F, CHAI Y, et al. Research status and challenges of deep learning in fault diagnosis[J]. Control and Decision, 2017(8): 1345-1358.

[3] 張清辰. 面向大數據特征學習的深度計算模型研究[D].大連: 大連理工大學, 2015.

ZHANG Q C. Research on deep computing model for big data feature learning[D]. Dalian: Dalian University of Technology, 2015.

[4] 郭麗麗, 丁世飛. 深度學習研究進展[J]. 計算機科學, 2015(5).

GUO L L, DING S F. Deep learning research progress[J]. Computer Science, 2015(5).

[5] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2016.

[6] MOOLENBROEK D C V, APPUSWAMY R, TANENBAUM A S. Integrated system and process crash recovery in the loris storage stack[C]//2012 IEEE 7th International Conference on Networking, Architecture and Storage(NAS), June 28-30, 2012, Xiamen, China. Piscataway: IEEE Press, 2012: 1-10.

[7] MOHAMED E E, ABDEL-WAHAB H, SALAMA I. Multicast address management in the internet: a study of the port blocking problem[R]. 1999.

[8] NEWMAN M, BARABáSI A L, WATTS D J. The structure and dynamics of networks[M]. Princeton: Princeton University Press, 2006.

Telecom intelligent operation system based on big data grid

GUO Yunfeng, CAI Heng, GE Lei

Shanghai Branch ofTelecom Co., Ltd., Shanghai 200041, China

Based on the advantages of telecom big data platform, the self-learning operation mode of artificial intelligence was utilized innovatively. The operational status of each IT system nodes were actively perceived by collecting and analyzing the massive log data of IT system. The influence, health and dependence of each IT system nodes were visualized by intelligent graph calculation and grid nebulae graph. The intelligent prediction of node failure was realized by Keras deep learning framework, and the big data grid intelligent operation system of telecom IT system was built.

big data, grid, intelligent operation, intelligent graph calculation, grid nebulae graph, failure prediction

TP391.1

A

10.11959/j.issn.1000?0801.2018167

郭云峰(1973?),男,中國電信股份有限公司上海分公司企業信息化部副總經理、工程師,主要研究方向為大數據技術以及應用等。

蔡珩(1973?),女,中國電信股份有限公司上海分公司工程師、IT運維主管,主要研究方向為 IT智慧運營、利用大數據技術提升系統運維的智能化。

戈磊(1973?),男,中國電信股份有限公司上海分公司企業信息化部高級項目經理,主要研究方向為云計算、開源架構、大數據分析、Devops運營、流程生命周期管控等。

2017?11?28;

2018?04?26

猜你喜歡
深度智能故障
深度理解一元一次方程
故障一點通
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
深度觀察
奔馳R320車ABS、ESP故障燈異常點亮
主站蜘蛛池模板: 强奷白丝美女在线观看| 伊人丁香五月天久久综合| 亚洲一区二区三区在线视频| 在线亚洲精品自拍| 亚洲热线99精品视频| 伊人久久婷婷五月综合97色| 亚洲精品在线影院| 国产成人av大片在线播放| 中文字幕天无码久久精品视频免费 | 色久综合在线| 亚洲精品在线观看91| 久久午夜夜伦鲁鲁片不卡| 久久综合九色综合97网| 99re在线视频观看| 国产精品久久久久久久久久久久| swag国产精品| 国产av一码二码三码无码 | 91破解版在线亚洲| 精品一區二區久久久久久久網站| 日韩二区三区| 天天综合天天综合| 国产成人做受免费视频| 亚洲无限乱码| 国产欧美日韩在线在线不卡视频| 亚洲欧美日韩中文字幕在线一区| 国产91成人| 亚洲大学生视频在线播放| WWW丫丫国产成人精品| 国产乱人乱偷精品视频a人人澡| 在线无码私拍| 亚洲黄色高清| 综合网天天| 国产一级二级在线观看| 欧美日韩在线成人| 91偷拍一区| 亚洲免费三区| 91一级片| 亚洲视频免费在线看| 欧美亚洲国产精品第一页| 四虎在线高清无码| 欧美区日韩区| 毛片免费在线| 色综合五月婷婷| 免费国产黄线在线观看| 日韩国产一区二区三区无码| 综合网久久| 国产亚洲精久久久久久久91| 一本色道久久88| 国产自在线拍| 大香伊人久久| 五月婷婷丁香色| 一级毛片在线播放免费| 996免费视频国产在线播放| 欧亚日韩Av| 成年人视频一区二区| 女人毛片a级大学毛片免费| 久久九九热视频| 婷婷开心中文字幕| 无码免费视频| 91精品国产自产在线老师啪l| 91无码人妻精品一区二区蜜桃| 欧美无遮挡国产欧美另类| 欧美日本不卡| 日韩无码黄色| 国产亚洲精| 亚洲AV人人澡人人双人| 黄色三级毛片网站| 狠狠色丁香婷婷综合| 亚洲一区二区无码视频| 亚洲美女视频一区| 免费在线看黄网址| 麻豆国产原创视频在线播放 | 在线观看国产小视频| 婷婷五月在线| 丁香婷婷激情综合激情| 色哟哟国产精品| 亚洲国产精品不卡在线| 狂欢视频在线观看不卡| 国产99视频精品免费观看9e| 亚洲精品动漫| 欧美三级视频网站| 尤物亚洲最大AV无码网站|