999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)*

2023-07-25 05:18:38張多才雷向煜趙廣杰
科技與創(chuàng)新 2023年11期
關(guān)鍵詞:智能故障服務(wù)

楊 娜,張多才,雷向煜,趙廣杰

(西安航天天繪數(shù)據(jù)技術(shù)有限公司,陜西 西安 710003)

中國(guó)數(shù)字化進(jìn)程按下加速鍵,中央明確提出要加快5G 基建、特高壓、城際高速鐵路和城際軌道交通、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)和新能源汽車(chē)充電樁等“七大領(lǐng)域”新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度[1],數(shù)據(jù)中心也在加快建設(shè)的行列,這是近年來(lái)國(guó)家第一次將數(shù)據(jù)中心的建設(shè)列入加快建設(shè)的條目。

近年來(lái),在線服務(wù)需求激增,數(shù)據(jù)成為關(guān)鍵資源,而數(shù)據(jù)中心信息基礎(chǔ)設(shè)施承擔(dān)著數(shù)據(jù)收集、計(jì)算、轉(zhuǎn)化、流通的重要職責(zé)。隨著“新基建”的加速推進(jìn),網(wǎng)絡(luò)基礎(chǔ)設(shè)施及網(wǎng)絡(luò)服務(wù)需求大幅增加,數(shù)據(jù)中心作為底層基礎(chǔ)設(shè)施將持續(xù)增長(zhǎng),數(shù)據(jù)中心建設(shè)及擴(kuò)容的步伐也會(huì)相應(yīng)加快[2]。大規(guī)模數(shù)據(jù)中心建設(shè)勢(shì)必需要加速發(fā)展數(shù)據(jù)中心運(yùn)維。

隨著大數(shù)據(jù)、云計(jì)算以及分布式架構(gòu)的不斷成熟,使得通過(guò)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的智能運(yùn)維分析幫助運(yùn)維人員定位問(wèn)題變成了可能。智能運(yùn)維通過(guò)機(jī)器學(xué)習(xí)等人工智能算法進(jìn)行“自主式”學(xué)習(xí)分析總結(jié),持續(xù)為大規(guī)模、高復(fù)雜性的系統(tǒng)提供運(yùn)維服務(wù)。

1 研究背景

隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)張、設(shè)備數(shù)量和種類(lèi)的增長(zhǎng),綜合數(shù)據(jù)中心運(yùn)維呈現(xiàn)運(yùn)維人員不足、運(yùn)維自動(dòng)化水平低、基礎(chǔ)設(shè)備無(wú)統(tǒng)一管理、運(yùn)維平臺(tái)支撐力不夠和配置管理不足等局面,具體的運(yùn)維現(xiàn)狀總結(jié)為如下4 點(diǎn)。

第一,人少、事多、責(zé)任大。運(yùn)維團(tuán)隊(duì)人員過(guò)去運(yùn)維管理十到十幾臺(tái)設(shè)備,發(fā)展到目前運(yùn)維設(shè)備數(shù)量十倍至百倍地增長(zhǎng),一旦遇上機(jī)房搬遷、災(zāi)備建設(shè)等重大運(yùn)維工作事項(xiàng)勢(shì)必消耗大量的人力物力,日常事務(wù)運(yùn)維自動(dòng)化水平不高,運(yùn)維人工流程管理易造成運(yùn)維人員嚴(yán)重不足。

第二,運(yùn)維對(duì)象、數(shù)據(jù)激增。對(duì)于運(yùn)維對(duì)象,即服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用、業(yè)務(wù)系統(tǒng)及基礎(chǔ)設(shè)施等[3],不僅范圍比較廣,而且運(yùn)維的數(shù)據(jù)多樣化。針對(duì)系統(tǒng)運(yùn)維數(shù)據(jù)進(jìn)行整理,將其歸類(lèi)成7 類(lèi)數(shù)據(jù),包括日志、指標(biāo)、告警、熱點(diǎn)、預(yù)警、問(wèn)題單、事件單[4],對(duì)運(yùn)維數(shù)據(jù)進(jìn)行采集、錄入和整合。

第三,運(yùn)維場(chǎng)景多樣化。運(yùn)維過(guò)程是故障發(fā)現(xiàn)、故障解決、提高運(yùn)維質(zhì)量的過(guò)程[5]。由于IT 業(yè)務(wù)不斷地增加,為了保證各業(yè)務(wù)之間的連續(xù)性,不同業(yè)務(wù)之間產(chǎn)生多樣化的運(yùn)維場(chǎng)景,依靠單一解決方案無(wú)法滿足業(yè)務(wù)連續(xù)性的需求,導(dǎo)致場(chǎng)景無(wú)法持續(xù),無(wú)法基于現(xiàn)有IT 業(yè)務(wù)實(shí)現(xiàn)全面的覆蓋。

第四,缺少基于海量數(shù)據(jù)的故障預(yù)測(cè)。數(shù)據(jù)中心運(yùn)維過(guò)程中產(chǎn)生的海量數(shù)據(jù),不能夠通過(guò)自主學(xué)習(xí)的方式來(lái)發(fā)現(xiàn)并建立海量數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,需要通過(guò)機(jī)器學(xué)習(xí)的方法基于海量數(shù)據(jù)進(jìn)行故障預(yù)測(cè)。

2 建設(shè)目標(biāo)及定位

2.1 建設(shè)目標(biāo)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)以配置管理為核心,以ITIL/ITSM 流程為基礎(chǔ),搭建運(yùn)維監(jiān)控、智能運(yùn)維、工單管理等多項(xiàng)應(yīng)用產(chǎn)品,實(shí)現(xiàn)集監(jiān)控、告警、智能運(yùn)維為一體的運(yùn)維平臺(tái),基于機(jī)器學(xué)習(xí)的智能運(yùn)維大腦,指揮監(jiān)控服務(wù)監(jiān)控采集各類(lèi)運(yùn)維數(shù)據(jù),訓(xùn)練樣本,做出分析并指揮決策。最終實(shí)現(xiàn)運(yùn)維工作從依靠人工決策,到依靠機(jī)器決策的轉(zhuǎn)變。

2.2 項(xiàng)目定位

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)提供智能運(yùn)維手段,主要負(fù)責(zé)監(jiān)控?cái)?shù)據(jù)中心軟硬件運(yùn)行狀態(tài),包括基礎(chǔ)設(shè)施、業(yè)務(wù)系統(tǒng)的數(shù)據(jù)運(yùn)行狀態(tài)、服務(wù)內(nèi)容等數(shù)據(jù)和服務(wù)運(yùn)維態(tài)勢(shì),提供集中的運(yùn)維態(tài)勢(shì)信息展示,管理資源、人員、配置、流程,監(jiān)視故障并告警,協(xié)助快速定位故障原因,為整個(gè)系統(tǒng)的平穩(wěn)運(yùn)行提供保障。

3 總體設(shè)計(jì)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)通過(guò)監(jiān)控服務(wù)采集日志、監(jiān)控信息、流量和應(yīng)用等運(yùn)維數(shù)據(jù),采用先進(jìn)機(jī)器學(xué)習(xí)的方法結(jié)合已有運(yùn)維數(shù)據(jù)作為訓(xùn)練樣本來(lái)滿足運(yùn)維自動(dòng)化、智能化的需求。以業(yè)務(wù)應(yīng)用為牽引,實(shí)現(xiàn)多維度數(shù)據(jù)采集和性能監(jiān)控、故障監(jiān)控以及全生命周期配置管理的流程,充分利用可視化技術(shù)呈現(xiàn)全景運(yùn)維。

3.1 平臺(tái)架構(gòu)設(shè)計(jì)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)技術(shù)架構(gòu)由下至上分為基礎(chǔ)層、數(shù)據(jù)資源層、數(shù)據(jù)采集層、數(shù)據(jù)處理層、服務(wù)層和應(yīng)用層等6 層。基礎(chǔ)層主要提供基礎(chǔ)運(yùn)行環(huán)境;數(shù)據(jù)資源層主要是網(wǎng)絡(luò)、服務(wù)器、中間件和數(shù)據(jù)庫(kù)等運(yùn)維對(duì)象;數(shù)據(jù)采集層主要是采集的數(shù)據(jù)類(lèi)型及數(shù)據(jù)技術(shù);數(shù)據(jù)處理層主要是大數(shù)據(jù)處理和算法處理;服務(wù)層主要提供各類(lèi)功能服務(wù);應(yīng)用層主要提供定制態(tài)勢(shì)大屏和智能工作臺(tái)。

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)詳細(xì)技術(shù)架構(gòu)如圖1 所示。

圖1 技術(shù)架構(gòu)

基礎(chǔ)層:為綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)提供合乎運(yùn)行的基礎(chǔ)環(huán)境,包括云系統(tǒng)、操作系統(tǒng)、Docker運(yùn)行容器等。

資源層:主要是綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)運(yùn)維對(duì)象即監(jiān)控的資源,包括網(wǎng)絡(luò)設(shè)備、云/物理服務(wù)器、存儲(chǔ)設(shè)備、數(shù)據(jù)庫(kù)/中間件、應(yīng)用系統(tǒng)等。

采集層:可以從數(shù)據(jù)采集技術(shù)、數(shù)據(jù)類(lèi)型和業(yè)務(wù)來(lái)源3 個(gè)緯度進(jìn)行劃分。數(shù)據(jù)采集技術(shù)包括MIB 采集、SNMP 采集、爬蟲(chóng)采集、API 采集和第三方集成等技術(shù)。按業(yè)務(wù)來(lái)源可劃分為基礎(chǔ)設(shè)施、云平臺(tái)資源、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)和服務(wù)以及機(jī)房配套運(yùn)維態(tài)勢(shì)信息。按數(shù)據(jù)類(lèi)型可劃分為事件數(shù)據(jù)、告警數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、性能數(shù)據(jù)和配置數(shù)據(jù)等。采集層所有數(shù)據(jù)匯聚成運(yùn)維大數(shù)據(jù)。

處理層:主要是對(duì)采集的各類(lèi)運(yùn)維數(shù)據(jù)進(jìn)行集中處理,包括數(shù)據(jù)庫(kù)大數(shù)據(jù)處理、流式處理、檢索引擎以及機(jī)器學(xué)習(xí)中日志異常檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)等算法。

服務(wù)層:主要包括監(jiān)控服務(wù)、智能運(yùn)維、日志服務(wù)、配置管理庫(kù)、運(yùn)維知識(shí)庫(kù)、運(yùn)維態(tài)勢(shì)大屏和系統(tǒng)管理。

展示層:主要包括運(yùn)維態(tài)勢(shì)大屏界面。運(yùn)維態(tài)勢(shì)大屏提供開(kāi)放式的大屏展示功能,將各軟硬件系統(tǒng)的運(yùn)行態(tài)勢(shì)集中展現(xiàn)在統(tǒng)一界面上,通過(guò)大屏展現(xiàn)形式實(shí)時(shí)呈現(xiàn)機(jī)房3D 全景和拓?fù)淙暗取S脩艨筛鶕?jù)業(yè)務(wù)需要通過(guò)“拖拉拽”方式自定義個(gè)性化視圖展示,支持多種主題自由切換。

3.2 平臺(tái)功能設(shè)計(jì)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)根據(jù)業(yè)務(wù)劃分為7 部分,具體如下。

監(jiān)控服務(wù):主要采集基礎(chǔ)設(shè)施、云平臺(tái)資源、大數(shù)據(jù)平臺(tái)、機(jī)房配套以及應(yīng)用系統(tǒng)的運(yùn)維狀態(tài)信息,并依據(jù)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)告警。

日志服務(wù):能夠支持多源日志數(shù)據(jù)采集、存儲(chǔ)、檢索及關(guān)聯(lián)融合,日志異常檢測(cè),支撐通過(guò)檢索日志快速定位故障。

配置管理庫(kù):主要負(fù)責(zé)全系統(tǒng)的軟硬件資源、動(dòng)環(huán)資源,工單流轉(zhuǎn)、各類(lèi)指標(biāo)以及自定義配置等。它是所有應(yīng)用運(yùn)行和應(yīng)用交付的數(shù)據(jù)資源基礎(chǔ),基于配置管理,可以實(shí)現(xiàn)采集資源信息自動(dòng)化、軟件安裝自動(dòng)化、應(yīng)用部署自動(dòng)化,告警信息依托設(shè)備資源配置信息提升準(zhǔn)確性,提供設(shè)備與應(yīng)用關(guān)系圖信息,輔助故障影響范圍的判斷。

智能運(yùn)維:主要實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房的遠(yuǎn)程運(yùn)維管理,智能監(jiān)控服務(wù)器、安全設(shè)備、云設(shè)備、存儲(chǔ)設(shè)備、應(yīng)用系統(tǒng)和動(dòng)環(huán)系統(tǒng),對(duì)服務(wù)器設(shè)備進(jìn)行安裝操作系統(tǒng)、補(bǔ)丁升級(jí)和自動(dòng)巡檢,并依據(jù)異常檢測(cè)算法進(jìn)行故障異常檢測(cè),并發(fā)出故障告警。

運(yùn)維知識(shí)庫(kù):收集運(yùn)維過(guò)程中的經(jīng)驗(yàn)形成知識(shí),為全系統(tǒng)運(yùn)維工作提供經(jīng)驗(yàn)與知識(shí)積累,為故障處理提供相應(yīng)經(jīng)驗(yàn)或知識(shí)推薦。

運(yùn)維態(tài)勢(shì)大屏:從全局拓?fù)洹⒅匾Y源狀態(tài)、系統(tǒng)異常情況等多個(gè)維度,以統(tǒng)計(jì)圖、邏輯關(guān)系等視角對(duì)監(jiān)控對(duì)象的運(yùn)維態(tài)勢(shì)進(jìn)行集中信息展示。

智能工作臺(tái):主要實(shí)現(xiàn)服務(wù)登記、服務(wù)查詢、待回訪工單、故障管理等功能,從而幫助運(yùn)維人員及時(shí)準(zhǔn)確地掌握各類(lèi)事件告警。

4 平臺(tái)實(shí)現(xiàn)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)主要遵循ITIL 流程架構(gòu),結(jié)合綜合數(shù)據(jù)中心運(yùn)維管理特點(diǎn),建立統(tǒng)一的運(yùn)維門(mén)戶報(bào)障平臺(tái),實(shí)現(xiàn)自助式、一站式服務(wù)[6]。提供智能運(yùn)維的手段,集中的運(yùn)維態(tài)勢(shì)信息展示,管理資源、人員、配置、流程,監(jiān)視故障并告警,協(xié)助快速定位故障原因,為整個(gè)系統(tǒng)的平穩(wěn)運(yùn)行提供保障。

4.1 監(jiān)控服務(wù)

監(jiān)控服務(wù)主要面向綜合數(shù)據(jù)中心跨平臺(tái)、跨廠商基礎(chǔ)設(shè)施,涵蓋主流服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、中間件、數(shù)據(jù)庫(kù)、容器、大數(shù)據(jù)平臺(tái),以及采集綜合數(shù)據(jù)中心應(yīng)用服務(wù)的運(yùn)行狀態(tài)信息,提供7×24 h 持續(xù)性能監(jiān)控,對(duì)接收的各類(lèi)監(jiān)控狀態(tài)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和異常檢測(cè)分析,并依據(jù)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)告警。系統(tǒng)支持多種告警方式,郵件、短信和語(yǔ)音告警。

4.2 日志服務(wù)

系統(tǒng)在運(yùn)行中產(chǎn)生了系統(tǒng)日志、應(yīng)用日志、網(wǎng)絡(luò)日志、設(shè)備日志等海量日志,針對(duì)不同來(lái)源、不同模式的日志,傳統(tǒng)方式是通過(guò)關(guān)鍵字和解析規(guī)則解析存在不足,故采用日志智能異常檢測(cè)方法進(jìn)行處理。異常檢測(cè)技術(shù)主要包括如下步驟:日志采集、日志解析、特征抽取、異常檢測(cè)[7]。

日志采集包括文本方式、SNMP 的TRAP 方式、Syslog 方式以及Telnet 遠(yuǎn)程控制命令方式[8],采集的對(duì)象包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、中間件、數(shù)據(jù)庫(kù)、安全設(shè)備、應(yīng)用系統(tǒng)等,其中,應(yīng)用系統(tǒng)日志通過(guò)kafka 方式進(jìn)行實(shí)時(shí)收集,實(shí)時(shí)數(shù)據(jù)流被策略地過(guò)濾與歸并,提升日志分析的效率。

日志解析通過(guò)自然語(yǔ)言處理技術(shù)NLP 從一條日志中提取若干詞元來(lái)支撐索引的存儲(chǔ)和檢索,文本日志與一般的自然語(yǔ)言不同,它含有大量的關(guān)鍵詞,這些關(guān)鍵詞與系統(tǒng)息息相關(guān)。例如,IP 地址、文件路徑、內(nèi)存地址、時(shí)間信息、故障提示等。

特征抽取主要是通過(guò)自然語(yǔ)言處理NLP 技術(shù),分析海量日志中的共性和常見(jiàn)模板,采用FT-tree 方法提取變量和模板,將一系列非結(jié)構(gòu)化日志轉(zhuǎn)換為結(jié)構(gòu)化日志[9]。

異常檢測(cè)主要基于日志模板和變量提取后,采用KPI 異常檢測(cè)算法進(jìn)行日志異常檢測(cè)。

4.3 配置管理庫(kù)

配置管理庫(kù)負(fù)責(zé)管理全系統(tǒng)硬件設(shè)備資源、應(yīng)用資源、人力資源、動(dòng)力環(huán)境資源配置項(xiàng),跟蹤設(shè)備資源變更管理,基于流程引擎實(shí)現(xiàn)工單流轉(zhuǎn),提供運(yùn)維監(jiān)控指標(biāo)管理功能。提供基礎(chǔ)數(shù)據(jù)支撐,支持動(dòng)態(tài)構(gòu)建自定義關(guān)聯(lián)模型,管理所有設(shè)備資源的相關(guān)配置數(shù)據(jù),如采集指標(biāo)、告警指標(biāo)、硬件設(shè)備配置信息等。

4.4 智能運(yùn)維

智能運(yùn)維實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房的遠(yuǎn)程無(wú)人值守智能運(yùn)維,對(duì)計(jì)算機(jī)、網(wǎng)絡(luò)設(shè)備、服務(wù)器、交換機(jī)、路由、視頻監(jiān)控設(shè)備、安全設(shè)備、云設(shè)備、業(yè)務(wù)系統(tǒng)、動(dòng)環(huán)系統(tǒng)等實(shí)現(xiàn)遠(yuǎn)程監(jiān)控管理。支持SNMP、telnet、SSH、JDBC 等多協(xié)議多線程設(shè)備信息采集。智能運(yùn)維匯聚數(shù)據(jù)中心海量的性能、告警、配置、服務(wù)單和知識(shí)庫(kù)等數(shù)據(jù),構(gòu)建智能運(yùn)維體系的基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù),然后將海量的監(jiān)控?cái)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)的基礎(chǔ)進(jìn)行機(jī)器學(xué)習(xí)和建模,實(shí)現(xiàn)智能化的異常識(shí)別、故障預(yù)測(cè);結(jié)合大數(shù)據(jù)分析算法對(duì)比相關(guān)指標(biāo)、告警及數(shù)據(jù)集,協(xié)助故障快速定位。

智能故障預(yù)測(cè)依托大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)能力,結(jié)合歷史告警數(shù)據(jù),結(jié)合深度學(xué)習(xí)模型,分析故障的根源、關(guān)聯(lián)關(guān)系以及影響范圍[10]。智能化運(yùn)維的核心是通過(guò)機(jī)器學(xué)習(xí)的聚類(lèi)算法將屬于同一類(lèi)別的事件進(jìn)行歸類(lèi);然后通過(guò)相關(guān)性分析,來(lái)分析該事件為異常事件的可能性;通過(guò)異常指標(biāo)和指標(biāo)貢獻(xiàn)度的分析,找到故障中的具體根源指標(biāo)[11]。得出故障間的相關(guān)性,結(jié)合實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)進(jìn)行IT 故障趨勢(shì)分析和預(yù)測(cè),在故障發(fā)生之前通過(guò)預(yù)測(cè)做出判斷、預(yù)警,實(shí)現(xiàn)故障的智能預(yù)測(cè)。

通過(guò)積累大量故障處理和巡檢運(yùn)維經(jīng)驗(yàn)組成智能化運(yùn)維分析的知識(shí)庫(kù),把數(shù)據(jù)變成有價(jià)值的信息[12]。減少對(duì)人的依賴,實(shí)現(xiàn)機(jī)器的自判、自斷和自決。

4.5 運(yùn)維知識(shí)庫(kù)

運(yùn)維知識(shí)庫(kù)主要收集運(yùn)維過(guò)程中的經(jīng)驗(yàn)與知識(shí),并進(jìn)行統(tǒng)一存儲(chǔ)和分類(lèi)檢索,為系統(tǒng)運(yùn)維提供經(jīng)驗(yàn)和知識(shí)積累,為技術(shù)保障人員提供運(yùn)維經(jīng)驗(yàn)與知識(shí)共享的平臺(tái)。

運(yùn)維知識(shí)庫(kù)主要包括知識(shí)錄入、知識(shí)檢索和智能問(wèn)答功能。

知識(shí)錄入主要實(shí)現(xiàn)了人工界面填寫(xiě)知識(shí)標(biāo)題、知識(shí)類(lèi)型、關(guān)鍵知識(shí)、知識(shí)內(nèi)容和附件等信息和將告警故障處理經(jīng)驗(yàn)一鍵導(dǎo)入知識(shí)庫(kù)。

知識(shí)檢索采用ElasticSearch 全文搜索引擎實(shí)現(xiàn)感興趣知識(shí)的快速檢索,通過(guò)大數(shù)據(jù)分析對(duì)用戶和檢索的內(nèi)容進(jìn)行分析處理,并按照相關(guān)性、熱度以及最新知識(shí)來(lái)進(jìn)行排序,為用戶找出更加準(zhǔn)確的信息,提供更有深度的相關(guān)信息。

知識(shí)問(wèn)答實(shí)現(xiàn)基于深度學(xué)習(xí)的方法對(duì)傳統(tǒng)問(wèn)答方法進(jìn)行改進(jìn)。知識(shí)問(wèn)答使用自然語(yǔ)言問(wèn)題作為輸入,采用深度學(xué)習(xí)的Multi-Column 卷積神經(jīng)網(wǎng)絡(luò)分別對(duì)問(wèn)題和答案進(jìn)行向量化。

4.6 運(yùn)維態(tài)勢(shì)大屏

運(yùn)維態(tài)勢(shì)大屏實(shí)現(xiàn)開(kāi)放式大屏展示,將綜合中心內(nèi)外部業(yè)務(wù)系統(tǒng)及數(shù)據(jù)運(yùn)行態(tài)勢(shì)集中展現(xiàn),實(shí)時(shí)呈現(xiàn)機(jī)房運(yùn)維、基礎(chǔ)資源、數(shù)據(jù)及服務(wù)等運(yùn)行態(tài)勢(shì),從全局拓?fù)洹⒅匾Y源狀態(tài)、異常情況等多維度進(jìn)行3D 全景、機(jī)架圖、設(shè)備面板的集中展示,可結(jié)合實(shí)際運(yùn)維案例制作不同的運(yùn)維場(chǎng)景模板,通過(guò)“拖拉拽”方式自定義個(gè)性化視圖展示。

通過(guò)全景展示能夠從宏觀層面了解系統(tǒng)運(yùn)行狀態(tài)、資源統(tǒng)計(jì)、用戶使用統(tǒng)計(jì)、異常情況和趨勢(shì)圖。

基礎(chǔ)設(shè)施態(tài)勢(shì):包括服務(wù)器的使用情況、性能和運(yùn)行狀況,云管理平臺(tái)的監(jiān)控?cái)?shù)據(jù)等信息,硬件CPU、內(nèi)存、存儲(chǔ)容量等指標(biāo)健康度,并可支持用戶按需定制態(tài)勢(shì)分析內(nèi)容,網(wǎng)絡(luò)、機(jī)房環(huán)境、硬件設(shè)備、中間件、數(shù)據(jù)庫(kù)、操作系統(tǒng)等提供基礎(chǔ)設(shè)施軟硬件運(yùn)行狀態(tài)、績(jī)效統(tǒng)計(jì)展現(xiàn)。

機(jī)房運(yùn)維態(tài)勢(shì):包括動(dòng)力環(huán)境運(yùn)行狀態(tài),三維機(jī)房、機(jī)柜、機(jī)架、設(shè)備的展現(xiàn),硬件設(shè)備告警展現(xiàn)。以3D 全景呈現(xiàn)機(jī)房環(huán)境,并開(kāi)放接口與應(yīng)用系統(tǒng)進(jìn)行數(shù)據(jù)對(duì)接,將虛擬場(chǎng)景和真實(shí)數(shù)據(jù)相結(jié)合,可快速、靈活地實(shí)現(xiàn)動(dòng)環(huán)監(jiān)測(cè)、資產(chǎn)管理、記錄查詢、統(tǒng)計(jì)分析、故障告警等功能的直觀展示[13]。

數(shù)據(jù)及服務(wù)運(yùn)行態(tài)勢(shì):包括引接的各類(lèi)數(shù)據(jù)以及發(fā)布的服務(wù)種類(lèi)、總量、狀態(tài),數(shù)據(jù)存儲(chǔ)的總量,已發(fā)布的數(shù)據(jù)訪問(wèn)接口的統(tǒng)計(jì),日、周數(shù)據(jù)訪問(wèn)TOPN,并可支持用戶按需定制態(tài)勢(shì)分析內(nèi)容,提供數(shù)據(jù)及服務(wù)狀態(tài)、績(jī)效統(tǒng)計(jì)展現(xiàn)。

4.7 智能工作臺(tái)

工作臺(tái)是技術(shù)保障人員發(fā)起、管理相關(guān)運(yùn)維作業(yè)工單的入口。包括服務(wù)登記、服務(wù)查詢、待回訪工單、故障管理等功能,通過(guò)服務(wù)登記集中收集用戶的服務(wù)申報(bào),查看系統(tǒng)故障,從而幫助運(yùn)維人員及時(shí)準(zhǔn)確地掌握各類(lèi)事件告警,實(shí)時(shí)跟蹤服務(wù)請(qǐng)求、事件、問(wèn)題、發(fā)布、變更及人物等工單的執(zhí)行情況。

服務(wù)登記:針對(duì)用戶發(fā)出的服務(wù)請(qǐng)求、事件、問(wèn)題、發(fā)布、變更以及人物等工單流程進(jìn)行登記,后臺(tái)自動(dòng)識(shí)別申報(bào)內(nèi)容進(jìn)行歸類(lèi)申報(bào)。

服務(wù)查詢:用戶可以對(duì)發(fā)出的服務(wù)請(qǐng)求、故障申報(bào)等服務(wù)進(jìn)行查詢和跟蹤,同時(shí)對(duì)已經(jīng)處理完成的工單執(zhí)行導(dǎo)出。

待回訪工單:服務(wù)臺(tái)人員對(duì)用戶申報(bào)的并且已經(jīng)響應(yīng)處理完成的工單進(jìn)行回訪,掌握整個(gè)運(yùn)維過(guò)程中用戶對(duì)運(yùn)維服務(wù)的滿意度情況,并對(duì)運(yùn)維服務(wù)持續(xù)改進(jìn)。

5 關(guān)鍵技術(shù)及算法

5.1 FT-Tree 和KPI 算法日志異常檢測(cè)

由于綜合數(shù)據(jù)中心日志格式千差萬(wàn)別,傳統(tǒng)日志處理方法無(wú)法滿足智能異常檢測(cè)的需求,引入機(jī)器學(xué)習(xí)的方法并通過(guò)調(diào)研日志識(shí)別算法,結(jié)合綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控的實(shí)際應(yīng)用場(chǎng)景,選擇FT-Tree 進(jìn)行日志模板提取和異常檢測(cè),并結(jié)合KPI 異常檢測(cè)算法達(dá)到日志智能異常檢測(cè)的目的。

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)日志異常檢測(cè)流程如圖2 所示。

圖2 日志異常檢測(cè)流程圖

日志分詞主要針對(duì)文本進(jìn)行分詞和變量提取;模板提取主要通過(guò)分析海量日志中的共性和常見(jiàn)模式,采用FT-Tree 算法提取日志模板;模型修正/統(tǒng)計(jì)在具備日志模板之后,將不同的日志轉(zhuǎn)為模板序列,統(tǒng)計(jì)其頻率、變量分布識(shí)別,形成統(tǒng)計(jì)信息;結(jié)合KPI 異常檢測(cè)算法進(jìn)行單指標(biāo)異常檢測(cè)發(fā)現(xiàn)問(wèn)題,多指標(biāo)聚類(lèi)分析定位問(wèn)題,通過(guò)日志分析檢測(cè)具體分析問(wèn)題。

5.2 Multi-Column 卷積神經(jīng)網(wǎng)絡(luò)知識(shí)問(wèn)答

在運(yùn)維過(guò)程中遇到的問(wèn)題,針對(duì)知識(shí)庫(kù)無(wú)法提供的知識(shí),綜合數(shù)據(jù)中心智能運(yùn)維平臺(tái)支持知識(shí)問(wèn)答的功能。知識(shí)問(wèn)答將自然語(yǔ)言問(wèn)題作為輸入,采用深度學(xué)習(xí)的Multi-Column 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行問(wèn)題特征提取,對(duì)問(wèn)題進(jìn)行向量化處理形成問(wèn)題的詞向量表達(dá),然后對(duì)n個(gè)單詞的問(wèn)題q進(jìn)行卷積操作,并對(duì)卷積的結(jié)果進(jìn)行池化操作,就得到了f(q1)、f(q2)和f(q3)。然后答案的3 種特征也分別用3 個(gè)向量來(lái)表示,其中答案路徑(Answer Path)的分布式表達(dá)為:

答案上下文信息(Answer Context)的分布式表達(dá)為:

答案類(lèi)型(Answer Type)的分布式表達(dá)為:

每一個(gè)答案特征向量,采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)問(wèn)題進(jìn)行特征提取,然后將提出的問(wèn)題的分布式表達(dá)和該答案對(duì)應(yīng)特征向量的分布式表達(dá)進(jìn)行點(diǎn)乘,得出得分函數(shù)。q為問(wèn)題,a為答案,fi(q)為問(wèn)題經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)輸出的分布式表達(dá),gi(q)為答案在對(duì)應(yīng)特征下的分布式表達(dá)。

式(1)中:S(q,a)為答案最終得分;f1(q)Tg1(a)為答案路徑(Answer Path),f2(q)Tg2(a)為答案上下文信息(Answer Context),f3(q)Tg3(a)為答案類(lèi)型(Answer Type)。

有了得分函數(shù),就可以對(duì)模型參數(shù)進(jìn)行訓(xùn)練,依據(jù)訓(xùn)練結(jié)果排序返回結(jié)果。

5.3 機(jī)器學(xué)習(xí)聚類(lèi)算法

智能化運(yùn)維的核心是通過(guò)機(jī)器學(xué)習(xí)的聚類(lèi)算法將屬于同一類(lèi)別的事件進(jìn)行歸類(lèi);然后通過(guò)相關(guān)性分析,來(lái)分析該事件為異常事件的可能性;通過(guò)異常指標(biāo)和指標(biāo)貢獻(xiàn)度的分析,找到故障中的具體根源指標(biāo);指標(biāo)預(yù)測(cè)也是異常檢測(cè)的一種手段,如發(fā)現(xiàn)檢測(cè)的指標(biāo)值相離預(yù)測(cè)值較遠(yuǎn)且滿足判斷條件,則認(rèn)為是異常。智能化運(yùn)維的通用算法總結(jié)如下。

事件異常檢測(cè)算法有預(yù)測(cè)模型、近似性模型、隱式馬爾可夫模型以及3-sigma 原則。事件趨勢(shì)預(yù)測(cè)算法有整合移動(dòng)平均自回歸模型、指數(shù)加權(quán)移動(dòng)平均法、時(shí)序數(shù)據(jù)分解以及循環(huán)神經(jīng)網(wǎng)絡(luò)等算法[14]。事件相關(guān)性算法包括動(dòng)態(tài)時(shí)間歸整算法、Mann-Kendall 最佳配對(duì)等算法。事件聚類(lèi)算法包括具有噪聲的基于密度的聚類(lèi)方法、K均值聚類(lèi)算法、k中心點(diǎn)聚類(lèi)算法以及基于隨機(jī)選擇的聚類(lèi)算法等。服務(wù)-事件貢獻(xiàn)度算法包括Pearson 關(guān)聯(lián)分析法、Two-sample Test 算法等。故障傳播鏈算法包括有隨機(jī)森林算法、Apriori 算法、FP-Growth 算法等。

6 結(jié)語(yǔ)

綜合數(shù)據(jù)中心智能運(yùn)維監(jiān)控平臺(tái)已經(jīng)初步在內(nèi)網(wǎng)實(shí)施測(cè)試,結(jié)合機(jī)器學(xué)習(xí)和人工智能實(shí)現(xiàn)了綜合數(shù)據(jù)中心的智能運(yùn)管,監(jiān)控系統(tǒng)內(nèi)外各類(lèi)軟硬件系統(tǒng)運(yùn)行狀態(tài),實(shí)時(shí)掌握數(shù)據(jù)實(shí)時(shí)動(dòng)態(tài),實(shí)現(xiàn)綜合數(shù)據(jù)統(tǒng)籌監(jiān)管和對(duì)綜合數(shù)據(jù)整體運(yùn)行管理,是綜合數(shù)據(jù)體系管理和統(tǒng)籌運(yùn)維的承載。

智能運(yùn)維機(jī)會(huì)和挑戰(zhàn)并存。人工智能在運(yùn)維領(lǐng)域發(fā)展迅速,從基于規(guī)則的自動(dòng)化運(yùn)維轉(zhuǎn)向基于機(jī)器學(xué)習(xí)的智能運(yùn)維已是大勢(shì)所趨,相關(guān)人員不斷思考、不斷學(xué)習(xí),結(jié)合智能運(yùn)維場(chǎng)景不斷挖掘出新的運(yùn)維模型和機(jī)器學(xué)習(xí)算法,讓運(yùn)維更加智能化。

猜你喜歡
智能故障服務(wù)
故障一點(diǎn)通
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
商周刊(2017年9期)2017-08-22 02:57:56
奔馳R320車(chē)ABS、ESP故障燈異常點(diǎn)亮
主站蜘蛛池模板: 亚洲日本中文字幕天堂网| 久热这里只有精品6| 97青青青国产在线播放| 国模私拍一区二区| 国内丰满少妇猛烈精品播| 国产91小视频| 国产精品福利在线观看无码卡| 91精品国产91久久久久久三级| 中美日韩在线网免费毛片视频 | 久久精品人人做人人综合试看| 亚洲日韩AV无码精品| 国产噜噜噜| 欧美区一区二区三| 在线无码av一区二区三区| 欧美成人区| 干中文字幕| 国产成人无码AV在线播放动漫| 免费欧美一级| 亚洲精品色AV无码看| 亚洲视频黄| 亚洲色图欧美在线| 日韩在线欧美在线| 爽爽影院十八禁在线观看| 色网站在线视频| 久久国产亚洲欧美日韩精品| 国产高颜值露脸在线观看| 国产麻豆福利av在线播放 | 国产欧美高清| 国产产在线精品亚洲aavv| 欧美日本在线观看| 国产一区自拍视频| 日韩性网站| 成年人国产网站| 久久semm亚洲国产| 四虎永久在线视频| 国产精品欧美日本韩免费一区二区三区不卡| 美美女高清毛片视频免费观看| av天堂最新版在线| 国产色爱av资源综合区| 最新国语自产精品视频在| 91麻豆精品国产高清在线| 99国产精品免费观看视频| 欧美五月婷婷| 日a本亚洲中文在线观看| 国产精品区视频中文字幕| 亚洲一区精品视频在线| 亚洲最新在线| 亚洲精品国产精品乱码不卞| 久久精品人人做人人爽| 午夜激情婷婷| 国产精品久久久久久久久| 国产制服丝袜91在线| 久久精品视频亚洲| 99人体免费视频| 免费一级大毛片a一观看不卡| 亚洲综合亚洲国产尤物| 热re99久久精品国99热| 国产区在线观看视频| 国产欧美自拍视频| 九九线精品视频在线观看| 国产麻豆另类AV| 中文字幕一区二区人妻电影| 成人综合久久综合| 免费A级毛片无码免费视频| 超碰91免费人妻| 国产高清不卡视频| 国内精品手机在线观看视频| 国产美女91视频| 欧美日韩va| 毛片网站在线播放| 国产精品成人AⅤ在线一二三四| 国产亚洲精品自在线| 亚洲av无码牛牛影视在线二区| 国产婬乱a一级毛片多女| 波多野结衣一区二区三区四区| 欧洲高清无码在线| 午夜丁香婷婷| 久久国产精品夜色| 美女一区二区在线观看| 国产午夜精品鲁丝片| 国产精品yjizz视频网一二区| 亚洲无码A视频在线|