999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據重構與AI0ps的硬件設備運維的研究與應用

2025-08-18 00:00:00王垚陳萬億許俊淵聶開勛
現代信息科技 2025年12期
關鍵詞:運維流程資產

中圖分類號:TP393;TP311 文獻標識碼:A 文章編號:2096-4706(2025)12-0101-09

Research and Application of Hardware Device Operation and Maintenance Based on Data Reconstruction and AlOps

WANG Yao, CHENWanyi,XU Junyuan,NIE Kaixun (ZhejiangEnergyDigital TechnologyCo.,Ltd.,Hangzhou31oo12,China)

Abstract: Asa technology integrating Machine Learninganddataanalysis,AIOps (Inteligent Operationsand Maintenance) demonstrates greatpotentialinimprovingIoperationandmaintenanceefciencyanddcision-makingquality.However,thecunt industrypaysrelativelylowatentionto theoperationand maintenanceofIhardwaredevices,withmostpracticesonlystayingat te basic monitoringlevel,whichleadstosignificantroomforimprovementintheapplicationofOpsinthefieldofhardwaredevice operationand maintenanceAimingat teinsuiciencyin theoperationand maintenanceofIThardwaredevices,this paperproposes schem toenhance thequalityandquantityofhardwaredevicedata,soastosupporttheeffectiveimplementationofAOpsandensure thestableoperationofbusesssystems.Byconstructingteoperationandmaitenancedatastructureofhardwaredevicsedata structuresandautomatedprocesesaredesignedtoachieveautomaticdiscoveryofhardwaredevicesanddatacollectionMeanwhile weakclassifervotersareapliedforaomalydetection,andpredictivemodelsaresedtoimprovetheaccuracyofdataforeasting. InthepracticeoftheZhenengGoupdatacenter,thisaproachsignificantlyimprovesthequalityofhardwaredevice-relateddataand operationandmaintenanceefiencyterebyehancingthestabilityofbusinesssystemsandtheoperationalsustainabilityoftedata centerTheresults providenewideas and solutions forthefurtherdevelopmentofAOpsinhardware device operationand maintenance.

Keywords:AIOps;asst data reconstructionanomalydetection;time seriesdata forecasting;datacolection;utomatic device discovery

0 引言

智能運維(AIOps)是一種將機器學習和數據分析技術應用于IT運維領域的創新實踐,旨在顯著提升運維效率和決策質量。相較于傳統運維工作往往依賴于人力密集型的操作流程導致的存在成本高昂、故障響應時間長及人為錯誤率高等缺點[1-2],AIOps能夠在成本控制、系統穩定性和運維效率之間實現更好的平衡,推動運維模式向智能化和自動化轉型,從2016年由Gartner公司提出開始到現在,AIOps已經成為IT運維中不可或缺的一部分。

AIOps的流程通常包括幾個階段:數據的采集與整合、數據的存儲與管理、數據分析、異常檢測、原因分析、自動化響應與執行、預測性分析與異常預測、持續學習與優化等。其中在數據分析、異常檢測和原因分析這幾個階段因為其與AI具有較強的關聯性,因此在學界和業界受到了很大的關注和研究。

目前國內多家大型企業已涉足AIOps領域。例如,國網上海公司采用基于深度神經網絡來對監控采集的指標數據和業務相關的指標數據進行趨勢預測以及異常檢測[3]。交通銀行通過Hadoop/Spark來架構運維大數據處理平臺,實現各種運維數據的集中存儲和標簽化處理[4]。工商銀行則是通過AIOps對運維數據進行歸集,檢測交易指標波動以及實時故障診斷等[5]。中國聯通也針對旗下的聯通號卡系統等設立了相應的智能運維平臺,并采用了孤立森林等算法進行異常點檢測[。阿里巴巴針對其超大規模云計算平臺,運用AIOps來預測近未來可能發生的節點故障以最大限度地減少其帶來的影響[7]。當前國內企業在AIOps 的實踐的重點更多是在于如何利用機器學習和人工智能來提高AIOps的性能,或者如何將AIOps應用在某一具體業務場景上面[3-4,6-7],對于保障這些業務系統運行的各種IT硬件設備和其背后的數據中心的基礎運維方面的關注程度較少。在文獻[5]中,雖然作者介紹了其AIOps的系統架構和其系統在基礎運維中的一些應用場景,但是都只是簡單的一筆帶過而沒有對其中的一些細節進行細致的介紹和討論。

通過對IT硬件設備等基礎設施的運維可以有效地發現業務系統在運行時的潛在問題,避免系統故障,還可以更好地理解資源使用情況,優化資源配置,從而提高成本效益。但是目前業界對于數據中心中的IT硬件設備等基礎設施的運維關注度和研究卻少之又少,或者說只是做到最基礎的運維監控而已,對于智能運維在基礎設施的運維上,無論是表現性能還是在業務方面的挖掘和探索,遠沒有其對業務系統的智能運維的關注度高。

針對數據中心基礎設施的全面監控和數據中心運維AIOps應用匱乏的現狀,本文將重點研究“如何提升數據中心中硬件設備的數據質量和數量,以支持AIOps的有效實施和業務系統的穩定運行”這一問題,本文基于浙江能源集團已用的AIOps系統IT集中監控系統,從IT資硬件設備的各類運維相關信息結構入手,對其進行重構來提升所收集的硬件設備數據等基礎設施的質量和數量,并通過添加自動化技術和異常數據的實時監測流程來提升IT集中監控系統的易用程度和異常檢測結果的有效性。

1 相關工作

1.1IT集中監控系統

IT集中監控系統(ITCM)是浙江省能源集團針對其兩個數據中心所開發的AIOps運維系統,目前數據中心中共有491臺硬件服務器,近2000臺操作系統和200多套涵蓋集團各個方面業務的系統運行在這些硬件服務器上。ITCM的系統架構如圖1所示。

在ITCM架構中,主要包含前端服務、后端BFF服務、告警集成管理服務、PostgreSQL業務數據庫、Kafka,以及數據處理引擎。告警集成管理服務由管理模塊和數據處理引擎模塊組成,其中管理模塊負責系統應用層的業務邏輯,而數據處理引擎則承擔數據集成、數據豐富、事件處理和告警通知等核心功能。

在ITCM的告警流程中,覆蓋了對基礎設施、容器、網絡設備、私有云和應用的監控和告警。本文重點聚焦于基礎設施和網絡設備的監控。新的監控指標通過資源數據集成生成,并存儲在PostgreSQL數據庫中,以支持后續的高效查詢與重復使用。

基于已生成的監控指標,數據集成引擎會配置相應的告警策略并下發監控任務,以實現數據采集。指標采集器根據監控任務從指定的數據源提取相關數據,隨后經過數據豐富引擎和事件處理引擎的處理,生成告警事件。最終,通知集成引擎生成告警通知,并通過推送機制將告警事件及相關信息傳遞至相關人員。

1.2 監控指標

在AIOps的告警流程中,影響告警性能的關鍵影響因素不僅包括通過全面收集數據來提升數據數量,還在于通過監控指標準確定義實現對數據質量的優化。準確定義的監控指標能夠精準捕捉關鍵事件,從而顯著提高告警的準確性和相關性,同時有效減少誤報與漏報,進一步增強告警系統的可信度。

需要強調的是,監控指標的定義并非孤立或隨意的過程,而是基于對系統或資產的全局視角和深入分析。只有全面掌握資產的整體運行特性、潛在問題及關鍵風險點,才能設計出能夠準確反映系統健康狀態與性能的重要監控指標。這些指標不僅需要覆蓋關鍵風險點,還應避免引入多余噪聲或過度監控,以確保系統在高效運行的同時維持監控的有效性和精確性。

通常情況下,資產的全局信息存儲于配置管理數據庫(CMDB)中,這為監控指標的合理定義提供了基礎支持。然而,隨著AIOps的興起,對IT資產管理提出了更高的要求,而傳統CMDB的某些方法已顯現出局限性。盡管如此,其中仍有部分方法具有借鑒價值。例如,文獻[8]提出的數據結構重構方法為組織提供了一種更高效的途徑,用以跟蹤和管理包括硬件、軟件及網絡組件在內的IT資產。這種方法能夠有效提升與IT硬件相關的運維數據的質量和數量,為AIOps的實施提供更加全面的數據支持,從而進一步增強AIOps的性能表現。

浙能集團目前ITCM的CMDB由于其建立的時間較早,一些現在看來必不可少的數據項在CMDB中卻未被包含,同時數據項大多也都是偏于靜態的,導致靈活性方面有所欠缺。

1.3 自動化流程

在AIOps流程中,自動化流程是不可或缺的關鍵環節。在現代業務系統中,組件的功能及其與其他組件的關聯關系會隨著時間動態變化。因此,自動發現作為自動化流程中的重要組成部分,其核心目標是通過自動識別和收集網絡環境中IT資產的元數據,顯著節省時間和成本,并確保數據的準確性。自動發現主要由兩方面組成,一是針對新注冊的IT實體資產,自動采集其靜態信息,確保數據的完整性和準確性;二是識別網絡中的新設備以及運行在這些設備上的各類軟件和服務,進而構建實時網絡拓撲圖。通過這一機制,IT部門可以實現對IT資產的自動發現、持續跟蹤和高效管理,從而獲得對業務系統的實時全景式洞察。這不僅顯著提升運維效率,還增強了對IT環境的控制力和管理能力,為AIOps的實施提供了堅實基礎。

在自動發現這一領域,目前已經有一些有效的解決方案,例如,高宇通過鏈路生成協議 (LLDP)識別網絡設備之間的連接關系;使用Weave Scope及基于TCP流量的方法發現云端微服務及其調用關系,并通過可視化技術呈現這些信息[9。因此,結合LLDP協議進行IT資產發現,能夠為AIOps提供準確的網絡拓撲視圖,幫助系統理解設備間的關系,從而在故障時快速定位問題。通過后續的資產數據采集,可以為AIOps提供豐富的數據和上下文支持,從而提升智能分析和決策能力。

目前ITCM中采用TrueSight軟件進行數據采集和自動發現,但該軟件受限于功能,無法采集和監控硬件服務器等底層IT資產,因此亟須一種新的數據采集和自動發現的方法來滿足實際需求。

1.4異常檢測

AIOps的核心功能之一是異常檢測,這是一種識別數據出不符合正常模式或預期行為的數據點的能力。IT硬件設備在運行過程中的異常檢測對于預防系統故障、減少服務中斷和提高整體服務質量至關重要。目前在ITCM中,告警主要依靠閾值基準法來進行異常點檢測,然而該方法的局限性在于其依賴運維人員的專業知識,以準確設定閾值和相應的觸發機制,這可能導致維護上的挑戰和不一致性。

目前基于機器學習與深度學習的異常檢測方法受到了相當程度的關注和研究。例如Valli等人[1通過卷積神經網絡和長短期記憶網絡對AIOps中的產生的數據進行異常點檢測。黃偉[]對單條時序KPI(KeyPerformanceIndicator)進行處理,轉換成擁有足夠多個維度特征屬性的KPI特征數據,并通過不同的采樣方式,提升了基于機器學習模型的異常檢測準確率。

曹偉[12]則是采用了XGBoost模型對多維提取的特征數據進行異常點檢測。Hansheng[13]則是通過將CNN模型和光譜殘差相結合的方法來進行異常點檢測。Mehra等人[4采用自動編碼器來實現對多維的異常點檢測。而Roukerd等人[15]則是對將自動編碼器中的線性前饋層變成長短期記憶網絡來對地下水的數據進行異常檢測。異常點檢測本質上是一個分類問題,因此可以將其分類成監督學習[1]和非監督學習[14-15],其中由于在實際使用中,數據的異常點是一種較為稀缺的現象,因此普遍采用非監督學習的方法。上述的方法更多的是通過對單一的深度學習模型進行訓練來達到異常點檢測的功能,雖然該模型的檢測準確度很高且能捕捉到復雜的模式和非線性關系,但是這種方法對數據的質量和數量有較大的要求,在數據不足的情況下可能會導致模型過擬合的現象發生。

除了使用深度學習模型來完成異常檢測外,通過多個表現一般的異常檢測模型,采用投票器的方法來進行異常點檢測也能獲得較好的效果。弱分類投票器具有較強的魯棒性,即使數據量較小或特征較少的情況下,弱分類器也能擁有不俗的良好,相較于深度學習模型,弱分類器更加的輕量化對計算資源的需求也較少,因此弱分類器能滿足AIOps中對異常檢測的快速部署的需求。

2 主要內容

本部分內容分為三個部分展開:首先,介紹ITCM系統中通過重構CMDB中硬件設備資產數據結構以提升AIOps數據質量的實踐方法。其次,詳細闡述利用鏈路層發現協議(LLDP)和簡單網絡管理協議(SNMP)實現對IT硬件設備的自動發現,并通過SNMP、SNMPTRAP以及代理機制完成數據采集自動化的具體流程。最后,描述基于弱分類投票器對采集數據進行異常檢測與預測分析的實現過程。

2.1 數據結構重構

在AIOps中,數據的質量和數量對于運維的最終效果起到了決定性的作用,因此,為了實現對采集到的資產信息數據的有效整合與高效檢索,本文基于浙能集團數據中心中硬件設備的現狀對其數據信息結構進行了重新設計。

新設計的硬件設備的數據結構囊括了執行IT資產管理和運營分析所必需的核心字段,對設備的生命全周期都進行了相關的數據采集,并在此之上新增了設備在安全方面的相關數據項,確保了數據的實用性和完整性。每個資產被視為一個配置項,而配置項則由四大核心領域構成,用于全面描述該配置項的特性。在資產數據信息結構中,這四大領域分別為:基本域、運行域、態勢域以及管理域:

1)基本域。作為資產數據信息結構的核心,它記錄了資產在物理層面的基礎屬性,包括產品型號、購置日期、投入使用的時間點等。這些基本信息構成了理解資產身份的基石,對于資產管理的全周期跟蹤至關重要。它不僅幫助識別資產,還為資產的維護和更新提供了關鍵的歷史參考。

2)運行域。資產在投入使用和運行時的詳細狀態和參數配置,涵蓋了諸如內部網絡定位(網絡地址)、處理器規格及系統運行狀況等關鍵要素。此域的數據對于即時監測資產健康、識別潛在故障點以及優化資源分配具有不可替代的價值。通過實時監控,可以快速響應性能下降或故障,確保資產的高效運行。

3)態勢域。資產在運行維護過程中涉及信息安全的屬性要素,如資產的互聯網訪問權限、操作系統安全漏洞狀態以及是否存在可用的安全補丁更新等。通過精細化管理網絡安全屬性,可有效預防和減輕網絡威脅,保障關鍵基礎設施的安全運行。這一領域對于維護企業網絡安全至關重要,有助于及時發現和應對潛在的安全風險。

4)管理域。資產在采購,財務,維保等運營管理方面需要記錄和跟蹤的相關屬性,記錄了資產的折舊周期、保修期限等經濟與管理信息。這些數據對于規劃資產生命周期管理、預算編制及合規性檢查具有重要意義,有助于企業合理安排資產更新與維護計劃,確保資產價值最大化。通過有效的資產管理,企業可以優化資源分配,提高資產使用效率。

以服務器為例,如表1所示,展示了基于新的配置域所包含各種具體屬性。

表1服務器的配置域

(續表)

在服務器配置域中,基本域和管理域的信息通常為靜態數據,即隨時間推移不會輕易發生變化的內容。這類數據構成了此前浙能集團CMDB中記錄絕大部分全部信息,剩余的信息則來自運行域中的靜態數據例如CPU個數,CPU總核數等。運行域中包含了許多動態數據,例如CPU使用率、內存占用情況、I/O使用等。這些動態數據是生成監控指標的關鍵來源,直接反映了系統的實時運行狀態和變化趨勢。基本域、管理域和配置域三者共同為服務器提供了全面的視角來描述其狀態,態勢域在另一方面,更多反映了服務器在安全方面的狀況,態勢域生成的監控指標能更好地反映服務器在運行過程中在網絡安全方面的狀況。

新提出的數據結構,在靜態數據的基礎上,引入了動態數據和與上述提出的資產數據信息結構旨在提供一個全面、細致的視角。不僅服務于日常運維操作,也支撐著戰略決策過程,從而實現更加高效、安全和動態的資產管理。通過這種結構,AIOps系統能夠更好地理解資產的全生命周期,提升運維效率和決策質量。AIOps系統通過自動化發現實時識別并自動監測新增資產,通過對資產數據進行深入分析,從而動態地調整應用系統及其后續監控的策略布局,確保系統的靈活度與適應性得以保持,從而在不斷變化的環境中維持高效運作與風險管理。

2.2 自動化流程

由2.1中提出的資產數據信息結構,通過自動化流程來實現新硬件設備資產的登記、識別以及后續的數據采集,可以顯著節省時間和成本并且保證數據的準確性。

在ITCM系統中,需要首先在設備上啟用鏈路層發現協議(LLDP)功能。LLDP基于數據鏈路層工作,用于收集和廣播設備的本地信息(如設備名稱、端口描述、設備功能等),并接收鄰居設備發送的LLDP報文。這些信息被存儲在設備的本地LLDP管理信息庫(MIB)中,其中本地設備的信息存儲在IldpLocTable表中,鄰居設備的信息存儲在lldpRemTable表中。

通過LLDP,設備會周期性地廣播自身的配置信息,同時接收相鄰設備的配置信息。由于這些信息是動態更新的,LLDP能夠反映設備間實時的物理連接狀態。此外,作為一種開放標準協議,LLDP兼容大多數廠商的設備,具有較強的通用性和廣泛的適用性。通過查詢MIB中的端口對接信息,可以直觀地展示設備間的直接連接關系。

然而,LLDP的局限性在于其僅能提供直接相鄰設備的信息,對于二級或更遠距離的間接連接設備,其信息無法存儲在LLDPMIB中。此外,LLDP僅負責信息的采集,缺乏高效的數據查詢機制。由于LLDP僅作用于數據鏈路層,其功能無法擴展到網絡層,從而無法獲取運行在設備上的中間件之間的邏輯互聯關系。這一限制導致LLDP在繪制細粒度應用拓撲圖時顯得不足,特別是在需要中間件互聯信息的場景中。

為解決這一問題,本文引入了簡單網絡管理協議(SNMP),以實現對LLDPMIB中數據的查詢與獲取,并收集設備上運行的中間件及其互聯關系。SNMP主要用于設備的管理和監控,但通過SNMP的GET請求,能夠進一步支持中間件的發現和管理以及MIB信息的獲取。在本文中,自動發現代理(agent)會被提供一個IP地址范圍或子網。基于這些信息,代理通過SNMP的GET請求逐一向每個IP地址發送查詢,確定存在的設備并檢索其MIB和LLDPMIB的內容。

在MIB庫中,通常包括設備上運行的中間件實例信息,例如中間件類型、監聽端口等。通過SNMP查詢tcpConnTable,可以獲取設備上開放的端口信息,從而建立不同中間件之間的互聯關系,構建更細致的應用拓撲圖。此外,SNMP還能采集設備本身的信息,例如設備類型、邏輯名稱、廠商、型號、接口信息等。這些信息經過解析后,將分別存儲在2.1中提出的配置域相關數據項中,并保存至PostgreSQL數據庫,以支持后續的數據處理和分析。

對于LLDPMIB中的數據,通過遍歷每個設備lldpRemTable的相關條目,SNMP能夠獲取相鄰設備的信息,進而構建應用拓撲的大體框架。結合LLDP和SNMP的能力,ITCM可以實現更全面的設備與中間件互聯關系的發現,并生成應用拓撲圖。如圖2所示,為基于LLDP與SNMP結合繪制的應用拓撲示例。

圖2應用系統拓撲概覽圖

圖2展示的是ITCM系統中某業務系統的概覽性應用拓撲圖,其主要目的是為對應的業務系統提供一個宏觀的系統拓撲結構視圖。用戶可以通過點擊圖中的組件,深入查看詳細的應用系統拓撲,包括組件背后設備與其他設備之間的關聯關系。

為適應業務系統內部邏輯的動態調整,定期利用LLDP和SNMP協議自動識別各個組件及其連接狀態,確保應用拓撲圖能夠實現持續更新。這種拓撲圖不僅直觀地展示了網絡中數據的流向,還構建了一個實時更新且詳細的系統視圖,為業務系統提供了全面的資源概覽和管理支持。

SNMP不僅適用于中間件的識別和發現,還廣泛應用于網絡設備和安全設備的數據采集。SNMP能夠精確地收集設備的具體信息。然而,對于需要快速響應且不需實時更新數據的物理設備,如存儲設備和硬件服務器,SNMP的定期數據驅動機制可能無法滿足其實時性需求。

針對上述問題,SNMPTRAP機制提供了一種基于事件驅動的高效解決方案。當設備發生特定事件時,SNMPTRAP能夠主動發送通知,從而為存儲設備、硬件服務器等物理設備提供更及時的數據采集方式。操作系統通常包含大量對AIOps至關重要的指標數據,通過代理模式進行數據采集,可以有效保證數據的實時性與準確性。

在ITCM系統中,通過在設備上部署基于GOLANG開發的代理腳本,可以實現運行域和態勢域中動態信息的自動采集。此過程為后續的網絡和應用拓撲構建提供了基礎支持。對于服務器而言,該代理腳本不僅能夠完成動態信息的自動采集,還可以利用TRAP機制主動推送采集到的相關數據,從而為ITCM系統的數據分析提供實時支持。值得一提的是,該代理的安裝過程可以通過Anisble等自動化工具實現“一鍵部署”,顯著減少了人工操作步驟,提升了效率。

在實際應用中,自動化流程基于2.1節中提出的資產數據信息結構,能夠快速完成IT資產的登記注冊,并將其納入相應的應用系統拓撲結構中。這一過程不僅實現了對資產的快速發現,還確保了所有資產均被有效納入管理。此外,自動化流程可以根據資產類型自動配置相應的數據采集方案,保證數據采集的全面性和有效性,從而為后續AIOps系統的數據分析與異常檢測提供有力支持。通過這種方式,ITCM系統實現了對資產的持續跟蹤與管理,為AIOps的高效運行提供了堅實的數據基礎。

2.3 數據分析

對采集數據的消費與分析是AIOps與傳統運維之間的關鍵差異之一。在面向業務系統的AIOps應用中,常見任務包括對監控指標的異常點檢測和未來趨勢預測。異常點檢測通過對資產相關指標的持續監控,確保系統性能的穩定與可靠;未來數據預測則通過分析歷史趨勢,對資產關鍵指標進行預測,為系統性能優化和決策提供前瞻性的支持。

在數據中心基礎設施的異常檢測和數據預測中,通常關注的監控指標涵蓋一系列關鍵參數,例如CPU利用率、內存使用率、硬件服務器的溫度和電壓等。這些指標對于評估基礎設施的健康狀況和業務系統的運行效率至關重要。異常檢測通常需要實時的監測能力,并要求模型具有足夠的魯棒性,尤其是在數據樣本較少的情況下依然能夠有效檢測異常。因此,與深度學習模型相比,基于非監督學習的弱分類投票器模型在這一場景中更具適用性和優勢。

針對浙能集團數據中心當前數據質量與數量的現狀,本文設計了一種基于弱分類投票器的異常檢測流程。該流程旨在充分利用現有數據資源,提高異常檢測的可靠性與效率,具體流程如圖3所示。

圖3異常檢測流程圖

自動化流程所采集到的數據統一保存在時序數據數據庫VictoriaMetric中,當需要進行異常檢測的時候,會從數據庫提取對應的指標數據進行檢測。

數據預處理主要包括對數據進行歸一化處理和降維處理。其中歸一化處理采用了標準化歸一處理,因為在非監督的異常檢測場景下,不能保證數據中不存在異常點或離群值,因此采用標準化歸一化處理能保證歸一化后的數據的魯棒性。降維處理則是將高維的時間序列數據轉換為低維表示,這種方法能降低數據中的噪音同時加快模型的計算數據以便于分析和處理。

數據窗口化通過創建重疊或不重疊數據段的方法來生成時序數據的子集,每個段或“窗口”由固定數量的連續時間步驟組成。采用數據窗口化能捕獲數據的時間結構,允許模型從序列而不是獨立觀察中學習,從而更容易檢測出異常點。

在弱分類投票器重,主要采用了如下的非監督的異常檢測模型:

1)COPOD[依賴于對多變量數據分布的深入建模,通過估計協方差矩陣來識別離群點。2)ECOD[算法通過計算每個維度上的經驗累積分布函數(ECDF),以非參數化的方式推斷數據集的基本分布,從而檢測異常。3)KNN算法則基于數據點間的距離與鄰近性,通過計算點與周圍鄰居的距離,判斷其是否偏離正常群體。4)IsolationForest[18]算法利用樹結構,通過遞歸分割屬性空間,快速定位數據集中那些易于被孤立的異常點。5)LocalFactor算法通過計算給定數據點與鄰近數據的局部密度偏差來識別異常點。

弱分類投票器中的每一個非監督異常檢測模型都會對窗口化后的數據進行異常檢測,對數據中的每一個點生成異常檢測結果,例如若該點不是異常點模型返回False,若該點是異常點,則返回True,投票器根據每個分類器的分類結果進行投票,依據投票策略生成投票結果即為異常檢測的最終檢測結果。

投票策略主要由硬投票和軟投票組成。在硬投票機制中,最終的決策結果基于多數票原則來確定。具體來說,如果多個模型返回的檢測結果中,False的數量超過了True的數量,那么最終的投票結果將被判定為False。

相比之下,軟投票則更加精細。每個弱分類器不僅要提供其檢測結果,還需要提供對每個類別的概率或置信度估計。通過對這些概率或置信度進行加權求和,投票器將選擇總和最高的類別作為最終的投票結果。這種方法允許投票器考慮每個分類器的置信度,從而可能提供更為準確和可靠的決策。

另一方面,對指標數據的未來趨勢預測,類似弱分類投票器的原理,本文采用了Facebook開發的Prophet和Holter-Winters[19]提出季節性分解方法模型用于指標數據的預測,預測流程如圖4所示。

圖4預測流程圖

Prophet模型在設計時充分考慮了不確定性因素,通過模擬預測分布來計算預測值的置信區間,這使得Prophet不僅能給出預測值,還能提供預測結果的可信度范圍。Holter-Winters模型則基于指數平滑法,通過對歷史數據進行加權平均來預測未來的值。

預測流程與異常檢測流程在數據的提取、數據的預處理和數據的窗口化的操作是一致的,在預測模型的輸出結果上,模型輸出的結果基于指標數據未來的數據的數值形式的預測。不同于異常檢測流程中的投票器對最終結果進行匯總輸出,在預測流程中,最終生成的預測結果由兩個預測模型進行加權求和得出。加權求和的權重由二者模型在訓練時的損失值所決定,若訓練時模型的預測損失越大,則其權重越低,反之若預測損失越小,則其權重越高。通過這種方式可以有效地保證預測的魯棒性并提供相對準確的預測結果。

異常檢測與數據預測是AIOps中兩種最常見且核心的應用場景,用于對運維數據進行消費與分析。異常檢測的主要目標是實時識別系統運行中的異常狀況,從而確保系統性能的穩定性與可靠性;而數據預測則側重于基于歷史數據和當前趨勢對未來可能的運行狀態進行推斷,為運維決策提供前瞻性支持和依據。這種結合方式在現代AIOps驅動的運維實踐中展現出巨大的潛力,不僅實現了對運維事件的快速響應和主動干預,還為系統運行的全生命周期管理提供了智能化支持,為企業的IT基礎設施運營創造了更高的價值。

3 應用成效

2.1節中提出的資產數據信息結構旨在提供全面的視角,以提升AIOps中數據的質量。通過自動化流程,實現了硬件設備資產的自動發現、硬件設備間精細化互聯關系的構建以及靜態和動態數據的高效采集。同時,結合數據分析中的異常檢測和趨勢預測,從多維度確保了數據中心IT硬件設備的穩定運行。這一體系有效支持了基礎設施的高效運作,提升了業務系統的可靠性,并顯著增強了風險管理能力。

目前,基于上述資產數據結構設計、自動化流程以及數據分析功能的AIOps改造方案,已成功在浙江能源集團AIOps系統,IT集中監控系統上面運行,并在集團的兩個數據中心全面部署。這兩個數據中心共計管理491臺物理服務器,近2000個操作系統實例,以及200余套覆蓋集團各業務領域的應用系統,全部運行于這些服務器之上。

在浙江能源集團的實踐中,相較于傳統CMDB中僅包含基礎設施相關的靜態數據,新設計的資產數據結構引入了更多與資產網絡安全和運行狀態相關的動態數據。這些動態數據能夠實時反映基礎設施的運行狀況和安全態勢,而不再局限于描述資產的默認屬性。相比靜態數據,這些動態信息顯著提升了基礎設施監控的時效性與全面性。此外,管理域中的數據還包括基礎設施維護和保養的詳細信息,為實現從資產注冊上架到報廢下架的全生命周期監控與管理提供了有力支持。這一改進提升了運維管理的精細化程度與效率。

運行域中還包含基礎監控指標,例如電壓、功率、接口狀態、讀取速度等。通過將態勢域、管理域和基本域中的配置項與運行域的監控指標結合,可以生成更精細的復合型指標,用于全面監測數據中心的IT資產。這些復合型數據雖然無法直接提升單一IT資產的監控數據質量,但能顯著提高整體業務系統的數據質量和數據量,為AIOps的數據分析和消費提供有力支持。

在采用新的資產結構后,盡管每套業務系統采集的單一相關指標數量并未顯著增長,但評估業務系統的復合型指標(KPI指標)的數量較之前增加了約47% 。這些新增的KPI數據經過AIOps模塊(如異常檢測和數據預測)的處理后,提供了更多維度的運維視角,有效提高了運維效率和決策能力。

在自動化流程方面,浙能集團此前使用TrueSight軟件進行數據采集和自動發現,但該軟件受限于功能,無法采集和監控硬件服務器等底層IT資產。通過新的自動化流程,SNMPTRAP實現了對底層IT資產的高效數據采集和監控,同時結合SNMP和代理方式采集數據中心基礎設施的運行指標,保證了數據的有效性和完整性。采集設備的覆蓋率從 53% 提升至98% ,主要得益于硬件服務器等底層IT資產的納入管理。對于自動發現流程,IT資產從上架注冊到接入應用系統的平均時間由2天縮短至4小時,效率提升主要源于自動化構建新設備與系統中已有設備的關聯,并快速更新和繪制應用拓撲結構。

在數據分析方面,弱分類器投票器的平均檢測延遲為2.43秒,而數據預測的平均延遲為26.72秒,其中大部分時間消耗在Prophet模型的在線訓練過程中,用于計算預測損失值并生成相應權重。弱分類器投票器的平均檢測準確率為 87% ,平均召回率為 96% 。盡管檢測準確率并非最佳,但在異常檢測場景中,召回率相較準確率更為重要。該投票器在實際應用中能夠有效檢測自動化流程采集的監控指標及基于不同配置域生成的KPI指標,從而提高異常檢測的效率和可靠性。

4結論

為了解決如何提升數據中心中硬件設備的數據質量和數量,以支持AIOps的有效實施和業務系統的穩定運行的問題,本研究設計了一套全新的數據結構。該結構從四個不同的角度出發,設計了多種配置項,在針對浙能集團數據中心硬件設備的實踐中,顯著提高了其AIOps中硬件設備的數據質量。

在數據采集方面,本文采用了SNMP、SNMPTRAP以及代理的方式,確保了數據采集的完整性和有效性。在自動化流程方面,本文構建了自動發現流程來構建業務系統的拓撲結構,減少了運維團隊在資產上架過程中所需的操作和時間。在數據分析方面,本文對KPI數據進行了異常檢測和未來趨勢預測,能夠及時發現數據中的異常問題并進行告警,同時識別數據的模式和趨勢,提取有價值的信息。

在浙能集團的應用實踐中,本文提出的數據結構顯著提升了用于AIOps的數據質量和數量,提高了運維效率,有效保障了運行在浙能集團數據中心上的業務系統的穩定性和數據中心的運營可持續性。此外,這種數據結構具有很好的可移植性,能夠根據其他數據中心或IT資產中硬件設備的實際情況進行相應的調整和優化。

通過不斷的改進與創新,本文期待進一步提高對IT資產中硬件設備的運維質量和效果,推動AIOps技術的發展,為企業和社會帶來更加安全、高效、智能的AIOps解決方案。

參考文獻:

[1]韓曉光,王若松,唐進才.新時代下IT運維管理體系研究與實踐[J].中國傳媒科技,2024(6):150-155.[2]李樂成,胡雅菲.信息系統運維管理體系的探討[J]信息通信,2019(8):104-106.[3]盧士達,康愷,劉帥華,等.基于深度神經網絡的異常檢測算法在國網上海公司AIOps中的應用[J].微型電腦應用,2024,40(5):231-233.[4]鄭仕輝.交通銀行的智能運維(AIOps)實踐[J].金融電子化,2019(1):46.[5]程鵬.AIOps智能運維在中國工商銀行的探索與實踐[J].中國金融電腦,2021(5):68-71.

[6]王新東,王一大,龐國際,等.智能運維(AIOps)

在中國聯通分布式架構下的研究與應用[J].電信工程技術與標

準化,2021,34(1):48-54.[7] LIY,JIANG ZMJ ,LI H,et al.Predicting

Node Failures in an Ultra-Large-Scale Cloud Computing

Platform [J].ACM Transactions on Software Engineering and

Methodology(TOSEM).New York: Association for Computing

Machinery,2020:1-24.[8]BRENNERM,GILLMEISTERM.DesigningCMDB

DataModelswithGoodUtilityandLimitedComplexity[C]//

IEEENetwork Operations and Management Symposium(NOMS).

Krakow:IEEE,2014:1-15.[9]高宇.基于云原生的拓撲服務系統的設計與實現[D].

四川:西南交通大學,2019.[10]VALLILN,SUJATHAE,RATHINAMJ.A Study

onDeep LearningFrameworks to Understand the Real Time Fault

Detectionand Diagnosisin IT OperationswithAiops[C]//2023

International Conference on EvolutionaryAlgorithms and Soft

Computing Techniques(EASCT).Bengaluru:IEEE,2023:1-6.[11]黃偉.基于機器學習的AIOps技術研究[D].北京:

北京交通大學,2019.[12]曹偉.基于多維特征提取和XGBoost的KPI異常檢

測[D].遼寧:大連海事大學,2020.[13]RENH,XUB,WANGY,etal.Time-Series

Anomaly Detection ServiceatMicrosoft[C]//Proceedings of the

25th ACM SIGKDD International Conference on Knowledge

Discoveryamp;DataMining.NewYork:ACM,2019:3009-3017.[14]MEHRAP,AHUJAMS,AERI M.TimeSeries

Anomaly Detection System with LinearNeuralNetworkand

Autoencoder[C]//2023 International Conference on Device

Intelligence,Computingand Communication Technologies

(DICCT).Dehradun:IEEE,2023:659-662.

[15]ROUKERDFR,RAJABIMM.AnomalyDetection in

GroundwaterMonitoringDataUsingLSTM-AutoencoderNeural

Networks[J/OL].EnvironmentalMonitoringand Sssessment,

2024,196 (8):692[2025-06-04].https://link.springer.com/

article/10.1007/s10661-024-12848-z.

[16]LI Z,ZHAO Y,BOTTA N,et al.COPOD:

Copula-BasedOutlierDetection[C]//2020 IEEEInternational

Conference on Data Mining (ICDM).Sorrento:IEEE,2021:

1118-1123.

[17]LI Z,ZHAOY,HUX,etal.Ecod:Unsupervised

OutlierDetection UsingEmpirical Cumulative Distribution

Functions[J].IEEE Transactions onAutomatic Control,2023,35(12):12181-12193.

[18]LIUFT,TINGKM,ZHOUZH.Isolation-Based

AnomalyDetection[J].ACMTransactions onKnowledge

DiscoveryfromData,2012,6(1):1-39.

[19]WINTERSPR.Forecasting Salesby Exponentially

Weighted Moving Averages[J].Management Ence,1976,6(3):

324-342.

作者簡介:王(1997一),女,漢族,山東青島人,運維開發工程師,碩士,研究方向:機器學習、智能運維;陳萬億(1998一),男,漢族,浙江溫州人,運維開發工程師,碩士,研究方向:智能運維、人工智能;許俊淵(1987一),男,漢族,浙江杭州人,副高級工程師,本科,研究方向:云平臺及網絡安全;聶開勛(1989一),男,彝族,貴州貴陽人,運營監控團隊負責人,學士學位,研究方向:AIOPS、智能運維。

猜你喜歡
運維流程資產
發電企業物資管理從“各自為戰”到“合力共贏”
中國商人(2025年15期)2025-08-19 00:00:00
水電站運維一體分析
能源新觀察(2025年7期)2025-08-19 00:00:00
臨界微脈沖設備故障中的數智化應用
能源新觀察(2025年7期)2025-08-19 00:00:00
企業財務管理中智能化會計實施路徑探析
中國經貿(2025年9期)2025-08-18 00:00:00
數據資產在企業會計信息化中的應用與財務報表改進研究以 A 公司為例
生成式人工智能下優化企業財務流程的對策研究
以信息化建設推動資產管理質效變革
信息化建設(2025年6期)2025-08-18 00:00:00
國企改革審計視角下經營性資產管理路徑研究
中國經貿(2025年8期)2025-08-18 00:00:00
行政事業單位固定資產管理問題研究
中國經貿(2025年8期)2025-08-18 00:00:00
內部控制流程優化對提升企業運營效率的作用機制
中國經貿(2025年8期)2025-08-18 00:00:00
主站蜘蛛池模板: 国产噜噜在线视频观看| 国产日韩av在线播放| 波多野结衣爽到高潮漏水大喷| 青青操视频在线| 激情无码字幕综合| 欧美日韩一区二区在线免费观看| 亚洲永久视频| 午夜日本永久乱码免费播放片| 制服丝袜 91视频| 中国成人在线视频| 中文字幕无码电影| 国产精品第一区在线观看| 一级成人a毛片免费播放| 色综合色国产热无码一| 99久久精品免费观看国产| 人禽伦免费交视频网页播放| 国产精品部在线观看| 国产九九精品视频| 欧美日韩综合网| 国产成人夜色91| 久久精品一品道久久精品| 日本色综合网| 国产欧美日韩综合一区在线播放| 亚洲欧美精品一中文字幕| 国产欧美日韩91| 国产在线视频欧美亚综合| 免费人成网站在线观看欧美| 亚洲娇小与黑人巨大交| 久久中文字幕2021精品| 国产色婷婷视频在线观看| 国产精品浪潮Av| 欧美在线伊人| 青青久久91| 无码aaa视频| 亚洲av成人无码网站在线观看| 91外围女在线观看| 91精品久久久久久无码人妻| 毛片视频网址| 亚洲va在线∨a天堂va欧美va| 亚洲男人天堂网址| 在线观看国产一区二区三区99| 全裸无码专区| 最新国语自产精品视频在| 久久综合一个色综合网| 国产爽爽视频| 国产91九色在线播放| 91成人在线免费视频| 久久综合色视频| 精品视频在线观看你懂的一区| 国产乱人伦精品一区二区| 香蕉99国内自产自拍视频| 久久a毛片| a级毛片免费在线观看| 日韩东京热无码人妻| 国产va在线| 国产精品一区不卡| 永久免费av网站可以直接看的 | 亚亚洲乱码一二三四区| 久久五月视频| 嫩草国产在线| 亚洲精品不卡午夜精品| 91精品国产91久无码网站| 久久综合成人| 香蕉伊思人视频| 国产成人资源| 国产精品流白浆在线观看| 日本高清在线看免费观看| 男女男免费视频网站国产| 午夜福利亚洲精品| 91精品专区| 国产又粗又爽视频| 在线看片中文字幕| 亚洲综合极品香蕉久久网| 亚洲日本精品一区二区| 色吊丝av中文字幕| 久久久久久久蜜桃| 99国产在线视频| 亚州AV秘 一区二区三区| 免费福利视频网站| 亚洲AV成人一区二区三区AV| 亚洲一区二区无码视频| 在线国产你懂的|