常宇

摘要:就目前的現代化信息數據挖掘技術領域來看,基于標準CRISP DM的IT基礎設施監控系統已被社會各界廣泛應用,它合理利用了時序性數據挖掘技術以及預測技術實現了對現有數據與歷史數據的全面監控過程,在IT基礎設施領域存在相當高的實用價值。本文就針對該技術的特殊性,探討了它在基礎設施監控系統中的應用流程。
關鍵詞:IT基礎設施監控系統 數據挖掘技術 CRISP DM
中圖分類號:TP3 文獻標識碼:A 文章編號:1007-9416(2016)07-0107-01
從當代信息技術視角來看,數據挖掘為信息技術提供了一種自然演化的過程,并轉化為積極的技術成果,它對于數據信息庫中大量數據的挖掘過程相當擅長,也是對數據庫技術、高性能計算、神經網絡、數據可視化、信息檢索等多項技術的綜合性匯總和應用。基于數據挖掘技術,人們可以從數據庫中以多元化形式提取信息,并因此而制定決策、控制信息數據的分析應用和處理過程,所以將這種技術應用于IT基礎設施的監控系統中是具有可行性的。
1 關于CRISP DM標準
目前,國內的網絡交易與證券交易所都采用了以交易為核心的IT基礎設施,這其中就涵蓋了核心交易機群、遠程交易網絡與場內交易網絡。為了確保交易期間始終保持高效合理的運作機制,就必須建立并啟動IT基礎設施監控系統,實現對交易期間系統網絡中諸如主機、數據庫的實時監控,再借助數據挖掘技術來分析有關監控數據。
為此,國內所采用的數據挖掘技術標準為跨行業數據挖掘標準流程(Cross Industry Standard Process for Data Mining),即CRISP DM標準。該標準在網絡、證券期貨交易業務中的具體作用就是實現以數據挖掘技術為核心的IT基礎設施監控系統應用,并為系統建立一個自適應性極強的迭代過程[1]。
2 基于數據挖掘CRISP DM的IT基礎設施監控系統應用過程
基于數據挖掘CRISP DM技術,可以將IT基礎設施監控系統的應用過程分為4個階段。
2.1 項目決策
項目決策階段的重點就在于理解系統中所要實現的項目需求及目標,利用數據挖掘轉化的技術理念來滿足這些需求與目標。首先,要對項目初期的所有數據進行基于量化的評估分析,比如說監控系統每年的監控數據存儲量為2T,那么這些數據就應該包括了諸如系統運行知識、日常運維報告等等重要數據,所以就圍繞此來定義系統的數據挖掘目標,以下簡要論述三點目標。
第一,以定位系統性能瓶頸為目標。應該說,IT基礎設施監控系統的整體效能一定是存在瓶頸的,如果基于CRISP DM標準,通過數據挖掘來定位系統瓶頸是可行的,因為它能夠及時補充系統中所匱乏的對應資源。在大型交易系統中,就常常利用數據挖掘來擴大系統內存容量、增加磁盤列陣或直接對網絡設備實施升級。
第二,以評估系統生命周期為目標。隨著國民經濟的不斷進步,目前國內網絡交易的會員數量明顯在增加,交易品種也在不斷豐富完善,因此這必然會造成對系統負載的加大。如果基礎設施監控系統潛能被過分應用直至殆盡,就必須對其進行更新換代。在這里,數據挖掘技術就可以通過CRISP DM標準來評估系統壽命。
第三,以優化人力資源配置為目標。圍繞人力資源配置展開的系統維護任務主要有3個部分:主機、數據庫與網絡,系統維護人員的配置完全根據系統技術實施難度和故障頻率來確定。在這里采用數據挖掘技術,就能及早發現系統中可能存在故障的基本發生規律,從而對人力資源配置實現優化[2]。
2.2 模型建立
模型建立階段要采用多種建模技術,并將模型參數校準到最佳值。具體來說,相同數據挖掘問題下是存在多種建模技術的,這些建模技術都可以圍繞數據格式來提出其對應的要求,所以在這一階段首先要準備數據。
以負載模型為例,它其中就包括了對網絡設備CPU的利用率和緩存利用率分析,基于CRISP DM為其進行時序數據定位,根據時間變化序列值來檢測CPU的程序端口實時狀態,并對其數據進行現場處理。
為了降低IT基礎設施監控系統中由于數據信息波動而造成的模型準確度偶然負面影響,就要對數據實施平滑處理,消除平滑效果,并同時保留負載曲線的趨勢變化,選擇3階加權移動平均算法,假設加權系數分別為1、4、1其設計算式為:
除此之外,負載模型也能實現對系統瓶頸的定位、對系統總體負載趨勢變化的獲取等等。它最終應該有5項負載指標來組成負載模型曲線圖,對IT基礎設施監控系統進行總體負載趨勢的有效規劃[3]。
2.3 模型評價
在模型已經建立后,就進入模型的最終部署——評價階段。一般情況下網絡交易所為了保證自身的商業目的得以實現,都會通過模型來對市場進行全面評估,并審查模型中的每一個具體操作步驟,根據數據挖掘結果來得出相應結論,提出決策。
以故障模型為例,如果發現IT基礎設施監控系統的網絡故障要多于主機故障數量,則必須首先針對網絡故障實施維護。另外,系統維護人員也可以根據一元性回歸方程來預測系統的生命周期,確定其是否與預期評估相符。
2.4 實際部署
實際部署階段就是將所建立的模型運用于真實的環境當中,所以基于數據挖掘的模型應用可以描述IT基礎設施監控系統的可行性。如果系統中的操作有需要改進的地方則要根據CRISP DM流程標準進行相應改進,以確保監控系統應用的長期穩定。
3 結語
利用時序性數據挖掘技術可以解決IT基礎設施監控系統中對歷史數據和現有數據的深度挖掘,并建立模型實現對系統性能的高效發揮和維護。目前許多行業已經在采用這種基于數據挖掘技術的IT基礎設施監控系統,這也證明了數據挖掘在當今社會各行各業發展的重要技術地位。
參考文獻
[1]宋應湃,汪林林.數據挖掘技術在IT基礎設施監控系統中的應用[J].計算機科學,2007,34(5):205-207.
[2]宋應湃,汪林林,宋華等.數據預處理在IT基礎設施監控系統中的應用[J].計算機工程與設計,2007,28(15):3770-3772.
[3]羅美淑,劉世勇,夏春艷等.數據挖掘技術在教學評價中的應用研究[J].教育探索,2013(2):81-82.