吳紀安 中國人民銀行西寧中心支行
數據挖掘是從數據倉庫、數據庫等數據平臺中挖掘所需內容的過程,是信息技術日益發展與完善的必然結果。數據挖掘和多學科技術的集成之間有著十分密切的關系,如信息檢索、模式識別、神經網絡及統計學等。通過進行有效、深入的數據挖掘,能從數據庫當中調取或抽選那些有趣、滿足自身需要的知識與信息。本文就IT基礎設施監控系統中數據挖掘技術的實際應用作一探討。
針對此階段而言,其注重從決策層面或視角去理解、認知項目的相關要求與目標,并且把這些內容實時轉化為有助于目標實現的初步規劃,或是幫助數據挖掘的具體問題定義。數據挖掘目標定義為:(1)探究系統負載規律。找尋處于隱藏狀態的系統運行方面的負載規律,以便為系統維護人員提供準確依據與支撐。(2)定位系統性能瓶頸。針對系統整體效能來講,可能有瓶頸存在,通過開展數據挖掘工作,應能夠對系統瓶頸進行準確定位,對于比較缺乏的系統資源,及時給予補充,如升級網絡設備、擴大內存容量等。(3)評估系統生命周期。伴隨人民銀行業務種類日益增多及業務量的持續增加,系統負載勢必會增大,如果其潛能被完全開發之后,系統便需要更新換代,此時,對系統壽命進行準確評估十分必要。
此階段初始點為匯總數據,后逐漸深入,包含了解數據、對數據質量進行鑒別并探究數據的內在含義。通過了解初期項目,得知監控數據主要包含2部分,其一,數據庫、主機與網絡設備的運行指標,如數據庫數據字典命中率、網絡設備丟包率等,這些數據能夠用于對系統性能瓶頸的定位,還可以用作探尋系統的負載規律。其二,數據庫、主機與網絡設備的事件數據。針對數據庫、主機的事件來講,其由IR Prognosis將SNMP Trap發送至HP Network Manager,而關于網絡設備的事件,則由SNMP Trap發送SNMP Trap至HP Network Manager,然后通過HP Network Node Manager將數據寫庫。
對于此階段而言,其包含了全部自原始數據當中構建的數據集活動。針對數據準備的任務而言,可能執行多次,包含有屬性、記錄與表格的選取,另外還囊括數據的清理與轉化。通過分析原始數據,從中可發現數據當中有不一致的情況,如在發送的SNMP Trap當中(由IR Prognosis發送),把事件依據嚴重程度進行分析,即危急、錯誤、警告與信息;而HP Network Node Manager把事件劃分為5級,即危急錯誤、初級錯誤、警告、正常與主要錯誤。須轉換與清理數據,以此來清除數據的不一致。對此,可構建2個模型。(1)模型Ⅰ。確定主機CPU、內存利用率、網絡設備CPU、緩存利用率,構建系統負載模型;(2)模型Ⅱ。確定每周故障發生次數,構建系統故障規律模型。
此階段會運用各種建模技術,并且調校它們的參數,使其維持在最佳值。通常來講,針對同一個數據挖掘問題類型而言,其會有許多建模技術,其中的部分建模技術對數據格式有著特殊要求,所以,須從此階段返回至數據準備階段。
基于數據分析層面而言,進此階段便證明已構建一個或多個高質量模型。在還未進入模型最終部署前,為確保模型能將研究目標切實體現出來,需全面、細致的評估模型,并對模型的各個步驟進行審查。在此項目當中,利用負載模型,數據挖掘人員得出的結論如下:(1)網絡設備的負載,包含其兩部分內容,即CPU利用率與緩存利用率,相比與主機類全部負載指標,普遍偏高,所以,需對網絡設備進行適當性升級。(2)系統的整體負荷呈現出緩慢上升趨向,符合系統維護人員的預期。
利用故障模型,可得出如下結論:(1)網絡部分出現的故障數量較主機部分,明顯偏多,所以,在配置系統維護人員方面,應偏向于網絡維護部分;(2)通過運用一元線性回歸方程對本行系統的健康運行時間進行預測,得知其符合預期要求與目標。
通過驗證,表明上述結論參考價值高,準確性高。另外,還提出了修改意見,如加大趨勢的全面性,增加負載模型具體的指標類型;更改故障模型的一元線性回歸,使之轉變為高階多項式回歸,以此來實現預測準確性的提升。
綜上,數據挖掘是各學科融合的框架下的前沿領域,能從各學科當中獲取有用內容,切實做到博采眾長、為我所用的目的。因此,在IT基礎設計監控系統中運用數據挖掘技術,有著廣闊的應用價值及實際意義。
[1]張卉.數據挖掘技術在B2B電子商務商品銷售中的應用研究[D].北方工業大學,2013.
[2]朱德志.數據挖掘中的數據質量檢驗[J].金融電子化,2007(7):55-56.