摘 要:針對湖南省草公司及所屬邵陽市公司已建成信息資源集成云管理系統(tǒng),實現(xiàn)了省市兩級聯(lián)動的全局性計算資源池,但傳統(tǒng)的運維技術難以滿足云計算、大數(shù)據(jù)平臺運維要求。基于大量非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)技術,設計基于云平臺的大數(shù)據(jù)智能運維系統(tǒng),智能、實時采集主機、服務器、網(wǎng)絡、應用、日志等相關數(shù)據(jù),運用大數(shù)據(jù)處理技術,對全省云管理系統(tǒng)的基礎資源分析,提升基礎設備與系統(tǒng)日常運維能力。我建立適應云計算、大數(shù)據(jù)信息化平臺的統(tǒng)一運維、統(tǒng)一資源管理提供了一個設想,為行業(yè)的信息化投資提供了可靠數(shù)據(jù)支撐,最終為保障湖南煙草的各業(yè)務系統(tǒng)的運行提出了新的運維管理思想和系統(tǒng)。
關鍵詞:信息資源 大數(shù)據(jù) 數(shù)據(jù)分析 運維模型 智能運維
一、引言
湖南省煙草公司及所屬邵陽市公司于2013年建立大型企業(yè)信息資源集成云管理平臺,通過對小型機、PC服務器、存儲等設備進行全面虛擬化,在省局建立了統(tǒng)一的企業(yè)共享計算資源池,并初步實現(xiàn)了省市聯(lián)動的全局性計算資源池。但隨著硬件資源的增多,IT運維方面也出現(xiàn)了一些相關的問題,當系統(tǒng)出現(xiàn)故障時,維護人員缺少可視化的故障分析數(shù)據(jù)和報告,導致系統(tǒng)恢復時間較長,對生產(chǎn)造成較大影響;特別是出現(xiàn)多處故障時,由于缺乏有效的定位和分析手段,僅憑經(jīng)驗進行排查,導致恢復正常運行的時間長。總的來說,目前的IT運維人員多是被動、救火式的運維,缺乏主動預警防護的手段。根據(jù)省局的按照全省系統(tǒng)信息資源管理需求以及企業(yè)大數(shù)據(jù)中心建設要求,在現(xiàn)有云管理平臺的基礎上,探索利用大數(shù)據(jù)技術,建立企業(yè)大數(shù)據(jù)中心平臺,并從技術和業(yè)務等多個維度,發(fā)現(xiàn)企業(yè)大數(shù)據(jù)所在的位置、形態(tài)和特征,研究企業(yè)大數(shù)據(jù)的采集、存儲、處理與利用機制,為企業(yè)提供發(fā)現(xiàn)有價值信息的手段和工具,提供更精確的決策依據(jù);在技術大數(shù)據(jù)方面,提出了通過平臺運行大數(shù)據(jù)采集與分析來實時監(jiān)控整個平臺的運行狀況,能夠有效、準確、及時地對主機、虛擬機、存儲、應用系統(tǒng)的健康狀況進行評估,為系統(tǒng)優(yōu)化、故障發(fā)現(xiàn)提供有效的信息,為資源擴展提供決策輔助,促進業(yè)務創(chuàng)新,有效提升企業(yè)核心競爭力。
二、技術原理
和傳統(tǒng)運維相比,大數(shù)據(jù)智能運維在數(shù)據(jù)量、處理速度、涉及業(yè)務廣度、模式發(fā)現(xiàn)等方面都有重大的差異。在大數(shù)據(jù)時代下的智能運維,推動運維從自動化向智能化進化,其目標是提高系統(tǒng)的可靠性,盡可能低的成本、提供足夠好的服務質(zhì)量和用戶體驗。網(wǎng)絡帶寬、服務器、維護人力等是云計算平臺的主要成本來源。通過對運維大數(shù)據(jù)分析,實現(xiàn)對硬件故障的預測和自動化管理,對機器的管理實現(xiàn)了零投入;通過智能混部技術,動態(tài)感知、實時分析、全局調(diào)度,合理分配計算、存儲、內(nèi)存等不同類型的任務,精細化分析、“消峰填谷”的方式來最大化地利用資源,減低預算開銷。湖南煙草云計算應用平臺上硬件資源的調(diào)配需要大量服務器運行資料的支撐,大數(shù)據(jù)智能運維就是利用大數(shù)據(jù)技術,定義好各種運維指標,高頻率的監(jiān)控每臺服務器的運行數(shù)據(jù),并統(tǒng)一收集日志,借助mongoDB等非關系型數(shù)據(jù)庫保存多樣性數(shù)據(jù),與此同時,所有數(shù)據(jù)寫入Hadoop集群,利用大數(shù)據(jù)技術對收集的數(shù)據(jù)做更多維度的離線分析,形成各種曲線圖,和之前定義的指標對比,并與監(jiān)控報警系統(tǒng)關聯(lián)起來,實現(xiàn)對整個數(shù)據(jù)中心的性能和可用性的監(jiān)控和趨勢分析。然后根據(jù)歷史數(shù)據(jù)和算法形成的預測模型,預測未來服務器的運行狀況和瓶頸,幫助運維人員提前遷移系統(tǒng)和調(diào)整硬件資源。
三、部署架構(gòu)
大數(shù)據(jù)智能運維系統(tǒng)最基本的部署需部件分別是Hadoop集群,MongoDB集群,采集器集群,MySQL數(shù)據(jù)庫和大數(shù)據(jù)應用五個部分。
Hadoop集群、MongoDB集群和采集器集群,一旦集群中的某個節(jié)點故障,系統(tǒng)能夠自動的將該節(jié)點的任務分發(fā)到其他正常的節(jié)點繼續(xù)運行,保證系統(tǒng)數(shù)據(jù)的完整性。Hadoop的Master節(jié)點主要提供NameNode、SecondaryNameNode及JobTracker三種服務,主要用于任務調(diào)度和管理文件系統(tǒng)的命名空間以及客戶端對文件的訪問。Slave節(jié)點部署一個DataNode和TaskTracker,以便 這個Slave服務器運行的數(shù)據(jù)處理程序能盡可能直接處理本機的數(shù)據(jù)。MongoDB集群采用的是副本模式,一旦主節(jié)點故障,副本節(jié)點通過競選機制,選舉出一個副本節(jié)點作為主節(jié)點,從而保證整個數(shù)據(jù)存儲的穩(wěn)定性。采集器集群所有的節(jié)點都是同一地位,分別執(zhí)行不同的采集任務,如果某個采集節(jié)點停止運行,控制中心會立即監(jiān)測并確認后,把其采集任務分配到其他采集器上,確保數(shù)據(jù)的連續(xù)和一致性。
四、效益分析
基于云計算和大數(shù)據(jù)的智能運維實現(xiàn)以后,預計將產(chǎn)生巨大的管理效益、經(jīng)濟效益與社會效益。
第一,建立統(tǒng)一管理體制,實現(xiàn)一個平臺對多系統(tǒng)監(jiān)控和管理,讓領導放心、業(yè)務人員省心、客戶放心。通過統(tǒng)一的數(shù)據(jù)呈現(xiàn)和監(jiān)控管理平臺,實現(xiàn)各資源子系統(tǒng)的統(tǒng)一管控,對整個基礎資源平臺里的各類主機硬件,存儲硬件,網(wǎng)絡硬件、以及不同的虛擬化軟件,實現(xiàn)統(tǒng)一監(jiān)控和管理,實現(xiàn)IT運維的統(tǒng)一化,標準化,流程化和智能化,簡化了IT運維人員的操作,降低了各類業(yè)務系統(tǒng)的維護難度,提高了用戶體驗,減輕了系統(tǒng)管理員的維護工作量,能放大省局云平臺各類業(yè)務應用集中部署的優(yōu)勢,使領導滿意度、業(yè)務人員滿意度、客戶滿意度得到提高,為湖南煙草未來資源和應用擴展奠定管理基礎,建立降本增效、綠色節(jié)能的新型IT運維管理模式。第二,建立IT管理體系,提升了信息化工程項目交付能力,形成開發(fā)、整合、管理三位一體的配套支撐環(huán)境。大數(shù)據(jù)智能運維不僅僅是信息系統(tǒng)的構(gòu)建和集成,同時更是打通了IT應用資源管理的壁壘,包括對現(xiàn)有系統(tǒng)、設計資源、開發(fā)資源、團隊等與IT系統(tǒng)建設有重要關系的對象的監(jiān)管、治理。提供了更為健康的IT整合工程化支撐環(huán)境、快速開發(fā)業(yè)務應用的工具與支撐平臺,以及項目過程管理及質(zhì)量控制環(huán)境,從工程建設角度提供了項目開發(fā)、整合、管理三位一體的配套支撐環(huán)境,保障和提升了大型軟件工程項目成功交付能力。第三,提供科學決策依據(jù),支撐煙草商業(yè)企業(yè)的業(yè)務、運營和管理,提升企業(yè)整體運營水平。通過高效的分析展現(xiàn)工具對實時的資源運行狀況和和資源利用率進行輔助決策分析,為領導決策提供有力的數(shù)據(jù)支持,支撐煙草商業(yè)企業(yè)的業(yè)務、運營和管理,并提高企業(yè)效率,對企業(yè)經(jīng)營目標的實現(xiàn)、經(jīng)濟指標的提升產(chǎn)生了重大效益。總的來說,基于云計算和大數(shù)據(jù)的智能運維能夠為在所有部署在湖南煙草云平臺上的業(yè)務應用提供一個穩(wěn)定的運行環(huán)境,符合煙草行業(yè)十三五規(guī)劃提出的“整合兼容、互聯(lián)互通、先進實用、改造升級”的要求,保障了業(yè)務的正常運行,提高了企業(yè)生產(chǎn)效率,有效的支撐了省局領導針對信息化工作提出的“用信息化帶動管理規(guī)范化、業(yè)務流程程序化、決策科學化”的要求。
五、結(jié)語
基于云計算和大數(shù)據(jù)的智能運維將為湖南煙草商業(yè)所有業(yè)務應用提供一個穩(wěn)定的運行平臺,保障業(yè)務的正常運行,提高企業(yè)生產(chǎn)效率,有效的支撐局領導針對信息化工作提出的“用信息化帶動管理規(guī)范化、業(yè)務流程程序化、決策科學化”的要求。同時我們相信,隨著時間的推移,基于云計算和大數(shù)據(jù)的智能運維在湖南煙草商業(yè)系統(tǒng)改革發(fā)展的進程中會起到越來越重要的支撐作用,并取得更大的經(jīng)濟效益和社會效益。
參考文獻:
[1]章思宇 孫強 姜開達 自動化運維中的大數(shù)據(jù)分析 《中國網(wǎng)絡教育》 2015年7期.
[2]陳藝高 動環(huán)大數(shù)據(jù),提升運維效能 《通信電源技術》 2014年31期.
[3]鐘湘瓊 基于云計算的大數(shù)據(jù)智能運維系統(tǒng)設計 《信息通信》 2016年2期.