孟慶威
(中國石油天然氣股份有限公司大慶煉化分公司,黑龍江 大慶 163000)
在大數據時代背景下,信息化技術在各行各業取得了廣泛的應用。機房作為信息化建設、運行的核心,在信息系統中扮演著舉足輕重的角色,任何信息化網絡設備都需要以機房基礎設施作為支撐。為了確保機房安全運行,需要切實加強對機房運維的重視和投入,定期開展維修、監控工作。抓住大數據時代的契機,充分考慮大數據時代需求,構建機房綜合運維管理體系,發揮信息化系統的效能,提供集擴展性和集成性為一體的全面采集、及時處理服務。通過整合運維服務資源,進而提升信息系統的運行效率,促進科技系統自動化和智能化高效運轉。
在大數據時代,數據傳遞的處理和管理效率隨之加快。集成平臺有助于提升機房運維管理的質量,幫助企事業發展。目前數據運維工作仍未全面推廣,受傳統機房運維的制約,機房管理復雜度較高,企業信息傳遞與應用效率較低,不能保證運維的時效性,因此運維管理的工作質量亟待提升。與此同時,一些運營管理設備相對落后,大多數管理者缺乏對大數據運營管理體系的認知,組織彈性較弱,造成設備的匹配度以及管理人員技術水平呈現差異化。這既不符合自動化與虛擬化機房運維的發展趨勢,也難以保證運維的時效性。
機房設備十足精密,而且涉及眾多的運維類型,其中不乏動力環境、消防系統等領域,給機房管理帶來了極大的考驗。經過上述對機房運維管理現狀的分析發現,目前很多單位對機房管理存在忽視現象,無法開展規范化操作。由于機房很容易受到外界的干擾,例如濕度、溫度等變化都會造成設備系統出現異常甚至崩潰。為了避免或降低外界對機房造成的危害,唯有加強重視運維和管理工作,加大機房管理力度,才能確保機房服務器時刻處于正常運轉狀態。
數據中心機房能否發揮其最佳性能與綜合信息系統和基礎設施是否完備息息相關。設定科學的機房運維管理內容,依托智慧機房的應用與運維管理模式,有效融入大數據時代所賦予的機遇,才能提供更加適宜的工作環境。首先,應設計出與單位實際相吻合的運行維護管理制度,按照相關法律法規,結合自身實際情況,制定行之有效的運維標準,打造全生命周期管理規范,利用獎懲措施保障機房安全運行管理制度的穩定落實。其次,打造具有戰斗力的運維管理隊伍,從實踐的角度出發,發布運維流程、內容和標準,助力運維技術人員精準快速地解決問題。再次,依靠有效的電子運維工具實施定制化應用部署,針對虛擬化云平臺的資源,開展遠程自動巡檢、動態管理,發揮大數據人工智能巡檢應有的性能,助力3D 視圖下的按需分配管理。最后,機房運維管理內容需要搭建統一門戶,全面采集機房內的各項監控數據,將采集、監控、展示一體化,構建自動化和智能化的維護工作,以期持續提高效率。
機房運維管理工作包括制度建設、流程細則、組織分工、人才隊伍、技術支撐、維護對象等部分,具體涵蓋了制度、管理人員、技術、管理對象等方面,其運維體系架構如圖1 所示。

圖1 機房運維管理架構圖
機房基礎設施維護要考慮投資成本,做好運維管理范疇的設置和完善,根據機房運維管理領域容易發生的問題,分門別類地明確分工界面,做好支撐工具開發與投運,使其在環境管理、安全保障方面與數據中心同步建設,全面統籌兼顧建設效益、運維管理成本,規劃、設計、建設通信機房。明晰存量設備的特點,把握運維工作種類多、分布規律廣的特征,實施分階段建設,推進運行系統處于安全指數保障之中。
按照大數據分析需求以及運維操作管理流程需求,機房基礎設施要與智能化決策支撐需求保持一致,打造全生命周期運維管理體系,在機房運行數據、安裝調試、能耗數據上保持領先,通過物理設施、系統容量記錄設備健康度,形成設備健康量化和系統化的評價報告,最終實現對機房、故障數據的綜合分析。
結合先進的管理理念和模式,把握機房運維管理特點,運維支撐管理系統建設應全面協調靜態資源與動態資源的關系,在流程管理的綜合性方面下功夫。一方面,在硬件設施方面,要從組網方式、設備性能角度出發,引進具備圖像集中監控功能的新型配套設備。另一方面,開發或引入新型軟件功能,在靜態資源管理工作中進行精確化操作,打造智慧管理體系,推進和規劃流程管理平臺建設,形成全方位一體化的運維創新管理模式。
精細化管理是機房運維工作的首要目標,以網絡拓撲機構為核心,統一匹配設施與動態數據,既可以智能識別故障點位置,還可以發揮網絡結構顯性化特征。3D 拓撲圖形化管理是目前較為流行的設備排查手段,能夠實現機房三維視圖,反映設備屬性、運行狀態,梳理系統中的關鍵設備點,直觀呈現上下游拓撲結構設備。性能指標動態管理思路以機架資源管理為重點,通過性能數據分析,結合設備維護管理,將設備運行容量、安全負載率與空間資源合理匹配,這樣一來能夠通過容量預警分析,及時發現設備性能是否劣化;二來可以通過判斷設備性能偏離分析,掌握重點設備運行情況,為規劃提供依據的同時,更有助于為更換設備提供參考。在日常運維管理過程中,設備入網、退網管理是重要的監督環節之一。從機房安全角度出發,設備入網、退網管理需要在相關的流程框架下進行,做好用電安全管理,發揮審批流程管理支撐體系的優勢,實現相關功能的拓展。此外,關鍵功能模塊建設絕不可忽視基礎設施運行優化支撐系統。為了提高日常運維工作效率,需要提供可行性分析,利用告警相關性提供的應急處置能力,降低機房能耗根源告警,促進日常運維工作取得既定的目標。
為了充分利用大數據的優勢,在機房運管維工作中,應改變傳統的機房管理認知,明晰機房運維工作的重要性,著重建設機房運管維一體化。在硬件監控方面加大力度,開展有針對性地定期巡查和監控,做好與機房各種網絡設備相關的統計,實時密切記錄服務器的監控頻率,掌握設備的實際運行狀況,獲取設備運行過程中相關技術參數。工作人員要對參數進行對比和總結,發現存在的不足,便于調整工作策略,使機房保持最佳運行狀態。有效利用監控系統性能分析軟件,針對服務器性能進行配置優化或改進,使服務器的各指標使用率處于良好的狀態下,在所支撐的承載信息系統中,根據分析結果完成版本升級、文件清理,確保系統高效運行。認真履行機房設備操作規范制度,建立健全機房檔案機制,嚴格按照步驟和動作要求進行操作。系統管理員賬戶應設置用戶訪問級別權限,秉承安全風險最低化理念,加強機房設備管理,配置與之對應的系統策略,做好機房濕度、溫度的管理,詳細記錄網絡拓撲機構圖,不斷健全和完善機房的實際運行環境,避免不必要因素引起的損壞。此外加強線路管理,確保機房設備性能及應急預案的科學性和合理性。加強機房管理檔案的構建,詳細記錄機房內設備的品牌、型號、序列號,及時更新設備及記錄檔案,力爭運管維一體化的可持續運行。
在日常運維管理過程中,使用最為先進的運維技術,切實加強對軟件的運管維工作。大數據時代最顯著的特征在于其自動化、智能化,積極地使用現代自動化技術,通過自動收集信息,數據中心運維管理效率將會得到顯著的提升。運維管理平臺要以高效化、精細化為理念,做好數據庫、中間件、分區的合理劃分,有效統籌對應的服務器、集群,將基礎運維的核心性能釋放出來。深入挖掘并分析數據趨勢,以全新自動化運維代替人工操作。當然這需要技術人員具有吸收新鮮事物的意識和覺悟,爭相創新管理理念,熟悉所運維的軟件系統、操作系統版本,做好運維軟件的維護。由于計算機網絡具有開放性的特點,從另一個角度來看,機房中運行的軟件系統也存在著一定的危險,即容易遭到攻擊。一旦系統處于脆弱狀態時就會面臨被嚴重破壞的危機,進而導致不同程度的經濟損失。面臨現如今軟件黑客攻擊手段的多變化和隱蔽化,各種網絡病毒頻頻對機房軟件產生干擾,唯有采取先進運維技術,才能夠有效應對各種安全問題。這需要培養強大的運作團隊,針對數據庫加強維護,做好補丁安裝、漏洞修復等工作,科學使用集群監管系統,加強對網絡病毒的檢測,設置應用層監控系統,及時進行數據備份,保證網絡正常運行。
持續加強機房管理制度的構建,以HTML5 技術作為基礎,通過創建物聯網前端傳感器,打造中心智能機房管理系統,在確保機房能夠實現能耗監測的基礎上,還可以智能識別,實現高可靠、低功耗的操作規程。按照智能機房管理系統架構的基本內容,重點加強網絡層、感知層、應用層的服務。首先,在互聯網通信網絡感知工作部署當中,要結合實現QOS 服務匹配,保持長距離傳輸的同時,還可以進行實時化的處理、上傳、執行,最大限度地應用網絡資源傳輸數據。其次,基于MQTT 協議利用傳感器網絡,設置門禁、報警等執行功能,實現輕量級數據傳輸,促進傳感單元向運管維向一體化方向邁進。最后,開發并應用手機端APP,結合用戶平臺定制化的操作模式,對機房網絡資源訪問,讓感知數據能夠隨時隨地便接受定制化的服務,便于技術人員對機房的實時化管理。此外針對機房的各種網絡設備,科學使用VPN 技術,及時優化防毒技術,不斷更新設備檔案,持續優化配置服務器,定期安裝操作系統安全補丁。科學使用集群監管系統,通過創建臨時專用邏輯網絡,得到業務層計算數據。嚴格監控計算機機房,調整各個協議的參數,有助于調整設備的運行和技術參數,利用數據加密方式實現對各個指標使用率的精準控制。
設備信息系統種類較多,應著重加強防水、防火、防靜電和防灰塵等具體工作,做好不同線路管理工作,同時加強防鼠、防蟲排查,不斷優化機房衛生體系。及時監控設備工作狀態,分層集中開展運行維護工作。信息系統運行維護管理質量的高低,在很大程度上取決于規范化制度執行情況的好壞。為此應建立健全運維管理流程,在數據庫運行過程中,提高服務對象的滿意度,注重對數據庫進行備份,防止安全隱患的蔓延。運維服務管理平臺應7×24 小時運行值守,以IT 支撐平臺管理為支撐,建立友好的業務監控等級,確保數據備份工作落實到位。數據采集、統一集成要以大數據技術為導向,減少終端維護量,全景展現業務系統整體的價值,消除網絡中存在的病毒。網絡中的協議比較多,應急處置及安全防護必不可少。絕不能忽視任何一個細節,根據事件級別啟動預警響應。結合人工智能技術,開發基于物聯網RFID 技術,研究設備位置自動跟蹤,便于對機房設備的自動更新和盤點。加強網絡配置維護,利用ZigBee 無線通信技術,對數據中心機房巡檢、識別,形成運行狀態的綜合評價,確保機房的無人化和智能化。做好機房的應急管理以及軟硬件方面的安全管理,根據環境安全和信息安全問題,保證存儲介質的完整性,做好機房的日常運維管理。不能將其他設備帶進機房,按照設備層、接口層、應用層、展現層的架構層次,實施3D 可視化監控管理。完善機房能源基礎數據體系,有效提高系統的可管理性,做好移動管理模塊升級,發揮在線修改及在線擴展功能的價值。
總之,隨著互聯網技術的快速發展,在大數據時代的強力推動下,機房安全問題受到日益關注。要想保證機房設備運行正常,需要充分利用大數據的優勢,熟悉相關技術要求,培養工作人員實踐操作能力,建立健全信息化機房監控機制體系,定期開展運維工作。此外,深入挖掘系統建設需求和價值,全方位、多角度領域解決通信機房現有融合問題。全面管理機房設備和線路,避免出現機房安全隱患,促進信息化機房能夠實現高效環保、集中化、智能化和便捷化運行。