劉明亮,梁剛毅
(廣州珠江數碼集團股份有限公司,廣東 廣州 510335)
隨著信息技術和互聯網技術的快速發展,我國廣電運營商的機房規模、設備類型及設備數量逐年急劇增長,給傳統依賴人工的運維模式帶來了極大挑戰。愈發標準化的機房設備、機房環境以及物聯網、大數據、人工智能及機器人等技術的快速迭代,使智能化管理成為可能。目前,在廣電機房實施智能管理已成為必然。
隨著技術的演進,運維管理技術的發展大致可分為4 個階段,如圖1 所示。
1.1.1 人工階段
該階段機房和服務器選型、軟硬件初始化、服務上下線、配置管理以及運行監控等,運維工作完全靠人工操作。技術人員大量使用表格和文檔記錄設備和機房的配置信息和運維信息,自動化程度低。
1.1.2 自動化階段
為了簡化操作流程,提升運維工作效率,運維工程師開始將部分運維操作和重復性工作編寫成腳本自動執行。工具的產生是運維自動化的一個典型標志。這個階段大量日常工作通過自動執行程序完成,提升效率的同時,逐漸降低了出錯率。
1.1.3 平臺化階段
隨著業務的持續發展,大量分散腳本的管理出現低效且復雜的問題。將自動化腳本和工具進行整合,從系統層面構建更加易用和高效的運維管理工具即運維平臺化。圍繞開源工具和開源平臺,企業開始結合自身的業務場景特點構建自己的運維平臺,包括監控平臺、告警平臺及自動化平臺等。這些平臺一定程度上提高了業務測試和上線效率,降低了發生潛在風險的概率,提高了系統可用性。具有平臺化思想的開源工具幾乎覆蓋了運維工作的全部維度,如表1 所示。
1.1.4 智能運維階段
通過將技術和場景進行匹配,運維管理形成了具體的智能化運維方案,有針對性地緩解了運維的痛點和難點問題。智能化運維是指采用廣義算法解決已知問題的一種智能化運維方案。例如,通常的告警策略是設置一個閾值范圍(上限、下限),某個指標超出閾值時觸發告警。然而,對于一些特定場景,這樣的告警策略是無效的。圖2 是珠江數碼智能電視平臺某服務器的網絡出口流量走勢圖。可以看出,每天凌晨3 點到6 點是網絡出口流量一天的低谷期,晚上20 點到22 點是全天的高峰期。機械地按照固定的閾值設置告警非常不準確,需要通過歷史數據智能化地擬合出一條趨勢線,以這條線上、下界的一定范圍設置動態的告警閾值才能更加準確地發出告警。

圖1 運維管理技術發展的4 個階段

表1 典型的開源運維平臺示例

圖2 珠江數碼智能電視平臺某服務器的網絡出口流量走勢
此外,智能運維可以被用于故障分析,實現故障實時溯源,從而指導運維人員進行準確高效的應急排障,降低企業損失。在算法層面上,基于算法的運維方式(Algorithmic IT Operations,AIOps)使用的各類算法[1],如基于指數平滑的二次和三次平滑算法、基于差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)的算法、基于深度學習的前饋神經網絡及循環神經網絡(Rerrent Neural Network,RNN)算法等已經比較成熟,并大量應用在圖像圖形處理和語音識別等領域。在算力層面上,基于云計算和大數據技術的數據處理能力已經足夠,如Hadoop、Spark 等開源大數據生態系統,如時序數據的處理能力已經能夠支撐智能化的復雜計算場景。目前,國內大多數成熟的互聯網企業都已經探索嘗試了AIOps,并取得了不錯的收益。
現階段,廣電機房運維工作大致包括設備管理、配置管理、業務上下線、日志采集和分析、告警和流量監控、故障排查以及一些日常優化等。隨著云化和虛擬化的逐步落實,運維工作還將擴展到容量管理、彈性擴縮容、安全管理以及分析和定位因引入各種容器和開源框架導致的故障等范疇。
快速解決故障和降低故障率是運維工作的首要任務。現階段系統愈發復雜,需要運維人員關注的服務數量急劇增長,已經接近人工能夠完成的極限,因此急需引進和普及新的技術。但是,廣電機房智能化管理的成功落地案例非常少,主要是因為智能化運維的應用門檻較高,處在運維經驗、行業知識及新技術的交叉領域。廣電機房的運維人員熟悉運維場景,熟知運維的痛點和難點,并且具備一定的行業知識,但由于缺乏對新技術的了解,無法判斷所遇到的困難是否可通過新技術解決。此外,設備供應商的研發人員因缺乏運維經驗和行業知識而無法將技術和場景匹配。因此,智能化運維管理的發展需要兩者的共同努力。在宏觀層面,設備廠商要根據智能化運維框架和理念推出智能化運維平臺,針對不同運維場景提供個性化解決方案。在微觀層面,廣電機房的運維人員要將運維過程的痛點和難點場景化,嘗試采用新技術解決問題,通過將孤立的場景和技術進行匹配,逐步提高智能化運維水平。
智能化運維不是一個跳躍發展的過程,而是一個長期演進和不斷迭代的過程,其根基是自動化運維、監控、數據收集、分析和處理等具體工作。
廣電機房智能化運維建設尚未形成一套成熟的指導方案,建議廣電機房運維人員優先在重復的日常工作和能夠嚴格按照既定流程執行的工作中挖掘需求場景,在掌握新技術的專業人員協助下,將場景和技術進行匹配,形成可實施和可落地的方案[2]。
近年來,在機房管理領域興起了一種新的管理模式,即數據中心基礎設施管理(Data Center Infrastructure management,DCIM)。DCIM 是一套包含特定軟硬件設備和傳感器的管理平臺,能夠將機房內部所有設備和環境關聯起來,實現如集中監控、容量預測、模型規劃、事件處置及運營成本控制等目標[3]。DCIM 平臺收集的設備和環境信息,結合第三方資源管理和監控平臺數據,即可建立一套能夠實現設備管理、動環監控、安保監控以及參觀演示的可視化管理平臺。
值得關注的是,當前無論是DCIM 管理平臺還是可視化管理平臺,都只是完成了數據采集、統計分析及可視化展示,并沒有實現智能化管理和決策的功能。未來,可通過智能化運維管理在全生命周期提升運維效率并降低能耗。在監控側,通過部署集中監控平臺實現資源池化,對全網多機房進行集中共管,節省運維人力投入;在運維側,通過電子巡檢、電子維保、風險管理及故障預測,降低單柜運維成本;在運營側,通過部署智能上架柜位推薦、資產U 位自識別及資源精確分析等功能,提高資源利用率;在節能側,通過看診調優了解能源去向,識別能耗最大點,實時調節制冷系統,將能源效率指標(Power Usage Effectiveness,PUE)降到最低。
盡管目前的技術已經能獲取設備的運行狀態、網絡流量數據乃至數據庫的告警信息,但如何運用這些信息是運維人員的一個新課題。一方面,隨著熱備和集群等高可靠技術的普及,部分設備運行狀況異常并不一定會對業務產生實質影響;另一方面,當業務出現異常時,成千上萬條告警信息堆積在一起,使得快速判斷故障根源困難重重。系統的復雜度和運維難度的增加,客觀上要求系統必須實現數字化和維護自動化。
運維自動化是使用算法自動執行重復性和有標準化流程的工作,并對執行過程和執行結果進行有效監管,實現從監測、診斷、分析及恢復的閉環。簡單地說,它是將事件與流程相關聯,一旦發生性能超標或宕機等事件,便可按照預定義的流程自動啟動故障響應和恢復機制。運維自動化還可以協助運維人員完成日常的重復性工作,如日常巡檢、業務調整及補丁部署等,減少乃至消除重復性工作對運維人員精力的耗費。此外,運維自動化可以通過部署自動化監控系統,及時發現故障隱患并將相關信息主動推送給運維人員,將損失降到最低。
盡管當前監控和告警平臺的搭建已近完善,但大多平臺仍通過在操作系統上安裝Agent 訪問設備驅動讀取硬件狀態數據。所有監控狀態的數據抓取都受限于驅動程序,而驅動程序的編寫人員所關注的重點在于設備能否正常運行,而不在于設備的狀態監控。因此,通過驅動程序所抓取的硬件狀態參數有限。例如,絕大部分服務器以RAID1 或RAID5方式搭建冗余磁盤陣列,確保數據安全。當其中一塊硬盤損壞時,由于系統仍運行正常,無法通過監控平臺發現這塊壞盤,只能通過人工巡檢看到設備的硬盤告警燈才能發現。可見,機房巡檢在未來一段時間仍是廣電機房運維的日常工作之一。在實際操作過程中,機房巡檢一般通過人工方式進行,每1 ~2 h 進行1 次。機房設備數量上升,增加了機房巡檢的工作量。在這種情況下,使用智能巡檢機器人代替人工巡檢,是一種有效提升巡檢效率和準確性的選擇。
一直以來,人工巡檢都有耗時費力、標準不統一、高度依賴個人經驗以及巡檢數據不可追溯等痛點,且人工難以長時間對同一對象進行觀察,無法長期監測水管漏水、油管漏油、變壓器放電、機器異形以及線路異物等設備狀態。隨著人工智能技術的發展,尤其是機器人、計算機視覺及無軌導航技術的成熟,利用智能巡檢機器人長時間穩定地巡檢、分析和識別機房整體運行狀況成為可能。通過自動執行巡檢任務、智能規劃巡檢路線以及定時對機房進行巡檢,可準確識別設備的指示燈和外露塑殼開關狀態,及時上報異常,提升運維效率;通過集成各類傳感器收集溫濕度、噪聲及空氣質量等數據,可及時感知機房環境變化;通過分析巡檢異常情況自動生成巡檢報告,及時報送告警信息至相關人員的郵箱和手機,可實現遠程無人巡檢。
由于機房的實際環境不同,使用智能巡檢機器人時需要重點關注某些問題,如冷通道封閉門可能阻擋巡檢機器人進入冷通道巡檢,機柜門可能妨礙巡檢機器人識別設備狀態等,因此需要提前論證技術方案的可行性。
智能化運維管理技術在廣電機房運維中的應用是一個不斷演進發展的過程。就目前來看,建設智能化運維管理平臺仍處在概念階段。廣電從業者可結合運維的痛難點對智能化運維的場景進行挖掘和研究,與設備廠商共同推進廣電機房智能化運維管理領域的技術發展。