唐曉暉
(廣西廣播電視臺,廣西 南寧 530022)
隨著三網融合的逐步推進,互聯網技術、數字技術的迅速發展,廣電行業迎來一系列轉型升級。面對技術迭代、內容創新、市場競爭等多重挑戰,廣電行業積極探索與互聯網、移動互聯網等新媒體融合,在內容方面,推進內容的多樣性和個性化;在網絡方面,推進光纖到戶(Fibre To The Home,FTTH)光纖化網絡升級改造工作;在新技術應用方面,廣泛應用人工智能、大數據、云計算等新興技術;在技術管理方面,針對不同的業務、終端和機房,建設了對應的運維管理系統,如終端管理系統、機房動環系統及各種業務平臺監控系統等。然而,目前,已建成的這些運維管理系統還是分散的信息孤島,故障處理不透明、不及時,提供業務支持的時效性不高,尚沒有統一管理形成有效的聯動,極大地限制了運維工作的便利性、及時性和主動性。為了有效提高運維部門對故障的預防能力,縮短故障恢復周期,提高安全播出技術保障水平,提升服務質量和用戶體驗,建設一個可以實現整體業務的統一管理、監控和告警、故障診斷的主動運維系統勢在必行[1]。
目前,廣電網絡的傳輸形態已由單項電視節目廣播轉變為視頻、數據、通話的全業務綜合服務[2]。廣電網絡在轉型的同時,必須增強客戶的感知、提升服務質量、提高運營效能、降低運營成本,并保證電視信號傳輸的實時性、安全性和通暢性。因此,主動運維系統的建設目標主要包括以下幾方面。
(1)提高網絡運維效率。通過建設主動運維系統,實現故障監測、分析和處理的自動化,從而提高運維效率,減少人工干預的錯誤和延誤。
(2)提升網絡的可靠性和穩定性。實時監測廣電網絡的運行狀態,及時發現并解決潛在問題,避免網絡故障的發生或擴大。
(3)提升用戶體驗和服務質量。實時監控用戶終端的使用情況。通過終端配置更改、軟件升級、設備重啟等操作,解決終端設備故障,保證終端設備的穩定運行,提升用戶體驗和服務質量,提高用戶滿意度。
(4)提供數據分析和智能決策支持。對廣電網絡的運行數據和網絡資源進行分析和挖掘,提取有價值的信息和趨勢,為決策提供科學依據[3]。同時,通過以基礎數據為支撐產生的智能決策,可以優化資源配置、調整運營策略,提升廣電網絡的運行效率和盈利能力。
為達到上述建設目標,主動運維系統需要具備以下功能:實時監測廣電網絡設備的運行狀態,分析網絡的性能指標及故障情況,并進行相應的管理和優化措施,實現故障預警和主動運維,同時提供實時的數據可視化和報表分析,幫助決策者了解網絡運營狀況,制定優化方案,提升運維效能和用戶體驗[4]。主動運維系統的具體設計需求包括以下6個方面。
(1)監控與數據采集。系統需要能夠實時監控網絡的各個節點和設備的運行狀態,通過定期采集關鍵指標數據,如設備的硬件狀態、在線情況等,為故障診斷和性能分析提供數據支持。
(2)故障診斷與自愈。系統需要能夠對網絡中可能出現的故障進行快速診斷和定位,結合歷史數據和實時監測數據,進行故障識別和預警。診斷出故障后,系統要能自動啟動相應的恢復流程,或者提供操作建議給運維人員進行處理。
(3)終端運維管理。系統提供全面的終端運維管理功能,包括設備配置管理、日志管理、設備重啟、版本管理等,通過規則引擎和自動化腳本,實現設備配置的自動下發和變更,設備軟件版本的自動升級以及設備重啟等功能。
(4)流程管理與控制。系統對故障設定相應的處理流程,從故障的產生、分析、派工、維修等環節進行管控,以確保從故障產生到最終修復的每一個步驟都能正確有效地執行。對每一個處理步驟進行記錄和歸檔,以便于后續的審查和分析。
(5)網絡資源管理。系統為維護人員提供透明的網絡狀態,支持實時了解網絡情況、資源的分布、光纖芯連接狀態、設備連接、規格型號等網絡參數,快速輔助分析、打印圖紙與表格、設備器材統計等維護輔助工作。
(6)用戶界面與操作體驗。建立好的用戶界面和操作體驗,方便運維人員進行系統管理和操作。通過可視化顯示系統狀態、告警信息和運維指標,提供直觀的運維監控和管理工具,提高運維人員的工作效率和準確性。
根據以上所述的各種需求,主動運維系統的系統架構設計為數據層、應用層和表現層,如圖1所示。

圖1 主動運維系統架構圖
數據層負責實現對廣電基礎數據(包括各大業務平臺、網絡設備以及終端數據)的采集、過濾、增加、修改、查詢等操作,并將處理后的數據通過MySQL數據庫以及SQLite數據庫進行存儲。
應用層主要分為集中監控、智能處理、資源管理三大功能模塊。各功能模塊根據所需的數據調用數據層數據庫以及用戶界面傳遞來的數據,同時通過外部接口與第三方系統進行交互,支撐各種業務的開展。
表現層以Web端為主體,微信App群組為輔。Web端指通過瀏覽器直接調用應用層接口,與數據庫進行交互,實現系統與用戶直接的交換,以及消息事件的處理[5]。
本系統所有服務部署在內網中,且系統中的所有數據均在后臺進行處理,最終使用內部Web網站或微信App展示結果,避免公網網際協議(Internet Protocol,IP)架設服務器對外。使用者為實名驗證的運維人員。
集中監控功能模塊負責對所有業務平臺、網絡設備、終端的運行情況進行監控以及告警呈現。系統以簡單網絡管理協議(Simple Network Management Protocol,SNMP)為主、Agent為輔的采集手段與監控設備交互,部署的采集服務器能快速進行監控信息的獲取、過濾、儲存,對不同的數據來源實現統一管理。集中監控模塊具備以下功能。
(1)多呈現方式。以Web網頁與微信App為媒介,易于使用,方便管理;可在多個場景使用,如大屏展示、工單攔截、光纖故障診斷等。同時,可將告警信息發布至對應的微信App群組,使運維人員實時收到設備故障信息。
(2)精簡的告警信息。經過聚合、過濾的信息包含以下內容:告警ID,告警設備信息的唯一標識碼;故障原因,告警設備告警原因,如斷電、鏈路中斷等;告警/恢復時間,發生告警和恢復的時間;影響范圍,告警設備影響的業務范圍、用戶數;用戶信息,所受影響的用戶詳細信息,包括用戶所屬網格、姓名、電話、地址。
(3)短信提醒。集中監控模塊與客服短信平臺對接,根據告警級別、影響業務范圍,第一時間發送告警短信給對應級別的運維人員;通過與BOSS系統的數據對接獲取受影響用戶的簡要信息,對受影響的用戶精準發送信息,降低客服人員的壓力。
(4)與智能處理模塊聯動。
智能處理模塊具有以下功能。
(1)權限管理。根據數據庫中存儲的實名認證的運維人員信息進行安全驗證,通過運維權限控制運維人員查詢、處理的故障層級,同時可以記錄運維人員發送過的歷史指令,可以有效追蹤和溯源各項處理指令。
(2)系統自動處理權限管理。運維人員需將所有網絡設備、系統平臺、終端設備的覆蓋業務、影響范圍錄入智能處理模塊,根據影響范圍規定系統自動處理的權限,避免系統過度處理造成更大故障。
(3)內外網訪問。架設微信群組服務器,通過該服務器進行微信消息的獲取以及發布,隔離外網直接訪問內網設備的安全隱患。機房運維人員可通過瀏覽器訪問呈現,在內網環境運行;一線運維人員可在微信群操作使用,使用方法安全便捷。
(4)網絡設備信息查詢。SNMP、Web讀寫、安全外殼協議(Secure Shell,SSH)、Telnet等方式,實現對網絡設備、系統平臺實時狀態的一鍵查詢。
(5)終端設備信息查詢。根據SN查詢無源光網絡(Passive Optical Network,PON)終端所在光線路終端(Optical Line Terminal,OLT)PON口的光功率信息。此為光纖鏈路信息的重要指標。
(6)故障設備處理。根據查詢返回信息呈現的設備型號、軟件版本,終端設備帶賬號、光功率和在線時長等信息,在自動處理權限內進行設備故障的簡單處理。例如,設備軟件版本可根據系統里的版本管理關聯當前軟件版本存在問題以及推薦進行版本升級;根據在線時長等信息判斷進行設備重啟操作。
(7)故障分析接口。根據故障分析排查的處理流程,對以上網絡設備與平臺系統獲取的信息進行充分的分析,把可能存在的故障信息呈現給裝維人員。
網絡資源管理模塊的建設范圍包括:基于廣電接入端入網方式,實現空間資源、管桿網、光纜網、電纜網、用戶終端網元設備的全面管理,實現端到端、全程全網的網絡資源管理、維護,通過與BOSS系統、OSS綜合調度系統、集中客服系統、專業網管系統等接口交互,實現基于地理信息平臺的網絡資源管理。通過網絡資源管理,為網絡運營決策分析、網絡維護支撐、業務技術支撐提供服務。提供的服務如下。
(1)網絡運營決策分析服務。實現網絡建設的總體布局、網絡資產投入情況、用戶及市場情況分析,滿足廣電各類網絡資源數據分析需求,支撐網絡運營決策。
(2)網絡維護支撐服務。為割接、應急、搶修、網優提供數據支持;實時掌握網絡維護情況,通過對網絡故障率、故障影響分析,用戶、業務與故障關聯分析,提高維護質量;為網絡運維巡檢提供網絡支撐手段;資源預警通過資源承載的不同業務需求,根據不同的業務級別呈現,為專線運維服務。
(3)業務技術支撐服務。可進行最佳路由分析、最短路由分析、網絡覆蓋分析、資源利用率分析、閑置資源查詢等;支撐業務分級、分類管理,如可按照家客、集客等業務的維護等級、響應要求等進行資源管理分類。
運維人員可以通過大屏實時監控機房設備、傳輸鏈路、終端設備的運行狀態。相比于目前不同設備、不同業務平臺需要運維人員切換及巡查不同的網管系統,主動運維系統可以實現全鏈路、全業務、跨平臺的集中監控,可以為故障的預警、故障的排查提供更及時、更高效、更準確的判斷,為運維人員處理故障爭取了寶貴的時間,也可在網絡規劃建設中提供數據支撐和理論依據。
當系統監控的設備發生故障,主動運維系統在大屏監控界面展現告警信息的同時,還可以通過短信平臺以及微信服務器,將告警信息根據告警級別通知到對應的技術負責人員,大大減少了因監控運維人員人為疏漏導致的安全播出事件。
出現大批量終端設備同時掉線的告警信息時,系統可以根據網絡資源管理功能,結合BOSS系統的終端設備地址信息以及地理信息系統(Geographic Information System,GIS)組件,判斷是否屬于光纜鏈路中斷所導致的故障。根據系統模型匹配屬于光纜故障時,及時推送信息給相關運維人員,同時啟動客服工單攔截,發信短信至受影響用戶,以降低客服人員以及一線運維人員的壓力。
系統在監控界面提示告警時,運維人員可通過告警界面直接鏈接進入故障處理界面,并可根據系統分析的故障原因以及處理流程,選擇一鍵恢復故障或者手動處理。對于一些計劃性的設備重啟、設備切換等操作,可以設置定時任務授權系統自動處理,及時清理設備長時間運行所產生的冗余,釋放內存,恢復設備的運行速度,以消除設備的故障隱患,保障設備高效穩定運行。
主動運維系統的網絡資源管理模塊,給廣電網絡的管網規劃以及現在正在全面推進的FTTH網絡改造提供了數據和系統支撐。在規劃光纖改造項目時,系統可根據改造區域覆蓋的用戶數、并發流量以及現網光纜分布情況,對光分配網(Optical Distribution Network,ODN)網絡結構、光鏈路衰減、光分路器的布置以及接入機房設計等方面進行綜合規劃設計。
廣電網絡主動運維系統的建設是一個復雜而持續的過程,需要充分考慮廣電網絡的特點和運維需求,結合先進的技術手段和方法,實現系統的高效運行和管理。需要與相關的廣電網絡設備提供商和運維團隊緊密合作,不斷改進和完善系統功能和性能,確保廣電網絡的穩定運行。