吳道林
(貴州廣播電視臺,貴州 貴陽 550002)
據工業和信息化部數據,截至2022年4月,我國IPTV總用戶數達3.61億戶,IPTV已正式進入主流媒體陣列。當前,IPTV具有播出結構逐漸IP化,信號處理復雜化,傳輸方式多樣化,播出節目海量化等發展趨勢。在全IP化的系統中,每根線纜、每個設備均承載了大量的播出節目[1]。因此,國家廣播電視總局對IPTV集成播控平臺的安全播出要求越來越高。為進一步提高直播平臺的安全性和可靠性,減輕運維人員的工作壓力,提高故障應急處置的效率,亟需建立綜合運維管理平臺。基于此,本文對運維管理平臺的一般架構和實際應用進行詳細介紹。
綜合運維管理平臺主要由碼流質量監測系統、環境動力監測系統及設備運行狀態監測系統3大子系統組成。各子系統將數據實時采集匯總,經過綜合判斷、處理分析過濾后,推送至綜合運維管理平臺,經工作站圖形化處理后,以圖形化界面推送至監控大屏進行直觀展示。整個管理平臺的構成如圖1所示。

圖1 綜合運維管理平臺組成架構
碼流監測系統采用旁掛方式,將所有節點節目流,包含接收機、編碼器、切換器輸出的碼流數據采集后,經過過濾分析匯總,送至綜合運維管理平臺,生成圖形化界面。任何一個節點的節目碼流質量出現異常時,監測界面會及時高亮告警,同時發出語音提示。
2.1.1 高質量全方位監測
信號質量監測系統采用IPMon視頻質量監測,4臺監測服務器同時運行,監測800余個組播地址對應的節目。監測探針軟件運行環境為X86 Windows/Linux系統,主要監測指標為CC連續計數錯誤、信號丟失、TR101-290P1、視頻畫面靜幀、EPSNR邊緣區域、組播碼流速率統計等;系統支持SPTS/MPTS分析、MPEG-2/H.264/H.265壓縮標準分析、HLS協議深度分析、TS 文件深度分析等功能[2]。
2.1.2 實時監控+節點回查
信號質量監測系統全天7×24小時實時監控運行,監測界面以流水線的形式向左移動,界面支持多頻道和單個頻道面顯示。多頻道監測界面以橫條顯示,每個橫條對應一個節目信號,正常情況下橫條均是綠色,當節目信號有故障時,橫條上會有相應的黃色豎條顯示。單頻道界面可以實時顯示碼流各項指標,包含碼率、視音頻參數等,如圖2所示。整個監測系統支持告警情況以Email郵件形式發送給運維人員。

圖2 單個組播碼流監測頁面
環境動力是整個IPTV集成播控直播平臺穩定運行的基礎。傳統的機房環境狀態只能靠人工定時去巡查,這樣的巡查需大量的人力且不能全天24小時覆蓋,設備的穩定運行存在一定的安全隱患。動力環境監測系統的建設,大大減少了人力定時去機房巡檢環境的頻率,為設備穩定運行提供一個安全可靠的優良環境。
整個動力監測系統采用ARM架構設計方案,在機房安裝具備RS-485、RS-232接口、紅外接口、模擬音頻采集接口,并支持TCP/IP、簡單網絡管 理 協 議(Simple Network Management Protocol,SNMP)、可 擴 展 標 記 語 言(Extensible Markup Language,XML)等協議的模塊來實現對環境數據的實時采集.采集數據包括整個機房不同位置的溫度、濕度、煙霧、水浸等,同時對不間斷電源(Uninterrupted Power Supply,UPS)、空調等動力設備的運行數據采集過濾分析匯總后,推送至綜合運維管理平臺,送至監測大屏直觀展示。
運維人員可以根據實際需要,對溫濕度閾值進行設定。系統實時監控溫濕度、煙感、水浸等數據,如果其中一項或者多項數據超過設定閾值,觸發的報警信息會實時發送到主程序進行聲光報警,提醒運維人員及時處置,實際監測界面如圖3所示。

圖3 動力環境實時監測界面
直播平臺設備類型復雜,各種播出設備、網絡設備、傳輸設備等較多,每個設備的穩定運行關乎著直播節目的安全播出。設備監測系統對整個平臺設備運行數據進行實時采集,采集內容包括各設備運行參數、溫度、內存使用率、CPU占用率、端口流量峰值、端口狀態、鏈路狀態等。只要其中一項超過設定的閾值或者出現異常,系統都會及時發出聲光告警,提醒運維人員及時處置,同時發送遠程告警郵件,方便遠程維護管理。系統還重點監測交換機和網絡安全設備的運行狀態。
2.3.1 交換機運行狀態監測
交換機是整個直播平臺系統的核心設備,其運行的穩定程度直接關系到所有節目的安全播出。交換機新上架后,運維人員只需將其對應的型號寫在項目根目錄的xml文件夾中,即可在監測界面查看到設備的基礎信息、端口流量、端口狀態、內存及CPU占用率等。“端口歷史流量統計”處,顯示端口近3小時、6小時、12小時、24小時的流量曲線圖,支持給單個端口配置流量閾值,可以配置端口最大最小閾值,也可以給端口起別名[3]。監測界面如圖4所示。當端口時間流量超出最大閾值或者小于最小閾值時,系統均會發出聲光報警和遠程告警郵件。

圖4 交換機監測界面
2.3.2 網絡安全設備監測
在IP化播出環境中,網絡安全是整個直播平臺系統的重中之重。將網絡安全設備運行狀態納入綜合運維管理平臺,以圖形化的方式顯示,簡單明了,有異常時發出聲光報警,讓運維人員可以實時掌握系統的網絡安全性。
網絡安全設備監測包含天清入侵防御系統、上網行為管理、天境脆弱性掃描與管理系統、數據庫審計系統等。對于防火墻設備,主要顯示CPU利用率、內存使用率以及防火墻端口狀態。界面顯示的設備信息,包括名字、IP、CPU利用率和內存使用率的閾值等都可以配置,可配置預警值和報警值兩級報警閾值。如果超過預警值,界面顯示的CPU利用率和內存使用率會對應顯示黃色標識;若是超過報警值,界面顯示的則是紅色標識。若監測到端口故障,系統也會發出報警信息,同時向運維人員發送告警郵件[3]。監測界面顯示如圖5所示。

圖5 網絡安全設備監測界面
2.3.3 設備細節精準定位
設備監測系統除對設備運行指標進行監測外,同時將設備硬件信息全部納入運維平臺進行管理。運維人員可以方便快捷地查詢到每個設備所處的位置,包含地理位置、機房名稱、機架編號等,同時可以查詢到每個設備端口對應的線纜編號、所屬組別地址段等[4]。為更方便地運維管理,綜合運維平臺中專門開發了設備二維碼管理系統,將專用打印機連入系統后,即可選擇模板或者自定義編輯二維碼樣式,可以為每個設備生成獨立二維碼,運維人員只需將該二維碼貼在設備的機身上,需要了解設備業務信息時,只需使用掃描槍掃描二維碼,即可查看該設備的所有業務信息。
綜合管理運維平臺通過可視化拓撲呈現,運行分析、故障決策等功能實現綜合管控,降低了播出運維的難度,使得運維統一化、簡便化、智能化、靈活化,直接提高了運營質量和安全播出保障水平。系統采集信息通過大數據分析評估,對業務、設備、資源進行精細化管理,為系統的升級改造提供合理化的參考價值;從點到面實現了平臺的統一管理與控制,有效輔助運維人員工作,降低對值班人員的要求,進一步降低運維人力成本[5]。
將看不見業務信號指標、設備運行狀態等數據信息采集匯總,系統經過分析過濾后以圖形化的界面進行展示,便于值班人員的判斷和處理。數據的實時采集打破傳統的運維方式,取代了只能靠人工定時定點去機房巡查設備、檢查環境的方式;多種終端如電腦手機等進行實時遠程監控,有故障告警時可通過多種方式給運維人員發送告警信息,實現了移動運維;對過往歷史故障信息保留存儲,可以隨時在線分析故障檢索;監測界面任何異常節點均高亮顯示、故障亮燈鎖定故障環節和發出語音告警提示,能讓運維人員快速定位到故障點,大大地提升運維效率,減少故障處理時間,保障節目的播出安全。
綜合運維平臺運行穩定,功能可靠,通過對設備運行狀態、信號碼流質量、動力環境的實時監控,系統可以精準地定位各個故障信息,可以快速、高效地輔助運維人員定位故障、排除故障和解決故障。平臺輔助運維人員解決故障,彌補了運維人員不能及時巡檢所有設備信號的缺陷,大大提高了整個直播平臺的安全性,保障節目的安全播出。