章 劍
(麗水市新聞傳媒中心,浙江 麗水 323000)
麗水市新聞傳媒中心(以下簡稱麗水臺)融媒體技術平臺的非線性高清精編制作系統是電視節目制作的重要生產平臺,承載著臺內新聞、欄目和廣告等節目后期制作的重要任務。因此,系統的穩定性和可靠性尤為關鍵。當系統出現故障,需要有高效的應急制作措施,以迅速接管當前制作服務,解決數據備份和恢復問題,保障廣播電視的安全播出。
目前,基于傳統硬件設備構建的應急制作備份系統存在投資大、硬件性能瓶頸和軟件架構承載能力擴容困難等方面不足。因此,麗水臺在建設融媒體技術平臺非線性高清精編制作系統(以下簡稱主系統)的時候,提出了一種基于超融合設備的應急制作備份系統(以下簡稱備份系統)設計方案[1]。該方案通過超融合設備的計算、存儲、網絡、安全和虛擬化等多種功能融合,解決了業務部署緩慢、資源擴容困難、管理策略分散以及投資成本高昂等問題,使得備份系統得以低成本、高效率地完成建設。
作為臺內電視節目安全生產的解決方案,應急備份系統的設計基于超融合設備并配置相關應用軟件為核心的面向非編主系統構建的安全運行保障系統[2]。為了保證高優先級的節目制作業務不受影響,在主系統異常時,備份系統要能夠提供必要的素材和元數據,使業務能夠不間斷地繼續進行。當主系統恢復后,備份系統應能夠將應急模式下的所有數據及時同步回主系統。因此,備份系統規劃的功能包括數據備份、應急制作、數據回灌三個方面。
數據備份是備份系統最基本的功能。備份系統需要對非編主系統中的文稿、圖片、視頻等相關素材和元數據進行備份,以保證主系統故障時這些備份數據能夠快速支撐業務的恢復。
應急制作功能是備份系統的核心功能。在非編主系統故障時,備份系統需要能夠在短時間內持續為相關業務用戶提供高質量的編輯服務,以保證節目后期制作業務不受主系統故障影響而正常進行。
數據回灌是備份系統的重要功能之一。非編主系統恢復正常工作之后,備份系統需要能夠根據實際業務生產情況將素材和元數據回灌到主系統內,也就是基于備份系統生產的所有素材和節目數據及時同步回主系統內,以保證主系統與備份系統之間的數據一致性。
麗水臺備份系統設計配置了一套3節點超融合設備,采用分布式集群架構,當任意1個節點發生故障,剩余節點仍然能正常工作,存儲容量可支持備份10天內的文稿、圖片、視頻等相關素材和元數據,同時在應急情況下具備至少支持10臺高清精編非編工作站編輯的能力[3]。為了將來可以擴容及提升安全性,超融合系統還設計了橫向擴展節點的能力。
備份系統的核心平臺采用超融合技術構架,通過以Linux系統為底層的超融合設備作為3節點協同構建備份系統。數據存儲架構采用Vida Grid分布式對象存儲系統[4],以MongoDB作為分布式存儲數據單元,具有高可用、高性能、高擴展等特點。節點的計算資源部署采用基于Docker的虛擬主機技術,通過Docker的計算資源協同調度方法以及Docker管理接口,充分利用超融合設備節點的計算資源,實現系統后臺管理功能模塊,部署在相應的節點服務器上。系統提供節點和網絡所需的文稿模塊、檢索模塊、上載模塊、編輯模塊、審核模塊、數據同步模塊及網絡管理模塊等。基于超融合設備機制,借助Docker管理機制的可擴展性,系統可以對分布式節點進行便捷的擴展,實時滿足業務變化對于計算、存儲資源的需求。系統整體架構如圖1所示。超融合技術構架有別于傳統系統后臺獨立數據庫、獨立共享存儲的構架,主要表現在以下幾個方面。

圖1 系統整體架構圖
超融合系統由節點、前端網絡及后端網絡等三個元素構成。每個元素都可方便地采用目前最新技術而不需要改變整體系統結構,并且擴展操作相對簡單。特別是針對中心發展變化趨勢下難以預測的用戶,可以通過預先建立虛擬機模板的方式,根據用戶需求的變化進行實時調整。
超融合設備節點的控制由基于中心節點控制的分布式操作系統統一控制和調度,通過網絡鏈接發送控制指令并在分布式集群節點上完成。在分布式操作系統架構下,各個節點之間處于并行工作狀態,單節點的故障不會對整體系統工作狀態造成影響。
超融合設備節點具備強大的處理能力、高速的數據傳輸速度、可靠的數據保護和恢復機制,能夠滿足備份系統的高并發、高帶寬需求。此外,超融合設備節點的高IOPS、隨機訪問、小文件訪問以及備份歸檔等應用機制,可以為備份系統提供比傳統存儲架構更優的性能。同時,系統還具有靈活性高、資源消耗低、服務彈性快等特點。
應急制作備份系統的核心問題是解決與主系統之間的數據一致性。備份系統采用一種雙活系統機制作為主要技術手段,以充分利用超融合節點的技術優勢。并且,超融合備份節點采用與非編主系統節點相同的系統架構,避免主系統與備份系統由于異構影響平臺之間數據實時互通。
主系統與備份系統的數據流轉,主要包括數據備份和數據回灌兩個核心的業務過程。系統正常工作時,主系統會將系統中的文稿、圖片、視頻等相關素材和元數據實時同步備份到備份系統。當主系統出現故障,備份系統可以在非編工作站利用同步至超融合系統的素材和元數據繼續進行不間斷的編輯制作,并通過非編站合成送播至融合直播系統和高清播出系統,保證在實際的節目制作業務中優先級別高的節目制作業務不會受到主系統故障的影響。主系統恢復正常工作后,備份系統能夠將故障期間實際生產的所有數據及時回灌到主系統內,以保證主系統與備份系統之間的數據一致性。數據同步和回灌流程如圖2所示。

圖2 備份系統數據同步和回灌流程
備份系統的數據同步通過主系統的數據庫操作來觸發產生。在系統中,數據代理節點接收到由主系統中心Com+服務轉發的數據庫操作指令后,將會觸發系統操作指令,將主系統中的數據庫增量信息同步到備份系統的數據庫中,實現備份、回灌等業務流程中的數據同步功能。同時,數據代理模塊會分析主系統的主網絡數據庫中數據操作的相關數據表格。如果數據操作涉及與素材數據相關的關鍵表格,系統將會觸發相關的操作,實現原始素材文件的目標遷移和管理等操作,以實現在應急制作備份業務中的素材和元數據同步業務。
備份系統具備三大模塊功能,分別為數據同步模塊、編輯引擎后臺服務模塊以及元數據存儲模塊(數據庫)。
數據同步模塊能夠實現非編主系統和備份系統之間的數據同步,確保備份系統中的數據與主系統中的數據保持一致。主系統故障恢復后,數據同步模塊還能將備份系統生產的數據回灌到主系統中,確保數據的完整性和準確性。
編輯引擎后臺服務模塊提供系統所需的后臺服務,包括編輯引擎模塊、網絡管理模塊、基礎平臺模塊、文稿模塊、檢索模塊以及資源管理模塊等等[5]。這些模塊在系統中發揮著重要的作用。例如,編輯引擎模塊在非編主系統異常時,能夠提供應急制作能力,確保高優先級的新聞制作業務不受影響;網絡管理模塊負責對系統進行網絡管理和監控,基礎平臺模塊提供了基礎的數據處理和存儲能力,文稿模塊負責對文稿進行管理和編輯,檢索模塊提供了系統中內容的快速檢索功能;資源管理模塊則負責對系統中的資源進行管理和調度,以保證系統能夠高效地運行和提供服務。
數據存儲模塊提供可靠的數據存儲解決方案,是為系統中各個模塊提供數據讀寫服務的數據庫。其基于MongoDB分布式文件存儲數據庫,具備支持數據分片、數據備份等特性。同時,該模塊還能夠根據系統實際業務需求進行擴展,以滿足數據存儲容量和性能的不斷提升。
麗水臺在2021年5月完成了主、備系統的招標采購。經過6個多月時間的機房改造和設備安裝調試,系統于2021年12月上線試運行。試運行過程遇到了一些實際問題,技術人員予以妥善解決,具體如下。
試運行期間,備份系統出現非編主系統創建的數據無法及時同步到備份系統,主系統已經過期的證書在備份系統中仍然有效,備份系統的日志時間錯誤等問題。經排查,技術人員發現是主系統和備份系統時間不同步所導致。技術人員為系統配置了網絡時鐘協議(Network Time Protocol,NTP)工具,解決了時間同步問題。
備份系統投入使用一段時間后,出現系統響應緩慢,應用程序無故崩潰或停止工作等問題。經排查,技術人員發現是開源容器工具的一個已知Bug導致系統1節點服務器磁盤空間不足。技術人員及時對容器工具進行了更新,修復了已知Bug,并設置了系統磁盤配額,限制了容器使用的磁盤空間,從而有效地避免了容器占用過多磁盤空間,有效解決了問題。
在實戰演練過程中,非編主系統導出的節目工程或者素材還原至主系統正常,引入備份系統,則出現Media offline(素材丟失)的情況。經測試排查,發現是備份系統與主系統存在節目或素材者字段不匹配導致。技術人員通過升級主系統cmserver服務端版本,使其與備份系統統一,優化相關數據庫字段后,問題得到解決。
2022年10月,麗水臺超融合應急制作備份系統正式上線運行。上線以來,系統穩定、運行可靠,通過技術部門的兩次實戰演練,驗證了系統的高可靠性。演練時,技術部門在非編主系統正常工作但不通知業務部門的情況下,關閉主系統Cmerver服務,造成用戶無法登陸訪問的故障現象,模擬主系統癱瘓的情景。“故障”發生后,編輯人員按照臺內應急預案的要求,啟用應急備份系統,順利完成了全臺24 h自辦節目的制作和送播,驗證了備份系統建設實現了設計目標,具備安全性、可靠性和穩定性,有較高的應用推廣意義。