張虹娟
(天津海河傳媒中心網絡信息部 天津300222)
經過十余年的建設,廣電企業信息化建設蓬勃發展,電視節目的“采、編、播、存、管、控”等關鍵業務已全面數字化、網絡化。在三網融合的大背景下,云平臺、虛擬化等IT 行業的主流技術已在部分廣電企業試水成功,得到廣泛應用。
隨著廣電信息化的不斷深入,傳統媒體系統的特點逐漸模糊,IT 化特征越來越明顯,廣電制播系統、業務網逐步進化為廣電網絡信息系統。愈加復雜化、專業化的廣電網絡信息系統對運維服務提出了更高要求,傳統被動式運維服務的不足日趨凸顯。無論是傳統的視音頻設備還是新型的網絡信息系統設備,安全播出是廣電人亙古不變的生存底線,規范有效的運維服務則是守住這條底線的有效措施。如何順應技術和市場的需求,保障廣電網絡信息系統的健康性和高可用性,提供高效專業的運維服務成為廣電技術人員面臨的一個重要問題。
天津海河傳媒中心網絡信息部依據《電視臺信息系統運行維護服務通用要求》、ITSS 等國家和行業標準,結合自身特點和存在問題進行研究分析,為建設標準化、體系化、主動化的高質量網絡信息系統運維服務體系,從人員、流程、技術、資源4 個方面進行了改進。
ITSS 是我國信息技術服務行業最佳實踐的總結和提升,借鑒了質量管理原理和過程改進方法的精髓,規定了IT 服務的組成要素和生命周期,并對其進行標準化,全面規范了IT 服務產品及其組成要素,用于指導實施標準化的IT 服務。如圖1 所示,ITSS 能力模型由人員(正確選人)、流程(規范做事)、技術(高效做事)和資源(保障做事)組成。IT 服務生命周期由規劃設計、部署實施、服務運營、持續改進和監督管理5 個階段組成。

圖1 ITSS運維能力模型示意圖Fig.1 Schematic diagram of ITSS operational capability model
2018 年發布的《電視臺信息系統運行維護通用要求》GY/T 317—2018,是由廣電總局參考《廣播電視安全播出管理規定》、ITSS 標準、ITIL、ITSM等國內、國際IT 界成熟的一系列標準并針對國內廣電行業特色制定的、適用于電視臺信息系統運行維護服務能力建設、管理和評估的通用要求。如圖2 所示,該標準提出了廣電信息系統運行維護能力體系框架,對運維對象、組織環境及管理職責進行了闡述,是適用于廣電信息系統運行維護服務能力的建設、管理和評估的通用要求,是國內外成熟IT 管理機制和廣電行業特點的完美結合。

圖2 電視臺信息系統運維服務能力體系框架Fig.2 Framework of operation and maintenance service capability system for TV Station information system
天津數字電視大廈投入使用后,網絡信息部與廠商工程師合作,完成了媒資網、數字播出系統、主干網、各頻道非編制作網等諸多項目的搭建,第三方運維團隊進駐數字電視大廈,運維服務實現全覆蓋。在此階段,網絡管理部技術人員負責項目搭建、核心存儲、服務器維護等工作,第三方運維團隊提供保姆式的桌面服務,雙方合作為全臺網絡信息系統提供有效的運維服務,運維標準、操作守則、人員培訓等規范化標準初步形成。
隨著云技術在天津海河傳媒中心廣泛應用帶來的技術變革,運維服務中長期積累的一些問題逐漸顯現,例如:第三方運維人員技術水平參差不齊,人員流動性大,難以提供穩定、標準、規范的運維服務;長期分工造成臺方技術人員和第三方運維人員互有短板,人才浪費;工作流程標準化、體系化程度不夠,多憑經驗做事,容易出現人為失誤;未形成系統、規范的知識培訓平臺,技術成果固化度低。
為了解決上述問題,提供更好的運維服務,網絡信息部的技術人員認真研讀《廣播電視安全播出管理規定》、ITSS 標準、ITIL、ITSM 等國內、國際IT界的一系列標準,結合自身業務特點,開啟了建設高質量、標準化、體系化、主動化運維服務的實踐之路。
3.1.1 調整人員、整合崗位結構
吸納運維團隊中的精英人員,根據天津海河傳媒中心廣電信息系統用戶特點和需求,重新梳理并調整劃分崗位。
新聞崗:維護新聞云的軟硬件設備,為新聞中心4 個樓層提供保姆式運維服務,保障全天各檔直播新聞的安全制作和播出。
媒資中心崗:維護主干、媒資、綜合云的軟硬件設備,對主干、媒資、綜合云、新聞云的核心服務進行監控。同時作為信息中心,負責接聽全臺報修電話,對問題進行預處理和任務分發,起到了信息接收、管理、分發的樞紐作用。
子網崗:負責對主樓Avid 網、后期Avid 網、衛視縮編網、科教少兒網、廣告網、綜合云后期大制作的軟硬件設備進行日常維護,處理突發問題。
帶班崗:負責解決一線值班員無法解決或無法單獨解決的問題。
通過調整人員、整合崗位結構,改進了人員冗余、人才浪費等問題,上述崗位按個人意愿及部門考核競聘上崗,做到了正確用人。
3.1.2 建立系統、完善的業務培訓和考核機制
網絡信息部經常組織技術培訓、交流活動,但未形成系統的長效機制。為了彌補長期分工形式帶來的技術短板,提升每名員工的技術能力,在保持原有學習模式的同時,部門每月安排一名技術骨干給大家進行業務培訓,定時進行業務考核。
通過建立系統、完善的業務培訓和考核機制,技術人員的業務水平得到了普遍的提升,彌補了個人的技術短板。
3.2.1 堅持規范的變更管理
網絡信息部歷來重視過程的管理,在配置、變更、發布、信息安全等管理方面有著嚴格的操作票制度。大到設備的調試安裝,小到補丁程序,都要遵循如圖3 所示的變更操作流程。通過規范化的變更控制和管理,將變更給生產環境造成的影響和風險降低到最低,在安全周密的回滾方案的基礎上使得每一次成功或者不成功的變更操作對用戶造成的影響降低到最小甚至忽略不計,從而保證了天津海河傳媒中心廣電信息系統整體環境的高穩定性。

圖3 變更操作流程Fig.3 Change of operation flow
3.2.2 建立標準化、科學化、主動化運維服務過程管理體系
由第三方運維團隊提供的保姆式服務,對事件報修、問題總結等服務過程的管理并不到位,多憑技術人員的經驗操作,很容易造成事前考慮不全面、事中操作不規范、事后匯報不及時、問題解決不到位、技術經驗固化不及時等問題。
為了讓每一位技術人員能夠規范做事,變被動運維為主動運維,把可能出現的問題消滅在萌芽,參考先進經驗并結合自身特點,進一步規范運維服務的全流程,如圖4 所示。人員、設備得到了合理的分配和使用,以操作標準、各類指南為依據,在配置管理、備件庫、知識庫的基礎上,形成了貫穿事件全生命周期、監督檢查全覆蓋、技術成果及時固化的標準化、科學化、主動化運維服務過程管理體系。

圖4 規范化、標準化、科學化、主動化運維服務過程管理體系Fig.4 Normalized,standardized,scientific,active operation and maintenance service process management system
3.3.1 研發創新
網絡信息部一直以扎實的技術功底和豐富的運維經驗為基礎,秉承著大膽創新的技術理念。在創建標準化、體系化、主動化運維服務體系建設的過程中收獲諸多技術創新成果。以主樓Avid 網為例,零成本實現主樓Avid 網多樓層演播室制播網絡化;自主研發以通用硬盤替代Avid 專用播出服務器硬盤;自主修復Avid Unity ISIS 盤陣ISB 硬盤;自主研發成功實現以通用機型替代Avid 公司指定專用機型,迅速解決Interplay 非線性工作流引擎單點故障,首次實現由臺方技術人員獨立完成Avid 網核心服務器的搭建工作。
上述技術創新成果在迅速解決問題為臺里節省大量經費的同時,更標志著網絡信息部運維工作的內容已由日常網絡運維拓展到更高一級的自主研發、獨立系統搭建,是網絡信息部在創建標準化、體系化、主動化運維服務體系建設過程中的華麗轉型。
3.3.2 維護、監督與改進
按各網絡設備的不同屬性和用戶使用特點,制定規范完備的系統維檢計劃、應急預案,定時開展應急演練,讓每名技術人員都能根據應急預案進行實操練習,實行專人負責的定期和不定期的設備檢查。
完善例會制度,從實際出發制定工作計劃,考核執行情況,檢查執行結果,取長補短探討業務。堅持進行PDCA 中計劃、執行、檢查、改進的持續改進機制,針對工作的各個層面進行查漏補缺,對運維服務的生命周期進行持續有效的維護、監督與改進。
3.4.1 主干中心平臺
天津海河傳媒中心廣電信息系統以主干中心平臺來實現服務臺功能,媒資中心崗的值班人員借助各類監控工具,對主干、媒資、綜合云、新聞云等重點網絡的核心服務進行監控。同時作為信息中心,負責接聽全臺各頻道報修電話,借助知識庫對問題進行分析和預處理,部分問題能夠通過電話遠程指導的方式得以解決,預處理無法解決的問題也能及時安排相應崗位的人員解決,報修信息能夠在第一時間得到接收、處理和分發。
3.4.2 運維監控工具
新聞云、綜合云陸續上線投入使用后,更多的監控工具被引入主干中心平臺,如圖5、6 所示,對主干平臺、綜合云、新聞云等重點網絡的核心服務進行監控,節省了大量巡檢時間。服務的運行狀態時時展現在值班人員眼前,可以在第一時間發現異常跡象并進行處理,變被動運維為主動運維,使得故障對用戶的影響降低到最小。

圖5 主干平臺業務監控界面Fig.5 Backbone platform business monitoring interface

圖6 綜合云媒資監控界面Fig.6 Integrated cloud media monitoring interface
3.4.3 綠色備件庫
完善的備件庫是硬件設備故障快速恢復、業務實現連續性的物質基礎和保障。網絡信息部多年來注重備件庫的建設,指定專人對備件庫進行管理,及時采購不足的備品備件。在集中采購的同時,備件庫的另一大來源就是下線設備的回收再利用,也是綠色備件庫的由來。下線的設備小到內存大到服務器都會按照統一標準進行檢查,質量合格的登記進入備件庫,在適當的時候再次上線使用。通過綠色的回收再利用,一方面縮短了備件的采購周期,另一方面為臺里節省了大量的備件采購經費。
3.4.4 動態知識庫
知識庫是運維服務中的重要工具,更是運維服務能力建設的基礎。在人員崗位結構調整后,網絡信息部對現有相關文檔進行了整合和補充,技術骨干對自己熟悉的網絡編寫操作手冊、常見問題的處理方法。指定專人在上述文檔的基礎上按統一格式編寫知識庫,以子網知識庫為例,包含了子網所轄各系統的系統詳細資料、值班常規內容、系統維檢記錄、系統常見問題處理方法、系統大事記、應急預案、相關培訓考核等資料,覆蓋了日常工作的方方面面,從日常操作到突發事件的處理均有章可循。
知識庫并不是一成不變的,專人按月對工作日志進行提煉,將日志中記錄的問題解決方法、系統大事記、設備維檢等事件進行規范化的總結積累,相關人員審核無誤后補充到知識庫中。動態知識庫的建立實現了知識積累、技術成果及時固化、經驗的傳承與共享等目的,為提升整個運維體系的效率提供了保證,是運維人員尤其是一線值班員提供標準化服務、迅速解決問題的堅實基礎。
2020 年初全國爆發新冠肺炎疫情,網絡信息部將近三分之一的成員因春節返鄉需要自行居家隔離不能到臺值班。為了及時向全市人民播報我市疫情防控進展,新聞中心每天新增數檔直播節目,十幾個小時滾動直播疫情新聞,其他頻道的正常維護也不能中斷,這個時候更加需要網絡信息部為全臺提供高效、安全的運維服務。
為了解決人員不足、工作量激增的問題,領導研究決定將子網崗和媒資中心崗合并,由子網組全權負責,擠出的人員全線支援新聞崗。子網組同事憑借之前在培訓中學到的主干平臺、綜合云的相關知識,參考知識庫中相關文檔,在最短時間內熟悉并掌握了中心崗全部業務,保障子網各網絡、主干平臺及綜合云的正常運行,安全無事故。
這次新冠肺炎疫情期間網絡信息部成功應對突發減員、業務量激增等危機,證明標準化操作守則的制定、全面的業務培訓、完備的知識庫建設是十分有效的,全體人員的職業技能和專業化程度得到了大幅提升,是天津海河傳媒中心廣電信息系統高質量標準化、體系化、主動化運維服務建設的寶貴成果。
經過一年多的探索與實踐,天津海河傳媒中心廣電信息系統標準化、體系化、主動化運維服務體系建設的探索和實踐初獲成果。展望未來,網絡信息部將進一步深挖問題,繼續完善運維體系,彌補各項業務中的不足,引入更多IT 界、管理界的成功經驗和先進工具,構建更加完善的高質量廣電網絡信息系統運維服務體系。