王萬福
(中央廣播電視總臺技術局,北京 100866)
目前,中央廣播電視總臺的業務生產系統離不開信息系統設備的應用。中央廣播電視總臺的業務生產環節有制作系統、播出系統、媒資系統等,在很多生產環節中,信息系統是主要的支撐系統。信息系統的特點是自動化程度高、IP化、數據化,幾乎所有的硬件設備、業務流程都可以通過相應的技術手段進行實時監測。為了提高工作效率,運維工作一般會使用監測系統進行集中監測,監測系統聯動運維系統,實現運維工作的快速反應。
一個基本的業務監測系統的分層圖如圖1所示,主要包括硬件層、系統層以及業務層。

圖1 系統分層圖
(1)最下層是硬件層的狀態監測,包括對服務器、交換機、存儲等硬件設備的狀態監測。這些硬件狀態數據由各個硬件廠商通過標準接口直接提供,一般包括電源健康狀態、CPU使用率、內存占有率、存儲容量、數據轉發率等相應的數據。
(2)中間層是系統層的監測,包括對操作系統、數據庫及中間件的監測。好的監測系統可以直接對系統進程、數據庫的表進行實時監測,以便快速發現異常、快速處理。
(3)最上層是對業務層的監測。與下面兩層的監測不同,下面兩層(硬件層、系統層)的監測是對統一設備、統一系統軟件的監測,監測信息數據標準基本一致,實施難度不大[1]。但對最上層的業務系統監測而言,由于各個行業、用戶的業務系統不一樣,存在很多的個性化使用場景,因此對于業務監測的需求不一樣。即使是同一個行業,因采用的業務系統軟件的廠商不同,監測的實施情況也會不太一致。在監測系統的實施中,一般業務層的監測是重點、難點,也是呈現亮點的地方,只有做到對業務系統的準確監測,監測系統的整體功效才能得到很好的發揮,才能為業務的維護起到實質性的推動作用。如果監測系統針對業務層的系統監測沒有做好、或者沒有做,那整體的監測系統就不夠完善。
實施業務層監測系統時,首先要明確需求,即明確用戶關心什么、想要看到什么。例如,在播出系統中,用戶想掌握發播后的數據到位情況,尤其是在自動(機器處理)環節,在預計的時間內工作是否完成,各個客戶端與服務端的數據同步是否正常,用戶人員是否按規定時間編單及發播了節目等信息;在制作系統中,用戶關注制作的節目是否按預定時間發到播出系統,對于各用戶下處于審核的節目信息,要能夠快速查詢到制作流程中的節目信息等;在媒資系統中,用戶需要監測到在編目、轉碼、發布各個環節的節目流程信息。同時,因同一節目會在制作、播出、媒資等系統中流動,還要做到跨系統的流程追蹤和對接。
確定好需求后,需要設計監測業務系統信息接口,通過統一的接口標準,由各個業務系統在各自的業務節點向監測系統發送監測信息。監測系統收集到各個業務系統的狀態數據后,完成系統跨流程對接、閾值設定、異常報警以及事件日志輸出 等工作[2]。
以制作系統為例,制播流程如圖2所示。

圖2 制播流程示意圖
用戶完成制作后,節目在發送時,制作系統應向監測系統發送節目制作完成信息,其中應包括節目代碼、節目名稱、用戶名及節點信息等相關信息;節目在一審完成審核后,制作系統應向監測系統發送節目一審完成信息;當節目在二審完成審核,制作系統應向監測系統發送節目二審完成信息;制作后的節目進入播出庫后,播出系統應向監測系統發送該節目入庫的信息;節目播出完畢,播出系統應向監測系統發送該節目已播出的信息。同時,監測系統需在各個節點設置相應的閾值,如果在閾值范圍內未完成規定動作(工作),應觸發異態消息,及時通知運維人員,進行快速處理[3]。
按照這樣的監測流程,業務層的相關業務流轉信息就能被及時抓取,能夠做到業務節點和相應的硬件層設備與系統層軟件進行匹配,在業務節點出問題時可以及時匹配到相關的硬件和系統,以便排查故障,提高運維響應效率。如果業務層的軟件冗余/備份做的足夠完善,甚至可能在用戶無感知的情況下完成業務層故障處理。
有了監測系統后,需要使監測系統能夠觸發異態信息,關聯后期運維工作。在監測系統出現異常報警信息后,一般都需要運維人員干預處理,處理的異常問題、處理的步驟記錄、處理時長等,均是運維管理人員關心的要素。因此監測系統還應和運維系統關聯[4]。監測信息接口如圖3所示。

圖3 監測信息接口示意圖
運維系統在日常工作時,可接收由監測系統傳送的異態信息,自動生成工單,如果條件允許,可通過App將生成的異態報警信息推送到運維移動端,做到報警信息及時提醒。運維人員完成異態處理后,可由監測信息發出恢復信息(也可人工操作),消除異態報警信息[4]。在日常巡檢工作中,可由監測系統采集各個系統的登錄記錄,生成巡檢記錄,發送到運維系統,作為日常巡檢工作崗位審計的一項內容依據。
運維系統的主要用戶角色是運維人員和運維管理人員。運維系統可使運維人員和運維管理人員對系統的認識深度、狀態情況的了解處于同一層面,可以消除對系統運行情況了解不對稱的情況,因此不同用戶對系統運維的關鍵點、改進點、故障點的認識可以取得大致統一。除此之外,運維系統還能讓運維人員之間、運維人員和運維管理人員之間的工作溝通、交流更加便利、透明。這使得系統管理人員在系統運維工作方面,對于人員的管理、工作的分配、更新計劃的制定等,更貼近于系統待解決的問題和遠期面臨的問題,也更易得到一線運維人員的認可和支持。一線運維人員工作的自主執行力將更強。
運維系統可以形成一個運維工作的平臺,主要功能模塊如表1所示。

表1 運維工作平臺功能模塊
(1)任務管理。對系統的日常巡檢、月度巡檢、BUG修改等任務的管理,包括任務統計、任務評分以及任務完成情況追蹤等記錄。
(2)故障管理。對系統內故障進行記錄(有手工填寫、系統生成等方式),并以故障單為載體,可將故障處理單在不同崗位間流轉,填報處理記錄、追蹤處理情況,直至故障處理完畢,關閉故障單[5]。
(3)升級流程。進行軟硬件升級時,需要填寫操作申請單、操作單,對申請單、操作單進行各個相關崗位的審核。審核通過后升級進入執行階段,執行完成后由執行人填寫操作結果——升級是否成功以及升級中出現的需要特殊說明的情況。
(4)文件送達。對上級下發的相關系統設置的文件掃描后,進入運維系統,可由相關管理人員填寫辦理意見并送達到執行人,同時也可傳閱給相關人員。
(5)資產信息。涉及資產變更的操作由資產管理員初審,完善填報資產變更信息,在升級完成后,資產管理員在監測系統中修改資產信息。實現在日常運維中,資產發生變化時,資產信息能得到及時更新[6]。
(6)排班管理。針對運維人員24時3班倒的工作模式,建立排班管理模板,實現排班安排、換班申請等功能。
監測、運維工作主要涉及監測系統和運維系統兩個功能平臺。監測系統是對信息系統的網絡設備、主機設備等硬件狀態信息及時監測,對操作系統、數據庫軟件、中間件等系統軟件的狀態及時監測以及對業務層軟件的流程狀態、工作狀態及時監測。運維系統是對系統運維操作的集中管理平臺,通過運維平臺將監測系統和運維人員緊密貼合在一起,使運維人員對各個業務系統的運行情況了解得更準確,能夠更好地維護各個業務系統,故障處理更加及時。