(廣西廣播電視技術中心)
廣西廣播電視技術中心(下簡稱“技術中心”)是管理廣西全區廣播電視無線發射臺站及其信號無線發射業務的單位。長期以來,技術中心的數據大都分別掌握在各業務部門手中,造成了數據的分散化、碎片化、不統一、不聚合、不準確、不及時等結果,形成多個信息孤島。從單個臺站的角度來看,數據包括臺站的基礎信息、設備信息、播出信息、監控信息、監測信息等等,僅設備監控告警量即可高達每月30萬條;隨著臺站數量、設備數量銳增,相應的數據量也將急劇上升。從整個單位的全局角度來看,數據還包括人員、機構、文件、網絡、信息系統等等。目前技術中心管理的發射臺站八百多個且數量仍不斷增加,面臨需要管理和使用的數據量極大。
若無維護數據和使用數據的工作機制,就難以讓數據為決策分析提供數據支持,難以為數據挖掘、關聯預測提供大數據基礎。數據也是一種資源,讓海量數據沉睡,不統一、不維護、不利用,將形成浪費。因此,有必要建設一個數據中心,使其成為各類信息的集散地,使數據信息的管理更加集中,取用更加便捷。
無線發射臺站數據中心是以集中管理各類數據為目的,以各個獨立的信息系統為數據源基礎,以大數據技術為數據管理手段,以統一認證體系為協同開放平臺的信息管理系統。本數據中心可打通各個信息孤島,使各個信息系統互聯互通,減少數據維護量,增強數據實時性和準確性,增加數據使用量。本數據中心不改變原有的各個系統,各系統仍然分別獨立,但是又可互通消息,保持數據實時性和一致性。

圖1 數據中心整體設計圖
圖1是本數據中心的整體設計框架。數據中心是各個信息系統的樞紐,是各系統數據的集中地,是數據挖掘的數據源泉,是各應用系統的入口,是擴展應用的基礎。因此,項目首先需要搭建大數據系統,實現對數據源的管理,對數據的采集,對數據的存儲以及后期對數據的處理、分析、挖掘和展示等;其次需要建立協同開放平臺,實現本數據中心的統一入口,身份認證,數據交互,行為審計等;再次,本數據中心還應建設一些上層應用,包括報表生成與呈現、消息推送、統一代辦、即時通訊等功能。

圖2 數據中心系統框架圖
圖2為本數據中心的系統框架圖,將數據中心分為大數據系統、協同開放平臺以及上層應用三大部分。
1.大數據系統
雖然對于“大數據”至今沒有統一的定義,但是大數據具有5個公認特征,即5個V[1]:體量大(volume)、速度快(velocity)、模態多(variety)、難辨識(veracity)和價值大密度低(value)。由引言所述,技術中心及其所涉業務的數據是海量、實時(如設備監控數據)、多樣(數據類型包括結構化數據和文本、音視頻,甚至碼流等)、不確定(如設備告警信息)、價值大密度低(如監控視頻等),符合大數據的特點。大數據的主要難點并不在于數據量大,而在于數據類型多樣、要求及時響應和數據的不確定性[2]。
決策層主要關注影響停播率的主要因素、關注臺站選址的合理性、關注某項業務的發展趨勢、關注可能存在的安全隱患等等。建立大數據系統,從大量數據(包括文本、音視頻等)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支持的模型,最終提供預測性決策支持[3],具有重大價值和意義。在本文中,大數據系統是指可完成大數據采集、存儲、處理和展示的軟件集成系統;大數據系統在本數據中心框架中起到采集數據、存儲數據和提供大數據分析與挖掘的基礎作用。

圖3 大數據系統總體架構圖
如圖3[4]可見,大數據系統的數據源是多樣的,包括Web日志、文件、關系型數據庫和其他。從技術中心的數據來源看,數據源分為三類:公共數據,對應各應用系統公開頁面的數據;應用系統的埋點數據,對應臺站遠程監控系統采集回來的設備實時數據;結構化數據,對應已建成應用系統的結構化數據庫里的數據。針對這三類數據,分別采用三種采集方式。使用爬蟲程序采集公共數據,使用Kafka等工具采集埋點數據,使用Sqoop或數據集采集結構化數據。因為遠程監控系統已經完成設備監控實時數據的采集和處理,在本文的數據中心將其視為公共數據和結構化數據來處理,不再重復采集。數據采集回來存放在Hive數據倉庫中。
數據經過清洗、建模、發布等復雜的處理后,形成滿足業務分析及決策的模型數據供業務分析及應用系統調用。這部分工作需要使用專業工具來完成,如Hadoop的MapReduce、Hive、Python、Spark等。數據的清洗過程需要ETL(抽取、轉換、加載)工具[5]、文本結構化工具[6]等。
數據層的工作完成后,數據挖掘的基礎基本成型。在此基礎上才能進行數據挖掘和分析展示。數據挖掘雖然可以依靠自動化的挖掘工具,但是挖掘的過程也是“人治”的,需要依靠訓練有素的專業人員使用挖掘工具來進行數據預處理、建模、模型評價等工作。挖掘人員使用大數據系統提供的數據和挖掘工具,再使用計算機語言、報表工具等,進行數據分析和展示。
2.協同開放平臺
協同開放平臺是以統一身份認證體系為基礎,具有完備、安全的服務端認證中心,提供外部應用系統接入接口,具備數據同步和交互的能力,并能在其上建立即時通訊、消息推送、統一代辦和報表流轉等多種功能的軟件。針對已有若干獨立應用系統的現狀,應建立協同開放平臺,用于打通各個信息孤島。

圖4 協同開放平臺總體架構圖
如圖4所示,協同開放平臺以統一身份認證體系為基礎,建立起完備、安全的服務端認證中心,用于來自不同應用系統的用戶獲取統一身份,也用于不同應用系統的業務獲取接入令牌。不同的應用系統具有不同的用戶體系,若要實現單點登錄和一鍵通達,就必須解決用戶身份的問題。由協同開放平臺建立起統一的用戶體系,與各個應用系統的用戶體系構建關聯關系,使用一套用戶,使異構的用戶、機構等信息統一和同步,即可通達各個獨立的外部應用系統。使用統一的用戶體系,也能嚴格控制數據的查看和使用,審計用戶行為,保護數據隱私。
協同開放平臺的認證中心同時也為接入平臺的各類應用系統業務提供接入接口和認證令牌。首先協同開放平臺為獨立的應用系統提供開放接口,外部應用系統使用這些接口來接入協同開放平臺,使應用系統的用戶、數據、業務等資源有效聚合;當應用系統需要與平臺或其他接入系統通訊時,先由應用系統業務向認證中心提出申請,再由認證中心向其頒發通行令牌,系統業務執令牌發生消息交互。因此,協同開放平臺是使本數據中心成為各應用系統的統一入口、成為數據集中管理的中心和數據集散地的前提條件和必要條件。
在此基礎上,協同開放平臺擴展建立上層應用,使得本數據中心的功能更多樣、實用和便捷。如建立統一代辦,使得各應用系統的代辦工作都在平臺上顯示,并可直接跳轉至代辦頁面,通過消息推送發至個人短信、微信等;建立即時通訊,使得用戶間日常交流更頻繁和便捷;建立報表系統,使得日常的發表、填報、數據收集整理更規范,使數據分析更智能,報表呈現更準確更精彩。
本文針對在無線發射臺站建設及事業發展過程中出現的數據管理和使用問題,提出了建設無線發射臺站數據中心的設計與實現方案,解決數據在完整性、精確度、一致性、可用性等方面出現的不足。從源頭解決數據管理問題,解決數據的錄入、采集、融合與使用過程中多個環節的監督與控制問題[7][8],讓沉睡的數據助力無線發射事業的發展。