陳珺
摘 要:為了貫徹落實中央關于媒體融合發展的戰略要求,需要積極應對互聯網發展帶來的傳播格局調整和用戶需求變化,努力構建與媒體發展趨勢相適應、與建設新型一流媒體集團相適應的媒體大數據服務體系。通過匯聚內外媒體數據資源,緊密圍繞媒體融合發展業務需求,構建大數據基礎平臺、大數據資源管理平臺、大數據分析平臺和大數據服務能力開放平臺四大層級,逐步形成“數據整合、能力共享、應用創新”的媒體大數據工作體系。
關鍵詞:媒體大數據;大數據平臺;數據資源管理;數據分析;數據服務
中圖分類號:G220.7 文獻標識碼:A
文章編號:1671-0134(2018)09-064-03 DOI:10.19483/j.cnki.11-4653/n.2018.09.025
引言
根據中央關于推動傳統媒體和新興媒體融合發展的重要指示與要求,要強化互聯網思維,堅持傳統媒體和新興媒體優勢互補、一體發展,堅持以先進技術為支撐,內容建設為根本,推動傳統媒體和新興媒體在內容、渠道、平臺、經營、管理等方面的深度融合。
為了貫徹落實中央關于媒體融合發展的戰略要求,需要積極應對互聯網發展帶來的傳播格局調整和用戶需求變化,努力構建與媒體發展趨勢相適應、與建設新型一流媒體集團相適應的媒體大數據服務體系。
1.需求分析
隨著傳統媒體和新興媒體融合發展的進一步深化,媒體企業在大數據資源整合、大數據資產管理、大數據分析挖掘能力建設以及數據服務開放共享等方面面臨一系列問題,從而對技術系統的規劃建設提出了更高的要求。
1.1實現統一的大數據資源采集引進匯聚
媒體機構通過各種渠道采集和引進了大量外部數據,包括國內外互聯網網站、數字報刊雜志、“兩微一端”、社交媒體等。同時,媒體機構內部也產生各類稿件數據、產品數據、運營數據、用戶行為數據等。如此眾多的外部和內部數據分散存儲在不同的部門和技術系統里,數據資源之間存在大量重復和冗余,數據關聯關系沒有打通,數據資源條塊化分隔情況比較嚴重,數據資源共享和再利用能力較低。因此,需要整合機構現有大數據資源采集能力和引進能力,按需匯聚各類數據資源,實現數據資源的匯聚融合、開放共享和互聯互通。
1.2實現媒體大數據資產全生命周期管理
一個媒體大數據服務體系離不開高效的數據存儲與計算基礎平臺,由于數據種類多、數據量大、計算處理效率不同,因此,對大數據存儲與計算處理能力提出了更高的要求。需要基于互聯網主流大數據平臺技術架構,分層構建高效分布式媒體大數據存儲與計算平臺,能夠實現PB量級的大數據存儲和處理能力,并根據業務需要實現從實時到離線的不同數據處理效率。同時,需要實現對平臺上所有媒體大數據資產的全生命周期管理,實現數據存儲管理、標準管理、流程管理、質量管理和安全管理。
1.3建設統一的大數據分析平臺
現在,策劃、采集、編寫、發布、反饋等各類媒體業務環節越來越離不開大數據分析的支持,因此有必要進一步加強自然語言處理、數據挖掘、機器學習、數據可視化等智能信息處理技術創新,提升知識發現、大數據分析挖掘能力,助力提升策采編發供饋等各項媒體業務創新能力,提供滿足業務需要的各類公共性媒體大數據分析服務。
1.4提供開發共享的媒體大數據能力開放平臺
通過制訂統一的平臺標準、數據標準、服務標準和管理標準,將媒體大數據平臺形成的各項服務進行封裝,實現這些服務的模塊化和標準化,形成各類公共模型、工具和組件,提供面向各類媒體創新業務的公共性、基礎性和開放共享的服務能力支撐。
2.建設目標
基于互聯網思維,匯聚內外媒體數據資源,圍繞媒體融合發展業務需求,構建統一的媒體大數據服務平臺,逐步形成“數據整合、能力共享、應用創新”的媒體大數據工作體系。
匯聚內外數據資源,形成媒體大數據服務體系;面向互聯網思維,構建媒體大數據能力開放平臺。
3.總體架構設計
3.1總體架構
媒體大數據服務體系從總體架構上可劃分為大數據基礎平臺、大數據資源管理平臺、大數據分析平臺和大數據服務能力開放平臺四個層級。
3.2大數據基礎平臺
大數據基礎平臺是大數據存儲管理以及分析計算運行的基礎環境,包含大數據的基礎運行環境搭建、資源任務調度管理、實時/離線計算支撐、結構化和非結構化數據存儲、數據檢索、系統管理監控、數據訪問的標準化SQL支持等功能。
可按需提供關系型數據庫、列式數據庫、分布式文件系統、分析型數據庫、全文檢索數據庫、內存數據庫等不同類型的數據存儲資源。
可根據業務的使用場景以及數據自身的特點,提供合適的計算框架進行實時或離線的計算,完成分析功能。針對實時性要求不是很高的數據可使用MapReduce或Hive等進行非實時批處理,對響應時間要求比較高的業務場景可使用Spark做實時內存處理,對互聯網流式數據則使用Storm或者Spark Streaming做實時流處理。
可針對不同的分析任務按需分配資源,進行資源管理調度,各分析任務之間相互不產生影響。
可針對分析算法或分析引擎,提供標準化的SQL支持。可提供大數據基礎平臺運行情況的管理和監控功能,便于系統管理員運維管理。
3.3數據存儲規劃
考慮到數據類型、數據規模和數據增長量,采用分布式、高可用、可擴展的存儲架構,實現對多來源數據、結構化數據和非結構化數據的統一存儲規劃設計,采用分區分域、分層分級、分庫分表的設計理念,根據不同的數據類型合理選擇數據存儲組件,采用MySQL、MongoDB、HBase、Hive、HDFS、ES、Codis等多種數據庫組件分別設計存儲策略。
數據存儲規劃分為以下幾個數據區:
3.3.1實時匯集區
針對數據源層各種異構數據,我們需要采取多種數據接入方式,即可以使用傳統的FTP、Http、RPC等接入方式,也能夠支持sqoop,flume等這種以大數據為主的數據接入方式。針對互聯網等大數據量數據,可以采用 Kafka集群,充分發揮它的高吞吐量優勢,主要用來臨時保存互聯網數據、行為數據、交易數據等實時數據。
3.3.2大數據存儲區
對接入的數據需要根據數據的特點和業務場景進行數據的存儲,即支持傳統型數據庫也支持非傳統型數據庫。互聯網數據可存儲到FastDFS、HDFS這種分布式文件系統中,具備存儲彈性,方便日后擴充,滿足海量存儲需求。對數據進行處理加工和分析后形成的結果數據包括內容數據和結構化數據,可以大對象存儲在列式數據庫HBASE中,并可通過HIVE對外提供HSQL標準服務,方便進一步進行非實時數據統計分析和數據挖掘使用。
3.3.3數據業務區
核心業務數據、結構化數據、元數據的存儲可采用MySQL關系型數據庫集群進行保存,同時可利用Mongodb數據庫的數組索引特性以及字段可擴展特性,存儲數據的全部附加屬性,做適當冗余,為數據服務提供高性能的讀寫能力。
3.3.4數據檢索區
利用像ElasticSearch這類全文檢索數據庫存儲全部需檢索數據,建立全文索引,實現大數據量的快速檢索。3.3.5數據熱區
為了實現快速訪問建立數據熱區,可利用Codis這類內存數據庫存儲需快速響應的熱數據,提高系統整體數據訪問效率。
3.4大數據資源管理平臺
大數據資源管理平臺負責大數據資源匯聚、加工處理和數據全生命周期管理,是大數據服務體系建設中的核心環節之一。主要完成采集引進的多類異構數據資源的匯聚和出入庫管理,數據的清洗加工處理、數據存儲管理、數據標準管理、數據流程管理、數據質量管理和數據安全管理等功能。
3.4.1數據資源匯聚和出入庫管理
負責將機構內外不同數據來源的數據資源統一接入到數據平臺中,支持文字、圖片、音視頻、文件、結構化數據、二進制文件等不同數據類型。制定相應的數據接口規范,采用統一的應用架構,以插件式開發和插件化使用的模式構建不同的數據流程任務,提供FTP、消息隊列、API等不同接口方式,滿足不同的業務流程和異構數據的出入庫需求。數據在入庫存儲過程中需要先進行安全性檢查與完整性校驗,并進行初步數據清洗預處理,包括有效性檢查和排重等,保證數據的可靠性,接入數據必須按照平臺要求的數據格式規范統一進行轉換后入庫。并建立統一的數據匯聚出入庫監控管理界面,能夠支持任務各要素的靈活配置和定義,支持進行數據接入任務的監控和日常運維操作。
3.4.2數據加工處理
負責對接入平臺的各類型數據進行進一步的加工處理。對各類數據資源進行清洗、過濾、去重和轉換等預處理工作;基于平臺建立的一套數據標準,抽取元數據、關鍵詞、實體信息等形成結構化描述信息;使用分詞組件對文本數據進行快速分詞;使用分類技術對數據進行自動分類;對數據進行標引、加工、修改、糾錯、刪除等加工維護管理;建立搜索詞典到文檔數據的倒排索引表,根據詞語在文檔中的權重,為搜索詞語生成相關索引文檔表,結合分布式列存儲與分層查詢樹技術,建立針對海量數據的全文檢索和快速查詢,支持更進一步的數據分析應用服務需求。
3.4.3數據資源管理
負責對數據平臺內所有數據資產進行全生命周期存儲、管理和監控。對機構內數據、互聯網數據等實現集中統一存儲管理,對主數據、元數據和數據資源目錄進行統一維護和管理,構建數據資源全景視圖。實現數據標準管理、數據流程管理、數據質量管理和數據安全管理。
(1)數據質量和數據流程管理。為確保數據的完整性、規范性、一致性、準確性,提供統一數據處理流程和中間狀態的調度、管理和監控,可以及時發現數據處理各個環節出現的問題和質量風險,對發現的異常進行報警。在數據入庫環節,制定數據質量規則,對不符合質量規則的數據進行告警,并進行相應處理。管理員可以通過對規則的不斷修改完善,不斷提高入庫數據的質量。
(2)元數據管理。元數據管理貫穿從數據采集引進、數據處理加工、數據分析和數據服務全流程環節,對各流程環節形成的數據的元數據進行標準定義、元數據生成和元數據管理維護,通過對元數據的管理形成數據服務平臺統一的數據視圖,為整個平臺數據資源管理奠定基礎。
(3)數據標準管理。制訂融合媒體數據存管控相關標準規范,貫穿數據的采集引進、處理加工、存儲管理、公共服務整個全生命周期和全工作流程,通過對標準的制訂、維護和遵循,為平臺實現全媒體數據的匯聚融合、統一管理和共享服務提供數據標準規范的指導。
3.5大數據分析平臺
大數據分析平臺通過構建中文語義分析引擎、推薦引擎、智能檢索引擎、知識推薦引擎、圖片視頻智能分析引擎、專題分析、數據可視化工具等媒體大數據公共性基礎性智能處理模型工具組件,對平臺中的大量數據資源進行深入分析,挖掘數據關系,構建知識網絡,提升數據價值,助力策采編發供饋等各項媒體業務創新應用需求。
將這些算法模型進行模塊化、服務化封裝,針對媒體行業各類業務需求提供基礎數據分析引擎和分析工具。通過標準化各類處理、分析、挖掘算法的輸入輸出參數和中間結果,提供標準化的服務接口,可以方便地讀取、調用、管理和調優。
在系統運營過程中不斷發現偏差點并進行有針對性的優化調整,支持對算法、模型、引擎的優化、新增和替換。同時,通過合理的計算架構的設計和相應的任務調度,保證算法運行在更高效的計算架構下。
提供對數據分析工具集的有效管理,建立信息庫,統一存儲和管理相關算法的代碼、配置參數、調用接口規范、數據輸入輸出接口規范、文檔說明、元數據等。
提供工具集對外交互界面,實現工具集的可視化、標準化和流程化使用和運行監控。提供工具集的擴展接口,可以根據業務需求將新增或第三方提供的數據分析算法工具納入進來,統一調度和管理。
3.6大數據服務能力開放平臺
大數據服務能力開放平臺負責將大數據平臺的各類數據服務和分析服務進行封裝并對外提供服務能力的開放和共享。大數據平臺形成的服務能力有:數據訂閱類服務、語義分析類服務、圖片視頻智能分析類服務、智能檢索類服務、智能推薦類服務、知識類專題類服務、統計分析類服務、數據可視化等各種公共性服務能力。通過制訂服務標準和管理標準,形成標準化服務模塊和服務組件,提供標準化服務接口,為各類業務系統按需調用。同時,數據服務管理通過對服務的注冊、認證、授權、審計、監控等管理功能,實現數據服務可管可控。
以面向服務的思想為核心理念,對服務進行高度解耦,構建細粒度、扁平化、低耦合的服務資源池,統一為上層應用提供功能和數據支撐。
將多源、異構數據以及關聯數據等數據的獲取方式進行接口化封裝,實現基礎數據服務化。
對數據分析計算層的數據處理分析算法、組件進行接口化封裝,實現數據分析的服務化。
通過數據和應用封裝技術,實現對數據的訪問和操作按照一定粒度封裝為獨立的服務實體,盡可能屏蔽內部的細節,只提供標準化的交互接口,供各內部模塊或者外部系統進行調用。交互接口形式包括Open API、SDK、WEBService等,實現自有業務應用支撐和開放共享服務。
建立服務管理平臺作為服務注冊和服務治理的管控中樞。媒體大數據服務平臺向上層提供的服務通過服務管理平臺進行統一管控,服務管理平臺負責服務的注冊、認證、授權、審計、監控等管理功能。
參考文獻
[1]周耀林,趙躍,Zhou Jiani.大數據資源規劃研究框架的構建[J].圖書情報知識,2017(4):59-70.
[2]梅劍平.大數據助力媒體融合—央視大數據平臺技術與實踐[J].現代電視技術,2017(5):100-104.
[3]徐園,李偉忠.數據驅動新聞 智能重構媒體—浙報集團“媒立方”技術平臺建設的實踐與思考[J].新聞與寫作,2018(1):97-101.