文/徐志強 張守先 李滿江
百度、騰訊、新浪、網易、搜狐、今日頭條等各公司的許多產品提供了新聞的輿情、熱點、熱搜、快訊、頭條、排行等信息,但是每個公司自身的數據來源不同,所以各自的產品服務各有自己的側重,比如新浪的微博海量數據的優勢,其輿情產品輿情通的熱點、影響力等基于微博的分析更有權威性。相比,騰訊的騰訊大數據,基于微信公眾號等海量新聞數據的分析更為準確。而綜合的新聞大數據平臺,數據越全面越好,涉及到網站、微博、微信、APP、公眾號、論壇等各類新聞渠道,依賴單一數據,數據單薄、分析結果不全面、不準確。數據越全面,分析結果會越準確、及時、可靠、客觀。本平臺研究如何利用各大數據公司的能力,以單一大數據平臺提供服務,通過整合、細分采購、個性抓取等組合情況下,大大降低各新聞單位、政府部門采購大數據輿情服務的成本,并得到更佳的服務。
大數據的分析,設計到數據量非常大,需要的計算機處理能力要很強,才能短時間內得到想要的結果。算力,主要指計算能力,如比特幣礦機的算力(也稱哈希率)是比特幣網絡處理能力的度量單位,即為計算機(CPU)計算哈希函數輸出的速度。本文“云算力”一詞,借用“算力”一詞,來表達整合各家公司獨立的云計算能力到一起,從而形成的基于云端的數據處理能力。
本平臺研究基于各家新聞大數據公司計算能力之上的綜合平臺,智能化利用各大公司的算力,為新聞單位、政府部門等需要輿情服務的單位,使用單一云平臺,就可以發起針對各大大數據公司的數據請求,得到經過智能分析、過濾、排重、本地化、定向處理后的最理想的數據結果,形成最全面、能力最強、最專業、最及時的輿情服務,提供最新新聞、滾動頭條、地域新聞、傳播榜單、傳播路徑、趨勢分析、熱門話題、民生熱點、輿情分析、熱搜、熱詞、地域排行、地域熱點、熱門人物等等不同側面、角度、地域、領域、群體等分析,涵蓋新聞網站類、政府網站類、搜索門戶類、論壇社區類、微博類、微信類、新聞客戶端類等各類數據源。
技術上,本平臺依賴于其他公司的處理能力,能選擇接入平臺的大數據公司,要求有開放接口API,或有數據推送方式。否則就需要自己抓取結果網頁后入庫。商務上,購買各家公司的大數據服務,并沒有在授權上限制在單一平臺多次展示給不同的商業用戶,從而可以從各家夠買數據服務后,綜合整理后展示給通過不同賬號登錄到本平臺的不同目標客戶,通過多次銷售,從而均攤從各個公司購買的數據服務的費用,從而達到以低價格購買高質量新聞輿情服務的目標。
平臺的實施,不僅僅是數據的整合,還要涉及到其他幾個方面:
(1)各新聞大數據公司現有服務內容及對接:每個公司某些現有的服務,不用處理就可以直接展示給用戶,也具有權威性,符合用戶的需要。
(2)各大數據公司處理能力對接:根據各公司接口方式,完成各公司數據服務的對接,利用API、網頁抓取等方式。
(3)大數據公司處理結果的數據清洗、去重、元數據統一等,合并成一致的數據。各公司的數據定義方式不一致,比如基本信息、日期格式、打分取值范圍等等,需要統一格式、去掉重復數據,清洗成一致的有效數據。
(4)各方數據處理結果整合:加權綜合、本地化、定向處理等。在展示數據時,用到各公司數據,需要對其加權后整合,并且根據用戶需要,去掉無關的地域的數據,只保留用戶關心的、當地的數據。
(5)綜合調度:如在用戶對某項服務發起請求,能按照需要由平臺后臺分別對各大數據公司同時發起服務請求,再把返回的結果整合后展示給用戶。
當然還包括個性化的本地數據的抓取、個性化新聞輿情服務、多租戶管理、不同使用單位的數據分離等等。
平臺功能舉例:如展示某條新聞的傳播效果,就要涵蓋報紙、網站、微信、微博、APP、論壇、社交網絡等多個渠道的傳播數據,才能更全面展示一條新聞的影響力、爆發點、時間線等,新聞受眾在不同新聞傳播渠道上的比重不同、各新聞渠道時效不同,新聞傳播表現在不同新聞傳播渠道的爆發期、發散期、削弱期、終結期時間段也各異,需要從各個數據平臺抓取結果后,通過加權整合形成一個相對完整客觀的時間線曲線,同時保存各新聞渠道的時間線供用戶參考,各個渠道的點擊量、評論數、受眾群體的畫像等也需要整合,展示成圖、表、曲線等方式,提供給用戶。

云算力新聞大數據平臺在投入上,比各大數據公司的數據分析平臺肯定要少很多,數據存儲、運算能力等方面,要求都很低,整合出來的理想效果并不差,并且比單一大數據公司的服務還有加強。當然這些依賴于最終用戶數量的多少,來分攤各大數據公司的服務費用,并且運營好這樣一個平臺,開發、維護的工作量也占一定的比例。