孟肖虎
(中國電力傳媒集團有限公司,中國 北京 100070)
近些年部分傳媒企業本著為目標受眾提供權威信息資訊的目標,并進一步推進媒體融合,著手建設大數據采集與分析系統,本文根據筆者在中國電力傳媒集團從事相關工作多年的經驗,對大數據技術在新媒體產業中的應用進行簡要討論。
媒體的大數據系統要具有信息采集的功能,根據用途的不同,設計系統的日信息處理量,以及爬蟲的采集列表,系統需要具備中文信息處理功能,對信息進行過濾、去重、相似性聚類、情感分析、文摘、自動分類等處理。
系統基于云計算架構進行設計,硬件以多臺服務器虛擬成一個集群,以集群為單位進行無限擴容。軟件總體設計模塊化,以功能模塊為單位進行程序編碼。編碼過程采用主程序、子程序等框架將系統的主要結構和流程進行描述,并定義和調試各個框架之間的輸入、輸出鏈接關系,形成一系列以功能模塊為單位的算法描述。模塊化設計使系統的部署、調試和維護等操作規范化。即使某一個模塊發生故障,也不影響到其他模塊的正常工作,不會造成整個系統的癱瘓,確保在多種情況下系統的正常運行。
系統可以為企業信息收集、報紙內容、研究類刊物以及手機APP、微博、微信等移動終端提供大數據服務,成為媒體融合的底層平臺基礎。同時,客觀上也是主動推進傳媒企業在內容、平臺、渠道、經營、管理上進行融合發展的催化劑,為新媒體工作的創新發展提供了有力保障。
系統由多個服務器集群構成,每個集群功能配置完全一致,單一集群由數據采集服務器群以及數據分析服務器組成,其中,數據采集服務器群由多臺服務器組成,由一臺調度服務器進行任務分配,整個系統實現了云采集功能。根據數據采集量可增減采集服務器的數量以及相應的帶寬。系統在設計之初,為了避免原文被刪除的情況,增加了快照功能,更好的協助用戶還原信息原貌,但是隨之而來的是需要大量的存儲設備予以支持。
數據采集服務器群中,安裝了多個不同性質的爬蟲,對于大多數新聞網站,采集爬蟲遵循廣度優先原則,這樣的采集策略需要較長時間與更多資源,為了合理的控制爬蟲資源,采集系統將不同網站付以權重,權重高的相應采集頻率會隨之增高。針對貼吧以及BBS則需要選擇高效率的采集策略,以免多次頻繁的采集行為被目標網站視為攻擊行為,而被禁止訪問,所以采用定向抓取以及聚焦抓取的策略,通過URL分析,可以判斷出網頁是否屬于特的特定的BBS論壇或者貼吧,在針對單個BBS論壇或貼吧的采集過程中,爬蟲只采集與目標有關的鏈接,舍棄不相關的鏈接,只有符合采集條件的URL才進行保留。
微博信息由于數據量大,API數據接口需要申請,采集難度大。通過對系統爬蟲的召回率以及虛擬賬號數量等指標進行調整,比較有效的規避了數據讀取量限制的天花板,在關鍵詞配置合理的情況下,采集效果良好。由于微博有140字的字數限制,而且多是口語或者流行語,利用向量空間模型(Vector Space Model,簡稱VSM),計算文本的空間向量夾角余弦,試驗性的獲取熱點信息,但準確率并不高。因此,系統利用 TF-IDF(Term Frequency-Inverse Document Frequency)權重計算相結合的方法。在通過關鍵詞采集得到微博信息后,微博信息分析模塊中的情感判斷模塊,負面信息過濾出來。
對于BBS的信息采集與網頁采集有所不同,網頁采集的爬蟲遵循廣度優先的原則,抓取范圍廣,采集時間長。BBS采集爬蟲選擇高效率的抓取策略,收錄各大論壇的網頁內容,采用定向抓取以及聚焦抓取的策略。
采用以上介紹的方式進行數據采集,對沒有收錄入列表的信息,利用關鍵詞法進行搜索引擎補充,目前補充的搜索引擎有百度、谷歌、搜狗、搜搜等國內外各大知名搜索引擎。采集下來的數據進行分詞、聚類、分類以及情感判斷等處理,最終系統以文字以配合統計圖形的形式進行呈現。
基于媒體融合的理念,建議采取系統應用逐步升級的三步走戰略。
第一步,單一集群,小范圍采集。這一階段只建設一個計算機集群,系統收錄少量站點,初步滿足了信息采集以及數據處理的工作需要。
第二步,數據積累,系統升級。在積累了一定的數據之后,系統可以利用大數據技術,對海量數據進行分類、聚類等一系列分析處理,形成長期趨勢,可以作為數據分析的樣本進行二次加工,形成具有價值的獨家數據源。通過一段時間的使用,針對系統進行二次升級以及維護,增加一個計算機集群,將收錄站點進行擴容。
第三步,全面升級,實現媒體融合。在這一階段,系統需要達到對全產業鏈進行服務的要求,實現媒體融合,對系統進行全面升級,重點對視頻網站,外文網站數據的采集進行攻關,采集站點二次擴容。為報紙、期刊等多個產品提供數據支持,并且為網絡電視臺以及手機APP提供數據源以及信息反饋,在內容、渠道、平臺等方面初步實現媒體融合。
大數據技術的應用在媒體融合發展過程中取得了良好的成效,同時新媒體事業的快速發展,以及衍生而來的研究咨詢、輿情監測、新媒體矩陣等產品是新媒體業務的重要創新。作為媒體融合的核心組成部分,利用大數據、云計算、移動互聯網等前沿技術,有效促進了官方媒體輿論場、網民輿論場的橫向溝通,為實現媒體可持續健康發展營造良好的輿論環境并提供權威的信息資訊支持。以大數據技術為基礎,以媒體融合為藍圖,創新而來的系列產品與服務受到了廣大受眾的廣泛認可與好評,已經成為傳媒行業業務新的增長點,未來伴隨互聯網產業持續發展,媒體融合還會不斷深化,相關產品與服務將進入新一輪的高速發展。
[1]李彪.輿情之山雨欲來[M].人民日報出版社,2010.
[2]陸小華.再造傳媒[M].中信出版社,2012.