文/陳辛夷 陳 珺 王 熠
針對互聯網數據的新聞轉載引用分析
文/陳辛夷 陳 珺 王 熠
互聯網、大數據和新媒體技術的發展帶來媒體傳播渠道和內容形態革命性變化,分析新聞在不同渠道媒體采用和傳播情況是構建大數據驅動采編和傳播決策的重要組成部分,對于提升通訊社國內和國際傳播能力具有十分重要的意義。然而,由于互聯網和新媒體數據格式不規范、轉載和引用不注明來源等問題,新媒體的新聞轉載引用分析難度大。本文從多源頭收集網站、電子報紙、微信公眾號、移動客戶端等新聞數據,覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶。利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉載和引用分析系統,為進一步分析媒體傳播路徑,掌握國內外媒體傳播規律,提升國內外輿論傳播力奠定了基礎。文中介紹了新聞轉載引用分析的工作原理和建設意義,對關鍵技術實現進行了深入研究,在此基礎上提出了新聞轉載引用分析未來的發展建議。
新聞轉載引用;文本相似度大數據;Hadoop Spark
互聯網、大數據和新媒體技術的發展帶來媒體傳播渠道和內容形態革命性變化。如何利用智能分析技術,在互聯網大數據中定位和跟蹤新聞轉載和引用的信息,及時反映新聞被國內外媒體采用的情況,是構建大數據驅動采編和傳播決策的重要組成部分,對于提升通訊社國內和國際傳播能力具有十分重要的意義。
本文從多源頭收集網站、電子報紙、微信公眾號、移動客戶端等數據,覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶,利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉載和引用分析系統,為進一步分析媒體傳播路徑,掌握國內外媒體傳播規律,提升國內外輿論傳播力奠定了基礎。
新聞轉載引用分析是針對一篇原創新聞,通過一系列技術手段分析海量實時的互聯網大數據,識別出其中轉載和引用該新聞的媒體。
轉載指報刊或網站等媒體上發布其他媒體已經發表過的新聞。在對內報道中,新聞被媒體全文轉載的情況比較常見。
顯性轉載引用指報刊或網站在轉載或引用時注明轉載或引用媒體的情況。一種情況是在轉載時保留電頭;另一種情況是在引用時指明“據某媒體報道”。
隱性轉載引用在新聞的轉載引用中存在文章中不注明來源的情況,稱為隱性轉載或引用。與顯性轉載引用相比,隱性轉載引用的識別難度更大。隨著互聯網技術的發展,各種新媒體不斷涌現,在拓展傳播邊界的同時也存在著轉載不規范的問題。
通過分析新聞在中英文網站、電子報紙、微信和移動客戶端的轉載和引用情況,標記引用的段落和句子,識別采用媒體、采用時間和采用的版面等信息,可以及時追蹤和分析新聞被全媒體采用的情況,進而可以統計和評估采編人員的工作成果,并對稿件的傳播效果進行分析,為指導進一步提高新聞傳播影響力提供數據支持。
本文提出一種基于文本語義對比進行新聞轉載引用分析的技術,主要包含新聞特征提取、相似新聞聚類、新聞轉載引用關系判定、結果校驗幾個步驟。
新聞特征提取:采用網頁信息抽取技術提取互聯網新聞數據特征。對每篇稿件,通過分析網頁的結構,使用機器學習與規則相融合的算法抽取出該新聞的發布時間。
相似新聞聚類:使用相似簇劃分算法對采集的互聯網新聞數據按照語義相似度進行劃分,每個相似簇內部的新聞都是語義相似的,這些新聞數據之間可能存在隱式轉載的關系。
新聞轉載引用關系判定:綜合相似簇內新聞間的相似度和新聞的發布時間等信息,根據經驗判定閾值,對新聞的轉載引用關系進行分析判定,得出新聞間的轉載引用關系。
結果校驗:對判定結果進行再次校驗。
系統總體數據處理架構如圖1所示。主要架構設計思路和數據處理過程分為以下幾個部分:
數據引進層:通過大規模數據采集和第三方引入的互聯網新聞數據,首先使用Redis進行排重,然后進行數據的預處理及ETL,形成規則數據,得到結構化數據。
任務調度層:基于Kafka分布式消息隊列,實現互聯網數據的接入和緩沖。對Kafka消息隊列里的數據結合實時Spark Steaming流式計算和離線大規模M/R計算框架進行新聞轉載引用分析。
數據存儲層:面對海量新聞數據,分布式存儲可以實現高效的業務邏輯運算、可伸縮的存儲部署策略和高可用的冗余式存儲。MySQL作為轉載引用統計結果的基礎存儲數據庫,負責數據模型的定義與數據積累,但不對外提供復雜的查詢服務。ElasticSearch首先作為MySQL核心業務表的鏡像進行數據同步,同時實現多表關聯和數據冗余,提升查詢性能。其次,作為數據服務業務的實時服務端,提供數據服務的在線查詢。Hive作為數據服務的離線服務端,提供離線的大規模數據查詢分析服務。FastDFS作為離散文件的存儲系統,提供圖片、PDF和報告Excel文件的存儲管理。
集成服務層:針對業務需求,依托服務總線技術將底層數據通過靈活多樣的查詢和數據提取邏輯發布至上層服務接口,實現對外的通用服務接口。基于Zookeeper和Dubbo實現服務總線,統一協調調度,統一配置管理。

圖1 系統數據處理架構設計
從網頁源碼中解析內容信息,傳統的方法一般會采用遞歸解析子標簽的方式,逐一獲取標簽內容。但在實際應用中,該方式在解析復雜的網頁源碼時,復雜度過高,消耗的資源過大。為解決這種問題,本文設計網頁內容解析算法,采用XPATH技術與網頁結構樹遞歸解析結合的方式抽取網頁內容。XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,它提供在數據結構樹中找尋節點的能力。
網頁的主體內容信息一般都在特定的HTML標簽或者其子標簽下,本算法先通過XPATH技術獲取網頁中的主體正文塊,對于每一個正文塊,構造網頁結構樹,在結構樹上以遞歸的方式遍歷全部的標簽。在遞歸處理過程中,以標簽全路徑來記錄遍歷過的路徑,避免標簽被重復解析。在算法遍歷的過程中,可以獲取網頁所包含的標題、正文、網頁鏈接、來源、發布時間等信息。
使用文本相似度比對算法,將文本劃分為不同的相似簇。本文使用經典的VSM(向量空間模型)與Bag of Words(BOW)作為文檔表示模型,該模型的基本思想是將文檔分為若干的特征項,通過對特征項權重的量化計算進而將整個文檔用一特征項的權重為分量的向量來表示,在將文檔用特征向量的方式表示為數學模型后,再基于特征向量進行文檔間的相似度計算。使用TF-IDF算法作為特征項的權重值。文本相似度計算的流程如圖2所示。

圖2 文本相似度計算處理流程圖
在文本相似性比對算法中,文本相似度量算法扮演了重要的角色,常用的相似度度量方法有:皮爾遜相關系數(Pearson Correlation Coefficient ,PCC)、余弦相似度(Cosine Similarity)、歐幾里得相似度(Euclidean Similarity)等,經對比發現,皮爾遜相關系數更適合本算法。皮爾遜相關系數是計算兩個向量線性相關度的一個指標,其計算公式如下:

基于文本相似簇,再利用網頁新聞的來源、發布時間等信息,實現轉載引用網絡的構建。本文使用了圖數據庫構建與存儲轉載引用網絡,支持數據的動態更新和多級轉載引用關系的查詢。最終,利用網絡路徑追蹤技術,可以追溯每一篇新聞的轉載引用路徑,定位追蹤新聞的轉載引用情況。
針對不同的應用場景開發了兩套相似文本簇劃分系統,分別是適合批處理的基于Hadoop平臺的相似文本簇劃分和適合實時計算的基于分布式內存實時計算的相似文本簇劃分。
Hadoop作為大數據處理領域最成熟的解決方案,其以分布式文件系統HDFS和分布式計算模型MapReduce為代表的技術在大數據批處理領域取得了很大的成功。此外Hadoop擁有完善的生態系統,可以提供豐富的組件支持,本文使用了數據挖掘工具包Mahout中的一些算法,極大地簡化了處理的難度。
基于分布式內存實時計算的相似文本簇劃分系統主要針對一些對實時性要求比較高的場景。該系統可以實現亞秒級響應的數據處理,處理框架圖如圖3。

圖3 基于分布式內存實時計算的相似文本簇劃分處理框架圖
經過多輪測試和算法優化,目前中文文字新聞轉載引用分析準確率達到95%以上,英文文字新聞轉載引用分析準確率達到90%以上。
傳播路徑分析結合相似文本簇劃分對新聞的整個傳播路徑進行分析,找到傳播路徑中的關鍵媒體或新媒體賬戶。
專題報道分析針對專題報道中的一組新聞進行轉載和引用分析,結合專題的時間、地域、事件發展過程等分析總結其中的傳播規律。
輿論引導力分析在一個新聞事件的報道中,通過分析某一篇新聞前后的新聞報道,研究這篇新聞起到了怎樣的輿論引導作用,達成了怎樣的效果。
2017年4月 ,系統上線試運行,提供全社采編人員實時查詢稿件在全媒體的采用情況,提供總社和分社新聞采編業務統計數據和新聞采編人員考核數據的基礎數據,提供全社全媒體報道發稿、采用和互動情況的大屏展示,初步取得了較好的效果。隨著應用的不斷深入,采編人員和統計人員都對系統提出了新的要求。系統會繼續針對圖片視頻等多媒體稿件的采用分析、小語種稿件的采用分析等難點課題進行進一步研究。
[1] Holden Karau等. Spark快速大數據分析[J].北京:人民郵電出版社,2015(10): 161-185.
[2] Sean Owen等.Mahout實戰[J].北京:人民郵電出版社,2014(3):40-47.
[3] Tom White.Hadoop權威指南[J]. 北京:清華大學出版社,2011年(7):160-174.
TP392
A
1671-0134(2017)11-089-03
10.19483/j.cnki.11-4653/n.2017.11.029
指報刊或網站等媒體的文章中部分引用了其他媒體已經發表過的新聞中的語句或信息。在對外報道中,海外媒體特別是國際主流媒體通常引用新聞中的一段或一句,或者將原文中的信息轉述表達。在新聞報道中,引用的場景一種是引述事實再展開深入報道;另一種是引述觀點進而闡述相同或相反的觀點。
新華通訊社通信技術局)