999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對互聯網數據的新聞轉載引用分析

2017-12-25 02:25:12陳辛夷
中國傳媒科技 2017年11期
關鍵詞:文本分析

文/陳辛夷 陳 珺 王 熠

針對互聯網數據的新聞轉載引用分析

文/陳辛夷 陳 珺 王 熠

互聯網、大數據和新媒體技術的發展帶來媒體傳播渠道和內容形態革命性變化,分析新聞在不同渠道媒體采用和傳播情況是構建大數據驅動采編和傳播決策的重要組成部分,對于提升通訊社國內和國際傳播能力具有十分重要的意義。然而,由于互聯網和新媒體數據格式不規范、轉載和引用不注明來源等問題,新媒體的新聞轉載引用分析難度大。本文從多源頭收集網站、電子報紙、微信公眾號、移動客戶端等新聞數據,覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶。利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉載和引用分析系統,為進一步分析媒體傳播路徑,掌握國內外媒體傳播規律,提升國內外輿論傳播力奠定了基礎。文中介紹了新聞轉載引用分析的工作原理和建設意義,對關鍵技術實現進行了深入研究,在此基礎上提出了新聞轉載引用分析未來的發展建議。

新聞轉載引用;文本相似度大數據;Hadoop Spark

引言

互聯網、大數據和新媒體技術的發展帶來媒體傳播渠道和內容形態革命性變化。如何利用智能分析技術,在互聯網大數據中定位和跟蹤新聞轉載和引用的信息,及時反映新聞被國內外媒體采用的情況,是構建大數據驅動采編和傳播決策的重要組成部分,對于提升通訊社國內和國際傳播能力具有十分重要的意義。

本文從多源頭收集網站、電子報紙、微信公眾號、移動客戶端等數據,覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶,利用信息智能比對技術,跟蹤新聞在全媒體的落地采用,構建新聞轉載和引用分析系統,為進一步分析媒體傳播路徑,掌握國內外媒體傳播規律,提升國內外輿論傳播力奠定了基礎。

1. 新聞轉載引用分析概念

新聞轉載引用分析是針對一篇原創新聞,通過一系列技術手段分析海量實時的互聯網大數據,識別出其中轉載和引用該新聞的媒體。

轉載指報刊或網站等媒體上發布其他媒體已經發表過的新聞。在對內報道中,新聞被媒體全文轉載的情況比較常見。

顯性轉載引用指報刊或網站在轉載或引用時注明轉載或引用媒體的情況。一種情況是在轉載時保留電頭;另一種情況是在引用時指明“據某媒體報道”。

隱性轉載引用在新聞的轉載引用中存在文章中不注明來源的情況,稱為隱性轉載或引用。與顯性轉載引用相比,隱性轉載引用的識別難度更大。隨著互聯網技術的發展,各種新媒體不斷涌現,在拓展傳播邊界的同時也存在著轉載不規范的問題。

2. 新聞轉載引用分析的意義

通過分析新聞在中英文網站、電子報紙、微信和移動客戶端的轉載和引用情況,標記引用的段落和句子,識別采用媒體、采用時間和采用的版面等信息,可以及時追蹤和分析新聞被全媒體采用的情況,進而可以統計和評估采編人員的工作成果,并對稿件的傳播效果進行分析,為指導進一步提高新聞傳播影響力提供數據支持。

3. 新聞轉載引用分析工作原理

本文提出一種基于文本語義對比進行新聞轉載引用分析的技術,主要包含新聞特征提取、相似新聞聚類、新聞轉載引用關系判定、結果校驗幾個步驟。

新聞特征提取:采用網頁信息抽取技術提取互聯網新聞數據特征。對每篇稿件,通過分析網頁的結構,使用機器學習與規則相融合的算法抽取出該新聞的發布時間。

相似新聞聚類:使用相似簇劃分算法對采集的互聯網新聞數據按照語義相似度進行劃分,每個相似簇內部的新聞都是語義相似的,這些新聞數據之間可能存在隱式轉載的關系。

新聞轉載引用關系判定:綜合相似簇內新聞間的相似度和新聞的發布時間等信息,根據經驗判定閾值,對新聞的轉載引用關系進行分析判定,得出新聞間的轉載引用關系。

結果校驗:對判定結果進行再次校驗。

4. 新聞轉載引用分析技術原理

系統總體數據處理架構如圖1所示。主要架構設計思路和數據處理過程分為以下幾個部分:

數據引進層:通過大規模數據采集和第三方引入的互聯網新聞數據,首先使用Redis進行排重,然后進行數據的預處理及ETL,形成規則數據,得到結構化數據。

任務調度層:基于Kafka分布式消息隊列,實現互聯網數據的接入和緩沖。對Kafka消息隊列里的數據結合實時Spark Steaming流式計算和離線大規模M/R計算框架進行新聞轉載引用分析。

數據存儲層:面對海量新聞數據,分布式存儲可以實現高效的業務邏輯運算、可伸縮的存儲部署策略和高可用的冗余式存儲。MySQL作為轉載引用統計結果的基礎存儲數據庫,負責數據模型的定義與數據積累,但不對外提供復雜的查詢服務。ElasticSearch首先作為MySQL核心業務表的鏡像進行數據同步,同時實現多表關聯和數據冗余,提升查詢性能。其次,作為數據服務業務的實時服務端,提供數據服務的在線查詢。Hive作為數據服務的離線服務端,提供離線的大規模數據查詢分析服務。FastDFS作為離散文件的存儲系統,提供圖片、PDF和報告Excel文件的存儲管理。

集成服務層:針對業務需求,依托服務總線技術將底層數據通過靈活多樣的查詢和數據提取邏輯發布至上層服務接口,實現對外的通用服務接口。基于Zookeeper和Dubbo實現服務總線,統一協調調度,統一配置管理。

圖1 系統數據處理架構設計

5. 新聞轉載引用分析關鍵技術

5.1 網頁信息抽取

從網頁源碼中解析內容信息,傳統的方法一般會采用遞歸解析子標簽的方式,逐一獲取標簽內容。但在實際應用中,該方式在解析復雜的網頁源碼時,復雜度過高,消耗的資源過大。為解決這種問題,本文設計網頁內容解析算法,采用XPATH技術與網頁結構樹遞歸解析結合的方式抽取網頁內容。XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,它提供在數據結構樹中找尋節點的能力。

網頁的主體內容信息一般都在特定的HTML標簽或者其子標簽下,本算法先通過XPATH技術獲取網頁中的主體正文塊,對于每一個正文塊,構造網頁結構樹,在結構樹上以遞歸的方式遍歷全部的標簽。在遞歸處理過程中,以標簽全路徑來記錄遍歷過的路徑,避免標簽被重復解析。在算法遍歷的過程中,可以獲取網頁所包含的標題、正文、網頁鏈接、來源、發布時間等信息。

5.2 文本相似度比對

使用文本相似度比對算法,將文本劃分為不同的相似簇。本文使用經典的VSM(向量空間模型)與Bag of Words(BOW)作為文檔表示模型,該模型的基本思想是將文檔分為若干的特征項,通過對特征項權重的量化計算進而將整個文檔用一特征項的權重為分量的向量來表示,在將文檔用特征向量的方式表示為數學模型后,再基于特征向量進行文檔間的相似度計算。使用TF-IDF算法作為特征項的權重值。文本相似度計算的流程如圖2所示。

圖2 文本相似度計算處理流程圖

在文本相似性比對算法中,文本相似度量算法扮演了重要的角色,常用的相似度度量方法有:皮爾遜相關系數(Pearson Correlation Coefficient ,PCC)、余弦相似度(Cosine Similarity)、歐幾里得相似度(Euclidean Similarity)等,經對比發現,皮爾遜相關系數更適合本算法。皮爾遜相關系數是計算兩個向量線性相關度的一個指標,其計算公式如下:

5.3 新聞轉載引用關系構建

基于文本相似簇,再利用網頁新聞的來源、發布時間等信息,實現轉載引用網絡的構建。本文使用了圖數據庫構建與存儲轉載引用網絡,支持數據的動態更新和多級轉載引用關系的查詢。最終,利用網絡路徑追蹤技術,可以追溯每一篇新聞的轉載引用路徑,定位追蹤新聞的轉載引用情況。

6. 相似文本簇劃分的具體技術實現

針對不同的應用場景開發了兩套相似文本簇劃分系統,分別是適合批處理的基于Hadoop平臺的相似文本簇劃分和適合實時計算的基于分布式內存實時計算的相似文本簇劃分。

6.1 基于Hadoop平臺的相似文本簇劃分

Hadoop作為大數據處理領域最成熟的解決方案,其以分布式文件系統HDFS和分布式計算模型MapReduce為代表的技術在大數據批處理領域取得了很大的成功。此外Hadoop擁有完善的生態系統,可以提供豐富的組件支持,本文使用了數據挖掘工具包Mahout中的一些算法,極大地簡化了處理的難度。

6.2 基于分布式內存實時計算的相似文本簇劃分

基于分布式內存實時計算的相似文本簇劃分系統主要針對一些對實時性要求比較高的場景。該系統可以實現亞秒級響應的數據處理,處理框架圖如圖3。

圖3 基于分布式內存實時計算的相似文本簇劃分處理框架圖

7. 集成及測試效果

經過多輪測試和算法優化,目前中文文字新聞轉載引用分析準確率達到95%以上,英文文字新聞轉載引用分析準確率達到90%以上。

8. 面向互聯網大數據的新聞轉載引用分析的應用展望

傳播路徑分析結合相似文本簇劃分對新聞的整個傳播路徑進行分析,找到傳播路徑中的關鍵媒體或新媒體賬戶。

專題報道分析針對專題報道中的一組新聞進行轉載和引用分析,結合專題的時間、地域、事件發展過程等分析總結其中的傳播規律。

輿論引導力分析在一個新聞事件的報道中,通過分析某一篇新聞前后的新聞報道,研究這篇新聞起到了怎樣的輿論引導作用,達成了怎樣的效果。

結語

2017年4月 ,系統上線試運行,提供全社采編人員實時查詢稿件在全媒體的采用情況,提供總社和分社新聞采編業務統計數據和新聞采編人員考核數據的基礎數據,提供全社全媒體報道發稿、采用和互動情況的大屏展示,初步取得了較好的效果。隨著應用的不斷深入,采編人員和統計人員都對系統提出了新的要求。系統會繼續針對圖片視頻等多媒體稿件的采用分析、小語種稿件的采用分析等難點課題進行進一步研究。

[1] Holden Karau等. Spark快速大數據分析[J].北京:人民郵電出版社,2015(10): 161-185.

[2] Sean Owen等.Mahout實戰[J].北京:人民郵電出版社,2014(3):40-47.

[3] Tom White.Hadoop權威指南[J]. 北京:清華大學出版社,2011年(7):160-174.

TP392

A

1671-0134(2017)11-089-03

10.19483/j.cnki.11-4653/n.2017.11.029

指報刊或網站等媒體的文章中部分引用了其他媒體已經發表過的新聞中的語句或信息。在對外報道中,海外媒體特別是國際主流媒體通常引用新聞中的一段或一句,或者將原文中的信息轉述表達。在新聞報道中,引用的場景一種是引述事實再展開深入報道;另一種是引述觀點進而闡述相同或相反的觀點。

新華通訊社通信技術局)

猜你喜歡
文本分析
隱蔽失效適航要求符合性驗證分析
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
中西醫結合治療抑郁癥100例分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲最大看欧美片网站地址| 国产精品va免费视频| 青草娱乐极品免费视频| 99ri国产在线| 国产精品观看视频免费完整版| 在线视频亚洲欧美| 亚洲AV成人一区国产精品| 午夜丁香婷婷| 亚洲v日韩v欧美在线观看| 亚洲色欲色欲www在线观看| 婷婷色中文网| 无码精油按摩潮喷在线播放| 中文字幕在线观| 91午夜福利在线观看| 日韩无码视频播放| 国产成人午夜福利免费无码r| 国产激情无码一区二区APP| 国产手机在线观看| 国产精品成人一区二区| 99久视频| 亚洲区欧美区| 黄片在线永久| 99成人在线观看| 天堂亚洲网| 亚洲精品无码成人片在线观看| 亚洲区欧美区| 992tv国产人成在线观看| 在线日韩日本国产亚洲| 欧美中文字幕一区| 日韩在线第三页| 国产精品黑色丝袜的老师| 日韩一级二级三级| 欧美激情成人网| 亚洲无码精彩视频在线观看 | 青青草原国产av福利网站| 精品福利网| 欧美日韩国产在线人成app| 孕妇高潮太爽了在线观看免费| 2020国产精品视频| 日本精品视频| 性色一区| 狠狠做深爱婷婷久久一区| 久久亚洲欧美综合| 91激情视频| 四虎精品国产AV二区| 欧美在线综合视频| 国产精品粉嫩| 成人精品区| 亚洲av综合网| 精品欧美一区二区三区久久久| 久久无码av一区二区三区| 黄色在线网| 成人午夜视频免费看欧美| 国产AV毛片| 免费一级无码在线网站| 思思热精品在线8| 国产成人精品视频一区二区电影 | 在线不卡免费视频| 亚洲第一福利视频导航| 美女高潮全身流白浆福利区| 国产一区自拍视频| 国产一区二区精品福利| 精品夜恋影院亚洲欧洲| 狠狠v日韩v欧美v| 在线免费观看AV| 欧美一区中文字幕| 国产成人精品无码一区二| 午夜综合网| 亚洲女同欧美在线| 亚洲视频免| 色偷偷男人的天堂亚洲av| 亚洲综合片| 国产高清国内精品福利| 国产在线精品99一区不卡| 国产精品冒白浆免费视频| 欧美日韩精品综合在线一区| 成人免费午夜视频| 亚洲精品中文字幕无乱码| 在线观看网站国产| 激情亚洲天堂| 亚洲侵犯无码网址在线观看| 色亚洲成人|