999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自然語言處理的流式計算框架

2018-08-19 09:26:48陳珉彭鸞李釗
科學與財富 2018年23期
關鍵詞:傳統媒體

陳珉 彭鸞 李釗

摘要:近年來,自媒體發展速度非常迅猛,傳統媒體積極擁抱新媒體,加速媒體深度融合步伐。媒體生產數據、互聯網發布的數據,每天有海量的數據需要分析處理,用于熱點新聞發現、新聞選題評價、傳播效果分析等應用場景。傳統的數據分析框架已經不能滿足用戶實時數據分析和查詢的需求。本文提出一種能夠適應用戶連續處理分析海量文本數據的框架,具有低延時、可擴展的特點。

關鍵詞:自然語言處理;流式計算;傳統媒體

一、背景

當前,大數據產業深刻改變著人類的生產和生活。地方媒體詳細記錄了地區發展變遷的歷程,存有大量的文字、圖片、視頻等歷史資料。同時,在互聯網上每天有海量的新聞產品發布。將這些沉睡的、分散的數據有效匯聚、管理、挖掘、應用。在支撐媒體產品生產同時,服務于媒體自身的精準營銷,還可以高效便捷的為政府機構、社會企業與民眾提供資料網絡查詢、城市資訊綜合服務等。逐步實現傳統媒體和新媒體的融合發展,變“內容為王”為“信息服務為王”。

二、面向自然語言處理的流式計算框架設計

本文選用JStorm框架為流式計算平臺的基礎,完整的面向自然語言處理的流式計算框架,包含數據源模塊、預處理模塊、實時計算模塊、存儲模塊以及反壓機制。

(1)數據源模塊

數據源模塊的作用是將數據不斷的送入JStorm中。本框架中采用的方法是接收用戶提交TXT、WORD、PDF、XML格式的文件,通過不同格式的文件解析器,解析文件中的內容信息。之后,將大文本拆分為多個小文本以及進行數據格式封裝。數據封裝是為了加入文本標簽、文本歸屬、唯一標識、調用的算法等信息,完成封裝后,進入Redis緩存。

(2)預處理模塊

預處理模塊的作用是對需要處理的文本進行預處理。預處理模塊在JStorm中是一個Bolt組件,包含了中文分詞、信息抽取等基礎算法。對待分析文本調用哪些基礎算法,根據數據源模塊中的封裝定義的。

(3)實時計算模塊

文本數據流通過實時計算模塊分別流入不同的具有高并行度的任務中,任務中運行的是不同的算法,使用分布式鎖來保證數據的最終一致性。對任務的管理使用動態平衡算法對任務分配規則加載,而不會影響正常的處理過程。這樣的機制具有很高的動態穩定性,無論是動態增加計算能力,還是動態管理算法配置,都不會影響正常的服務。開發人員需要實現框架針對應用開發人員提供的API,對數據對象、計算邏輯進行內部封,也可以完成詞庫和算法模型的調用。

針對自然語言處理的使用場景,對JStorm的實時計算框架進行了一些優化處理。實時任務查詢功能,根據數據源模塊中封裝的唯一任務標識進行任務進度查詢。圖形化任務發布功能,是在網頁上可以將算法任務發布成處理的任務。任務分配模塊,主要是優化算法調用的順序,通過Redis通知來實現?;瑒哟翱诠芾?,通過定時輸出采樣數據,使用TOPN算法,輸出滑動窗口內,系統的數據統計特征。

(4)存儲模塊

存儲模塊是將分析處理后的結果落地,用于可視化的展示使用。存儲模塊分兩類,一類NoSQL數據庫,一類是網絡文件系統NFS。在實時計算平臺最后一個Bolt節點,使用Redis數據庫將計算結果緩存下來,并發送消息通知給可視化展示模塊??梢暬故灸K,在收到通知后,將最終的結果用JSON格式存儲在文件系統中。對于中間過程,可視化模塊通過展示Redis緩存數據,可顯示中間過程。使用Redis作為緩存,保證了在計算節點宕機的情況,數據的恢復能力。

(5)反壓機制

由于Spout數據源的處理能力不均及承載算法Bolt節點的任務處理時長的差異性,導致Tuple數據流有時存在超時現象,影響系統整體的吞吐量及其性能。本系統是在Spout節點中使用基于隊列的數據流反壓機制來優化上述問題。在Spout節點中訂閱Redis通知,在收到Redis推送的通知后,將消息ID和消息內容壓入消息隊列,消息隊列使用LinkedTransferQueue和ConcurrentHashMap實現數據對象的臨時緩存。不斷調用的nextTuple函數會從消息隊列中拉取消息,并發射數據到Bolt算法節點中。

三、物理部署

流式計算系統部署主要分為五大塊,實時計算集群、離線計算集群、網絡應用服務器、數據庫集群以及性能監控預警;實時計算集群主要提供實時計算平臺用于實時數據分析服務;離線計算集群提供的是離線計算平臺,主要用于語料處理、詞庫訓練以及語料存儲等功能;網絡應用服務器用于向外提供基于Web的顯示服務,數據庫集群部署關系型數據和非關系型數據庫,分別用于存儲業務數據和詞庫數據。各個分隔的模塊之間用消息服務連接。整個平臺使用性能監控預警服務對平臺的運行情況進行全面的監控管理。

四、結語

面向自然語言處理的流式計算系統符合目前主流的云平臺結構設計,確保實用性、開放性系統易維護的原則。系統以B/S結構為主,系統提供的自然語言處理計算服務,滿足傳統媒體對于熱點新聞發現、新聞選題評價、傳播效果分析等場景下的業務需求。

參考文獻:

[1]蔣晨晨,季一木,孫雁飛,王汝傳.基于Storm的面向大數據實時流查詢系統設計研究.南京郵電大學學報2016.6

[2]李昊鵬.流式計算的研究與應用.理論探索.2017.10

[3]熊安萍,朱恒偉,羅宇豪.Storm流式計算框架反壓機制研究.計算機工程與應用.2018.54(1)

猜你喜歡
傳統媒體
微博與傳統媒體新聞生產互動關系的探討
新聞傳播(2018年2期)2018-12-07 00:56:32
關于傳統媒體能否打造“名公號”的思考
傳媒評論(2018年12期)2018-03-21 07:51:52
傳統媒體為什么要包裝自己的“網紅”
傳媒評論(2017年3期)2017-06-13 09:18:10
當前傳統媒體版權保護的難點及對策
傳媒評論(2017年3期)2017-06-13 09:18:10
傳統媒體版權保護面臨八大難關
新聞傳播(2016年9期)2016-09-26 12:20:15
論網絡時代傳統媒體的應對之策
新聞傳播(2016年18期)2016-07-19 10:12:06
傳統媒體在新形勢下如何實現突圍
新聞傳播(2016年2期)2016-07-12 10:52:13
五問傳統媒體:你以為熬過寒冬就是春天嗎?
新聞傳播(2016年1期)2016-07-12 09:24:44
淺析傳統媒體的優勢與不足
西藏科技(2015年5期)2015-09-26 11:55:29
傳統媒體PK新媒體,向新媒體學習什么?
新聞傳播(2015年13期)2015-07-18 11:00:41
主站蜘蛛池模板: 久久不卡精品| 国产成在线观看免费视频| 亚洲swag精品自拍一区| 蜜桃视频一区二区三区| 青草视频在线观看国产| 爽爽影院十八禁在线观看| 日韩精品一区二区三区大桥未久| 亚洲天堂首页| 免费A级毛片无码免费视频| 中文字幕自拍偷拍| 99精品免费在线| 欧美日韩国产综合视频在线观看 | 一本大道香蕉久中文在线播放| 久久黄色毛片| 国产十八禁在线观看免费| 亚洲国产在一区二区三区| 日韩精品无码不卡无码| 国产色爱av资源综合区| 91精品国产情侣高潮露脸| 国产欧美日韩一区二区视频在线| 伊人91在线| 亚洲无码高清一区二区| 超碰色了色| 日本国产在线| 日韩在线视频网| 国产精品女熟高潮视频| 亚洲Va中文字幕久久一区| 国产免费看久久久| 麻豆精品在线视频| 91午夜福利在线观看| 五月天久久综合| 日本不卡在线视频| 扒开粉嫩的小缝隙喷白浆视频| 欧美日韩第三页| 久996视频精品免费观看| 色老头综合网| 免费无码网站| 青青草原国产| 97se综合| 久久综合成人| 亚洲第一视频网站| 亚洲91在线精品| 亚洲日本一本dvd高清| 欧美成人aⅴ| 免费高清毛片| 一级做a爰片久久免费| 久久这里只有精品23| 精品无码日韩国产不卡av| 亚洲中文无码h在线观看| 国产黄色爱视频| 国内精品免费| 亚洲欧美日韩天堂| 精品国产女同疯狂摩擦2| 欧美国产成人在线| 亚洲国产在一区二区三区| 国产亚洲精品自在线| 综合亚洲色图| 国产婬乱a一级毛片多女| 亚洲成人动漫在线观看| 色综合天天视频在线观看| 国产自在线播放| AV不卡在线永久免费观看| 亚洲伦理一区二区| 成人午夜视频网站| 日韩精品免费在线视频| 国产在线精品人成导航| 国产精品制服| 欧美一级夜夜爽| 欧洲一区二区三区无码| 亚洲欧洲日韩久久狠狠爱| 香蕉精品在线| 久久午夜夜伦鲁鲁片无码免费| 尤物在线观看乱码| 亚洲女人在线| 五月婷婷综合色| 久草中文网| 粉嫩国产白浆在线观看| 蜜桃臀无码内射一区二区三区 | 精品国产欧美精品v| A级毛片高清免费视频就| 国产免费高清无需播放器| 欧美人与牲动交a欧美精品|