999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自然語言處理的流式計算框架

2018-08-19 09:26:48陳珉彭鸞李釗
科學與財富 2018年23期
關鍵詞:傳統媒體

陳珉 彭鸞 李釗

摘要:近年來,自媒體發展速度非常迅猛,傳統媒體積極擁抱新媒體,加速媒體深度融合步伐。媒體生產數據、互聯網發布的數據,每天有海量的數據需要分析處理,用于熱點新聞發現、新聞選題評價、傳播效果分析等應用場景。傳統的數據分析框架已經不能滿足用戶實時數據分析和查詢的需求。本文提出一種能夠適應用戶連續處理分析海量文本數據的框架,具有低延時、可擴展的特點。

關鍵詞:自然語言處理;流式計算;傳統媒體

一、背景

當前,大數據產業深刻改變著人類的生產和生活。地方媒體詳細記錄了地區發展變遷的歷程,存有大量的文字、圖片、視頻等歷史資料。同時,在互聯網上每天有海量的新聞產品發布。將這些沉睡的、分散的數據有效匯聚、管理、挖掘、應用。在支撐媒體產品生產同時,服務于媒體自身的精準營銷,還可以高效便捷的為政府機構、社會企業與民眾提供資料網絡查詢、城市資訊綜合服務等。逐步實現傳統媒體和新媒體的融合發展,變“內容為王”為“信息服務為王”。

二、面向自然語言處理的流式計算框架設計

本文選用JStorm框架為流式計算平臺的基礎,完整的面向自然語言處理的流式計算框架,包含數據源模塊、預處理模塊、實時計算模塊、存儲模塊以及反壓機制。

(1)數據源模塊

數據源模塊的作用是將數據不斷的送入JStorm中。本框架中采用的方法是接收用戶提交TXT、WORD、PDF、XML格式的文件,通過不同格式的文件解析器,解析文件中的內容信息。之后,將大文本拆分為多個小文本以及進行數據格式封裝。數據封裝是為了加入文本標簽、文本歸屬、唯一標識、調用的算法等信息,完成封裝后,進入Redis緩存。

(2)預處理模塊

預處理模塊的作用是對需要處理的文本進行預處理。預處理模塊在JStorm中是一個Bolt組件,包含了中文分詞、信息抽取等基礎算法。對待分析文本調用哪些基礎算法,根據數據源模塊中的封裝定義的。

(3)實時計算模塊

文本數據流通過實時計算模塊分別流入不同的具有高并行度的任務中,任務中運行的是不同的算法,使用分布式鎖來保證數據的最終一致性。對任務的管理使用動態平衡算法對任務分配規則加載,而不會影響正常的處理過程。這樣的機制具有很高的動態穩定性,無論是動態增加計算能力,還是動態管理算法配置,都不會影響正常的服務。開發人員需要實現框架針對應用開發人員提供的API,對數據對象、計算邏輯進行內部封,也可以完成詞庫和算法模型的調用。

針對自然語言處理的使用場景,對JStorm的實時計算框架進行了一些優化處理。實時任務查詢功能,根據數據源模塊中封裝的唯一任務標識進行任務進度查詢。圖形化任務發布功能,是在網頁上可以將算法任務發布成處理的任務。任務分配模塊,主要是優化算法調用的順序,通過Redis通知來實現?;瑒哟翱诠芾?,通過定時輸出采樣數據,使用TOPN算法,輸出滑動窗口內,系統的數據統計特征。

(4)存儲模塊

存儲模塊是將分析處理后的結果落地,用于可視化的展示使用。存儲模塊分兩類,一類NoSQL數據庫,一類是網絡文件系統NFS。在實時計算平臺最后一個Bolt節點,使用Redis數據庫將計算結果緩存下來,并發送消息通知給可視化展示模塊??梢暬故灸K,在收到通知后,將最終的結果用JSON格式存儲在文件系統中。對于中間過程,可視化模塊通過展示Redis緩存數據,可顯示中間過程。使用Redis作為緩存,保證了在計算節點宕機的情況,數據的恢復能力。

(5)反壓機制

由于Spout數據源的處理能力不均及承載算法Bolt節點的任務處理時長的差異性,導致Tuple數據流有時存在超時現象,影響系統整體的吞吐量及其性能。本系統是在Spout節點中使用基于隊列的數據流反壓機制來優化上述問題。在Spout節點中訂閱Redis通知,在收到Redis推送的通知后,將消息ID和消息內容壓入消息隊列,消息隊列使用LinkedTransferQueue和ConcurrentHashMap實現數據對象的臨時緩存。不斷調用的nextTuple函數會從消息隊列中拉取消息,并發射數據到Bolt算法節點中。

三、物理部署

流式計算系統部署主要分為五大塊,實時計算集群、離線計算集群、網絡應用服務器、數據庫集群以及性能監控預警;實時計算集群主要提供實時計算平臺用于實時數據分析服務;離線計算集群提供的是離線計算平臺,主要用于語料處理、詞庫訓練以及語料存儲等功能;網絡應用服務器用于向外提供基于Web的顯示服務,數據庫集群部署關系型數據和非關系型數據庫,分別用于存儲業務數據和詞庫數據。各個分隔的模塊之間用消息服務連接。整個平臺使用性能監控預警服務對平臺的運行情況進行全面的監控管理。

四、結語

面向自然語言處理的流式計算系統符合目前主流的云平臺結構設計,確保實用性、開放性系統易維護的原則。系統以B/S結構為主,系統提供的自然語言處理計算服務,滿足傳統媒體對于熱點新聞發現、新聞選題評價、傳播效果分析等場景下的業務需求。

參考文獻:

[1]蔣晨晨,季一木,孫雁飛,王汝傳.基于Storm的面向大數據實時流查詢系統設計研究.南京郵電大學學報2016.6

[2]李昊鵬.流式計算的研究與應用.理論探索.2017.10

[3]熊安萍,朱恒偉,羅宇豪.Storm流式計算框架反壓機制研究.計算機工程與應用.2018.54(1)

猜你喜歡
傳統媒體
微博與傳統媒體新聞生產互動關系的探討
新聞傳播(2018年2期)2018-12-07 00:56:32
關于傳統媒體能否打造“名公號”的思考
傳媒評論(2018年12期)2018-03-21 07:51:52
傳統媒體為什么要包裝自己的“網紅”
傳媒評論(2017年3期)2017-06-13 09:18:10
當前傳統媒體版權保護的難點及對策
傳媒評論(2017年3期)2017-06-13 09:18:10
傳統媒體版權保護面臨八大難關
新聞傳播(2016年9期)2016-09-26 12:20:15
論網絡時代傳統媒體的應對之策
新聞傳播(2016年18期)2016-07-19 10:12:06
傳統媒體在新形勢下如何實現突圍
新聞傳播(2016年2期)2016-07-12 10:52:13
五問傳統媒體:你以為熬過寒冬就是春天嗎?
新聞傳播(2016年1期)2016-07-12 09:24:44
淺析傳統媒體的優勢與不足
西藏科技(2015年5期)2015-09-26 11:55:29
傳統媒體PK新媒體,向新媒體學習什么?
新聞傳播(2015年13期)2015-07-18 11:00:41
主站蜘蛛池模板: 鲁鲁鲁爽爽爽在线视频观看| 一本大道视频精品人妻 | 日韩乱码免费一区二区三区| 一级毛片网| 日韩欧美色综合| 欧美亚洲第一页| 免费观看男人免费桶女人视频| 久久精品国产一区二区小说| 亚洲综合色在线| 国产噜噜噜| 欧美激情网址| 视频一区视频二区中文精品| 青草视频久久| 成人国产精品一级毛片天堂| 国产成人综合亚洲欧美在| 强乱中文字幕在线播放不卡| 久久亚洲中文字幕精品一区| 香蕉久久国产超碰青草| 丁香五月婷婷激情基地| 在线精品亚洲一区二区古装| 国产精品久久久久久久久| 97国内精品久久久久不卡| 国产亚洲精久久久久久无码AV | 91精品专区国产盗摄| 亚洲精品第一页不卡| 久久国产精品电影| 波多野结衣AV无码久久一区| 91福利在线看| 55夜色66夜色国产精品视频| 国产SUV精品一区二区6| 亚洲日韩第九十九页| 日韩欧美国产中文| 久久亚洲美女精品国产精品| 波多野吉衣一区二区三区av| 国产成人1024精品| 亚洲视频欧美不卡| 亚洲一区二区黄色| 免费在线a视频| 国产人碰人摸人爱免费视频| 久久永久精品免费视频| 九色视频在线免费观看| 国产一二三区在线| 欧美综合激情| 国产SUV精品一区二区| 极品私人尤物在线精品首页| 97久久超碰极品视觉盛宴| 中文字幕无码中文字幕有码在线| 欧美精品1区| 欧美国产三级| 国产清纯在线一区二区WWW| 国产精品熟女亚洲AV麻豆| 国产JIZzJIzz视频全部免费| 亚洲国产日韩在线观看| 国产午夜无码专区喷水| 久久精品波多野结衣| 色综合日本| 区国产精品搜索视频| 国产成年无码AⅤ片在线| 91伊人国产| 日韩美女福利视频| 成年片色大黄全免费网站久久| 午夜福利免费视频| 成人福利在线看| 538精品在线观看| 3p叠罗汉国产精品久久| 亚洲国产精品无码久久一线| 波多野结衣国产精品| 国产精品男人的天堂| 免费一级毛片| 亚洲无限乱码一二三四区| 欧美亚洲激情| 国产精品99久久久久久董美香 | 永久免费无码日韩视频| 午夜无码一区二区三区在线app| 亚洲精品另类| 亚洲精品第五页| 国产在线视频福利资源站| 色妞www精品视频一级下载| 理论片一区| 国模私拍一区二区| 精品久久久无码专区中文字幕| 亚洲高清在线播放|