999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于流式引擎的大數據分布式架構

2020-09-10 11:53:33柴志菲李翔
商業2.0-市場與監管 2020年7期

柴志菲 李翔

摘要:在人工智能流行的時代,數據量的增長速度也是無法估計的,網絡上的留言也越來越多,也難免會有一些污穢的語言,所以凈化網絡環境是很重要的事情,我們可以利用自動化的網頁抓取技術將網絡上的留言保存下來,通過設計大數據架構對數據進行實時計算,然后分批裝載進數據庫,常見的流式處理技術像kafka[1]+spark streaming[2]+zookeeper[3]這樣進行架構,然后再將處理后的數據存儲進hive 或者HDFS這樣的存儲單元。

關鍵詞:大數據架構,流式處理,實時計算

如今我們正處于人工智能的時代,大數據,人工智能,自動化等概念越來越深入人心,讓我們對于這些詞匯越來越有清晰的印象,而在數據挖掘,數據計算方面,整理一個思路清晰的架構思路也是非常重要的。

我們所出的網絡環境,每天都會有很多人在上面發表自己的言論,這就會讓網絡成為一個自由的環境,但是也有很多不法分子在網絡上污穢的言論污染了我們所在的空間,這是一種不好且存在的現象,而我們可以使用人工智能大數據的手段,快速識別這些污穢的詞匯,從根本上杜絕這些情況的發生,這就需要設計一個可靠合理的大數據架構了。

1.數據集

我們使用自動化爬蟲框架源源不斷的去獲取到數據源,從某網站上使用代理池ip不斷替換身份,然后抓取網絡的言論,最后保證獲取到的數據大約是百萬量級的。

最開始的時候,我們主要是從百度貼吧,新浪微博的客戶端去進行獲取,因為對于數據加密的算法不會很難,可以很容易的就獲取到,然后將這些數據規范化,存儲進我們的數據庫,或者可以說是落盤與內存的一種中間狀態進行存儲。

2.設計架構

接下來,就是較為重要的架構設計了。

本文將架構的介紹按照數據流向的順序進行介紹。

第一步,自動化爬蟲獲取到的數據我們是落盤到HDFS上的,如果想進行計算,就需要將HDFS分區上的內容讀進內存,但是HDFS[6]上的數據是海量的,如果一次全部讀進來,會堆棧溢出,所以此方案設計為按照block編號的順序去進行讀取,之后對接到flume[7],按照順序去讀取每個block上的評論信息。

第二步,被flume讀取進來之后,直接對接到kafka的生產者階段,此時系統整個過程都是需要使用zookeeper進行高可用保障的,這里使用的znode主要用來存儲的是flume的配置信息,因為系統可以在不同流量的時候對應到不同的采集配置。

第三步,就是系統中的kafka了,它主要起到了解耦的效果,數據在爬取讀入的過程,可以稱之為生產數據,之后利用kafka內部的partition運送所產生的的數據到消費者端。由于此系統不需要過高的效率,所以這里將kafka的ack.require設置為exactly once,保證每一條信息的可靠傳達。這里的消費者端也就是下面會提到的Sparkstreaming,在上層應用中,系統會通過測試判斷當前系統可支持的運算能力,當超過可容納的閾值的時候,會在消費者端使用阻塞隊列保證系統的安全。

第四步,自然是最重要的SparkStreaming,此系統采用這項技術主要也是為了模擬batch運算,將生產者端運輸進來的數據進行微批次的計算,預處理等操作,篩選掉有些可能沒有價值的數據,將這些數據一并進行回收,最后將格式化的數據進行整理,放入到hive中,分庫分表,以便于進行后續進行數據挖掘的同學進行相關的操作和使用數據。

3.測試調優

此項流程,主要是為了測試系統的各項閾值,例如kafka承受數據的閾值,消費者端與kafka進行TCP連接的句柄數閾值,spark層阻塞隊列長度的閾值,內存,cpu,堆等等的閾值,分別進行測量與預估,制定優化方案,接著將平臺的一些設計進行調整,令體驗上升,性能更優。

而測試的過程,可以采用多種方案,比如說Apache Jmeter,Apache Bench等等,都可以滿足我們的需求,實時監控當前狀態各性能指標以及參數,是否滿足我們預期的標準。

測試之后,發現當前系統存在一個問題,就是我們無法完成持久化,也就是說,如果在當前內存中出現宕機,那么正在運算的block的數據,會丟失,于是便根據這個問題設計了一個方案,參考Redis的RDB和AOF的混合持久化方式,每100條評論數據進行一次落盤,并且在加載當前數據的時候,啟用AOF的手段保證數據的穩定性。

4.總結

此系統主要會考察一些團隊針對于分布式架構體系的應用,將一些生活中常見的場景使用一些相關技術得到數據整理,以便人工智能算法可以得以落地,團隊通過查閱資料,單元測試等方法將一些書上的案例得以應用,并且在此項目中,也確實擁有一定的商業價值,例如可以將此方案應用在社交平臺上,凈化社交媒體的網絡環境,也可以應用在游戲中,以防雙方因為情緒出現國際語言,也包括像微博,貼吧等地方,都可以應用。

引用:

[1]Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

[2]By running on Spark, Spark Streaming lets you reuse the same code for batch processing, join streams against historical data, or run ad-hoc queries on stream state. Build powerful interactive applications, not just analytics.

[3]ZooKeeper aims at distilling the essence of these different services into a very simple interface to a centralized coordination service.

[4]The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.

[5]Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

主站蜘蛛池模板: 亚洲美女AV免费一区| 国产色伊人| 国产成人一级| 国模私拍一区二区三区| 伊人网址在线| 91亚洲影院| 国产美女久久久久不卡| 亚洲国产午夜精华无码福利| 国产精品30p| 亚洲Va中文字幕久久一区| 小13箩利洗澡无码视频免费网站| 波多野结衣一区二区三区AV| 欧美成人综合在线| 欧美日韩在线第一页| 正在播放久久| 国产精品视频公开费视频| 欧美精品v欧洲精品| 国产一区免费在线观看| 国内熟女少妇一线天| 熟妇丰满人妻av无码区| 99草精品视频| 国产成人a在线观看视频| 国产精品播放| 日韩中文精品亚洲第三区| 五月六月伊人狠狠丁香网| 国产成人h在线观看网站站| 狠狠干综合| 久久久久久久久久国产精品| 久久久久国产精品熟女影院| 国产精品吹潮在线观看中文| 9啪在线视频| 久草视频中文| 精品久久高清| 国产偷倩视频| 午夜国产精品视频| 国产免费自拍视频| 999国内精品久久免费视频| 亚洲一区二区在线无码| 色综合久久久久8天国| 国产日本欧美在线观看| 婷婷五月在线| 亚洲日韩AV无码一区二区三区人 | 久久不卡精品| 欧美中日韩在线| 伊人久久福利中文字幕| 最新国产精品鲁鲁免费视频| 男女猛烈无遮挡午夜视频| 欧美亚洲国产一区| 亚洲成人www| 日本人妻丰满熟妇区| 第一页亚洲| 日韩无码真实干出血视频| 亚洲欧洲日韩综合色天使| 国产91丝袜在线播放动漫| 中文字幕永久在线看| 久久久成年黄色视频| 中文字幕啪啪| 黄色国产在线| 中文字幕日韩视频欧美一区| 毛片网站在线看| 国产精品亚洲天堂| 久久婷婷五月综合色一区二区| 欧美黄色网站在线看| 青青操国产视频| 亚洲乱码精品久久久久..| 四虎国产精品永久在线网址| 99精品国产电影| 国产特一级毛片| 中国丰满人妻无码束缚啪啪| 日韩无码视频网站| 一本大道香蕉高清久久| 国产美女免费| 午夜激情婷婷| 91日本在线观看亚洲精品| 国产黄色视频综合| 国产一区二区三区免费观看| 欧美亚洲欧美区| 婷婷亚洲最大| 久久综合伊人 六十路| 国产视频只有无码精品| 天堂亚洲网| 国产极品美女在线播放|