999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的數據處理平臺的設計與開發研究

2019-09-10 07:22:44嚴亞寧
現代信息科技 2019年3期
關鍵詞:大數據

摘 要:隨著計算機和網絡在人們工作和生活中的廣泛普及,數據量急劇增加。目前,如何有效地收集和存儲數據是當前需要解決的主要問題。在Hadoop技術的基礎上,給出了海量數據處理平臺的系統需求分析、系統架構設計和關鍵模塊設計,并闡述了基于Hadoop技術的數據處理平臺開發的要點,為相關研究人員提供了一些參考。

關鍵詞:數據處理平臺;大數據;Hadoop

中圖分類號:TP311.13;TP391.3 文獻標識碼:A 文章編號:2096-4706(2019)03-0005-03

Design and Development of Data Processing Platform Based on Hadoop

YAN Yaning

(Xi’an Peihua University,Xi’an 710125,China)

Abstract:With the wide spread of computers and networks in people's work and life,the amount of data has increased dramatically. At present,how to collect and store data effectively is the main problem to be solved. On the basis of Hadoop technology,the system requirement analysis,system architecture design and key module design of mass data processing platform are given,and the key points of data processing platform development based on Hadoop technology are expounded,which provides some references for relevant researchers.

Keywords:data processing platform;big data;Hadoop

0 引 言

程序員在應用開發中面臨的一個主要問題就是大型數據集的存儲和處理,而目前最嚴峻的服務器軟硬件考驗,就是海量以及動態的數據。隨著移動互聯網的快速發展,存儲數據和響應速度的介入,也必然會使互聯網的發展面臨新的瓶頸期。在許多企業和大型機構中,數據集快速批量處理技術問題一直都是企業面臨的核心問題,數據集快速批量處理具有廣泛的社會需求。因此,當前最突出的問題就是如何快速實現具有交互式性能,且能對海量數據進行批量處理的管理信息系統,而在信息技術架構中,數據集成項目迫切需要一種存儲模型,而該模型要具有動態可擴展性,以實現快速響應機制。在大規模數據庫中,面臨較嚴重的實際問題就是對海量數據的查詢、分析、提取、更新等批量處理問題。傳統的數據庫數據存儲復雜,且查詢時間過長,尤其在數據量大,查詢任務復雜時,系統在處理數據方面就不能滿足查詢需求,系統性能將大大降低。同時,傳統數據庫也存在擴展性差問題,可擴展的硬件,不能有效地提高系統的性能。同時,傳統的基于并行處理的數據平臺,不能滿足海量數據的處理需求,并且維護成本高。因而,研究海量數據,以及對海量數據處理技術高效性的要求,能有效提高計算機系統的應用性能,推動經濟效益的增長。本文基于Hadoop的Internet的業務計算模型,設計并實現了一個基于Hadoop的海量數據處理平臺,為解決關系數據庫中海量數據的處理提供了一種新的方法。

1 數據處理平臺設計

1.1 系統需求分析

系統將存儲離線數據。對于在線數據,系統主要采用有序隔離和存儲兩種方式,在存儲數據期間,為了提高應用程序的性能,用戶可以選擇是否允許數據丟失。最后,將得到的數據源在線處理任務結果,交由用戶提交,數據將依次進入后續處理過程。為了使系統支持多種數據處理邏輯,處理流程可將一般的數據處理操作抽象為單獨的功能組件。因此,用戶只需要靈活地組裝所需的功能組件,并指定組件之間的拓撲關系。該系統支持用戶自定義數據處理規則。用戶在分配待處理的數據時,可以靈活選擇分配一個或多個數據,以及數據處理組件,并且可以指定處理組件之間的拓撲結構。面對數據處理業務邏輯需求的多變性和靈活性,該系統具有通用性和易用性就尤為重要。因為,不同數據源產生的數據速度是不同的,所以,該系統支持多個在線任務同時運行,同時處理多個數據源任務。因此,穩定訪問數據源,以及穩定操作在線任務是系統穩定性的直接表現。為了保障系統恒定提供處理數據服務,在設計中,應該特別關注單點故障問題。系統除了具備及時、快速獲取流數據信息的能力,還需具備處理這些數據流的強大計算能力,以便快速做出響應,并反饋數據處理結果。因此,該系統對計算能力有著更高的要求。

1.2 系統架構設計

該系統在數據處理流程上,遵循數據源層、計算層和存儲層的架構設計。數據源層,主要提供對外服務,負責訪問外部的數據源;計算層,基于業務邏輯,對數據流進行數據處理;存儲層,主要負責對前期數據持久化結果。這些數據源的來源,主要是兩方面,一方面是日志數據,由在線應用程序生成;另一方面是脫機數據,主要來自數據庫。這些外部應用程序數據,把數據傳輸給系統,向外界提供穩定的服務。為了避免數據源處理速度與系統處理速度不匹配的問題,我們可以考慮,將所有輸入的數據源隔離,且存儲在系統內的消息隊列中,節省消耗記錄消耗數據的偏移量,這樣,不僅簡化了系統的計算方法,而且有利于系統的恢復。計算層有兩個主要功能,它將自定義規則轉換為在線任務,也就是說,將自定義規則運行在計算層中。在提交后,數據源組件將從數據源層中提取消息并將其發送出去,消息流將由一系列組件處理。確保每一次都能成功處理至少一次。每一個都在一系列組件之后進行處理,樹結構被稱為樹,它可以跟蹤每個樹,并且標記樹是否可以成功地處理。如果在設定時間內沒有樹的成功執行,它將被標記為執行失敗,然后將再次啟動,每個都具有默認消息超時設置。存儲層是數據處理結果的著陸鏈路,并根據計算層的計算結果進行實時更新。在數據存儲層中,有必要確保系統以高性能保持。

1.3 關鍵模塊設計

數據源訪問模塊提供了兩種工作模式:同步調用和異步調用。同步調用的意義是,將數據發送給它并等待確認,這樣我們就可以繼續發送下一個數據。而異步調用就不同,它只要有數據等待,就能隨時進入下一步數據發送,無需等待確認。因此,對可以容忍少量數據丟失,同時具有高實時性的海量數據處理應用,就可以選擇異步模式。如果選擇同步模式,對數據的安全性要求就比較低,允許部分數據丟失。如前闡述,數據處理的整個過程,需要系統核心計算模塊提供,而且每個模塊處理組件都是功能獨立的個體,使用也是沒有關聯的。因此,用戶在完成所需的處理任務時,可以靈活組合各功能。數據主要有兩個特性,第一個是結果數據,是系統對一系列數據流處理邏輯之后的結果;另一個是中間結果,是需要暫時存儲的數據。前者的數據量一般較小,后者的數據量一般相對較大。生長表可以自動劃分區塊,而且分區之后的每個區域,由表中行的子集構成。比如,一張桌子是由一個區域組成的,最初只有一個區域,但是,隨著數據流的增加,這個地區也開始增長,當它超過集合大小的閾值時,它將把表劃分成兩個新的區域,在一個行的邊界上具有相同的大小,并且區域的數量也會增加。

2 數據處理平臺開發

2.1 數據源級的開發

數據采集層是整個海量網絡數據處理平臺體系結構的底層。首先,該系統需要輸入所采集到的樣本數據;其次,對采集到的數據進行數據分析,并對其進行分布式存儲,存儲時,必須遵循數據存儲的相關規則。目前,已有的原始數據有兩種主要類型,一種是收集的原始消息流數據,數據較大,往往一小時幾兆,所以物理介質將被傳輸到高速緩存區,且存儲在數據存儲中心,然后通過本地計算機上傳并存儲到云服務平臺;另一種是主要用于實時分析的原始數據,其關鍵指標是實時監控移動互聯網相關業務的質量,這些是基于運營商業務需求的。同時,大量數據的轉發,要在保護數據的完整性和可靠性的基礎上,需要一個獨立的模塊來承擔此任務。目前,交通監控設備包括工業控制計算機,收集移動互聯網關鍵流量數據,分別生成二進制消息列表和數據流記錄列表,并傳輸到海量網絡數據處理平臺。同時,由于存儲和數據節點等外部配置環境的變化,極有可能導致大量業務數據轉發規則改變,因此,值得我們考慮的關鍵問題就是數據轉發層與系統擴展的兼容性問題。此外,在整個分發過程中,數據轉發層為控制管理提供接口。從功能實現的角度來看,將分布式和正向功能模塊有效融合,是數據轉發層的首要任務,控制信息和原始數據的通信分發是由連接實現的。

2.2 數據計算層的開發

框架的預處理組件被設計為并行結構,并且需要通過配置文件,指定需要加載的模塊。在初始化階段,主要創建特定類對象,這些類是經過預先處理的,是框架通過反射技術創建的。在預處理組件時,框架屬于特定的主題角色。在框架中,保持抽象觀測器角色隊列,并且每個特定實現類都對應實現接口。當初始化框架時,先創建由配置文件定義的模塊對象,然后將其添加到隊列中。當框架從數據準備組件獲取數據時,所有的觀察員都會被通知。當用戶通過客戶端向文件系統提交文件時,需要將數據塊信息應用到節點,該節點包括要寫入的每個節點信息。當接收到客戶端應用時,數據塊將應用數據寫入預先分配好的節點,然后由節點采用機架感測策略選擇算法。在默認情況下,文件系統的配置是采用系統本身默認配置的,所有的機器都在同一機架上。一個分布式計算框架,主要用鍵值對控制數據信息的輸入和輸出。鍵值對的定義類型可以是任何數據類型,如字符串、整數、字節或用戶自定義的數據結構。數據處理時,該函數首先接收一組預先定義好的鍵值對。然后,根據用戶自定義函數的功能,對輸入數據進行處理操作,并生成一組中間鍵值對。接著,框架收斂到相同的值,這些值是系統在處理過程中產生的中間密鑰值,然后將其傳遞給該函數。該函數接收中間密鑰對的值和相應的值的集合。最后,根據用戶定義的函數,對處理后的鍵值對進行一次性處理。

2.3 數據存儲級的開發

在數據存儲領域,首先使用預處理模塊對原始數據進行預處理,得到新的原始數據,然后加工原始數據得到數據,為應用層進一步處理數據提供方便。模塊采用不同的方式讀取原始數據,并對它們進行初始處理,然后,把中間結果存儲在接口上。該模塊由數據和數據分析兩個子模塊組成,其中數據分析模塊是建立在框架上的,框架提供了模塊安裝的串口,主要功能是對海量網絡數據進行處理分析工作,并讀取數據執行作業。本文所采用的數據導入框架用于海量網絡數據的存儲,該框架首先接收輸入數據,然后采用分布式方式,將原始數據寫入存儲。同時,索引信息和統計數據也相應生成。需要說明的是,本節不修改對數據的任何處理,以確保數據以完整的方式進行存儲。這樣,我們不需要在框架中直接定義數據輸入方式,但是需要在框架中定義一個數據接口用于接收輸入的數據,這個接口決定了配置文件到底加載哪個數據輸入模塊,并通過反射創建指定模塊的對象。當接收或讀取記錄時,數據輸入模塊會通知框架并將記錄傳遞給框架。如果要將不同格式和不同內容的數據通過編寫類的不同實現傳遞給框架,并且考慮到框架不提供數據寫入功能,所以,在具體實現類中,我們需要決定,是否寫入原始輸入數據,是否通過框架調用數據以及是否準備組件完成特定的寫入方法。

3 結 論

當前,對于海量數據的處理,國內外技術狀態相對滯后,需求與技術之間的矛盾日益突出。設計并搭建一個基于Hadoop的海量數據的實現平臺,是Hadoop技術在海量數據處理中的實際應用,可為面向海量數據處理的系統開發提供參考和借鑒。

參考文獻:

[1] 黃素萍,葛萌.Hadoop平臺在大數據處理中的應用研究 [J].現代計算機(專業版),2013(29):12-15.

[2] 朱顥東,馮嘉美,張志鋒.基于Hadoop的大數據處理平臺研究 [J].華中師范大學學報(自然科學版),2017,51(5):585-590.

[3] 宋均,祝林.基于云計算的海量數據處理平臺設計與實現 [J].電訊技術,2012,52(4):566-570.

[4] 王茜,謝萍,王穎.基于Hadoop的同步相量數據處理平臺性能分析 [J].電力信息與通信技術,2014,12(9):1-5.

作者簡介:嚴亞寧(1978.11-),女,漢族,陜西西安人,教師,講師,碩士研究生,研究方向:計算機軟件開發、大數據分析、數字媒體技術等。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 九九精品在线观看| 波多野结衣一区二区三区四区| 99re热精品视频中文字幕不卡| 三级国产在线观看| 亚洲男人的天堂视频| 九月婷婷亚洲综合在线| 亚洲毛片一级带毛片基地| 亚洲aaa视频| 欧美亚洲综合免费精品高清在线观看| 中文字幕免费在线视频| 免费国产黄线在线观看| 喷潮白浆直流在线播放| 国产亚洲欧美日韩在线观看一区二区 | 国产精品久久久久久久久久久久| 伊人中文网| 国产精品中文免费福利| 精品在线免费播放| 亚洲人成网站色7777| 丝袜美女被出水视频一区| 宅男噜噜噜66国产在线观看| 久久这里只有精品国产99| 亚洲色图另类| 久久永久精品免费视频| 国产成人91精品免费网址在线| 久久精品人人做人人爽97| 青青国产在线| 国产打屁股免费区网站| 日本精品视频一区二区| AV在线天堂进入| 18禁不卡免费网站| www欧美在线观看| 欧美精品在线免费| 国产丰满成熟女性性满足视频| 青青极品在线| 欧美黄网在线| 欧美国产日韩在线| 特级做a爰片毛片免费69| 亚洲精品第五页| h网址在线观看| 国产精品福利社| 国产精品无码翘臀在线看纯欲| 91美女视频在线观看| 久久久久中文字幕精品视频| 亚洲第一色网站| 波多野结衣亚洲一区| 毛片久久久| 国产一级精品毛片基地| 亚洲欧美另类色图| 久久综合结合久久狠狠狠97色| 亚洲第一区欧美国产综合 | 久久免费看片| 亚洲欧美综合在线观看| 视频一本大道香蕉久在线播放| 九九九久久国产精品| 精品一区二区三区四区五区| 真实国产乱子伦高清| 国产黄色视频综合| 婷婷亚洲天堂| 国产69精品久久久久妇女| 日韩人妻无码制服丝袜视频| 免费视频在线2021入口| 99热国产这里只有精品9九| 国产精品网址你懂的| 蜜桃视频一区二区| 国产又爽又黄无遮挡免费观看| 一本大道香蕉中文日本不卡高清二区| 日本免费精品| 亚洲中文字幕23页在线| 国产精品成人AⅤ在线一二三四 | 国产免费羞羞视频| 69av免费视频| 中文无码精品a∨在线观看| 亚洲欧美日韩另类| 中国美女**毛片录像在线| 久久精品女人天堂aaa| 欧美性色综合网| 精品国产黑色丝袜高跟鞋 | a毛片基地免费大全| 亚洲伊人久久精品影院| 中文字幕伦视频| 国产一级毛片网站| 91久久国产热精品免费|